数据导入与预处理
使用到的数据集
在 Apple Silicon 的 MAC 上使用 spoon
打开一个终端输入
1 | arch -x86_64 /bin/zsh --login |
2018 年各售货机的销售金额
完整流程如下

csv文件输入(订单)
- 找到需要导入的文件名
order_details.csv
。 - 获取字段。
- 将
createdtime
字段的类型修改为string
,并将格式清空。 - 修改文件编码为
GBK
- 找到需要导入的文件名
剪切字符串
# 输入流字段 输出流字段 起始位置 结束位置 1 createdtime order_data 0 10 2 createdtime order_month 0 7 3 createdtime 年份 0 4 过滤记录
1
2
3年份 = [2018]
AND
status = [SUCCESS]字段选择
# 字段名称 改名成 长度 精度 1 boxid 售货机ID 2 ordernum order_num 3 amount product_number 4 productpaytotalprice product_paytotalprice 5 costprice cost_price 6 saleprice sale_price 7 productdiscountprice product_discountprice 8 paytotalprice pay_totalprice 9 年份 csv文件输入(售货机)
- 找到需要导入的文件名
box_list.csv
。 - 获取字段。
- 修改文件编码为
GBK
- 找到需要导入的文件名
记录关联(笛卡尔输出)
- 条件:
售货机ID = boxid
- 条件:
字段选择
# 字段名称 改名成 长度 精度 1 boxid 售货机ID 2 address 售货机地址 3 name 售货机名称 4 order_num 订单号 5 product_number 商品数量 6 product_paytotalprice 商品支付金额 15 2 7 cost_price 商品成本价 10 2 8 sale_price 商品销售价 10 2 9 product_discountprice 商品优惠金额 15 2 10 pay_totalprice 订单支付金额 15 2 11 年份 排序记录
字段名称:订单号,升序:是
去除重复记录
字段名称:订单号,忽略大小写:N
排序记录
字段名称:售货机ID,升序:是
分组
分组字段:售货机ID、售货机名称
# 名称 Subject 类型 1 售货机订单数 订单号 个数 2 售货机销售金额 订单支付金额 求和 排序记录
字段名称:售货机销售金额,升序:否
Microsoft Excel output
- 指定文件名
- 在字段栏目中获取字段
2018年各售货机每月的订单数
完整流程如下

csv文件输入
- 找到需要导入的文件名
order_list.csv
。 - 获取字段。
- 将
createdtime
字段的类型修改为string
,并将格式清空。 - 修改文件编码为
GBK
- 找到需要导入的文件名
剪切字符串
# 输入流字段 输出流字段 起始位置 结束位置 1 createdtime 日期 9 10 2 createdtime 月份 5 7 3 createdtime 年份 0 4 过滤记录
1
2
3
4
5年份 = [2018]
AND
status = [SUCCESS]
AND
customerid IS NOT NULL字段选择
# 字段名称 改名成 长度 精度 1 ordernum 订单号 2 paytotalprice 实际销售金额 3 月份 4 boxid 售货机ID 排序记录
字段名称:售货机ID,升序:否
分组
分组字段:售货机ID、月份
# 名称 Subject 类型 1 客户订单数 订单号 个数 排序记录
字段名称:售货机ID,升序:否
字段名称:月份,升序:是Microsoft Excel output
- 指定文件名
- 在字段栏目中获取字段
撤掉5台销售不佳的售货机
完整流程如下

csv文件输入
- 找到需要导入的文件名
order_details.csv
。 - 获取字段。
- 修改文件编码为
GBK
- 找到需要导入的文件名
过滤记录
1
status = [SUCCESS]
字段选择
# 字段名称 改名成 长度 精度 1 boxid 售货机ID 2 ordernum 订单数量 3 amount 商品数量 4 productpaytotalprice 实际支付总金额 5 costprice 成本价 6 saleprice 销售价 7 productdiscountprice 优惠金额 8 paytotalprice 实际支付金额 csv文件输入
- 找到需要导入的文件名
box_list.csv
。 - 获取字段。
- 修改文件编码为
GBK
- 找到需要导入的文件名
记录关联(笛卡尔输出)
- 条件:
售货机ID = boxid
- 条件:
字段选择
# 字段名称 改名成 长度 精度 1 boxid 售货机ID 2 name 售货机名称 3 address 售货机地址 4 订单数量 订单号 5 商品数量 6 实际支付总金额 商品支付金额 15 2 7 成本价 商品成本价 10 2 8 销售价 商品销售价 10 2 9 优惠金额 商品优惠金额 15 2 10 实际支付金额 订单支付金额 15 2 排序记录
字段名称:订单号,升序:是
去除重复记录
字段名称:订单号,忽略大小写:N
排序记录
字段名称:售货机ID,升序:是
分组
分组字段:售货机ID
# 名称 Subject 类型 1 售货机订单数 订单号 个数 2 售货机销售金额 订单支付金额 求和 排序记录
字段名称:售货机销售金额,升序:否
Microsoft Excel output
- 指定文件名
- 在字段栏目中获取字段
计算商品年销售金额
完整流程如下

csv文件输入(订单)
- 找到需要导入的文件名
order_details.csv
。 - 获取字段。
- 将
createdtime
字段的类型修改为string
,并将格式清空。 - 修改文件编码为
GBK
- 找到需要导入的文件名
过滤记录
1
2
3customerid IS NOT NULL
AND
status = [SUCCESS]剪切字符串
# 输入流字段 输出流字段 起始位置 结束位置 1 createdtime order_date 9 10 2 createdtime order_month 5 7 3 createdtime order_year 0 4 字段选择
# 字段名称 改名成 长度 精度 1 customerid 客户ID 2 ordernum 订单号 3 amount 商品数量 4 productpaytotalprice 实际支付金额 5 productname 产品名称 6 order_year 年份 排序记录
字段名称:产品名称,升序:是
分组
分组字段:产品名称、年份
# 名称 Subject 类型 1 售货机订单数 商品数量 个数 2 商品销售金额 实际支付金额 求和 排序记录
字段名称:商品销售金额,升序:否
Microsoft Excel output
- 指定文件名
- 在字段栏目中获取字段