数据挖掘 数据挖掘实用案例分析 实用案例分析 第5章香水销售分析 复旦大学赵卫东博士 0ta间g wdzhao@fudan.edu.cn dicta
数据挖掘实用案例分析 第5章 香水销售分析 复旦大学 赵卫东 博士 wdzhao@fudan.edu.cn
章节介绍 ·本章以从某电商网站上抓取到的香水产品销量数据,分析香水销售的影响 因素,为香水销售商判定采购计划以及用户选择香水提供依据
章节介绍 • 本章以从某电商网站上抓取到的香水产品销量数据,分析香水销售的影响 因素,为香水销售商判定采购计划以及用户选择香水提供依据
章节结构 香水销售数据预处理 香水销售数据统计分析 影响香水销量的因素分析 香水适用场所关联分析 香水聚类分析 香水营销建议
章节结构 • 香水销售数据预处理 • 香水销售数据统计分析 • 影响香水销量的因素分析 • 香水适用场所关联分析 • 香水聚类分析 • 香水营销建议
香水销售数据预处理 从某电商网站抓取1009条香水产品销售数据,包含了香水产品的商品名称 、产品毛重、商品产地、包装、香调、净含量、分类、适用性别、适用场 所、价格和评价数 Python编程处理“评价”和“适用场所”字段 “评价”字段的数据包含混合的中文和数字,末尾有一个“+”号,将其转为数值形式。即 将类似“19万+”格式的“评价”字段的值转换为“19000” “适用场所”分解为“旅行”、“其他”、“约会”、“情趣”等8个字段,其类型是0和1, 将“商品产地”统一为“中国
香水销售数据预处理 • 从某电商网站抓取1009条香水产品销售数据,包含了香水产品的商品名称 、产品毛重、商品产地、包装、香调、净含量、分类、适用性别、适用场 所、价格和评价数 • Python编程处理 “评价”和“适用场所”字段 – “评价”字段的数据包含混合的中文和数字,末尾有一个“+”号,将其转为数值形式。即 将类似“1.9万+”格式的“评价”字段的值转换为“19000” – “适用场所”分解为“旅行”、“其他”、“约会”、“情趣”等8个字段,其类型是0和1, – 将“商品产地”统一为“中国
香水销售数据预处理 Python预处理完成示意图 1商品名称商品产地包装香调净含量分类性别适用场所 格价簖其的会情日常会运动 2冰中国看水水女日果的,回晨,面 3冰的国0版水是台香1m5女日,的全,,断 4(先)上海老立装花果香调31m1m海香D女日的,商,即殿全,面 01 5法浪罗梦境女 Q版香水花果香1m45m香水香女日露,的,商,酸,运,断 23101 6翻水幅立装纺方香1m文日鲡 10 7新水国按立装东方香提1m15m谈香水D女日,的会,商务,主 212100000 8称水帼国按立装东方香满1m5m谈香水时女日,的会,离 24 0010 9翻水幅装翻I女晨会,面 243000101100 10黄香水女士任 按立装花果香满31m10m淡香水DT文日,给会, 3510100100 11)冰元第580中国按立装台香其它 体香水香音女日,的会,商务,pam会,运动,蓝厅 12)的帼国装台香某副香水香女日第的,髓,静,回晨会断 21500101 又止香体主 按装满31m41m部体珠女日常,的会,, 331010010 14部体接接立装花果翻31m410m部体在女B常,给会,动,密 231010010 15阿达女士教中 31m100m香体珠文 270010 16阿达晴香懂液中国立装台香清31m1m香水D文日常,运,其它 72001111111 17同法香体液帼国 胎台香调31m41m体连珠女日写给会,,务,n层会,运动,厅,:2 000000 按装果31m10m体女日,会,四an 1001001 190ane香崇儿遇 按立装果翻满31m4100m淡香D女约会,情,务 n 20美香水女士国装花果香调31m-1m淡香水D文日,的会,新 230000010
香水销售数据预处理 • Python预处理完成示意图
香水销售数据预处理 对香水产品的价格和评价数进行离散化处理 将价格等间距地分为6个等级,记为低、较低、中等、较高、高、非常高 将评价数等间距地分为7个等级,记为非常低、低、较低、中等、较高、高、非常高 将价格和评价数离散化后的变量记为“价格等级”和“销量等级”,在SPSS Modele中使用导出节点进行处理公式 公式 11r(评价<=10)then'非常低 2 else if(评价<=500)then'低 1if(价格<100then低 3 else if(评价<=1000then"较低 2 else if(价格<300)then"较低 4e1seir(评价<=200)then中等 3 else if(价格<=500)then"中等 5 else if (1评价<=5000then较高 4 else if(价格<=700)then较高 e1seif(评价女=1000)then·高 else if(价格<1000)then·高 e1se非常高 else非常高 endif endif endif ndif 10 endif 9 endif 11endif 12endif 11e 13 endif
香水销售数据预处理 • 对香水产品的价格和评价数进行离散化处理 – 将价格等间距地分为6个等级,记为低、较低、中等、较高、高、非常高 – 将评价数等间距地分为7个等级,记为非常低、低、较低、中等、较高、高、非常高 • 将价格和评价数离散化后的变量记为“价格等级”和“销量等级”,在SPSS Modeler中使用导出节点进行处理
香水销售数据预处理 对香水产品的适用场合进行数量统计,得到新字段“适用场合数量” 下图为最终处理得到的香水产品数据 表格注解 高品名称商品产绝包调净含量类性别通用坏渐们格评价行其它的合翻商务日常p运动通用场台数量价格等级里等经 国香11m活水P支日菜,约会9101010 芳香水中国独装 6稚芳香水中国独装东方香1m15m香水DT女日常,约会23.101000-00-00-00.0010000 一木相国装防方1m1m可上第,倍21301.0101060201 8稚芳香水中国 东方音1m15m香E 日常,约会255010.001000-00 4000低 独立装花果香说31m4100m 3000低丰常 香水 25-19010.00100010-10-100010 丰常高 体香水 00丰常高 12艾寺止 1独装品会香 8000低高 独立装花果香31m-100m 丰低 目独装花果香误31m100m 常,约会-29-300-0000101010.00-10000 21美桥香一中国3 花果香润31m-100m E常,约会29-300100010000010000
香水销售数据预处理 • 对香水产品的适用场合进行数量统计,得到新字段“适用场合数量” • 下图为最终处理得到的香水产品数据
香水销售数据统计分析 香水产品价格描述分析图 产品数 香水产品价格描述分析图 a)a少y2) 价格
香水销售数据统计分析 • 香水产品价格描述分析图
香水销售数据统计分析 香水产品销量描述分析图 产品数香水产品销量描述分析图 销量
香水销售数据统计分析 • 香水产品销量描述分析图
香水销售数据统计分析 香水产品产地分布图 香水产品产地分布图 3.82% 7.63% 11.45% 国 国 法 1847% 西班牙 3.01% v I 能英国
香水销售数据统计分析 • 香水产品产地分布图