数据挖掘实用案例分析 数据挖掘 第6章海底捞火锅运营分析 实用案例分析 复旦大学赵卫东博士 0ta间g wdzhao@fudan.edu.cn dicta
数据挖掘实用案例分析 第6章 海底捞火锅运营分析 复旦大学 赵卫东 博士 wdzhao@fudan.edu.cn
章节介绍 在企业的众多经营活动中,每天都会产生大量的数据,这些看似毫无关联 的数据,往往能够具有深层次的紧密关系,对于企业的经营和发展策略的 决策都会有十分重要的作用和意义。随着大数据时代的来临,数据分析已 经成为了企业的经营管理者们极为重视的一项活动内容。数据分析可以对 客观情况进行正确完整的反映;对企业经营管理过程中所产生的数据进行 监督;能够有效的帮助企业进行各项活动的决策内容的实施与决定,所以 考虑对火锅行业进行数据分析 本例以海底捞火锅店(北京北太平庄牡丹园店)为例进行数据分析。分析 饭店产生的相关数据,同时与同行竞争对手作对比分析,为饭店的未来的 建设以及营销提出可行性建议
章节介绍 • 在企业的众多经营活动中,每天都会产生大量的数据,这些看似毫无关联 的数据,往往能够具有深层次的紧密关系,对于企业的经营和发展策略的 决策都会有十分重要的作用和意义。随着大数据时代的来临,数据分析已 经成为了企业的经营管理者们极为重视的一项活动内容。数据分析可以对 客观情况进行正确完整的反映;对企业经营管理过程中所产生的数据进行 监督;能够有效的帮助企业进行各项活动的决策内容的实施与决定,所以 考虑对火锅行业进行数据分析。 • 本例以海底捞火锅店(北京北太平庄牡丹园店)为例进行数据分析。分析 饭店产生的相关数据,同时与同行竞争对手作对比分析,为饭店的未来的 建设以及营销提出可行性建议
章节结构 火锅相关数据抓取 数据预处理 数据分析 海底捞运营分析 店铺选址分析 菜品关联分析 用户评论和评分的关联分析 顾客情感分析
章节结构 • 火锅相关数据抓取 • 数据预处理 • 数据分析 – 海底捞运营分析 – 店铺选址分析 • 菜品关联分析 • 用户评论和评分的关联分析 • 顾客情感分析
火锅相关数据抓取 利用 Python脚本作为数据抓取工具,利用 Beautiful Soup库,并将抓取的数据 存入Exce中 抓取页面内容的九项数据分别为:用户昵称、用户的贡献值、用户对该次 用餐的总评分(平均评分)、用户对这次用餐的口味、环境、服务的评价 、用户的评论内容、用户的用餐时间(评论时间)、用户这条评论所收到 的点赞数。 口口味4非属好)环境4年非好)服务4常) 又未海底捞了,是老顾客了,出奇的是这次没排队,大厅始终在百分之八十的样子,可能是夏手的缘故1不过这并 不影响我品尝美味!还星我钟爱的番茄锅加牛油锅!辣的过籁,番茄锅干万不要下别的,肥牛少量汤鲜唯实! 簧回应收不当内容
火锅相关数据抓取 • 利用Python脚本作为数据抓取工具,利用BeautifulSoup库,并将抓取的数据 存入Excel中 • 抓取页面内容的九项数据分别为:用户昵称、用户的贡献值、用户对该次 用餐的总评分(平均评分)、用户对这次用餐的口味、环境、服务的评价 、用户的评论内容、用户的用餐时间(评论时间)、用户这条评论所收到 的点赞数
火锅相关数据抓取 抓取用户喜欢的菜的数据,采集数据有昵称、时间、喜欢的菜 口人均¥100口耳4 日4三4分 【位】在社开地脑出来行10分钟右,位用好找,周边一个都心好,停车场车位矩多的 【环】型大,净门国口甲位五子模折星,还很小可以路日小可以打平一还有 一个小二留,儿里玩器区域 号】一的主打程,去的上到我主打场所有门了问你速学手纸集 队国到,世加水,下什公的,门的小可以家英质一 【1四先,属都小了,步音子最平的,在母子变成这样了一小科所完了菜以无的, 白还起好小料儿白的,E后国吃1西 所变111之 吃11 更多片
火锅相关数据抓取 • 抓取用户喜欢的菜的数据,采集数据有昵称、时间、喜欢的菜
数据预处理 原始数据很粗糙,缺少列名称,同时冗余数据和残缺数据都较多 1 instar囗味4非服务4非环境4(非 frank03-31更新于17-04121257iom01985 2im-sta味4(非最务4((11man2041 特别喜欢吃菜 3 irr-star囗味4(非猴务4(非3环境4(非 urbank0411 luckys jn 4ir-star口味3(很如服务4非环境3《很 urr-ran50411 er.23928410 5i-sta味(非务2(好)环2(好) urr-rar0410 61 stari口味4非务4(环境4(非3uma010 爱吃智莲的x小姐 7 instar:味3(很务4(#境4(非m-:0409 pogIng 8im-gtar口味4非务4(B3环1(m:20409 时光素雨颜依日 9 instar:味4(非务3(很环境3(得 urT-ranl0409 user.306081072 10 instar囗味4(非猴务4(非环境3(很 frank10408 学院路路草 1 instar!囗味4(非丰服务4(非3环境3(很uram0408 南 12 instant囗味4(非务4(菲环境4排 Tran.007 小洁7689 13ir-star口味4(非猴务4(非环境4非 urr-rankt0407 ser 82055 14ir-star口味4(非服务4(环境4(非u-ark0407 1a11a 15ir-star口味4(非服务4(#环境4(非 Crank04-06 La 66 16 Instar口味3(很如猴务3(很环境3(很 urbank0406 雷少66
数据预处理 • 原始数据很粗糙,缺少列名称,同时冗余数据和残缺数据都较多
数据预处理 添加列名称,在第一行对数据添加类别说明 分别为“评价均分”,“口味评分”,“服务评分”,“环境评分”,“用户贡献值”, 评价日期”,“用户昵称”,“评价内容”,“评价点赞数” 去重处理:全选,点击“数据”“删除重复项” 1评价均分口味评分服务评分环境评分用户贡献作评价日期用户昵称 评价内容评价点赞数 lirr-stars味非服务4(非环境4(非mra0119o1985 3 lirr-start味4(非服务4(非环境4(非uxak0+11特别喜欢吃川菜 4rxst味4(非服务4(非2乐境4(非mr:1uky 5 irr-star味(很如服务4(非环境3(很urra011daer2392890 6ir-t味4(务2(环境2()mrak0410童的舌头 0 ir-sta味4服务4(34(非umr0410爱吃榴莲的z小姐 0 ir-sta味3很服务4非环境4(mrk09+09pgrg 0 irr-starf味4非服务4(丰环境4(umr-a2009时光煮雨颜依旧 10ir-star口味4(非服务3(很环境3(很umr0+09c06807 1lir-str味非服务4(非环场境3(很如ur10408学院路草 12ixst味4(联务4(境3(很umr0南{ 13 Jirr-star味4非车务(1mr07清769 14rst味4(非服务4(非2乐境9(非mr00782976 15 irr-star口味4(非服务4(排环墙4(非 urrranke+07 uijiajia
数据预处理 • 添加列名称,在第一行对数据添加类别说明 – 分别为“评价均分”,“口味评分”,“服务评分”,“环境评分”,“用户贡献值”,“ 评价日期”,“用户昵称”,“评价内容”,“评价点赞数” • 去重处理:全选,点击“数据”-“删除重复项
数据预处理 将数据导入 SPSS Modeler180 表(6个字段,5160条记录)#1 0[ 如件辑6生成國 用户贡敢评价日 数据过类型注解 计4解.4车x年+m2:1 导入文件 AUsersiadmin Desktop\=淘海底火锅址丹园店刈x m50口味3(好)那务4丰篇好)环填3很好)uman50411 ista50口味4丰常好)服务4丰常好)环情4非常好) urr-rank3004-1 使用指定的范图 irr-star50口味3很好)服务4丰常好)环搋4啡常好) urr-rank200409 irr-stard50口味4丰常好)服务4(丰常好)环境4常好)uman200409 选择工作表:@按索引 4丰常好)服务4车丰常好)环3 sta50口味4丰常好)服务4常好)环3很好) O按名称 工作表范国:@范围从第一个丰空行开始 O单元格的显示范国 味4丰常好)服务4丰常好)环墳4非常好) uff-ranc50406 在空行 小m 11141171 半4率4率3解厘m2 ˇ第一行存在列名称 4:m29 确定取消 应用重
数据预处理 • 将数据导入SPSS Modeler 18.0
数据预处理 数值化“评价月份” ②评价月份 导出为公式 顶式:单个O多个 号出字段 中价月份 导出为公式 字共型分共 ngt评伯曰)==a) then substring between(4,5,评价日抛 endit 应用重置
数据预处理 • 数值化“评价月份
数据预处理 将“评价均分”和“用户贡献值”改为数字形式。分别添加“导出”节点 设置“导出字段”和“公式”为“评价均分(数字)”、 “ substring between(99,评价均分);“用户贡献值(数字)” “ allbutfirst(8,用户贡献值y。 添加“过滤”节点,已经不需要“评价均分”、“用户贡献值”和“评价 日期”三个字段了,将其叉掉。添加“表”节点
数据预处理 • 将“评价均分”和“用户贡献值”改为数字形式。分别添加“导出”节点 ,设置“导出字段”和“公式”为“评价均分(数字)”、 “substring_between(9,9, 评价均分)”;“用户贡献值(数字)”、 “allbutfirst(8,用户贡献值)”。 • 添加“过滤”节点,已经不需要“评价均分”、“用户贡献值”和“评价 日期”三个字段了,将其叉掉。添加“表”节点