复旦大学：《数据挖掘实用案例分析》课程教学资源（PPT课件讲稿）第7章海底捞火锅运营分析

• 火锅相关数据抓取 • 数据预处理 • 数据分析 – 海底捞运营分析 – 店铺选址分析 • 菜品关联分析 • 用户评论和评分的关联分析 • 顾客情感分析

团购合买资源类别：文库，文档格式：PPTX，文档页数：58，文件大小：2.55MB

数据挖掘实用案例分析数据挖掘第6章海底捞火锅运营分析实用案例分析复旦大学赵卫东博士 0ta间g wdzhao@fudan.edu.cn dicta

数据挖掘实用案例分析第6章海底捞火锅运营分析复旦大学赵卫东博士 wdzhao@fudan.edu.cn

章节介绍在企业的众多经营活动中,每天都会产生大量的数据,这些看似毫无关联的数据,往往能够具有深层次的紧密关系,对于企业的经营和发展策略的决策都会有十分重要的作用和意义。随着大数据时代的来临,数据分析已经成为了企业的经营管理者们极为重视的一项活动内容。数据分析可以对客观情况进行正确完整的反映;对企业经营管理过程中所产生的数据进行监督;能够有效的帮助企业进行各项活动的决策内容的实施与决定,所以考虑对火锅行业进行数据分析本例以海底捞火锅店(北京北太平庄牡丹园店)为例进行数据分析。分析饭店产生的相关数据,同时与同行竞争对手作对比分析,为饭店的未来的建设以及营销提出可行性建议

章节介绍 • 在企业的众多经营活动中，每天都会产生大量的数据，这些看似毫无关联的数据，往往能够具有深层次的紧密关系，对于企业的经营和发展策略的决策都会有十分重要的作用和意义。随着大数据时代的来临，数据分析已经成为了企业的经营管理者们极为重视的一项活动内容。数据分析可以对客观情况进行正确完整的反映；对企业经营管理过程中所产生的数据进行监督；能够有效的帮助企业进行各项活动的决策内容的实施与决定，所以考虑对火锅行业进行数据分析。 • 本例以海底捞火锅店（北京北太平庄牡丹园店）为例进行数据分析。分析饭店产生的相关数据，同时与同行竞争对手作对比分析，为饭店的未来的建设以及营销提出可行性建议

章节结构火锅相关数据抓取数据预处理数据分析海底捞运营分析店铺选址分析菜品关联分析用户评论和评分的关联分析顾客情感分析

章节结构 • 火锅相关数据抓取 • 数据预处理 • 数据分析 – 海底捞运营分析 – 店铺选址分析 • 菜品关联分析 • 用户评论和评分的关联分析 • 顾客情感分析

火锅相关数据抓取利用 Python脚本作为数据抓取工具,利用 Beautiful Soup库,并将抓取的数据存入Exce中抓取页面内容的九项数据分别为:用户昵称、用户的贡献值、用户对该次用餐的总评分(平均评分)、用户对这次用餐的口味、环境、服务的评价、用户的评论内容、用户的用餐时间(评论时间)、用户这条评论所收到的点赞数。口口味4非属好)环境4年非好)服务4常) 又未海底捞了,是老顾客了,出奇的是这次没排队,大厅始终在百分之八十的样子,可能是夏手的缘故1不过这并不影响我品尝美味!还星我钟爱的番茄锅加牛油锅!辣的过籁,番茄锅干万不要下别的,肥牛少量汤鲜唯实! 簧回应收不当内容

火锅相关数据抓取 • 利用Python脚本作为数据抓取工具，利用BeautifulSoup库，并将抓取的数据存入Excel中 • 抓取页面内容的九项数据分别为：用户昵称、用户的贡献值、用户对该次用餐的总评分（平均评分）、用户对这次用餐的口味、环境、服务的评价、用户的评论内容、用户的用餐时间（评论时间）、用户这条评论所收到的点赞数

火锅相关数据抓取抓取用户喜欢的菜的数据,采集数据有昵称、时间、喜欢的菜口人均￥100口耳4 日4三4分【位】在社开地脑出来行10分钟右,位用好找,周边一个都心好,停车场车位矩多的【环】型大,净门国口甲位五子模折星,还很小可以路日小可以打平一还有一个小二留,儿里玩器区域号】一的主打程,去的上到我主打场所有门了问你速学手纸集队国到,世加水,下什公的,门的小可以家英质一【1四先,属都小了,步音子最平的,在母子变成这样了一小科所完了菜以无的, 白还起好小料儿白的,E后国吃1西所变111之吃11 更多片

火锅相关数据抓取 • 抓取用户喜欢的菜的数据，采集数据有昵称、时间、喜欢的菜

数据预处理原始数据很粗糙,缺少列名称,同时冗余数据和残缺数据都较多 1 instar囗味4非服务4非环境4(非 frank03-31更新于17-04121257iom01985 2im-sta味4(非最务4((11man2041 特别喜欢吃菜 3 irr-star囗味4(非猴务4(非3环境4(非 urbank0411 luckys jn 4ir-star口味3(很如服务4非环境3《很 urr-ran50411 er.23928410 5i-sta味(非务2(好)环2(好) urr-rar0410 61 stari口味4非务4(环境4(非3uma010 爱吃智莲的x小姐 7 instar:味3(很务4(#境4(非m-:0409 pogIng 8im-gtar口味4非务4(B3环1(m:20409 时光素雨颜依日 9 instar:味4(非务3(很环境3(得 urT-ranl0409 user.306081072 10 instar囗味4(非猴务4(非环境3(很 frank10408 学院路路草 1 instar!囗味4(非丰服务4(非3环境3(很uram0408 南 12 instant囗味4(非务4(菲环境4排 Tran.007 小洁7689 13ir-star口味4(非猴务4(非环境4非 urr-rankt0407 ser 82055 14ir-star口味4(非服务4(环境4(非u-ark0407 1a11a 15ir-star口味4(非服务4(#环境4(非 Crank04-06 La 66 16 Instar口味3(很如猴务3(很环境3(很 urbank0406 雷少66

数据预处理 • 原始数据很粗糙，缺少列名称，同时冗余数据和残缺数据都较多

数据预处理添加列名称,在第一行对数据添加类别说明分别为“评价均分”,“口味评分”,“服务评分”,“环境评分”,“用户贡献值”, 评价日期”,“用户昵称”,“评价内容”,“评价点赞数” 去重处理:全选,点击“数据”“删除重复项” 1评价均分口味评分服务评分环境评分用户贡献作评价日期用户昵称评价内容评价点赞数 lirr-stars味非服务4(非环境4(非mra0119o1985 3 lirr-start味4(非服务4(非环境4(非uxak0+11特别喜欢吃川菜 4rxst味4(非服务4(非2乐境4(非mr:1uky 5 irr-star味(很如服务4(非环境3(很urra011daer2392890 6ir-t味4(务2(环境2()mrak0410童的舌头 0 ir-sta味4服务4(34(非umr0410爱吃榴莲的z小姐 0 ir-sta味3很服务4非环境4(mrk09+09pgrg 0 irr-starf味4非服务4(丰环境4(umr-a2009时光煮雨颜依旧 10ir-star口味4(非服务3(很环境3(很umr0+09c06807 1lir-str味非服务4(非环场境3(很如ur10408学院路草 12ixst味4(联务4(境3(很umr0南{ 13 Jirr-star味4非车务(1mr07清769 14rst味4(非服务4(非2乐境9(非mr00782976 15 irr-star口味4(非服务4(排环墙4(非 urrranke+07 uijiajia

数据预处理 • 添加列名称，在第一行对数据添加类别说明 – 分别为“评价均分”，“口味评分”，“服务评分”，“环境评分”，“用户贡献值”，“ 评价日期”，“用户昵称”，“评价内容”，“评价点赞数” • 去重处理：全选，点击“数据”-“删除重复项

数据预处理将数据导入 SPSS Modeler180 表(6个字段,5160条记录)#1 0[ 如件辑6生成國用户贡敢评价日数据过类型注解计4解.4车x年+m2:1 导入文件 AUsersiadmin Desktop\=淘海底火锅址丹园店刈x m50口味3(好)那务4丰篇好)环填3很好)uman50411 ista50口味4丰常好)服务4丰常好)环情4非常好) urr-rank3004-1 使用指定的范图 irr-star50口味3很好)服务4丰常好)环搋4啡常好) urr-rank200409 irr-stard50口味4丰常好)服务4(丰常好)环境4常好)uman200409 选择工作表:@按索引 4丰常好)服务4车丰常好)环3 sta50口味4丰常好)服务4常好)环3很好) O按名称工作表范国:@范围从第一个丰空行开始 O单元格的显示范国味4丰常好)服务4丰常好)环墳4非常好) uff-ranc50406 在空行小m 11141171 半4率4率3解厘m2 ˇ第一行存在列名称 4:m29 确定取消应用重

数据预处理 • 将数据导入SPSS Modeler 18.0

数据预处理数值化“评价月份” ②评价月份导出为公式顶式:单个O多个号出字段中价月份导出为公式字共型分共 ngt评伯曰)==a) then substring between(4,5,评价日抛 endit 应用重置

数据预处理 • 数值化“评价月份

数据预处理将“评价均分”和“用户贡献值”改为数字形式。分别添加“导出”节点设置“导出字段”和“公式”为“评价均分(数字)”、 “ substring between(99,评价均分);“用户贡献值(数字)” “ allbutfirst(8,用户贡献值y。添加“过滤”节点,已经不需要“评价均分”、“用户贡献值”和“评价日期”三个字段了,将其叉掉。添加“表”节点

数据预处理 • 将“评价均分”和“用户贡献值”改为数字形式。分别添加“导出”节点，设置“导出字段”和“公式”为“评价均分（数字）”、 “substring_between(9,9, 评价均分)”；“用户贡献值（数字）”、 “allbutfirst(8,用户贡献值)”。 • 添加“过滤”节点，已经不需要“评价均分”、“用户贡献值”和“评价日期”三个字段了，将其叉掉。添加“表”节点

点击下载完整版文档（PPTX格式）

共58页，可试读20页，点击继续阅读 ↓↓

点击下载（PPTX格式）

浏览记录