正在加载图片...
第6期 秦海菲,等:酒店在线评论数据的特征挖掘 ·1013· 图7所示(为了图形清晰,本文只选取了T℉最高 性,可以看出把服务、设施、环境、餐饮和整体舒 的数据进行展示)。 适度作为酒店在线评论数据的特征词是合理的。 综合图7候选特征词的4个聚类树图,根据 表5后20名酒店特征词归类表 聚类结果,可以看出聚类为5类比较合理,根据酒 Table 5 The last 20 Hotel feature word 店的专业知识,把酒店在线评论候选词归并为 5类,结果如表5所示。 候选特征词 归并后特征词 1 服务、服务员、服务态度、前台等 服务 房间、设施、床、房、空调等 设施 环境、位置、交通、地理位置、地段」 3 环境 出行、周边、附近等 4 早餐、水果、味道等 餐饮 服务 位 环 设 置 境 性价比 大堂、性价比、价格、卫生、装修 通 整体舒适度 dist 温泉、总体、整体等 (a)类平均法 综合6个评价指标聚类图,对于评论数据, TF分析的结果要比TF_IDF的效果好,选取以 TF为主,TF、TTW、DF、DF、TF,IDF为辅的指 标聚类时,选取TF排在前10的候选特征词聚类 和选取更多的候选特征词聚类结果类似,后面的 0 早 设 负 候选特征词只是对前面结果的补充或细化。 务 餐 境 性价比 dist 4结束语 (b)离差平方和 本文从酒店在线点评数据出发,对数据的感 知获取、数据预处理、词性分析、特征选取、特征 筛选、特征确定等进行了研究。对特征词的筛选 和确定进行了分析。单个指标(TF或者TF, DF)对特征词的筛选和选择效果不理想,需要综 位 交 早 环 价 合TF、TF1、TTW、DF、IDF、TF,-IDF多个指标进 务 置 餐 境 格 行分析。采用了无监督的聚类方法对变量进行聚 dist (c)最大距离法 类分析,聚类时采用数据标准化消除指标相关性 和量纲的影响。综合聚类分析的结果和酒店专业 知识选定酒店在线评论数据的特征词,通过将 20家酒店作为数据集2对特征词进行校验,得出 酒店在线评论的特征词是服务、环境、设施、整体 0 舒适度、餐饮。下一步将根据特征词构造更方 服 交 早 环 设 价 便、快捷、可靠的分类器,为酒店和客户进一步细 置 通 餐 境 施 比 格 分做好准备,同时也为酒店为客户提供的个性化 dist (d相似分析法 的智能推荐服务奠定基础。 图7数据集2候选特征词聚类 参考文献: Fig.7 Dataset2 Candidate feature words cluster [1]吴维芳,高宝俊,杨海霞,等.评论文本对酒店满意度的影 从表5中可以看出,部分被归并的候选特征词 响:基于情感分析的方法U.数据分析与知识发现,2017, 有了更细化、更相近或概括的变化,例如设施中 1(3):62-71 增加了“床”、“房”、“空调”等细化词;环境中增加 WU Weifang,GAO Baojun,YANG Haixia,et al.The im- 了“地段”、“出行”、“周边”、“附近”等相近词;整 pacts of reviews on hotel satisfaction:a sentiment analysis method[J].Data analysis and knowledge discovery,2017, 体舒适度增加了“总体”、“整体”概括词。综合酒店 1(3):62-71 在线评论的两个数据集和网络在线点评数据的特 [2]GAVILAN D,AVELLO M,MARTINEZ-NAVARRO G.图 7 所示 (为了图形清晰,本文只选取了 TF 最高 的数据进行展示)。 综合图 7 候选特征词的 4 个聚类树图,根据 聚类结果,可以看出聚类为 5 类比较合理,根据酒 店的专业知识,把酒店在线评论候选词归并为 5 类,结果如表 5 所示。 从表 5 中可以看出,部分被归并的候选特征词 有了更细化、更相近或概括的变化,例如设施中 增加了“床”、“房”、“空调”等细化词;环境中增加 了“地段”、“出行”、“周边”、“附近”等相近词;整 体舒适度增加了“总体”、“整体”概括词。综合酒店 在线评论的两个数据集和网络在线点评数据的特 性,可以看出把服务、设施、环境、餐饮和整体舒 适度作为酒店在线评论数据的特征词是合理的。 综合 6 个评价指标聚类图,对于评论数据, TF 分析的结果要比 TF_IDF 的效果好,选取以 TF 为主,TF1、TTW、DF、IDF、TF1_IDF 为辅的指 标聚类时,选取 TF 排在前 10 的候选特征词聚类 和选取更多的候选特征词聚类结果类似,后面的 候选特征词只是对前面结果的补充或细化。 4 结束语 本文从酒店在线点评数据出发,对数据的感 知获取、数据预处理、词性分析、特征选取、特征 筛选、特征确定等进行了研究。对特征词的筛选 和确定进行了分析。单个指标 (TF 或者 TF1 - IDF) 对特征词的筛选和选择效果不理想,需要综 合 TF、TF1、TTW、DF、IDF、TF1 -IDF 多个指标进 行分析。采用了无监督的聚类方法对变量进行聚 类分析,聚类时采用数据标准化消除指标相关性 和量纲的影响。综合聚类分析的结果和酒店专业 知识选定酒店在线评论数据的特征词,通过将 20 家酒店作为数据集 2 对特征词进行校验,得出 酒店在线评论的特征词是服务、环境、设施、整体 舒适度、餐饮。下一步将根据特征词构造更方 便、快捷、可靠的分类器,为酒店和客户进一步细 分做好准备,同时也为酒店为客户提供的个性化 的智能推荐服务奠定基础。 参考文献: 吴维芳,高宝俊, 杨海霞, 等. 评论文本对酒店满意度的影 响: 基于情感分析的方法[J]. 数据分析与知识发现, 2017, 1(3): 62–71. WU Weifang, GAO Baojun, YANG Haixia, et al. The im￾pacts of reviews on hotel satisfaction: a sentiment analysis method[J]. Data analysis and knowledge discovery, 2017, 1(3): 62–71. [1] [2] GAVILAN D, AVELLO M, MARTINEZ-NAVARRO G. (a) 类平均法 (b) 离差平方和 (c) 最大距离法 (d) 相似分析法 高度 4 3 2 1 0 高度 4 2 0 高度 4 2 3 1 0 高度 6 4 2 0 dist dist dist dist 服 务 位 置 交 通 早 餐 环 境 设 施 性 价 比 价 格 服 务 位 置 交 通 早 餐 环 境 设 施 性 价 比 价 格 服 务 位 置 交 通 早 餐 环 境 设 施 性 价 比 价 格 服 务 位 置 交 通 早 餐 环 境 设 施 性 价 比 价 格 图 7 数据集 2 候选特征词聚类 Fig. 7 Dataset2 Candidate feature words cluster 表 5 后 20 名酒店特征词归类表 Table 5 The last 20 Hotel feature word 类 候选特征词 归并后特征词 1 服务、服务员、服务态度、前台等 服务 2 房间、设施、床、房、空调等 设施 3 环境、位置、交通、地理位置、地段、 出行、周边、附近等 环境 4 早餐、水果、味道等 餐饮 5 大堂、性价比、价格、卫生、装修、 温泉、总体、整体等 整体舒适度 第 6 期 秦海菲,等:酒店在线评论数据的特征挖掘 ·1013·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有