【人工智能基础】酒店在线评论数据的特征挖掘

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：3.17MB

第13卷第6期智能系统学报 Vol.13 No.6 2018年12月 CAAI Transactions on Intelligent Systems Dec.2018 D0:10.11992/tis.201806016 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180716.1134.008.html 酒店在线评论数据的特征挖掘秦海菲1，杜军平2 (1.楚雄师范学院信息科学与技术学院，云南楚雄675000；2.北京邮电大学计算机学院，北京100876) 摘要：论文以酒店在线评论数据为研究对象，对酒店在线评论数据的特征挖掘进行了研究。论文首先从酒店在线评论数据的获取出发，经过数据清洗、词性分析、特征抽取、指标确定、特征筛选、特征确定、特征校验几个环节，实现了酒店在线评论数据特征挖掘的目的。论文以词频为基础，融合了词性分析、聚类分析等方法，利用词频数(TF)、词频率(TF词频权重(TTW、评论频率(DF)、逆文档频率(IDF)和TFI-DF等指标对候选特征词进行降维，得出酒店在线评论数据的特征，并对特征词进行校验，完成了酒店在线评论数据的特征挖掘的过程。论文将为以评论为依据的客户分类、酒店分类、智能推荐奠定基础。关键词：酒店：在线点评：数据获取：特征抽取：特征挖掘：聚类分析：分类：智能推荐中图分类号：TP391文献标志码：A文章编号：1673-4785(2018)06-1006-09 中文引用格式：秦海菲，杜军平.酒店在线评论数据的特征挖掘J小.智能系统学报，2018,13(6)：1006-1014. 英文引用格式：QIN Haifei,,DU Junping.Feature mining based on online hotel review.CAAI transactions on intelligent systems, 2018,136):1006-1014. Feature mining based on online hotel review QIN Haifei',DU Junping' (1.School of Information Science and Technology,Chuxiong Normal University,Chuxiong 675000,China;2.School of Computer Science,Beijing University of Posts and Telecommunications,Beijing 100876,China) Abstract:In this study,the feature mining of online hotel review data is investigated.First,online hotel reviews data were obtained.To mine features from the review data,data cleaning,part-of-speech analysis,feature extraction,index determination,feature selection,feature determination,feature checking were carried out.Based on the word frequency, integrating part-of-speech analysis,and cluster analysis,the word frequency(TF),word frequency rate(TF),word fre- quency weight(TTW),comment frequency(DF),inverse document frequency(IDF),and TF1-IDF of candidate feature words were applied to reduce dimension.The online hotel review data features were obtained,and then the feature words were verified.This paper will lay a solid foundation for the classification of hotels and customers and intelligent recommendation based on online reviews. Keywords:hotel;online review:data capture;feature extract;feature mining;cluster analysis;classification:intelligent recommendation 在网购中，在线点评是买家购买决策的重要化，例如同时被评为5分的同一家酒店，顾客对它依据，同时也是卖家经营信息反馈的重要环节。的感受完全不一样，有的关注环境，有的关注设在线点评分为数字评分和在线评论。目前，很多施，有的关注服务等。不同的人关注点不同，兴学者专注数字评分，因为数字评分比较直观，容趣点也不同，评价也亦不同。从经济学和市场理易理解，但数字评分的粒度比较粗、少，且难于细论的角度看，产品和服务有多维属性，由于消费收稿日期：2018-06-05.网络出版日期：2018-07-17. 者的偏好不同，对功能和服务的期望也不同，即基金项目：国家自然科学基金项目(61320106006,61532006，用户参考评论进行决策时，会依其偏好，只关注 61772083). 通信作者：杜军平.E-mail:junpingdu@126.com. 或更加关注某些方面的特征。只考虑数值评分无

DOI: 10.11992/tis.201806016 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180716.1134.008.html 酒店在线评论数据的特征挖掘秦海菲1 ，杜军平2 （1. 楚雄师范学院信息科学与技术学院，云南楚雄 675000; 2. 北京邮电大学计算机学院，北京 100876）摘要：论文以酒店在线评论数据为研究对象，对酒店在线评论数据的特征挖掘进行了研究。论文首先从酒店在线评论数据的获取出发，经过数据清洗、词性分析、特征抽取、指标确定、特征筛选、特征确定、特征校验几个环节，实现了酒店在线评论数据特征挖掘的目的。论文以词频为基础，融合了词性分析、聚类分析等方法，利用词频数 (TF)、词频率 (TF1 )、词频权重 (TTW)、评论频率 (DF)、逆文档频率 (IDF) 和 TF1-IDF 等指标对候选特征词进行降维，得出酒店在线评论数据的特征，并对特征词进行校验，完成了酒店在线评论数据的特征挖掘的过程。论文将为以评论为依据的客户分类、酒店分类、智能推荐奠定基础。关键词：酒店；在线点评；数据获取；特征抽取；特征挖掘；聚类分析；分类；智能推荐中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2018)06−1006−09 中文引用格式：秦海菲, 杜军平. 酒店在线评论数据的特征挖掘[J]. 智能系统学报, 2018, 13(6): 1006–1014. 英文引用格式：QIN Haifei, DU Junping. Feature mining based on online hotel review[J]. CAAI transactions on intelligent systems, 2018, 13(6): 1006–1014. Feature mining based on online hotel review QIN Haifei1 ，DU Junping2 (1. School of Information Science and Technology, Chuxiong Normal University, Chuxiong 675000, China; 2. School of Computer Science, Beijing University of Posts and Telecommunications, Beijing 100876, China) Abstract: In this study, the feature mining of online hotel review data is investigated. First, online hotel reviews data were obtained. To mine features from the review data, data cleaning, part-of-speech analysis, feature extraction, index determination, feature selection, feature determination, feature checking were carried out. Based on the word frequency, integrating part-of-speech analysis, and cluster analysis, the word frequency (TF), word frequency rate (TF1 ), word frequency weight (TTW), comment frequency (DF), inverse document frequency (IDF), and TF1-IDF of candidate feature words were applied to reduce dimension. The online hotel review data features were obtained, and then the feature words were verified. This paper will lay a solid foundation for the classification of hotels and customers and intelligent recommendation based on online reviews. Keywords: hotel; online review; data capture; feature extract; feature mining; cluster analysis; classification; intelligent recommendation 在网购中，在线点评是买家购买决策的重要依据，同时也是卖家经营信息反馈的重要环节。在线点评分为数字评分和在线评论。目前，很多学者专注数字评分，因为数字评分比较直观，容易理解，但数字评分的粒度比较粗、少，且难于细化，例如同时被评为 5 分的同一家酒店，顾客对它的感受完全不一样，有的关注环境，有的关注设施，有的关注服务等。不同的人关注点不同，兴趣点也不同，评价也亦不同。从经济学和市场理论的角度看，产品和服务有多维属性，由于消费者的偏好不同，对功能和服务的期望也不同，即用户参考评论进行决策时，会依其偏好，只关注或更加关注某些方面的特征。只考虑数值评分无收稿日期：2018−06−05. 网络出版日期：2018−07−17. 基金项目：国家自然科学基金项目 (61320106006, 61532006, 61772083). 通信作者：杜军平. E-mail：junpingdu@126.com. 第 13 卷第 6 期智能系统学报 Vol.13 No.6 2018 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2018

第6期秦海菲，等：酒店在线评论数据的特征挖掘 ·1007· 法反映用户对产品的全面和精确的评价·。因为 12短文本分析某一类产品的数字评分不能为客户带来过多的信在线评论数据属于短文本研究。每个人每息，但是在线评论可以表达顾客的真实感受，能天都在应用短文本（短信、微博、微信、评论够被购买者参考和信赖。在线评论作为顾客在网 Tweets、facebook等)，短文本与普通文本有很大区络上发布的购买体验，对其他客户的购买决策起别。短文本是包含有限的上下文，大多数短文本着重要的影响，这些体验也是企业在市场拓展和搜索查询少于5个单词，Tweets是不超过140个产品开发计划时要考虑的重要信息。因此，在字符短文本。几乎所有的短文本都在200字以线评论数据也变得越来越重要。内，在线点评数据也不例外。短文本通常不遵循随着网络的发展，用户生成的数据越来越多，语法，自然语言处理技术（如词性标注和句法解引起了利益双方或多方的广泛兴趣，捕获这些数析等)难于直接应用于短文本分析。短文本具据并把它们转换为企业的核心洞察力，可为决有稀疏性强、价值密度低，实时性强、变化大、嘈策、营销、分析等不同目标服务。在线评论数声大、规则性弱等特点。因此，对短文本的分析据像大数据一样具有体量巨大，增长速度快，种比一般的文本分析要难。目前短文本研究多数都类繁多，价值密度低等特点。从在线评论数据中集中在社交网络，酒店在线评论的研究属于社交挖掘出顾客真正关心的酒店特征和对酒店的真实网络研究中的一部分。感受，可为酒店的分类提供真实可靠的依据，同 2酒店在线评论数据的特征挖掘时也为酒店的智能推荐奠定基础。 1相关工作在线评论特征的挖掘包括数据获取、数据清洗、词性分析、特征抽取、特征词确定等环节。具 1.1在线评论数据分析体流程如图1所示。在消费者的决策过程中，在线评论已成为非基于酒店在线评论数据的常重要的信息来源。研究表明，如果产品被他特征挖据数据存储人推荐，产品的选择次数会增加两倍，这种影响采集取决于推荐来源的类型。消费者在准备购买产数据感知与获取基于Jade 品或服务时越来越多地寻求同行的经验，超过主题爬爬虫存储 60%的消费者在购买前会咨询客户的反馈意见。住宿评论决定了酒店的在线形象、销售额和未来数据清洗存储收入5-。分词去停高频非去低用词特征词频词目前，对在线评论的研究主要是从情感出发，分析人们对某一产品的情感色彩和情感倾向，从酒店评论在线评论中判断出人们的喜、怒、哀、乐、批评、特征抽取特征指标筛选聚类分析词频率TF1 数据库赞扬等，从而判断出这一产品的受欢迎程度。在数据标准化词权重TTW 线评论挖掘属于观点挖掘，但不同于情感挖掘，存储文档频率DF 情感挖掘只属于观点挖掘的一部分。2012年刘逆文档冰”在情感分析和观点挖掘一文中对观点挖掘涉词频(TF) 频率IDE 词性分析 TF IDF 及相关技术进行了总结；20l5年Ravi,Guellil等 8充分阐述了观点挖掘；2016年Rana对观点挖掘中的方面提取技术进行了综述；2017年特征词 Sun等山和李建华等2对观点挖掘上进行进一步校验的总结和挖掘：2018年韩忠明等对网络评论方图1基于酒店在线评论数据的特征挖掘面级观点挖掘方法作了综述研究。酒店是在线评 Fig.1 Feature mining based on hotel online review data 论的重要内容，且酒店在线评论数据的获取是很 2.1 数据获取方便的，可以从猫途鹰、携程、美团、大众点评、在线点评数据包括数字、文本、图片等，本文驴妈妈、微博、微信等网站上获取，但从目前的研应用主题爬虫在猫途鹰网(tripadvisor)和携程究看，有影响的研究成果还比较少。网(ctrip)上爬取相关数据，去除与主题无关的

法反映用户对产品的全面和精确的评价[1]。因为某一类产品的数字评分不能为客户带来过多的信息，但是在线评论可以表达顾客的真实感受，能够被购买者参考和信赖。在线评论作为顾客在网络上发布的购买体验，对其他客户的购买决策起着重要的影响，这些体验也是企业在市场拓展和产品开发计划时要考虑的重要信息[2]。因此，在线评论数据也变得越来越重要。随着网络的发展，用户生成的数据越来越多，引起了利益双方或多方的广泛兴趣，捕获这些数据并把它们转换为企业的核心洞察力，可为决策、营销、分析等不同目标服务[1-4]。在线评论数据像大数据一样具有体量巨大，增长速度快，种类繁多，价值密度低等特点。从在线评论数据中挖掘出顾客真正关心的酒店特征和对酒店的真实感受，可为酒店的分类提供真实可靠的依据，同时也为酒店的智能推荐奠定基础。 1 相关工作 1.1 在线评论数据分析在消费者的决策过程中，在线评论已成为非常重要的信息来源[5]。研究表明，如果产品被他人推荐，产品的选择次数会增加两倍，这种影响取决于推荐来源的类型[6]。消费者在准备购买产品或服务时越来越多地寻求同行的经验，超过 60% 的消费者在购买前会咨询客户的反馈意见[6]。住宿评论决定了酒店的在线形象、销售额和未来收入[5−6]。目前，对在线评论的研究主要是从情感出发，分析人们对某一产品的情感色彩和情感倾向，从在线评论中判断出人们的喜、怒、哀、乐、批评、赞扬等，从而判断出这一产品的受欢迎程度。在线评论挖掘属于观点挖掘，但不同于情感挖掘，情感挖掘只属于观点挖掘的一部分。2012 年刘冰 [7]在情感分析和观点挖掘一文中对观点挖掘涉及相关技术进行了总结；2015 年 Ravi，Guellil 等 [8−9]充分阐述了观点挖掘；2016 年 Rana[10]对观点挖掘中的方面提取技术进行了综述； 201 7 年 Sun 等 [11]和李建华等[12]对观点挖掘上进行进一步的总结和挖掘；2018 年韩忠明等[13]对网络评论方面级观点挖掘方法作了综述研究。酒店是在线评论的重要内容，且酒店在线评论数据的获取是很方便的，可以从猫途鹰、携程、美团、大众点评、驴妈妈、微博、微信等网站上获取，但从目前的研究看，有影响的研究成果还比较少。 1.2 短文本分析在线评论数据属于短文本研究。每个人每天都在应用短文本 (短信、微博、微信、评论、 Tweets、facebook 等)，短文本与普通文本有很大区别。短文本是包含有限的上下文，大多数短文本搜索查询少于 5 个单词，Tweets 是不超过 140 个字符短文本[14]。几乎所有的短文本都在 200 字以内，在线点评数据也不例外。短文本通常不遵循语法，自然语言处理技术 (如词性标注和句法解析等) 难于直接应用于短文本分析[15]。短文本具有稀疏性强、价值密度低，实时性强、变化大、嘈声大、规则性弱等特点。因此，对短文本的分析比一般的文本分析要难。目前短文本研究多数都集中在社交网络，酒店在线评论的研究属于社交网络研究中的一部分。 2 酒店在线评论数据的特征挖掘在线评论特征的挖掘包括数据获取、数据清洗、词性分析、特征抽取、特征词确定等环节。具体流程如图 1 所示。数据存储特征抽取数据清洗数据感知与获取采集分词去停用词去低频词基于Jade 爬虫主题爬虫酒店评论数据库特征指标筛选词频率TF1 逆文档频率IDF 高频非特征词词权重TTW 文档频率DF 词频 (TF) TF_IDF 聚类分析数据标准化特征词校验基于酒店在线评论数据的特征挖掘存储存储存储词性分析图 1 基于酒店在线评论数据的特征挖掘 Fig. 1 Feature mining based on hotel online review data 2.1 数据获取在线点评数据包括数字、文本、图片等，本文应用主题爬虫在猫途鹰网 (tripadvisor) 和携程网 (ctrip) 上爬取相关数据，去除与主题无关的第 6 期秦海菲，等：酒店在线评论数据的特征挖掘 ·1007·

·1008· 智能系统学报第13卷各种噪音数据（如导航条、广告信息、版权信息和去高频非特征词：在线评论数据中，特征不明其他图片、图像、声音等)，对获取到的数据进显的高频词会削弱特征词的特性，去除高频非特行预处理（主要是去除无关和重复的数据）和征词的词集是分词集5。清洗。 2.3特征词的抽取 2.2数据清洗从在线评论中提取反映评论主题的特征词数据清洗是保证数据质量的关键环节，在线 (Keyphrases,.包括单词或词组)，提取的特征词需评论数据的清洗工作主要包括数据预处理（去特要满足可读性相关性重要性覆盖度一致性。目殊标记、标点等)、分词、去停用词、去低频词、去前比常用的特征提取方法有TF-IDF、词频、文档高频非特征词，具体步骤如图2所示。频率、逆文档频率等。单独使用上述方法不能达到特征词选取的良好效果。开始 1)词性分析众多文献提出特征词通常是名词短语160，因数据预处理数据集酒店数据此需要对词性进行分析。去特殊标记】 2)特征词指标数据集1 ①词频(TF):词W在评论中出现的次数。频分词数(T℉)越高，评论的次数越多，关注人群越多，关厂分词集1 停用词注程度也就越大。某词W的词频N(即词W出现去停用词的次数)为：N={∑W:Wew吲，m,是词W [分词集2 存储出现的第i次。统计词频并排序 ②词频率(TF):词W在所有词中的比重。为分词集3 了与词频数区分开，采用TF,表示。去低频词存储假设一条评论分词后的词集V是V= 分词集4 (W,W2,W,…,WM},W,W2,W3,…,WM是评论分词高频非特征词去高频非特征词 (即一条评论分成M个词)，有N条评论，那么形成的就是一个N行M列的矩阵，N条评论分词后分词集5 构成的评论词集是V=∑∑%，形，是图2数据清洗的过程 i行j列的词（即第i条评论的第j个分词）。某一 Fig.2 Process of data clean 文本数据预处理：完成多余字符删除和多余单词w的词频数平v={∑∑%W:W,ew吲。词频率=某个词在评论中出现的总次数/评论的总数据清除。分词：采用中科院分词和结巴分词相结合的词数，'，(length)是W条评论分词后构成的评论词集长度，TF1w是词W的词频率，具体计算如式方式，分词后的数据为分词集1。 (1)所示：去停用词：在分词集1中很多词没有实际意 TFw 义，仅仅代表一种结构，比如介词、叹词、连词等， TFiw=V(length) (1) 把这部分词集合在一起形成停用词表。在数据清处理后某一词W的词频率如式(2)所示：洗中需要将停用词剔除，以降低特征向量维度， yN∑W,:w,ewy 去除停用词后的词集为分词集2。 Zi=0乙☑=0 (2) 词频统计：词频(term frequency,TF)是指词或 ∑∑ 短语在给定文档中出现的总次数，通常认为词频 ③词评权重(TTW:词W在评论中的比重。越高，其在文档中的重要度越高，成为关键词的某词W在一条评论中被多次提到和被多人可能性越大6。在酒店评论数据中，指在评论中提到，意义是不一样的，为了更好区分两者关系，某个词出现的次数。采用词评权重(TTW)。假设每一条评论代表了词频排序：对分词结果的词频进行降序排列，个点评人，如果一个词被多个人评论，那么代表排序结果为分词集3。这个词被多人关注，这样的词可以是特征词。词去低频词：对低频词进行剔除处理，去除低频评权重既考虑了词频数，也考虑了评论人数。词后的词集是分词集4。 TF是词W在评论中出现的次数，Nw是含词

各种噪音数据 (如导航条、广告信息、版权信息和其他图片、图像、声音等)，对获取到的数据进行预处理 (主要是去除无关和重复的数据) 和清洗。 2.2 数据清洗数据清洗是保证数据质量的关键环节，在线评论数据的清洗工作主要包括数据预处理 (去特殊标记、标点等)、分词、去停用词、去低频词、去高频非特征词，具体步骤如图 2 所示。开始数据预处理酒店数据分词集1 分词集3 去停用词去低频词分词集4 数据集停用词存储数据集1 分词集2 去特殊标记分词分词集5 统计词频并排序去高频非特征词高频非特征词存储图 2 数据清洗的过程 Fig. 2 Process of data clean 文本数据预处理：完成多余字符删除和多余数据清除。分词：采用中科院分词和结巴分词相结合的方式，分词后的数据为分词集 1。去停用词：在分词集 1 中很多词没有实际意义，仅仅代表一种结构，比如介词、叹词、连词等，把这部分词集合在一起形成停用词表。在数据清洗中需要将停用词剔除，以降低特征向量维度，去除停用词后的词集为分词集 2。词频统计：词频 (term frequency，TF) 是指词或短语在给定文档中出现的总次数，通常认为词频越高，其在文档中的重要度越高，成为关键词的可能性越大[16]。在酒店评论数据中，指在评论中某个词出现的次数。词频排序：对分词结果的词频进行降序排列，排序结果为分词集 3。去低频词：对低频词进行剔除处理，去除低频词后的词集是分词集 4。去高频非特征词：在线评论数据中，特征不明显的高频词会削弱特征词的特性，去除高频非特征词的词集是分词集 5。 2.3 特征词的抽取从在线评论中提取反映评论主题的特征词 (Keyphrases，包括单词或词组)，提取的特征词需要满足可读性相关性重要性覆盖度一致性[16]。目前比常用的特征提取方法有 TF-IDF、词频、文档频率、逆文档频率等。单独使用上述方法不能达到特征词选取的良好效果。 1) 词性分析众多文献提出特征词通常是名词短语[16, 20] ,因此需要对词性进行分析。 2) 特征词指标 NW = {∑N i=0 Wi : Wi ∈ W } ① 词频 (TF)：词 W 在评论中出现的次数。频数 (TF) 越高，评论的次数越多，关注人群越多，关注程度也就越大。某词 W 的词频 NW(即词 W 出现的次数 ) 为：， W i 是词 W 出现的第 i 次。 ②词频率 (TF1 )：词 W 在所有词中的比重。为了与词频数区分开，采用 TF1 表示。 {W1,W2,W3,··· ,WM} W1,W2,W3,··· ,WM VN = ∑N i=0 ∑M j=0 Wi j TFW = {∑N i=0 ∑M j=0 Wi j : Wi j ∈ W } 假设一条评论分词后的词集 V 是 V = , 是评论分词 (即一条评论分成 M 个词)，有 N 条评论，那么形成的就是一个 N 行 M 列的矩阵，N 条评论分词后构成的评论词集 V N 是 Wi j 是 i 行 j 列的词 (即第 i 条评论的第 j 个分词)。某一单词 W 的词频数。词频率=某个词在评论中出现的总次数/评论的总词数，VN(length) 是 N 条评论分词后构成的评论词集长度，TF1w 是词 W 的词频率，具体计算如式 (1) 所示： TF1W = TFW VN(length) (1) 处理后某一词 W 的词频率如式 (2) 所示： TF1W = {∑N i=0 ∑M j=0 Wi j : Wi j ∈ W } ∑N i=0 ∑M j=0 Wi j (2) ③词评权重 (TTW)：词 W 在评论中的比重。某词 W 在一条评论中被多次提到和被多人提到，意义是不一样的，为了更好区分两者关系，采用词评权重 (TTW)。假设每一条评论代表了一个点评人，如果一个词被多个人评论，那么代表这个词被多人关注，这样的词可以是特征词。词评权重既考虑了词频数，也考虑了评论人数。 TF W 是词 W 在评论中出现的次数，N W 是含词 ·1008· 智能系统学报第 13 卷

第6期秦海菲，等：酒店在线评论数据的特征挖掘 ·1009· W的评论条数（假设一条评论代表一个人），很强的相关性，并且量纲差异较大。为了消除各 Nw={∑%：Wew吲，词W的词权重计算如式指标量纲的影响和指标之间的相关性，采用标准 (3)所示：差标准化（亿标准化）对数据进行标准化处理。计 M 算公式如式（⑦所示： TTWw= TFw 2i=0乙☑0 W:W∈W 3 X=r-四 Nw ww.:W.EW (7) U=0 式中：是所有样本数据的均值，6是样本数据的标 ④评论频率(DF):评论频率也称文档频率，准差，进一步细化后，得到结果如式(8)所示。指某条评论在总评论中的比重。 -x, DF=包含该词的评论条数/总评论数，N是总 (8) 评论数，评论频率计算如式如(4)所示： V-x) DF=Niv (g:%e刚聚类分析是研究样品和指标分类问题的一种 (4) 多元统计方法？-。在实际应用中一般有两种处 ⑤逆文档频率(DF):衡量词或词组所在的文理方式，一种是根据分类问题本身的专业知识结档在整个语料库中的频率。合实际需要来选择分类方法，并确定分类个数；逆文档频率越大表明该词越重要，它是一个另一种是多用几种分类方法，把结果中共性取出词语普遍重要性的度量16。DF的思想是：如果来，如果用几种方法的某些结果都一样，则说明包含词条W的评论越少，也就是，Nw越小，DF越这样的聚类确实反映事物的本质。采用专业知大，则说明词条W具有很好的类别区分能力。特识与多种聚类算法结合的方式对特征进行筛选，定词语W的DF,可以由总评论数除以包含该词以确定特征词。语的评论，再取对数得到。计算公式如式（⑤）所示：算法1在线评论数据的特征挖掘聚类算法 W ①将候选特征词各自成一类，{X,X2…,Xw: DFw=LOG Nw+1=LOG ∑：wew+ ②计算各类之间的距离（类平均法、ward法最大距离法、相似分析法)，得到观测值矩阵： (5) ③合并类间距离最小的两类为一新类。并重 ⑥特征权重值(TF-IDF):词频-逆文档频率新计算新类与各类之间的距离，更新矩阵表，类 (TF-IDF)是结合词频和逆文档频率来衡量候选关的总个数依次递减，直到为1：键词的重要度量。 ④画聚类树图：词频-逆文档频率(TF-IDF)被认为是所有特 ⑤根据聚类图和专业知识决定分类的个数和征中最有效、最常用的特征之一6。如果某个词成员；或短语在一篇文章中出现的频率T℉，高，并且在 4)特征词提取方法评价其他文章中很少出现，则认为该词或者短语具有本文认为特征词能代表评价主题，N为代表很好的类别区分能力，适合用来分类。TF-DF的评价主题的特征词数，N4为选择的特征词数，准计算如式(6)所示：确率P如式(9)所示： TFw TFIDE=TFIXIDF= Vw(length) XLOG N w =光 (9) ∑∑w,:w,e叫有学者研究提出召回率不适合评论数据的评 ∑∑ (6) 价指标，因此本文借助别人提出的GMM指标， N为能代表评价主题的特征词数，N4为所选择的 M LOG 特征词数，准确率GMM如式(10)所示： ∑w:wew+ Ne Ne TF-DF值与该词的出现频率成正比，与在整 GMM=N X NA (10) 个评论中出现的次数成反比。 2.4特征词的验证 3)特征词的筛选采用数据集2对所选特征词进行校验。特征词的筛选是特征词选取和降低特征词维 3实验及结果分析度最有效的方法。分析各特征词指标的关系是特征词选取中重要的环节，但各个指标之间存在有本文采用主题爬虫对网络数据进行抓取。获

NW = {∑N i=0 Wi : Wi ∈ W } W 的评论条数 (假设一条评论代表一个人 ) ，，词 W 的词权重计算如式 (3) 所示： TTWW = TFW NW = {∑N i=0 ∑M j=0 Wi j : Wi j ∈ W } {∑N i=0 Wi : Wi ∈ W } (3) ④ 评论频率 (DF)：评论频率也称文档频率，指某条评论在总评论中的比重。 DF=包含该词的评论条数/总评论数，N 是总评论数，评论频率计算如式如 (4) 所示： DF = NW N = {∑N i=0 Wi : Wi ∈ W } N (4) ⑤ 逆文档频率 (IDF)：衡量词或词组所在的文档在整个语料库中的频率。逆文档频率越大表明该词越重要，它是一个词语普遍重要性的度量[16]。IDF 的思想是：如果包含词条 W 的评论越少，也就是，NW 越小，IDF 越大，则说明词条 W 具有很好的类别区分能力。特定词语 W 的 IDF，可以由总评论数除以包含该词语的评论，再取对数得到。计算公式如式 (5) 所示： IDFW = LOG N NW +1 = LOG |N| {∑N i=0 Wi : Wi ∈ W } +1 (5) ⑥ 特征权重值 (TF-IDF)：词频−逆文档频率 (TF-IDF) 是结合词频和逆文档频率来衡量候选关键词的重要度量。词频−逆文档频率 (TF-IDF) 被认为是所有特征中最有效、最常用的特征之一[16]。如果某个词或短语在一篇文章中出现的频率 TF1 高，并且在其他文章中很少出现，则认为该词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF 的计算如式 (6) 所示： TFIDF = TF1 ×IDF = TFW VN ( length) ×LOG N NW = {∑N i=0 ∑M j=0 Wi j : Wi j ∈ W } ∑N i=0 ∑M j=0 Wi j × LOG |N| {∑N i=0 Wi : Wi ∈ W } +1 (6) TF-IDF 值与该词的出现频率成正比，与在整个评论中出现的次数成反比。 3) 特征词的筛选特征词的筛选是特征词选取和降低特征词维度最有效的方法。分析各特征词指标的关系是特征词选取中重要的环节，但各个指标之间存在有很强的相关性，并且量纲差异较大。为了消除各指标量纲的影响和指标之间的相关性，采用标准差标准化 (Z 标准化) 对数据进行标准化处理。计算公式如式 (7) 所示： X = (x−µ) σ (7) 式中： µ 是所有样本数据的均值， δ 是样本数据的标准差，进一步细化后，得到结果如式 (8) 所示。 xi j = xi j − − x. j √∑N i=1 (x− x.i) 2 (8) 聚类分析是研究样品和指标分类问题的一种多元统计方法[17−19]。在实际应用中一般有两种处理方式，一种是根据分类问题本身的专业知识结合实际需要来选择分类方法，并确定分类个数；另一种是多用几种分类方法，把结果中共性取出来，如果用几种方法的某些结果都一样，则说明这样的聚类确实反映事物的本质[19]。采用专业知识与多种聚类算法结合的方式对特征进行筛选，以确定特征词。算法 1 在线评论数据的特征挖掘聚类算法 ①将候选特征词各自成一类， {X1,X2 ··· ,XN} ； ②计算各类之间的距离 (类平均法、ward 法、最大距离法、相似分析法)，得到观测值矩阵； ③合并类间距离最小的两类为一新类。并重新计算新类与各类之间的距离，更新矩阵表，类的总个数依次递减，直到为 1； ④画聚类树图； ⑤根据聚类图和专业知识决定分类的个数和成员； 4) 特征词提取方法评价本文认为特征词能代表评价主题，Nc 为代表评价主题的特征词数，NA 为选择的特征词数，准确率 P 如式 (9) 所示： P = Nc NA (9) 有学者研究提出召回率不适合评论数据的评价指标，因此本文借助别人提出的 GMM 指标， Nc 为能代表评价主题的特征词数，NA 为所选择的特征词数，准确率 GMM 如式 (10) 所示： GMM = √ Nc NA × Nc NA (10) 2.4 特征词的验证采用数据集 2 对所选特征词进行校验。 3 实验及结果分析本文采用主题爬虫对网络数据进行抓取。获第 6 期秦海菲，等：酒店在线评论数据的特征挖掘 ·1009·

·1010· 智能系统学报第13卷取全国高端酒店（四、五星级酒店）的在线点评数评价。根据酒店在线评论数据的分词结果，对词据，并对在线点评数据进行处理，把全国高端酒性的分析如表1所示。店（四、五星级酒店）按数字评分进行排序，取出表1词性分析数字评分排在前20名的酒店数据为数据集1和 Table 1 Part of speech analysis 数字评分排在后20名的酒店数据为数据集2。应词性名词形容词动词副词用数据集1进行建模分析。在建模过程中，对数词数 1016342 416694 850014 378516 据进行清洗，再对数据进行特征抽取、特征筛选占比% 25.10 10.29 20.99 9.35 和特征选取，应用数据集2对特征词进行校验。根据实验需求，从网络上爬取的50余万条数从表1可以看出，在所有词语中名词、形容据中筛选出前20名的酒店174449条评论数据词、动词、副词在所有词中占到了2/3，名词的占 (数据集1)和后20名的酒店104898条数据（数据比是最高的，占到了25.10%，其次是动词占20.99% 集2)进行分析，采用中科院分词系统和结巴分词 (包含动名词占总词数的2.5%，后面分析时把这相结合的方法分别对数据集1和数据集2进行分部分词归属名词处理)。对词性进行分析，分析结词，去停用词后分别得到4049078个词条和果如图4所示。 1857523个词条，并分别对词条进行分析。由于词条数太多，再次对词条的低频词和高频非特征词进行处理，为了降低词条维度和分析的难度，采用降维、抽样的方法对词条进行分析。抽取了频数排在前100的词条进行词云分析，词云图如图3所示。 (a)名词词云图 (b)形容词词云图图服务都非常位姓真的住就入环境推荐授有有图3词云图 (c)动词词云图 (d副词词云图 Fig.3 Word cloud 图4词性词云图 3.1特征词抽取与筛选 Fig.4 Part of speech word cloud 近年来，有许多学者对特征词的提取方法进根据图4名词、形容词、动词、副词的词云图行研究。特征词提取方法可以归纳为监督型和非可以看出名词作为评价的主题，作为候选特征词监督型两类2。监督型可以用多种方法训练模的确比较显著。除名词外，在动词词云图中最为型，并实时调整参数；非监督型特征词抽取主要有明显的“服务”一词也可以作为评价的主题。对这基于统计、基于词性规则、基于主题模型、基于词部分词语的词性进行查看，“服务”属于动名词，排列图的方法。本文将利用统计、词性和主题模为了特征提取的方便，把动名词归属于名词的行型的方法对特征词抽取进行分析。列。但还有一部分词语完全是动词.但也表达名 3.1.1词性分析词的意思，比如“装修”、“位置”、“出行”等，这一从图3可以看出词条多且复杂，如果把所有部分是动词名用，对于这一部分词需要作为特征的词都作为候选特征词，那么特征向量的维数将词分析。评论数据属于短文本数据，并没有完全非常大，难于进行计算和分类。在词云图中很多遵从自然语言的语法结构，动词名用或名词动用词要与其他词组合在一起才具有实际意义。比情况很常见。因此，在特征词的选取上只选取系如：“服务好”、“服务不错”、“服务不好”、“服务很统所分的名词是不可取的，必须根据专业、行业、差”、“环境好”、“环境不错”、“环境很好”、“环境常识等对词性进行进一步的筛选与确定。根据词很差”、“好”、“不错”、“差”等词是对某一主题的性的词频对候选特征词的分析如表2所示

取全国高端酒店 (四、五星级酒店) 的在线点评数据，并对在线点评数据进行处理，把全国高端酒店 (四、五星级酒店) 按数字评分进行排序，取出数字评分排在前 20 名的酒店数据为数据集 1 和数字评分排在后 20 名的酒店数据为数据集 2。应用数据集 1 进行建模分析。在建模过程中，对数据进行清洗，再对数据进行特征抽取、特征筛选和特征选取，应用数据集 2 对特征词进行校验。根据实验需求，从网络上爬取的 50 余万条数据中筛选出前 20 名的酒店 174 449 条评论数据 (数据集 1) 和后 20 名的酒店 104 898 条数据 (数据集 2) 进行分析，采用中科院分词系统和结巴分词相结合的方法分别对数据集 1 和数据集 2 进行分词，去停用词后分别得到 4 049 078 个词条和 1 857 523 个词条，并分别对词条进行分析。由于词条数太多，再次对词条的低频词和高频非特征词进行处理，为了降低词条维度和分析的难度，采用降维、抽样的方法对词条进行分析。抽取了频数排在前 100 的词条进行词云分析，词云图如图 3 所示。图 3 词云图 Fig. 3 Word cloud 3.1 特征词抽取与筛选近年来，有许多学者对特征词的提取方法进行研究。特征词提取方法可以归纳为监督型和非监督型两类[20]。监督型可以用多种方法训练模型,并实时调整参数；非监督型特征词抽取主要有基于统计、基于词性规则、基于主题模型、基于词排列图的方法。本文将利用统计、词性和主题模型的方法对特征词抽取进行分析。 3.1.1 词性分析从图 3 可以看出词条多且复杂，如果把所有的词都作为候选特征词，那么特征向量的维数将非常大，难于进行计算和分类。在词云图中很多词要与其他词组合在一起才具有实际意义。比如：“服务好”、“服务不错”、“服务不好”、“服务很差”、“环境好”、“环境不错”、“环境很好”、“环境很差”、“好”、“不错”、“差”等词是对某一主题的评价。根据酒店在线评论数据的分词结果，对词性的分析如表 1 所示。表 1 词性分析 Table 1 Part of speech analysis 词性名词形容词动词副词词数 1 016 342 416 694 850 014 378 516 占比/% 25.10 10.29 20.99 9.35 从表 1 可以看出，在所有词语中名词、形容词、动词、副词在所有词中占到了 2/3，名词的占比是最高的，占到了 25.10%，其次是动词占 20.99% (包含动名词占总词数的 2.5%，后面分析时把这部分词归属名词处理)。对词性进行分析，分析结果如图 4 所示。 (a) 名词词云图 (b) 形容词词云图图 (c) 动词词云图 (d) 副词词云图图 4 词性词云图 Fig. 4 Part of speech word cloud 根据图 4 名词、形容词、动词、副词的词云图可以看出名词作为评价的主题，作为候选特征词的确比较显著。除名词外，在动词词云图中最为明显的“服务”一词也可以作为评价的主题。对这部分词语的词性进行查看，“服务”属于动名词，为了特征提取的方便，把动名词归属于名词的行列。但还有一部分词语完全是动词，但也表达名词的意思，比如“装修”、“位置”、“出行”等，这一部分是动词名用，对于这一部分词需要作为特征词分析。评论数据属于短文本数据，并没有完全遵从自然语言的语法结构，动词名用或名词动用情况很常见。因此，在特征词的选取上只选取系统所分的名词是不可取的，必须根据专业、行业、常识等对词性进行进一步的筛选与确定。根据词性的词频对候选特征词的分析如表 2 所示。 ·1010· 智能系统学报第 13 卷

第6期秦海菲，等：酒店在线评论数据的特征挖掘 ·1011· 表2候选特征词词性分析 Table 2 Part of speech analysis of candidate feature words 方法提取特征代表评价主题很、好、不错、服务、也、是、都、房间、非常、有、环境、还不分词性(TF) 服务、房间、环境、早餐方便、入住、早餐、在、住、和、去、下次、房间、环境、早餐、设施、感觉、热情、交通、宾馆、服务员、房间、环境、早餐、设施、交通、宾馆、服务员名词(TF) 性价比、前台、温泉、人、服务态度、价格、有点、水果、性价比、前台、温泉、服务态度、价格、水果、大堂、地理位置、味道大堂、地理位置、味道服务、是、有、住、去、到、位置、来、推荐、满意、没有、还有、动词(TF) 服务、位置、装修值得、会、吃、免费、选择、送、贴心、装修不错、服务、房间、入住、早餐、非常、环境、下次、方便、服务、房间、早餐、环境、方便、设施、服务员、 TF_IDF 干净、设施、服务员、性价比、宾馆、前台、服务态度、性价比、前台、服务态度感觉、热情、满意服务、房间、环境、早餐、设施、位置、交通、性价比、服务员、服务、房间、环境、早餐、设施、位置、交通、动词+名词前台、服务态度、价格、卫生、水果、地理位置、大堂、温泉、性价比、服务员、前台、服务态度、价格、卫生、味道、装修水果、地理位置、大堂、温泉、味道、装修综合几种特征词提取方法，本文先利用无监词性在无监督的情况下动词+名词提取的特征词督方法TF(词频数)提取候选特征，所提取的20 效果与TFDF的提取效果一样，而选择名词作个特征词能代表评价主题值有4个。综合T℉和为特征词，在监督下筛选动词作为补充，所提取的效词性进行分析，形容词、副词中没有能代表评价果要比只提取名词的效果要好，准确率和GMM 主题的候选特征词；动词中代表评价主题的有值都达到了87%，而若名词+动词的筛选都在监督 3个，名词中16个。利用TFDF提取的候选特征词下完成，所得的候选特征词与评价主题的特征词的准代表评价主题的有10个。而综合无监督型的T℉、确率和GMM达到95%以上。具体结果如图5所示。 100 95% 87% 80H 60 50% 40 20 15% 15% K- 不分词性名词动词不分词性动词+名词名词+动词名词+动词 TF TF IDF 名词名词+动词无监督监督了准确率图GMM 图5特征词提取方法对比 Fig.5 Comparison of feature words extraction methods 3.2特征词指标分析时，在各个指标上选取特征词的结果都不一样。虽然动词+名词结合的特征词比较适合分析， TF和DF最高的是“服务”，TF,最高的是“房间”，但候选特征词的维度比较大，各候选特征词之间 TTW最高的是“环境”，IDF最高的是“装修”，TF 的关系比较复杂，是否具备特征词的特性还需要 IDF最高的是“温泉”。“温泉”的TF-DF的值是进一步分析，特征词指标分析如表3所示。最高的，但从专业的角度看，温泉可能是高端型从表3可以看出根据词频数(TF)、词频率酒店的一个特征，但不能作为最重要的评价指 (TF)词频权重(TTW)、评论频率(DF)、逆文档频标。“温泉”的TF-DF值高说明有很多高端客户率(IDF)和TF,-IDF这6个评价指标选取特征词在关注“温泉”，但用“温泉”作为酒店评论数据的

综合几种特征词提取方法，本文先利用无监督方法 TF(词频数) 提取候选特征，所提取的 20 个特征词能代表评价主题值有 4 个。综合 TF 和词性进行分析，形容词、副词中没有能代表评价主题的候选特征词；动词中代表评价主题的有 3 个，名词中 16 个。利用 TF_IDF 提取的候选特征词代表评价主题的有 10 个。而综合无监督型的 TF、词性在无监督的情况下动词+名词提取的特征词效果与 TF_IDF 的提取效果一样，而选择名词作为特征词，在监督下筛选动词作为补充，所提取的效果要比只提取名词的效果要好，准确率和 GMM 值都达到了 87%，而若名词+动词的筛选都在监督下完成，所得的候选特征词与评价主题的特征词的准确率和 GMM 达到 95% 以上。具体结果如图 5 所示。特征词占比/% 100 80 60 40 20 0 15% 15% TF TF_IDF 名词名词+动词动词不分词性动词+名词名词+动词名词+动词无监督监督不分词性名词 80% 50% 50% 87% 95% 准确率 GMM 图 5 特征词提取方法对比 Fig. 5 Comparison of feature words extraction methods 3.2 特征词指标分析虽然动词+名词结合的特征词比较适合分析，但候选特征词的维度比较大，各候选特征词之间的关系比较复杂，是否具备特征词的特性还需要进一步分析，特征词指标分析如表 3 所示。从表 3 可以看出根据词频数 (TF)、词频率 (TF1 )、词频权重 (TTW)、评论频率 (DF)、逆文档频率 (IDF) 和 TF1 -IDF 这 6 个评价指标选取特征词时，在各个指标上选取特征词的结果都不一样。 TF 和 DF 最高的是“服务”，TF1 最高的是“房间”， TTW 最高的是“环境”，IDF 最高的是“装修”，TF1 - IDF 最高的是“温泉”。“温泉”的 TF1 -IDF 的值是最高的，但从专业的角度看，温泉可能是高端型酒店的一个特征，但不能作为最重要的评价指标。“温泉”的 TF1 -IDF 值高说明有很多高端客户在关注“温泉”，但用“温泉”作为酒店评论数据的表 2 候选特征词词性分析 Table 2 Part of speech analysis of candidate feature words 方法提取特征代表评价主题不分词性 (TF) 很、好、不错、服务、也、是、都、房间、非常、有、环境、还、方便、入住、早餐、在、住、和、去、下次、服务、房间、环境、早餐名词 (TF) 房间、环境、早餐、设施、感觉、热情、交通、宾馆、服务员、性价比、前台、温泉、人、服务态度、价格、有点、水果、大堂、地理位置、味道房间、环境、早餐、设施、交通、宾馆、服务员、性价比、前台、温泉、服务态度、价格、水果、大堂、地理位置、味道动词 (TF) 服务、是、有、住、去、到、位置、来、推荐、满意、没有、还有、值得、会、吃、免费、选择、送、贴心、装修服务、位置、装修 TF_ IDF 不错、服务、房间、入住、早餐、非常、环境、下次、方便、干净、设施、服务员、性价比、宾馆、前台、服务态度、感觉、热情、满意服务、房间、早餐、环境、方便、设施、服务员、性价比、前台、服务态度动词+名词服务、房间、环境、早餐、设施、位置、交通、性价比、服务员、前台、服务态度、价格、卫生、水果、地理位置、大堂、温泉、味道、装修服务、房间、环境、早餐、设施、位置、交通、性价比、服务员、前台、服务态度、价格、卫生、水果、地理位置、大堂、温泉、味道、装修第 6 期秦海菲，等：酒店在线评论数据的特征挖掘 ·1011·

·1012· 智能系统学报第13卷特征词是没有代表性的。从单一的指标中选取出 6 的特征词不能完全满足特征词选择的可读性、相关性、重要性、覆盖度、一致性的要求，但各个指 0 标对候选特征词又都有影响。因此，考虑对象酒服早设位餐施置通房间价比店在线评论数据的实际情况，综合应用TF、TF、 dist TTW、DF、IDF和TF-IDF这6个指标对候选特征 (b)离差平方和词进行分析。从表3可以看出各个候选特征词在各个评价指标上的量纲是不同的，并且差距很 2 大，TF、TF、TTW、DF、IDF和TF-IDF各指标之间存在着很强的相关性。综合19个候选特征词服务设位房环的6个评价指标的实际情况看，降低特征词的维施置境台 dist 度是选取特征词最实用的方法。 (c)最大距离法表3指标分析 Table 3 Index analysis 候选关键词 TF TF TTW DF IDF TF_IDF 0 服务 734650.0180.8480.3570.4470.008 服务设位交房环服房间置通 464390.2660.8260.2200.6580.175 餐间境员比 dist 环境 338920.1940.9500.1850.7340.143 (d相似分析早餐 336030.1930.7270.1400.8540.164 设施图6数据集1候选特征词聚类 265010.1520.5970.0911.0430.158 Fig.6 Dataset1 Candidate feature words cluster 位置 264180.1510.5160.0781.107 0.168 表4候选特征词归类表交通 262730.1510.4890.0741.1330.171 Table 4 Candidate feature word classification 服务员 257050.1470.4080.0601.2210.180 类候选特征词特征词性价比253380.1450.4370.0631.1980.174 1 服务、服务员、服务态度、前台服务前台 233110.1340.3810.0511.293 0.173 2 房间、设施设施温泉 227950.1310.2580.0341.4720.192 3 位置、环境、交通、地理位置环境服务态度 212740.1220.3790.0461.335 0.163 4 早餐、水果、味道餐饮价格 205520.1180.3750.0441.355 整体舒适度 0.160 5 大堂、性价比、价格、卫生、装修、温泉卫生 202480.1160.3600.0421.3790.160 通过表4可以看出特征词“服务”包含了“服水果 193860.1110.3510.0391.409 0.157 务”、“服务员”、“服务态度”、“前台”等服务信息；大堂 187920.1080.3180.0341.4650.158 特征词“设施”包含了“房间”、“设施”等硬件设施地理位置 167390.0960.3870.0371.430 0.137 信息；特征词“环境”包含了“位置”、“环境”、“交味道 167290.0960.3480.0331.4770.142 通”、“地理位置”等信息；特征词“餐饮”包含了“早装修 164920.0950.3260.0311.5110.143 餐”、“水果”、“味道”等餐饮信息；整体舒适度包综合图6候选特征词的4个聚类树图根据聚含了“大堂”、“性价比”、“价格”、“卫生”、“装修” 类结果和酒店的专业知识，聚类为5类比较合理， “温泉”等整体舒适度信息。这5个特征词能满足特征词选取的可读性、相关性、重要性、覆盖度、一致性把酒店在线评论候选词归并为5类，并对5类特的准则，因此可以作为酒店在线评论数据的特征词。征进行综合分析，综合19个候选特征词的聚类结 3.3特征词的校验和选定果如表4所示。 3.3.1方法的验证采用同样的方法，用数据集2（数字评分排在 2 后20家的酒店数据)的词条进行了词性分析，处理后得到了24个候选特征词，计算出24个候选服房设位交间餐特征词的6个指标(TF、TF:、TTW、DF、IDF和员比施置通 dist TF-IDF)的值，并对数据进行标准化后，采用6个 (a)类平均法指标对候选特征词进行聚类，所得的聚类结果如

特征词是没有代表性的。从单一的指标中选取出的特征词不能完全满足特征词选择的可读性、相关性、重要性、覆盖度、一致性的要求，但各个指标对候选特征词又都有影响。因此，考虑对象酒店在线评论数据的实际情况，综合应用 TF、TF1、 TTW、DF、IDF 和 TF1 -IDF 这 6 个指标对候选特征词进行分析。从表 3 可以看出各个候选特征词在各个评价指标上的量纲是不同的，并且差距很大，TF、TF1、TTW、DF、IDF 和 TF1 -IDF 各指标之间存在着很强的相关性。综合 19 个候选特征词的 6 个评价指标的实际情况看，降低特征词的维度是选取特征词最实用的方法。综合图 6 候选特征词的 4 个聚类树图根据聚类结果和酒店的专业知识，聚类为 5 类比较合理，把酒店在线评论候选词归并为 5 类，并对 5 类特征进行综合分析，综合 19 个候选特征词的聚类结果如表 4 所示。表 4 候选特征词归类表 Table 4 Candidate feature word classification 类候选特征词特征词 1 服务、服务员、服务态度、前台服务 2 房间、设施设施 3 位置、环境、交通、地理位置环境 4 早餐、水果、味道餐饮 5 大堂、性价比、价格、卫生、装修、温泉整体舒适度通过表 4 可以看出特征词“服务”包含了“服务”、“服务员”、“服务态度”、“前台”等服务信息；特征词“设施”包含了“房间”、“设施”等硬件设施信息；特征词“环境”包含了“位置”、“环境”、“交通”、“地理位置”等信息；特征词“餐饮”包含了“早餐”、“水果”、“味道”等餐饮信息；整体舒适度包含了“大堂”、“性价比”、“价格”、“卫生”、“装修”、 “温泉”等整体舒适度信息。这 5 个特征词能满足特征词选取的可读性、相关性、重要性、覆盖度、一致性的准则，因此可以作为酒店在线评论数据的特征词。 3.3 特征词的校验和选定 3.3.1 方法的验证采用同样的方法，用数据集 2(数字评分排在后 20 家的酒店数据) 的词条进行了词性分析，处理后得到了 24 个候选特征词，计算出 24 个候选特征词的 6 个指标 (TF、TF1、TTW、DF、IDF 和 TF1 -IDF) 的值，并对数据进行标准化后，采用 6 个指标对候选特征词进行聚类，所得的聚类结果如 (b) 离差平方和高度 6 3 0 dist 环境房间交通位置设施早餐服务前台服务员性价比环境房间交通位置设施早餐服务前台服务员性价比环境房间交通位置设施早餐服务前台服务员性价比 (c) 最大距离法高度 4 2 0 dist (d) 相似分析高度 4 2 0 dist 图 6 数据集 1 候选特征词聚类 Fig. 6 Dataset1 Candidate feature words cluster (a) 类平均法高度 4 2 0 dist 服务房间环境早餐前台服务员性价比设施位置交通表 3 指标分析 Table 3 Index analysis 候选关键词 TF TF1 TTW DF IDF TF1_IDF 服务 73 465 0.018 0.848 0.357 0.447 0.008 房间 46 439 0.266 0.826 0.220 0.658 0.175 环境 33 892 0.194 0.950 0.185 0.734 0.143 早餐 33 603 0.193 0.727 0.140 0.854 0.164 设施 26 501 0.152 0.597 0.091 1.043 0.158 位置 26 418 0.151 0.516 0.078 1.107 0.168 交通 26 273 0.151 0.489 0.074 1.133 0.171 服务员 25 705 0.147 0.408 0.060 1.221 0.180 性价比 25 338 0.145 0.437 0.063 1.198 0.174 前台 23 311 0.134 0.381 0.051 1.293 0.173 温泉 22 795 0.131 0.258 0.034 1.472 0.192 服务态度 21 274 0.122 0.379 0.046 1.335 0.163 价格 20 552 0.118 0.375 0.044 1.355 0.160 卫生 20 248 0.116 0.360 0.042 1.379 0.160 水果 19 386 0.111 0.351 0.039 1.409 0.157 大堂 18 792 0.108 0.318 0.034 1.465 0.158 地理位置 16 739 0.096 0.387 0.037 1.430 0.137 味道 16 729 0.096 0.348 0.033 1.477 0.142 装修 16 492 0.095 0.326 0.031 1.511 0.143 ·1012· 智能系统学报第 13 卷

第6期秦海菲，等：酒店在线评论数据的特征挖掘 ·1013· 图7所示（为了图形清晰，本文只选取了T℉最高性，可以看出把服务、设施、环境、餐饮和整体舒的数据进行展示)。适度作为酒店在线评论数据的特征词是合理的。综合图7候选特征词的4个聚类树图，根据表5后20名酒店特征词归类表聚类结果，可以看出聚类为5类比较合理，根据酒 Table 5 The last 20 Hotel feature word 店的专业知识，把酒店在线评论候选词归并为 5类，结果如表5所示。候选特征词归并后特征词 1 服务、服务员、服务态度、前台等服务房间、设施、床、房、空调等设施环境、位置、交通、地理位置、地段」 3 环境出行、周边、附近等 4 早餐、水果、味道等餐饮服务位环设置境性价比大堂、性价比、价格、卫生、装修通整体舒适度 dist 温泉、总体、整体等 (a)类平均法综合6个评价指标聚类图，对于评论数据， TF分析的结果要比TF_IDF的效果好，选取以 TF为主，TF、TTW、DF、DF、TF,IDF为辅的指标聚类时，选取TF排在前10的候选特征词聚类和选取更多的候选特征词聚类结果类似，后面的 0 早设负候选特征词只是对前面结果的补充或细化。务餐境性价比 dist 4结束语 (b)离差平方和本文从酒店在线点评数据出发，对数据的感知获取、数据预处理、词性分析、特征选取、特征筛选、特征确定等进行了研究。对特征词的筛选和确定进行了分析。单个指标(TF或者TF, DF)对特征词的筛选和选择效果不理想，需要综位交早环价合TF、TF1、TTW、DF、IDF、TF,-IDF多个指标进务置餐境格行分析。采用了无监督的聚类方法对变量进行聚 dist (c)最大距离法类分析，聚类时采用数据标准化消除指标相关性和量纲的影响。综合聚类分析的结果和酒店专业知识选定酒店在线评论数据的特征词，通过将 20家酒店作为数据集2对特征词进行校验，得出酒店在线评论的特征词是服务、环境、设施、整体 0 舒适度、餐饮。下一步将根据特征词构造更方服交早环设价便、快捷、可靠的分类器，为酒店和客户进一步细置通餐境施比格分做好准备，同时也为酒店为客户提供的个性化 dist (d相似分析法的智能推荐服务奠定基础。图7数据集2候选特征词聚类参考文献： Fig.7 Dataset2 Candidate feature words cluster [1]吴维芳，高宝俊，杨海霞，等.评论文本对酒店满意度的影从表5中可以看出，部分被归并的候选特征词响：基于情感分析的方法U.数据分析与知识发现，2017，有了更细化、更相近或概括的变化，例如设施中 1(3):62-71 增加了“床”、“房”、“空调”等细化词；环境中增加 WU Weifang,GAO Baojun,YANG Haixia,et al.The im- 了“地段”、“出行”、“周边”、“附近”等相近词；整 pacts of reviews on hotel satisfaction:a sentiment analysis method[J].Data analysis and knowledge discovery,2017, 体舒适度增加了“总体”、“整体”概括词。综合酒店 1(3):62-71 在线评论的两个数据集和网络在线点评数据的特 [2]GAVILAN D,AVELLO M,MARTINEZ-NAVARRO G

图 7 所示 (为了图形清晰，本文只选取了 TF 最高的数据进行展示)。综合图 7 候选特征词的 4 个聚类树图，根据聚类结果，可以看出聚类为 5 类比较合理，根据酒店的专业知识，把酒店在线评论候选词归并为 5 类，结果如表 5 所示。从表 5 中可以看出，部分被归并的候选特征词有了更细化、更相近或概括的变化，例如设施中增加了“床”、“房”、“空调”等细化词；环境中增加了“地段”、“出行”、“周边”、“附近”等相近词；整体舒适度增加了“总体”、“整体”概括词。综合酒店在线评论的两个数据集和网络在线点评数据的特性，可以看出把服务、设施、环境、餐饮和整体舒适度作为酒店在线评论数据的特征词是合理的。综合 6 个评价指标聚类图，对于评论数据， TF 分析的结果要比 TF_IDF 的效果好，选取以 TF 为主，TF1、TTW、DF、IDF、TF1_IDF 为辅的指标聚类时，选取 TF 排在前 10 的候选特征词聚类和选取更多的候选特征词聚类结果类似，后面的候选特征词只是对前面结果的补充或细化。 4 结束语本文从酒店在线点评数据出发，对数据的感知获取、数据预处理、词性分析、特征选取、特征筛选、特征确定等进行了研究。对特征词的筛选和确定进行了分析。单个指标 (TF 或者 TF1 - IDF) 对特征词的筛选和选择效果不理想，需要综合 TF、TF1、TTW、DF、IDF、TF1 -IDF 多个指标进行分析。采用了无监督的聚类方法对变量进行聚类分析，聚类时采用数据标准化消除指标相关性和量纲的影响。综合聚类分析的结果和酒店专业知识选定酒店在线评论数据的特征词，通过将 20 家酒店作为数据集 2 对特征词进行校验，得出酒店在线评论的特征词是服务、环境、设施、整体舒适度、餐饮。下一步将根据特征词构造更方便、快捷、可靠的分类器，为酒店和客户进一步细分做好准备，同时也为酒店为客户提供的个性化的智能推荐服务奠定基础。参考文献：吴维芳,高宝俊, 杨海霞, 等. 评论文本对酒店满意度的影响: 基于情感分析的方法[J]. 数据分析与知识发现, 2017, 1(3): 62–71. WU Weifang, GAO Baojun, YANG Haixia, et al. The impacts of reviews on hotel satisfaction: a sentiment analysis method[J]. Data analysis and knowledge discovery, 2017, 1(3): 62–71. [1] [2] GAVILAN D, AVELLO M, MARTINEZ-NAVARRO G. (a) 类平均法 (b) 离差平方和 (c) 最大距离法 (d) 相似分析法高度 4 3 2 1 0 高度 4 2 0 高度 4 2 3 1 0 高度 6 4 2 0 dist dist dist dist 服务位置交通早餐环境设施性价比价格服务位置交通早餐环境设施性价比价格服务位置交通早餐环境设施性价比价格服务位置交通早餐环境设施性价比价格图 7 数据集 2 候选特征词聚类 Fig. 7 Dataset2 Candidate feature words cluster 表 5 后 20 名酒店特征词归类表 Table 5 The last 20 Hotel feature word 类候选特征词归并后特征词 1 服务、服务员、服务态度、前台等服务 2 房间、设施、床、房、空调等设施 3 环境、位置、交通、地理位置、地段、出行、周边、附近等环境 4 早餐、水果、味道等餐饮 5 大堂、性价比、价格、卫生、装修、温泉、总体、整体等整体舒适度第 6 期秦海菲，等：酒店在线评论数据的特征挖掘 ·1013·

·1014· 智能系统学报第13卷 The influence of online ratings and reviews on hotel book- hashing[J].IEEE transactions on knowledge and data en- ing consideration[J].Tourism management,2018,66: gineering,2016,28(2):566-579. 53-61 [15]王仲远，程健鹏，王海勋，等.短文本理解研究.计算 [3]TAN Sangsang,NA JC.Mining semantic patterns for sen- 机研究与发展，2016,53(2)：262-269 timent analysis of product reviews[Cl//Proceedings of the WANG Zhongyuan,CHENG Jianpeng,WANG Haixun, 21st International Conference on Theory and Practice of et al.Short text understanding:a survey[J].Journal of Digital Libraries Research and Advanced Technology for computer research and development,2016,53(2): Digital Libraries.Thessaloniki,Greece,2017:382-393. 262-269. [4]PENG Honggang,ZHANG Hongyu,WANG Jianqiang. [16]常耀成，张宇翔，王红，等.特征驱动的关键词提取算法 Cloud decision support model for selecting hotels on Tri- 综述[J.软件学报，2018.29(7)：2046-2070. pAdvisor.com with probabilistic linguistic information[J]. CHANG Yaocheng,ZHANG Yuxiang,WANG Hong,et International journal of hospitality management,2018,68: al.Features Oriented survey of state-of-the-art keyphrase 124138. extraction algorithms[J].Journal of software,2018,29(7): [5]GAVILAN D.AVELLO M,MARTINEZ-NAVARRO G. 2046-2070. The influence of online ratings and reviews on hotel book- [17]赵京胜，朱巧明，周国栋，等.自动关键词抽取研究综述 ing consideration[J].Tourism management,2018,66: [).软件学报，2017,28(9)2431-2449. 53-61. ZHAO Jingsheng,ZHU Qiaoming,ZHOU Guodong,et [6]XIE K L,ZHANG Zili,ZHANG Ziqiong.The business al.Review of research in automatic keyword extraction[J]. value of online consumer reviews and management re- sponse to hotel performance[J].International journal of Journal of software,2017,28(9):2431-2449. [18]杜政霖，李云.基于特征聚类集成技术的在线特征选择 hospitality management,2014,43:1-12. [7]LIU Bing.Sentiment analysis and opinion mining[J].Syn- [0.计算机应用，2017,37(3)：866-870. DU Zhenglin,LI Yun.Online feature selection based on thesis lectures on human language technologies,2012, 51):1-16 feature clustering ensemble technology[J].Journal of [8]RAVI K,RAVI V.A survey on opinion mining and senti- computer applications,2017,37(3):866-870. ment analysis[J].Knowledge-based systems,2015,89(C): [19]王斌会.多元统计分析及R语言建模M).4版.暨南大 14-46 学出版社，2016：159-181 [9]GUELLIL I,BOUKHALFA K.Social big data mining:a WANG Binhui.Multivariate statistical analysis and mod- survey focused on opinion mining and sentiments eling for R language[M].4th ed.Jinan University Press, analysis[C]//Proceedings of the 12th International Sym- 2016:159-181 posium on Programming and Systems.Algiers,Algeria, [20]FANG Lei,LIU Biao,HUANG Minlie.Leveraging large 2015:1-10 data with weak supervision for joint feature and opinion [10]RANA T A,CHEAH Y N.Aspect extraction in senti- word extraction[J.Journal of computer science and tech- ment analysis:comparative analysis and survey[J].Artifi- nology,.2015,30(4:903-916. cial intelligence review,2016,46(4):459-483. 作者简介： [11]SUN Shiliang,LUO Chen,CHEN Junyu.A review of 秦海菲，女，1980年生，副教授 natural language processing techniques for opinion min- 主要研究方向为数据库、数据仓库、数 ing systems[J].Information fusion,2017,36:10-25. 据挖掘。 [12]李建华，刘功申，林祥.情感倾向性分析及应用研究综述).信息安全学报，2017,2(2)：48-62 LI Jianhua,LIU Gongshen,LIN Xiang.Survey on senti- ment orientation analysis and its applications[J].Journal of cyber security,2017,2(2):48-62. 杜军平，女，1963年生，教授，博 [13]韩忠明，李梦琪，刘雯，等.网络评论方面级观点挖掘方土生导师，主要研究方向为人工智能法研究综述).软件学报，2018,29(2)：417-441 社交网络分析、数据挖掘、运动图像处 HAN Zhongming,LI Mengqi,LIU Wen,et al.Survey of 理，主持国家“863”、“973”计划项目、 studies on aspect-based opinion mining of internet[J]. 国家自然科学基金重点项目、国家自 Journal of software,2018,29(2):417-441. 然科学基金重大国际合作项目、北京 [14]YU Zheng,WANG Haixun,LIN Xuemin,et al.Under- 市自然科学基金重点项目等多项，发 standing short texts through semantic enrichment and 表学术论文多篇

The influence of online ratings and reviews on hotel booking consideration[J]. Tourism management, 2018, 66: 53–61. TAN Sangsang, NA J C. Mining semantic patterns for sentiment analysis of product reviews[C]//Proceedings of the 21st International Conference on Theory and Practice of Digital Libraries Research and Advanced Technology for Digital Libraries. Thessaloniki, Greece, 2017: 382–393. [3] PENG Honggang, ZHANG Hongyu, WANG Jianqiang. Cloud decision support model for selecting hotels on TripAdvisor.com with probabilistic linguistic information[J]. International journal of hospitality management, 2018, 68: 124–138. [4] GAVILAN D, AVELLO M, MARTINEZ-NAVARRO G. The influence of online ratings and reviews on hotel booking consideration[J]. Tourism management, 2018, 66: 53–61. [5] XIE K L, ZHANG Zili, ZHANG Ziqiong. The business value of online consumer reviews and management response to hotel performance[J]. International journal of hospitality management, 2014, 43: 1–12. [6] LIU Bing. Sentiment analysis and opinion mining[J]. Synthesis lectures on human language technologies, 2012, 5(1): 1–16. [7] RAVI K, RAVI V. A survey on opinion mining and sentiment analysis[J]. Knowledge-based systems, 2015, 89(C): 14–46. [8] GUELLIL I, BOUKHALFA K. Social big data mining: a survey focused on opinion mining and sentiments analysis[C]//Proceedings of the 12th International Symposium on Programming and Systems. Algiers, Algeria, 2015: 1–10. [9] RANA T A, CHEAH Y N. Aspect extraction in sentiment analysis: comparative analysis and survey[J]. Artificial intelligence review, 2016, 46(4): 459–483. [10] SUN Shiliang, LUO Chen, CHEN Junyu. A review of natural language processing techniques for opinion mining systems[J]. Information fusion, 2017, 36: 10–25. [11] 李建华, 刘功申, 林祥. 情感倾向性分析及应用研究综述[J]. 信息安全学报, 2017, 2(2): 48–62. LI Jianhua, LIU Gongshen, LIN Xiang. Survey on sentiment orientation analysis and its applications[J]. Journal of cyber security, 2017, 2(2): 48–62. [12] 韩忠明, 李梦琪, 刘雯, 等. 网络评论方面级观点挖掘方法研究综述[J]. 软件学报, 2018, 29(2): 417–441. HAN Zhongming, LI Mengqi, LIU Wen, et al. Survey of studies on aspect-based opinion mining of internet[J]. Journal of software, 2018, 29(2): 417–441. [13] YU Zheng, WANG Haixun, LIN Xuemin, et al. Understanding short texts through semantic enrichment and [14] hashing[J]. IEEE transactions on knowledge and data engineering, 2016, 28(2): 566–579. 王仲远, 程健鹏, 王海勋, 等. 短文本理解研究[J]. 计算机研究与发展, 2016, 53(2): 262–269. WANG Zhongyuan, CHENG Jianpeng, WANG Haixun, et al. Short text understanding: a survey[J]. Journal of computer research and development, 2016, 53(2): 262–269. [15] 常耀成, 张宇翔, 王红, 等. 特征驱动的关键词提取算法综述[J]. 软件学报, 2018, 29(7): 2046–2070. CHANG Yaocheng, ZHANG Yuxiang, WANG Hong, et al. Features Oriented survey of state-of-the-art keyphrase extraction algorithms[J]. Journal of software, 2018, 29(7): 2046–2070. [16] 赵京胜, 朱巧明, 周国栋, 等. 自动关键词抽取研究综述 [J]. 软件学报, 2017, 28(9): 2431–2449. ZHAO Jingsheng, ZHU Qiaoming, ZHOU Guodong, et al. Review of research in automatic keyword extraction[J]. Journal of software, 2017, 28(9): 2431–2449. [17] 杜政霖, 李云. 基于特征聚类集成技术的在线特征选择 [J]. 计算机应用, 2017, 37(3): 866–870. DU Zhenglin, LI Yun. Online feature selection based on feature clustering ensemble technology[J]. Journal of computer applications, 2017, 37(3): 866–870. [18] 王斌会. 多元统计分析及 R 语言建模[M]. 4 版. 暨南大学出版社, 2016: 159–181. WANG Binhui. Multivariate statistical analysis and modeling for R language[M]. 4th ed. Jinan University Press, 2016: 159–181. [19] FANG Lei, LIU Biao, HUANG Minlie. Leveraging large data with weak supervision for joint feature and opinion word extraction[J]. Journal of computer science and technology, 2015, 30(4): 903–916. [20] 作者简介：秦海菲，女，1980 年生，副教授，主要研究方向为数据库、数据仓库、数据挖掘。杜军平，女，1963 年生，教授，博士生导师，主要研究方向为人工智能、社交网络分析、数据挖掘、运动图像处理，主持国家“863”、“973”计划项目、国家自然科学基金重点项目、国家自然科学基金重大国际合作项目、北京市自然科学基金重点项目等多项，发表学术论文多篇。 ·1014· 智能系统学报第 13 卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录