正在加载图片...
·1012· 智能系统学报 第13卷 特征词是没有代表性的。从单一的指标中选取出 6 的特征词不能完全满足特征词选择的可读性、相 关性、重要性、覆盖度、一致性的要求,但各个指 0 标对候选特征词又都有影响。因此,考虑对象酒 服 早 设位 餐 施 置 通 房间 价比 店在线评论数据的实际情况,综合应用TF、TF、 dist TTW、DF、IDF和TF-IDF这6个指标对候选特征 (b)离差平方和 词进行分析。从表3可以看出各个候选特征词在 各个评价指标上的量纲是不同的,并且差距很 2 大,TF、TF、TTW、DF、IDF和TF-IDF各指标之 间存在着很强的相关性。综合19个候选特征词 服务 设位 房 环 的6个评价指标的实际情况看,降低特征词的维 施 置 境 台 dist 度是选取特征词最实用的方法。 (c)最大距离法 表3指标分析 Table 3 Index analysis 候选关键词 TF TF TTW DF IDF TF_IDF 0 服务 734650.0180.8480.3570.4470.008 服务 设位交房 环 服 房间 置通 464390.2660.8260.2200.6580.175 餐 间 境 员 比 dist 环境 338920.1940.9500.1850.7340.143 (d相似分析 早餐 336030.1930.7270.1400.8540.164 设施 图6数据集1候选特征词聚类 265010.1520.5970.0911.0430.158 Fig.6 Dataset1 Candidate feature words cluster 位置 264180.1510.5160.0781.107 0.168 表4候选特征词归类表 交通 262730.1510.4890.0741.1330.171 Table 4 Candidate feature word classification 服务员 257050.1470.4080.0601.2210.180 类 候选特征词 特征词 性价比253380.1450.4370.0631.1980.174 1 服务、服务员、服务态度、前台 服务 前台 233110.1340.3810.0511.293 0.173 2 房间、设施 设施 温泉 227950.1310.2580.0341.4720.192 3 位置、环境、交通、地理位置 环境 服务态度 212740.1220.3790.0461.335 0.163 4 早餐、水果、味道 餐饮 价格 205520.1180.3750.0441.355 整体舒适度 0.160 5 大堂、性价比、价格、卫生、装修、温泉 卫生 202480.1160.3600.0421.3790.160 通过表4可以看出特征词“服务”包含了“服 水果 193860.1110.3510.0391.409 0.157 务”、“服务员”、“服务态度”、“前台”等服务信息; 大堂 187920.1080.3180.0341.4650.158 特征词“设施”包含了“房间”、“设施”等硬件设施 地理位置 167390.0960.3870.0371.430 0.137 信息;特征词“环境”包含了“位置”、“环境”、“交 味道 167290.0960.3480.0331.4770.142 通”、“地理位置”等信息;特征词“餐饮”包含了“早 装修 164920.0950.3260.0311.5110.143 餐”、“水果”、“味道”等餐饮信息;整体舒适度包 综合图6候选特征词的4个聚类树图根据聚 含了“大堂”、“性价比”、“价格”、“卫生”、“装修” 类结果和酒店的专业知识,聚类为5类比较合理, “温泉”等整体舒适度信息。这5个特征词能满足特 征词选取的可读性、相关性、重要性、覆盖度、一致性 把酒店在线评论候选词归并为5类,并对5类特 的准则,因此可以作为酒店在线评论数据的特征词。 征进行综合分析,综合19个候选特征词的聚类结 3.3特征词的校验和选定 果如表4所示。 3.3.1方法的验证 采用同样的方法,用数据集2(数字评分排在 2 后20家的酒店数据)的词条进行了词性分析,处 理后得到了24个候选特征词,计算出24个候选 服 房 设位交 间 餐 特征词的6个指标(TF、TF:、TTW、DF、IDF和 员比 施置通 dist TF-IDF)的值,并对数据进行标准化后,采用6个 (a)类平均法 指标对候选特征词进行聚类,所得的聚类结果如特征词是没有代表性的。从单一的指标中选取出 的特征词不能完全满足特征词选择的可读性、相 关性、重要性、覆盖度、一致性的要求,但各个指 标对候选特征词又都有影响。因此,考虑对象酒 店在线评论数据的实际情况,综合应用 TF、TF1、 TTW、DF、IDF 和 TF1 -IDF 这 6 个指标对候选特征 词进行分析。从表 3 可以看出各个候选特征词在 各个评价指标上的量纲是不同的,并且差距很 大,TF、TF1、TTW、DF、IDF 和 TF1 -IDF 各指标之 间存在着很强的相关性。综合 19 个候选特征词 的 6 个评价指标的实际情况看,降低特征词的维 度是选取特征词最实用的方法。 综合图 6 候选特征词的 4 个聚类树图根据聚 类结果和酒店的专业知识,聚类为 5 类比较合理, 把酒店在线评论候选词归并为 5 类,并对 5 类特 征进行综合分析,综合 19 个候选特征词的聚类结 果如表 4 所示。 表 4 候选特征词归类表 Table 4 Candidate feature word classification 类 候选特征词 特征词 1 服务、服务员、服务态度、前台 服务 2 房间、设施 设施 3 位置、环境、交通、地理位置 环境 4 早餐、水果、味道 餐饮 5 大堂、性价比、价格、卫生、装修、温泉 整体舒适度 通过表 4 可以看出特征词“服务”包含了“服 务”、“服务员”、“服务态度”、“前台”等服务信息; 特征词“设施”包含了“房间”、“设施”等硬件设施 信息;特征词“环境”包含了“位置”、“环境”、“交 通”、“地理位置”等信息;特征词“餐饮”包含了“早 餐”、“水果”、“味道”等餐饮信息;整体舒适度包 含了“大堂”、“性价比”、“价格”、“卫生”、“装修”、 “温泉”等整体舒适度信息。这 5 个特征词能满足特 征词选取的可读性、相关性、重要性、覆盖度、一致性 的准则,因此可以作为酒店在线评论数据的特征词。 3.3 特征词的校验和选定 3.3.1 方法的验证 采用同样的方法,用数据集 2(数字评分排在 后 20 家的酒店数据) 的词条进行了词性分析,处 理后得到了 24 个候选特征词,计算出 24 个候选 特征词的 6 个指标 (TF、TF1、TTW、DF、IDF 和 TF1 -IDF) 的值,并对数据进行标准化后,采用 6 个 指标对候选特征词进行聚类,所得的聚类结果如 (b) 离差平方和 高度 6 3 0 dist 环 境 房 间 交 通 位 置 设 施 早 餐 服 务 前 台 服 务 员 性 价 比 环 境 房 间 交 通 位 置 设 施 早 餐 服 务 前 台 服 务 员 性 价 比 环 境 房 间 交 通 位 置 设 施 早 餐 服 务 前 台 服 务 员 性 价 比 (c) 最大距离法 高度 4 2 0 dist (d) 相似分析 高度 4 2 0 dist 图 6 数据集 1 候选特征词聚类 Fig. 6 Dataset1 Candidate feature words cluster (a) 类平均法 高度 4 2 0 dist 服 务 房 间 环 境 早 餐 前 台 服 务 员 性 价 比 设 施 位 置 交 通 表 3 指标分析 Table 3 Index analysis 候选关键词 TF TF1 TTW DF IDF TF1_IDF 服务 73 465 0.018 0.848 0.357 0.447 0.008 房间 46 439 0.266 0.826 0.220 0.658 0.175 环境 33 892 0.194 0.950 0.185 0.734 0.143 早餐 33 603 0.193 0.727 0.140 0.854 0.164 设施 26 501 0.152 0.597 0.091 1.043 0.158 位置 26 418 0.151 0.516 0.078 1.107 0.168 交通 26 273 0.151 0.489 0.074 1.133 0.171 服务员 25 705 0.147 0.408 0.060 1.221 0.180 性价比 25 338 0.145 0.437 0.063 1.198 0.174 前台 23 311 0.134 0.381 0.051 1.293 0.173 温泉 22 795 0.131 0.258 0.034 1.472 0.192 服务态度 21 274 0.122 0.379 0.046 1.335 0.163 价格 20 552 0.118 0.375 0.044 1.355 0.160 卫生 20 248 0.116 0.360 0.042 1.379 0.160 水果 19 386 0.111 0.351 0.039 1.409 0.157 大堂 18 792 0.108 0.318 0.034 1.465 0.158 地理位置 16 739 0.096 0.387 0.037 1.430 0.137 味道 16 729 0.096 0.348 0.033 1.477 0.142 装修 16 492 0.095 0.326 0.031 1.511 0.143 ·1012· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有