正在加载图片...
148 200年4月 2手机( Nokia N0)属性的人工标注结果 Table 2 The manual features of mobile phone Nokia N70) 人工标注 商品名称 人工标注属性集合 属性数量 手机屏幕软件,电池体积游戏外形输入,字库,收音机内存语音摄像按键,唧,多媒体,耳机,待机时 (do间健盘南拍围速度系统功能播像头,手植售后服务声机身价格接口电话菜单音 拨号,版本快捷键兼容性闪光灯充电器质量智能屏称效果桌面运行速度音质 3.2性能评估方法 实验所采用的列联表如表3所示这里真实 按照前面提出的方法采用JAVA语言构造实产品属性数即人工标注结果的属性数量,其中作 验系统为了评估挖掘方法的性能本文采取了在为挖掘性能度量的查全率和查准率计算方法 文本处理问题研究中普遍使用的性能评估指标:如下 查全率(recl),查准率( precision).本文中的研 查准率( precIsIon)sA 究问题为判断所挖据的产品属性是否为人工标注 A +B 的真实属性这可以归结为二值分类,评估一般使 查全率(reca)=4 用2维列联表( contingency table) A+c 3评估方法性能的列联表 Table 3 The contingency table for performance of experiment 真正产品属性数 非真正产品属性数 本文方法挖据出来的产品属性数 本文方法没有挖据出来的产品属性数 3.3实验结果 通过去掉单字名词候选项,查准率获得了大幅度 综合5种商品的实验结果(如表4所示),平的提高为了深入验证方法的实际性能,需要进行 均查全率78%,平均查准率63.6%,说明本研中英文客户评论产品特征挖掘结果的差异显著性 究所提出方法具有一定有效性从表4可以看到检验 衰4实验结果 人工标注未去除中文单字属性 去除中文单字属 商品名称 查全率 网性数 查准率 56.4% 63.3% 数码相机( Cannon a710) 8% 5 数码相机( Cannon80) 44.6% 65,8% Mp3播放器(魅族B3 548446 52,8% 82.4% 书籍(《达芬奇密码》) 51.2% 51.2% 34差异显著性检验 检验过程为利用本文所提出的方法,数据采 对于英文评论的产品特征挖掘Hu等的研究用与Hu实验数据中的相同种类和数量商品评论 结果被验证为有效,并且得到相关研究领域的承进行特征挖掘最后将实验结果与Hu的实验结 认,为了进一步确认本文所提出方法的有效性将果即查准率和查全率分别进行差异T检验同时 本文研究结果和Hu等人的研究结果作以比较,考虑了与分类随机比率50%的差异检验本研究 并对两者差异做显著性检验,如果两个结果接近所使用的具体商品以及评论内容数据和前面的验 (即本文结果显著好于或与Hu的研究结果的差证实验相同,例如手机类采用的是 Nokia N70的 距不明显),则可以进一步验证本方法的有效性.评论数据;Hu等对应每一类商品的实验结果从文 万方数据一148一 管理科学学报 2009年4月 裹2 手机(NoHa N70)属性的人工标注结果 Table 2’rhe m8nual feature8 of mobile phone(Nokia N70 l 人工标注 商品名称 人工标注属性集合 属性数量 手机 屏幕,软件,电池,体积,游戏,外形,输入,字库,收音机,内存,语音,摄像,按键,-—幛,多媒体,耳机,待机时 间。键盘。铃声,拍照,速度,系统,功能,摄像头,手感,售后服务,声音,机身,价格,接口,电话簿,菜单,语音 45 (Nokia N70) 拨号,版本,快捷键,兼容性,闪光灯。充电器,质量,智能,屏幕效果。桌面,运行速度,音质 3.2性能评估方法 按照前面提出的方法采用JAVA语言构造实 验系统.为了评估挖掘方法的性能,本文采取了在 文本处理问题研究中普遍使用的性能评估指标: 查全率(recall),查准率(precision).本文中的研 究问题为判断所挖掘的产品属性是否为人工标注 的真实属性,这可以归结为二值分类,评估一般使 用2维列联表(contingency table). 实验所采用的列联表如表3所不.这里真买 产品属性数即人工标注结果的属性数量,其中作 为挖掘性能度量的查全率和查准率计算方法 如下: 查准率(precisi。n)=万毛 查全率(recall)=丁乞 表3 评估方法性能的列联表 Table 3 TIle contingency table for pe舶mance of experiment 真正产品属性数 非真正产品属性数 本文方法挖掘出来的产品属性数 ^ B 本文方法没有挖掘出来的产品属性数 C D 3.3 实验结果 综合5种商品的实验结果(如表4所示),平 通过去掉单字名词候选项,查准率获得了大幅度 的提高.为了深入验证方法的实际性能,需要进行 均查全率77.8%,平均查准率63.6%,说明本研 中英文客户评论产品特征挖掘结果的差异显著性 究所提出方法具有一定有效性.从表4可以看到 检验. 襄4实验结果 Table 4 The experimental results 人工标注 未去除中文单字属性 去除中文单宁属 商品名称 查全率 属性数 查准率 性查准率 手机(NokiaN70) 45 56.4% 63.3% 68.9% 数码相机(Cannon A7lO) 41 50.8% 61.1% 80.5% 数码相机(Cannon 850) 38 44.6% 64.1% 65.8% Mp3播放器(魅族E3) 34 52.8% 66.7% 82.4% 书籍(《达芬奇密码》) 24 51.2% 62.9% 91.7% 平均值 36 51.2% 63.6% 77.8% 3.4 差异显著性检验 对于英文评论的产品特征挖掘,Hu等的研究 结果被验证为有效,并且得到相关研究领域的承 认,为了进一步确认本文所提出方法的有效性,将 本文研究结果和Hu等人的研究结果作以比较, 并对两者差异做显著性检验,如果两个结果接近 (即本文结果显著好于或与Hu的研究结果的差 距不明显),则可以进一步验证本方法的有效性. 检验过程为利用本文所提出的方法,数据采 用与Hu实验数据中的相同种类和数量商品评论 进行特征挖掘,最后将实验结果与Hu的实验结 果即查准率和查全率分别进行差异T检验,同时 考虑了与分类随机比率50%的差异检验.本研究 所使用的具体商品以及评论内容数据和前面的验 证实验相同,例如手机类采用的是Nokia N70的 评论数据;Hu等对应每一类商品的实验结果从文 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有