正在加载图片...
第6期 秦海菲,等:酒店在线评论数据的特征挖掘 ·1009· W的评论条数(假设一条评论代表一个人), 很强的相关性,并且量纲差异较大。为了消除各 Nw={∑%:Wew吲,词W的词权重计算如式 指标量纲的影响和指标之间的相关性,采用标准 (3)所示: 差标准化(亿标准化)对数据进行标准化处理。计 M 算公式如式(⑦所示: TTWw= TFw 2i=0乙☑0 W:W∈W 3 X=r-四 Nw ww.:W.EW (7) U=0 式中:是所有样本数据的均值,6是样本数据的标 ④评论频率(DF):评论频率也称文档频率, 准差,进一步细化后,得到结果如式(8)所示。 指某条评论在总评论中的比重。 -x, DF=包含该词的评论条数/总评论数,N是总 (8) 评论数,评论频率计算如式如(4)所示: V-x) DF=Niv (g:%e刚 聚类分析是研究样品和指标分类问题的一种 (4) 多元统计方法?-。在实际应用中一般有两种处 ⑤逆文档频率(DF):衡量词或词组所在的文 理方式,一种是根据分类问题本身的专业知识结 档在整个语料库中的频率。 合实际需要来选择分类方法,并确定分类个数; 逆文档频率越大表明该词越重要,它是一个 另一种是多用几种分类方法,把结果中共性取出 词语普遍重要性的度量16。DF的思想是:如果 来,如果用几种方法的某些结果都一样,则说明 包含词条W的评论越少,也就是,Nw越小,DF越 这样的聚类确实反映事物的本质。采用专业知 大,则说明词条W具有很好的类别区分能力。特 识与多种聚类算法结合的方式对特征进行筛选, 定词语W的DF,可以由总评论数除以包含该词 以确定特征词。 语的评论,再取对数得到。计算公式如式(⑤)所示: 算法1在线评论数据的特征挖掘聚类算法 W ①将候选特征词各自成一类,{X,X2…,Xw: DFw=LOG Nw+1=LOG ∑:wew+ ②计算各类之间的距离(类平均法、ward法 最大距离法、相似分析法),得到观测值矩阵: (5) ③合并类间距离最小的两类为一新类。并重 ⑥特征权重值(TF-IDF):词频-逆文档频率 新计算新类与各类之间的距离,更新矩阵表,类 (TF-IDF)是结合词频和逆文档频率来衡量候选关 的总个数依次递减,直到为1: 键词的重要度量。 ④画聚类树图: 词频-逆文档频率(TF-IDF)被认为是所有特 ⑤根据聚类图和专业知识决定分类的个数和 征中最有效、最常用的特征之一6。如果某个词 成员; 或短语在一篇文章中出现的频率T℉,高,并且在 4)特征词提取方法评价 其他文章中很少出现,则认为该词或者短语具有 本文认为特征词能代表评价主题,N为代表 很好的类别区分能力,适合用来分类。TF-DF的 评价主题的特征词数,N4为选择的特征词数,准 计算如式(6)所示: 确率P如式(9)所示: TFw TFIDE=TFIXIDF= Vw(length) XLOG N w =光 (9) ∑∑w,:w,e叫 有学者研究提出召回率不适合评论数据的评 ∑∑ (6) 价指标,因此本文借助别人提出的GMM指标, N为能代表评价主题的特征词数,N4为所选择的 M LOG 特征词数,准确率GMM如式(10)所示: ∑w:wew+ Ne Ne TF-DF值与该词的出现频率成正比,与在整 GMM=N X NA (10) 个评论中出现的次数成反比。 2.4特征词的验证 3)特征词的筛选 采用数据集2对所选特征词进行校验。 特征词的筛选是特征词选取和降低特征词维 3实验及结果分析 度最有效的方法。分析各特征词指标的关系是特 征词选取中重要的环节,但各个指标之间存在有 本文采用主题爬虫对网络数据进行抓取。获NW = {∑N i=0 Wi : Wi ∈ W } W 的评论条 数 (假设一条评论代表一个人 ) , ,词 W 的词权重计算如式 (3) 所示: TTWW = TFW NW = {∑N i=0 ∑M j=0 Wi j : Wi j ∈ W } {∑N i=0 Wi : Wi ∈ W } (3) ④ 评论频率 (DF):评论频率也称文档频率, 指某条评论在总评论中的比重。 DF=包含该词的评论条数/总评论数,N 是总 评论数,评论频率计算如式如 (4) 所示: DF = NW N = {∑N i=0 Wi : Wi ∈ W } N (4) ⑤ 逆文档频率 (IDF):衡量词或词组所在的文 档在整个语料库中的频率。 逆文档频率越大表明该词越重要,它是一个 词语普遍重要性的度量[16]。IDF 的思想是:如果 包含词条 W 的评论越少,也就是,NW 越小,IDF 越 大,则说明词条 W 具有很好的类别区分能力。特 定词语 W 的 IDF,可以由总评论数除以包含该词 语的评论,再取对数得到。计算公式如式 (5) 所示: IDFW = LOG N NW +1 = LOG |N| {∑N i=0 Wi : Wi ∈ W } +1 (5) ⑥ 特征权重值 (TF-IDF):词频−逆文档频率 (TF-IDF) 是结合词频和逆文档频率来衡量候选关 键词的重要度量。 词频−逆文档频率 (TF-IDF) 被认为是所有特 征中最有效、最常用的特征之一[16]。如果某个词 或短语在一篇文章中出现的频率 TF1 高,并且在 其他文章中很少出现,则认为该词或者短语具有 很好的类别区分能力,适合用来分类。TF-IDF 的 计算如式 (6) 所示: TFIDF = TF1 ×IDF = TFW VN ( length) ×LOG N NW = {∑N i=0 ∑M j=0 Wi j : Wi j ∈ W } ∑N i=0 ∑M j=0 Wi j × LOG |N| {∑N i=0 Wi : Wi ∈ W } +1 (6) TF-IDF 值与该词的出现频率成正比,与在整 个评论中出现的次数成反比。 3) 特征词的筛选 特征词的筛选是特征词选取和降低特征词维 度最有效的方法。分析各特征词指标的关系是特 征词选取中重要的环节,但各个指标之间存在有 很强的相关性,并且量纲差异较大。为了消除各 指标量纲的影响和指标之间的相关性,采用标准 差标准化 (Z 标准化) 对数据进行标准化处理。计 算公式如式 (7) 所示: X = (x−µ) σ (7) 式中: µ 是所有样本数据的均值, δ 是样本数据的标 准差,进一步细化后,得到结果如式 (8) 所示。 xi j = xi j − − x. j √∑N i=1 (x− x.i) 2 (8) 聚类分析是研究样品和指标分类问题的一种 多元统计方法[17−19]。在实际应用中一般有两种处 理方式,一种是根据分类问题本身的专业知识结 合实际需要来选择分类方法,并确定分类个数; 另一种是多用几种分类方法,把结果中共性取出 来,如果用几种方法的某些结果都一样,则说明 这样的聚类确实反映事物的本质[19]。采用专业知 识与多种聚类算法结合的方式对特征进行筛选, 以确定特征词。 算法 1 在线评论数据的特征挖掘聚类算法 ①将候选特征词各自成一类, {X1,X2 ··· ,XN} ; ②计算各类之间的距离 (类平均法、ward 法、 最大距离法、相似分析法),得到观测值矩阵; ③合并类间距离最小的两类为一新类。并重 新计算新类与各类之间的距离,更新矩阵表,类 的总个数依次递减,直到为 1; ④画聚类树图; ⑤根据聚类图和专业知识决定分类的个数和 成员; 4) 特征词提取方法评价 本文认为特征词能代表评价主题,Nc 为代表 评价主题的特征词数,NA 为选择的特征词数,准 确率 P 如式 (9) 所示: P = Nc NA (9) 有学者研究提出召回率不适合评论数据的评 价指标,因此本文借助别人提出的 GMM 指标, Nc 为能代表评价主题的特征词数,NA 为所选择的 特征词数,准确率 GMM 如式 (10) 所示: GMM = √ Nc NA × Nc NA (10) 2.4 特征词的验证 采用数据集 2 对所选特征词进行校验。 3 实验及结果分析 本文采用主题爬虫对网络数据进行抓取。获 第 6 期 秦海菲,等:酒店在线评论数据的特征挖掘 ·1009·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有