NW = {∑N i=0 Wi : Wi ∈ W } W 的评论条数 (

正在加载图片...

第6期秦海菲，等：酒店在线评论数据的特征挖掘 ·1009· W的评论条数（假设一条评论代表一个人），很强的相关性，并且量纲差异较大。为了消除各 Nw={∑%：Wew吲，词W的词权重计算如式指标量纲的影响和指标之间的相关性，采用标准 (3)所示：差标准化（亿标准化）对数据进行标准化处理。计 M 算公式如式（⑦所示： TTWw= TFw 2i=0乙☑0 W:W∈W 3 X=r-四 Nw ww.:W.EW (7) U=0 式中：是所有样本数据的均值，6是样本数据的标 ④评论频率(DF):评论频率也称文档频率，准差，进一步细化后，得到结果如式(8)所示。指某条评论在总评论中的比重。 -x, DF=包含该词的评论条数/总评论数，N是总 (8) 评论数，评论频率计算如式如(4)所示： V-x) DF=Niv (g:%e刚聚类分析是研究样品和指标分类问题的一种 (4) 多元统计方法？-。在实际应用中一般有两种处 ⑤逆文档频率(DF):衡量词或词组所在的文理方式，一种是根据分类问题本身的专业知识结档在整个语料库中的频率。合实际需要来选择分类方法，并确定分类个数；逆文档频率越大表明该词越重要，它是一个另一种是多用几种分类方法，把结果中共性取出词语普遍重要性的度量16。DF的思想是：如果来，如果用几种方法的某些结果都一样，则说明包含词条W的评论越少，也就是，Nw越小，DF越这样的聚类确实反映事物的本质。采用专业知大，则说明词条W具有很好的类别区分能力。特识与多种聚类算法结合的方式对特征进行筛选，定词语W的DF,可以由总评论数除以包含该词以确定特征词。语的评论，再取对数得到。计算公式如式（⑤）所示：算法1在线评论数据的特征挖掘聚类算法 W ①将候选特征词各自成一类，{X,X2…,Xw: DFw=LOG Nw+1=LOG ∑：wew+ ②计算各类之间的距离（类平均法、ward法最大距离法、相似分析法)，得到观测值矩阵： (5) ③合并类间距离最小的两类为一新类。并重 ⑥特征权重值(TF-IDF):词频-逆文档频率新计算新类与各类之间的距离，更新矩阵表，类 (TF-IDF)是结合词频和逆文档频率来衡量候选关的总个数依次递减，直到为1：键词的重要度量。 ④画聚类树图：词频-逆文档频率(TF-IDF)被认为是所有特 ⑤根据聚类图和专业知识决定分类的个数和征中最有效、最常用的特征之一6。如果某个词成员；或短语在一篇文章中出现的频率T℉，高，并且在 4)特征词提取方法评价其他文章中很少出现，则认为该词或者短语具有本文认为特征词能代表评价主题，N为代表很好的类别区分能力，适合用来分类。TF-DF的评价主题的特征词数，N4为选择的特征词数，准计算如式(6)所示：确率P如式(9)所示： TFw TFIDE=TFIXIDF= Vw(length) XLOG N w =光 (9) ∑∑w,:w,e叫有学者研究提出召回率不适合评论数据的评 ∑∑ (6) 价指标，因此本文借助别人提出的GMM指标， N为能代表评价主题的特征词数，N4为所选择的 M LOG 特征词数，准确率GMM如式(10)所示： ∑w:wew+ Ne Ne TF-DF值与该词的出现频率成正比，与在整 GMM=N X NA (10) 个评论中出现的次数成反比。 2.4特征词的验证 3)特征词的筛选采用数据集2对所选特征词进行校验。特征词的筛选是特征词选取和降低特征词维 3实验及结果分析度最有效的方法。分析各特征词指标的关系是特征词选取中重要的环节，但各个指标之间存在有本文采用主题爬虫对网络数据进行抓取。获NW = {∑N i=0 Wi : Wi ∈ W } W 的评论条数 (假设一条评论代表一个人 ) ，，词 W 的词权重计算如式 (3) 所示： TTWW = TFW NW = {∑N i=0 ∑M j=0 Wi j : Wi j ∈ W } {∑N i=0 Wi : Wi ∈ W } (3) ④ 评论频率 (DF)：评论频率也称文档频率，指某条评论在总评论中的比重。 DF=包含该词的评论条数/总评论数，N 是总评论数，评论频率计算如式如 (4) 所示： DF = NW N = {∑N i=0 Wi : Wi ∈ W } N (4) ⑤ 逆文档频率 (IDF)：衡量词或词组所在的文档在整个语料库中的频率。逆文档频率越大表明该词越重要，它是一个词语普遍重要性的度量[16]。IDF 的思想是：如果包含词条 W 的评论越少，也就是，NW 越小，IDF 越大，则说明词条 W 具有很好的类别区分能力。特定词语 W 的 IDF，可以由总评论数除以包含该词语的评论，再取对数得到。计算公式如式 (5) 所示： IDFW = LOG N NW +1 = LOG |N| {∑N i=0 Wi : Wi ∈ W } +1 (5) ⑥ 特征权重值 (TF-IDF)：词频−逆文档频率 (TF-IDF) 是结合词频和逆文档频率来衡量候选关键词的重要度量。词频−逆文档频率 (TF-IDF) 被认为是所有特征中最有效、最常用的特征之一[16]。如果某个词或短语在一篇文章中出现的频率 TF1 高，并且在其他文章中很少出现，则认为该词或者短语具有很好的类别区分能力，适合用来分类。TF-IDF 的计算如式 (6) 所示： TFIDF = TF1 ×IDF = TFW VN ( length) ×LOG N NW = {∑N i=0 ∑M j=0 Wi j : Wi j ∈ W } ∑N i=0 ∑M j=0 Wi j × LOG |N| {∑N i=0 Wi : Wi ∈ W } +1 (6) TF-IDF 值与该词的出现频率成正比，与在整个评论中出现的次数成反比。 3) 特征词的筛选特征词的筛选是特征词选取和降低特征词维度最有效的方法。分析各特征词指标的关系是特征词选取中重要的环节，但各个指标之间存在有很强的相关性，并且量纲差异较大。为了消除各指标量纲的影响和指标之间的相关性，采用标准差标准化 (Z 标准化) 对数据进行标准化处理。计算公式如式 (7) 所示： X = (x−µ) σ (7) 式中： µ 是所有样本数据的均值， δ 是样本数据的标准差，进一步细化后，得到结果如式 (8) 所示。 xi j = xi j − − x. j √∑N i=1 (x− x.i) 2 (8) 聚类分析是研究样品和指标分类问题的一种多元统计方法[17−19]。在实际应用中一般有两种处理方式，一种是根据分类问题本身的专业知识结合实际需要来选择分类方法，并确定分类个数；另一种是多用几种分类方法，把结果中共性取出来，如果用几种方法的某些结果都一样，则说明这样的聚类确实反映事物的本质[19]。采用专业知识与多种聚类算法结合的方式对特征进行筛选，以确定特征词。算法 1 在线评论数据的特征挖掘聚类算法 ①将候选特征词各自成一类， {X1,X2 ··· ,XN} ； ②计算各类之间的距离 (类平均法、ward 法、最大距离法、相似分析法)，得到观测值矩阵； ③合并类间距离最小的两类为一新类。并重新计算新类与各类之间的距离，更新矩阵表，类的总个数依次递减，直到为 1； ④画聚类树图； ⑤根据聚类图和专业知识决定分类的个数和成员； 4) 特征词提取方法评价本文认为特征词能代表评价主题，Nc 为代表评价主题的特征词数，NA 为选择的特征词数，准确率 P 如式 (9) 所示： P = Nc NA (9) 有学者研究提出召回率不适合评论数据的评价指标，因此本文借助别人提出的 GMM 指标， Nc 为能代表评价主题的特征词数，NA 为所选择的特征词数，准确率 GMM 如式 (10) 所示： GMM = √ Nc NA × Nc NA (10) 2.4 特征词的验证采用数据集 2 对所选特征词进行校验。 3 实验及结果分析本文采用主题爬虫对网络数据进行抓取。获第 6 期秦海菲，等：酒店在线评论数据的特征挖掘 ·1009·

<<向上翻页向下翻页>>

点击下载：【人工智能基础】酒店在线评论数据的特征挖掘