工程科学学报,第41卷,第9期:1208-1214,2019年9月 Chinese Journal of Engineering,Vol.41,No.9:1208-1214,September 2019 DOI:10.13374/j.issn2095-9389.2019.09.013;http://journals.ustb.edu.cn 一种面向网络长文本的话题检测方法 郑恒毅),廖城霖)四,李天柱) 1)重庆大学机械工程学院,重庆4000442)重庆大学自动化学院,重庆400044 ☒通信作者,E-mail:liaochenglinl127@gmail.com 摘要提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了Wod2vc &LDA(latent dirichlet allocation)的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行 加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题,提 出了基于文本聚类的Single-Pass&HAC(hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次 聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率.为了评估所提出方法的有效性,本 文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验.实验结果证明,本文提出的方法相对 于现有的方法,如VSM(state vector space model)、Single-Pass等拥有更好的效果,话题检测的精度提高了l0%~20%. 关键词网络长文本:话题检测:文本表示:话题发现:文本聚类 分类号TP391.4 A topic detection method for network long text ZHENG Heng-yi,LIAO Cheng-lin)LI Tian-zhu) 1)College of Mechanical Engineering,Chongqing University,Chongqing 400044.China 2)College of Automation,Chongqing University,Chongqing 400044,China Corresponding author,E-mail:liaochenglinl127@gmail.com ABSTRACT Internet public opinion is an important source of people's views on social hotspots and national current affairs.Topic detection in network long text contributes toward the analysis of network public opinion.According to the results of topic detection,the policymaker can timely and reliably make scientific decisions.In general,topic detection can be divided into two steps,i.e.,repre- sentation learning and topic discovery.However,common representation learning methods,such as state vector space model (VSM) and term frequency-inverse document frequency,often lead to the problems of high dimensionality,sparsity,and latent semantic loss, whereas traditional topic discovery methods depend heavily on the text input orders.To overcome these,a novel topic detection method was presented herein.First,Word2vec latent Dirichlet allocation (LDA)-based methods for representation learning were proposed to avoid the problem of high-dimensional sparsity and neglect of latent semantics.Weighted fusion of the text feature word implicit topic extracted by LDA and the feature word vector of Word2vec mapping could not only perform dimensionality reduction but also completely represent text information.Furthermore,Single-Pass and hierarchical agglomerative clustering for topic discovery could be more robust for input orders.To evaluate the effectiveness and efficiency of the proposed method,extensive experiments were conducted on a real- world multi-source dataset,which was collected from university social platforms.The experimental results show that the proposed meth- od outperforms other methods,such as VSM and Single-Pass,by improving the clustering accuracy by 10%-20%. KEY WORDS network long text;topic detection;text representation;topic discovery;text cluster 收稿日期:2019-01-03
工程科学学报,第 41 卷,第 9 期:1208鄄鄄1214,2019 年 9 月 Chinese Journal of Engineering, Vol. 41, No. 9: 1208鄄鄄1214, September 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2019. 09. 013; http: / / journals. ustb. edu. cn 一种面向网络长文本的话题检测方法 郑恒毅1) , 廖城霖2) 苣 , 李天柱2) 1)重庆大学机械工程学院, 重庆 400044 2) 重庆大学自动化学院, 重庆 400044 苣通信作者, E鄄mail:liaochenglin1127@ gmail. com 摘 要 提出了一种面向网络长文本的话题检测方法. 针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了 Word2vec & LDA (latent dirichlet allocation)的文本表示方法. 将 LDA 提取的文本特征词隐含主题和 Word2vec 映射的特征词向量进行 加权融合既能够进行降维的作用又可以较为完整的表示出文本信息. 针对传统话题发现方法对长文本输入顺序敏感问题,提 出了基于文本聚类的 Single鄄鄄Pass & HAC (hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次 聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率. 为了评估所提出方法的有效性,本 文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验. 实验结果证明,本文提出的方法相对 于现有的方法,如 VSM (state vector space model)、Single鄄鄄Pass 等拥有更好的效果,话题检测的精度提高了 10% ~ 20% . 关键词 网络长文本; 话题检测; 文本表示; 话题发现; 文本聚类 分类号 TP391郾 4 收稿日期: 2019鄄鄄01鄄鄄03 A topic detection method for network long text ZHENG Heng鄄yi 1) , LIAO Cheng鄄lin 2) 苣 , LI Tian鄄zhu 2) 1) College of Mechanical Engineering, Chongqing University, Chongqing 400044, China 2) College of Automation, Chongqing University, Chongqing 400044, China 苣Corresponding author, E鄄mail: liaochenglin1127@ gmail. com ABSTRACT Internet public opinion is an important source of people爷 s views on social hotspots and national current affairs. Topic detection in network long text contributes toward the analysis of network public opinion. According to the results of topic detection, the policymaker can timely and reliably make scientific decisions. In general, topic detection can be divided into two steps, i. e. , repre鄄 sentation learning and topic discovery. However, common representation learning methods, such as state vector space model (VSM) and term frequency鄄鄄inverse document frequency, often lead to the problems of high dimensionality, sparsity, and latent semantic loss, whereas traditional topic discovery methods depend heavily on the text input orders. To overcome these, a novel topic detection method was presented herein. First, Word2vec & latent Dirichlet allocation (LDA)鄄based methods for representation learning were proposed to avoid the problem of high鄄dimensional sparsity and neglect of latent semantics. Weighted fusion of the text feature word implicit topic extracted by LDA and the feature word vector of Word2vec mapping could not only perform dimensionality reduction but also completely represent text information. Furthermore, Single鄄鄄Pass and hierarchical agglomerative clustering for topic discovery could be more robust for input orders. To evaluate the effectiveness and efficiency of the proposed method, extensive experiments were conducted on a real鄄 world multi鄄source dataset, which was collected from university social platforms. The experimental results show that the proposed meth鄄 od outperforms other methods, such as VSM and Single鄄鄄Pass, by improving the clustering accuracy by 10% 鄄鄄20% . KEY WORDS network long text; topic detection; text representation; topic discovery; text cluster
郑恒毅等:一种面向网络长文本的话题检测方法 ·1209· 在网络长文本中进行话题检测可以在大量冗余 效地解决长文本表示存在的高维稀疏性问题,而且 文本数据中找到有价值的主题信息).在网络奥情 能够同时表示出文本的主题和特征词信息.针对传 分析系统中,网络事件具有突发性和快速传播性,及 统话题发现方法对长文本输入顺序敏感导致的聚类 时迅速地对网络长文本进行话题检测有助于相关监 时精度不高、效率低下的问题,本文研究了一种基于 管部门对于网络舆情进行科学地决策).在知识转 时间窗口Single-Pass&LDA的聚类算法,能有效减 移领域中,将知识库中的知识进行话题检测,可以除 小Single-Pass算法对于文本输入顺序敏感性,提高 去冗余数据并且将知识进行归类,可以提高后续知 话题检测的精度 识传输和吸收过程中的效率3] 网络长文本话题检测的主要任务是对大量文本 1基于文本表示与聚类的话题检测方法 数据进行聚类),从而进一步对人们关心的事件进 1.1基于LDA&Word2vec和Single-Pass&HAC 行发现.随着近几年互联网产业的快速发展,国内 的话题检测算法 的话题检测领域也涌现了不少具有影响力的成果. 本文首先研究了基于LDA和Word2vec融合的 例如,山东大学通过对校园网络文本进行Single- 文本特性向量表示,在分别计算了文本的LDA特征 Pass聚类分析,获取话题簇,提出了基于论坛和新闻 向量(主题-文本表示)和Word2vec的词向量与 的舆情分析系统[).北京邮电大学通过对论坛的文 T℉-DF相乘相加的结果后,运用基于时间窗口的 本分析6],利用简单的聚类方法进行主题发现,提 Single--Pass进行初步聚类,由于基于时间窗口的 出了基于论坛的话题发现与跟踪算法[-8).哈尔滨 Single--Pass算法的复杂度较低,可以同时与上一时 工业大学“基于论坛的舆情分析系统”[通过对论 刻的聚类话题簇进行相似度计算,在大量文本的输 坛文本的抽取,基于聚类的主题发现和句法分析的 入下快速形成凝聚度高、颗粒小的话题簇,再利用 情感倾向来获取论坛的热点信息,得到舆情信息 HAC算法将分散的话题簇通过相似度计算合并,最 对树络长文本进行话题检则主要分为两个步 终得到一个良好的聚类结果.具体的算法流程如图 骤:文本表示和话题发现.在文本表示方法中,经典 1所示. 的文本模型就是VSMo],VSM利用文本特征性的 1.2基于Word2vec&LDA的文本表示 权重表示文本,既而在向量空间表示文本的相似度, 文本数据无法直接输入到计算机进行处理的, VSM模型简单、操作方便,但是在大量文本数据情 需要进行结构化处理,利用向量来对文本进行表示. 况下存在高维度、数据稀疏等缺陷.近年来,越来越 在VSM模型中将所有文本数据用D={d,,d2,… 多学者开始将LDA[]应用到网络长文本的话题检 dn,…,dx}来表示,将所有特征词用T={t1,t2,…, 测[2-1),通过LDA模型的训练得到文本的潜在主 tu}表示,将每个文档表示为d={(w1,t1),(02, 题信息[4-15],进而有效地提取文本主题,实现话题 2),…,(0,4)},其中0表示i篇文档的t词的权 的检测.同时,随着深度学习的发展,有学者将词向 重.在本文中使用T℉-DF,即词频-反文档频率权 量模型16]引入到文本表示中,丰富了文本特征,加 重法来对权重进行计算.计算公式如式(1)所示: 强了话题检测的效果.在话题发现中,文本聚类是 N 常用的检测方法.聚类方法的好坏直接影响检测的 +0.01 结果,目前常用的聚类算法有K-Means(7],二分K- Means18】,Single--Pass]、层次聚类2o]等,也有学者 +0.01 将这些经典算法上优化或者组合,例如文献[21]在 式中为词语出现的频率,为逆向文件频率,N 传统K-Means的基础上优化了初始化聚类簇心,有 为文本总数 效地对新闻事件进行了检测.但是K-Means需要 基于VSM的话题检测过程中,直接利用特征词 事先设定类簇数量,聚类效果依赖初始化的类簇中 及其权重来直接比较两篇文档的相似度,这种方法 心,Single-Pass对输入顺序和阈值设置十分敏感,层 随着数据量的提升会出现维度灾难,并且无法找到 次聚类需要大量的时间,效率不高. 词语之间的隐含关系,常常忽略词语在上下文中的 本文从网络长文本的特性出发,针对文本表示 含义.因此将LDA模型引入,LDA假设每个特征词 的高维稀疏性和忽略潜在语义的问题,研究了一种 都是由一个隐含的主题抽取得到的,而一篇文本可 基于word2vec&LDA的文本向量化方法,不仅能有 以由多个不同概率分布的主题生成,每个主题又由
郑恒毅等: 一种面向网络长文本的话题检测方法 在网络长文本中进行话题检测可以在大量冗余 文本数据中找到有价值的主题信息[1] . 在网络舆情 分析系统中,网络事件具有突发性和快速传播性,及 时迅速地对网络长文本进行话题检测有助于相关监 管部门对于网络舆情进行科学地决策[2] . 在知识转 移领域中,将知识库中的知识进行话题检测,可以除 去冗余数据并且将知识进行归类,可以提高后续知 识传输和吸收过程中的效率[3] . 网络长文本话题检测的主要任务是对大量文本 数据进行聚类[4] ,从而进一步对人们关心的事件进 行发现. 随着近几年互联网产业的快速发展,国内 的话题检测领域也涌现了不少具有影响力的成果. 例如,山东大学通过对校园网络文本进行 Single鄄鄄 Pass 聚类分析,获取话题簇,提出了基于论坛和新闻 的舆情分析系统[5] . 北京邮电大学通过对论坛的文 本分析[6] ,利用简单的聚类方法进行主题发现,提 出了基于论坛的话题发现与跟踪算法[7鄄鄄8] . 哈尔滨 工业大学“基于论坛的舆情分析系统冶 [9] 通过对论 坛文本的抽取,基于聚类的主题发现和句法分析的 情感倾向来获取论坛的热点信息,得到舆情信息. 对网络长文本进行话题检测主要分为两个步 骤:文本表示和话题发现. 在文本表示方法中,经典 的文本模型就是 VSM [10] ,VSM 利用文本特征性的 权重表示文本,既而在向量空间表示文本的相似度, VSM 模型简单、操作方便,但是在大量文本数据情 况下存在高维度、数据稀疏等缺陷. 近年来,越来越 多学者开始将 LDA [11] 应用到网络长文本的话题检 测[12鄄鄄13] ,通过 LDA 模型的训练得到文本的潜在主 题信息[14鄄鄄15] ,进而有效地提取文本主题,实现话题 的检测. 同时,随着深度学习的发展,有学者将词向 量模型[16]引入到文本表示中,丰富了文本特征,加 强了话题检测的效果. 在话题发现中,文本聚类是 常用的检测方法. 聚类方法的好坏直接影响检测的 结果,目前常用的聚类算法有 K鄄鄄Means [17] ,二分 K鄄鄄 Means [18] 、Single鄄鄄Pass [19] 、层次聚类[20] 等,也有学者 将这些经典算法上优化或者组合,例如文献[21]在 传统 K鄄鄄Means 的基础上优化了初始化聚类簇心,有 效地对新闻事件进行了检测. 但是 K鄄鄄 Means 需要 事先设定类簇数量,聚类效果依赖初始化的类簇中 心,Single鄄鄄Pass 对输入顺序和阈值设置十分敏感,层 次聚类需要大量的时间,效率不高. 本文从网络长文本的特性出发,针对文本表示 的高维稀疏性和忽略潜在语义的问题,研究了一种 基于 word2vec & LDA 的文本向量化方法,不仅能有 效地解决长文本表示存在的高维稀疏性问题,而且 能够同时表示出文本的主题和特征词信息. 针对传 统话题发现方法对长文本输入顺序敏感导致的聚类 时精度不高、效率低下的问题,本文研究了一种基于 时间窗口 Single鄄鄄Pass & LDA 的聚类算法,能有效减 小 Single鄄鄄Pass 算法对于文本输入顺序敏感性,提高 话题检测的精度. 1 基于文本表示与聚类的话题检测方法 1郾 1 基于 LDA & Word2vec 和 Single鄄鄄Pass&HAC 的话题检测算法 本文首先研究了基于 LDA 和 Word2vec 融合的 文本特性向量表示,在分别计算了文本的 LDA 特征 向量(主题鄄鄄 文本表示) 和 Word2vec 的词向量与 TF鄄鄄IDF 相乘相加的结果后,运用基于时间窗口的 Single鄄鄄Pass 进行初步聚类,由于基于时间窗口的 Single鄄鄄Pass 算法的复杂度较低,可以同时与上一时 刻的聚类话题簇进行相似度计算,在大量文本的输 入下快速形成凝聚度高、颗粒小的话题簇,再利用 HAC 算法将分散的话题簇通过相似度计算合并,最 终得到一个良好的聚类结果. 具体的算法流程如图 1 所示. 1郾 2 基于 Word2vec & LDA 的文本表示 文本数据无法直接输入到计算机进行处理的, 需要进行结构化处理,利用向量来对文本进行表示. 在 VSM 模型中将所有文本数据用 D = { d1 ,d2 ,… dn ,…,dN }来表示,将所有特征词用 T = { t 1 ,t 2 ,…, tM }表示,将每个文档表示为 di = {(wi1 ,t 1 ),(wi2 , t 2 ),…,(wij,t j)},其中 wij表示 i 篇文档的 t j 词的权 重. 在本文中使用 TF鄄鄄 IDF,即词频鄄鄄 反文档频率权 重法来对权重进行计算. 计算公式如式(1)所示: wij = f t j·lg ( N f d t j + 0郾 01 ) 移 j沂 [ N f t j·lg ( N f d t j + 0郾 01 ) ] 2 (1) 式中,f t j为词语 t j 出现的频率,f d t j为逆向文件频率,N 为文本总数. 基于 VSM 的话题检测过程中,直接利用特征词 及其权重来直接比较两篇文档的相似度,这种方法 随着数据量的提升会出现维度灾难,并且无法找到 词语之间的隐含关系,常常忽略词语在上下文中的 含义. 因此将 LDA 模型引入,LDA 假设每个特征词 都是由一个隐含的主题抽取得到的,而一篇文本可 以由多个不同概率分布的主题生成,每个主题又由 ·1209·
·1210· 工程科学学报,第41卷,第9期 (开始 况下,根据主题词语的Dirichlet先验分布[B。,B.a, BaBv]T生成的多项式分布[p1,p2,poa…pv]I, 舆情文本 从词袋中抽取一个词语w.LDA文本建模的主要 文本预处理、 问题就是求解文档-主题和主题-特征词分布参数 分词 矩阵0和Φ的值,本文使用Gibbs采样的方法来估 LDA文本建模 Word2vec VSM空间 算LDA的参数 词向量构建 假设已知任意函数的条件分布p(x:Ix-:),其中 计算文本相似度 词向量与TF-DF 权重相乘相加 x-i=(x1,2,…,x-1x+1,…,xn),通过马尔科夫链 蒙特卡洛算法就可以得到联合分布.首先建立z和 计算文本相似度 w的联合分布,其数学表达式如式(2)所示: 两种文本 p(w.-Ia.B)-p(w.-.0.01o.B)d0d@(2) 相似度结合 给定z和w的联合分布,即可通过式(3)来计 基于时间窗口的 算Gibs采样的条件概率: Single-Pass聚类 p(2=alz,x,aB)= p(=al x,a,B) HAC话题合并 (3) p(,女=a1r,,B) 得到最终聚类 结果 马尔科夫链平稳之后,给定一个采用的主题:, 设定参数α和B,即可通过EM算法来估计分布参 「结束 数矩阵0和Φ的值 图1 Single-Pass&HAC算法流程 DA建模构成了文本-主题分布,但是缺少了 Fig.1 Single-Pass HAC algorithm flow 词语本身之间的联系,只能在一定程度上表示文本 多个不同概率的主题词来表达.LDA将文本数据抽 数据.为了更好地对文本进行表示,还需要利用 象为主题、文档、词语的一个贝叶斯概率模型.进行 Skip-Gram模型来训练语料库,将所有的特征词映 LDA建模过程图2所示,其中为每篇文档主题的 射到一定维度的向量空间中,将词语表示为向量. Dirichlet先验分布参数:0每篇文档的主题分布;z 在Skip-Gram模型中,特征词作为输入层,上下文词 为给词语分配的主题,共有K个,w为词袋中的一个 作为输出层,即通过特征词来预测上下文词,具体的 词语;为主题中的词语分布;B为每个主题词语分 模型结构如图3所示. 布的Dirichlet先验分布参数,词汇表中共有V个 使用t,表示输入层特征词的P维输入向量,复 词语. 制和转置输入层到隐含层的权重矩阵W中的第p 行,可以得到Q维隐含层h,的定义如式(4)所示: h。=w (4) 输出层上,输出C个多项式分布,输出都由相 同的隐含和输出矩阵得到,如式(5)所示: e"e& P(teh =to.elt)=yc.h= (5) 图2LDA建模过程图 Fig.2 LDA modeling process diagram 式中,t,是输出层的第c个分布上的第h个特征词, to是输出上下文词中实际的第s个词,1是唯一的 在LDA建模中,首先对于文本d,首先随机从 输入词,y,是输出层第c个分布上的第h个单元的 Dirichlet先验分布a=[a,a,a…a]T中选出 输出,“。,h是输出层第c个分布上的第h个单元的净 的一个主题多项式分布=[叫,时,…股]T, 输入.由于输出层面共享相同的权重,则有: 然后根据多项式分布给该文档的第i个词语分 ueh=uh=vhh。 (6) 配一个主题=a.在已知选定的主题=a的情 其中,c=1,2,…,C.y,表示第h个特征词的输出向
工程科学学报,第 41 卷,第 9 期 图 1 Single鄄鄄Pass & HAC 算法流程 Fig. 1 Single鄄鄄Pass & HAC algorithm flow 多个不同概率的主题词来表达. LDA 将文本数据抽 象为主题、文档、词语的一个贝叶斯概率模型. 进行 LDA 建模过程图 2 所示,其中 琢 为每篇文档主题的 Dirichlet 先验分布参数;兹 每篇文档的主题分布;z 为给词语分配的主题,共有 K 个,w 为词袋中的一个 词语;渍 为主题中的词语分布;茁 为每个主题词语分 布的 Dirichlet 先验分布参数,词汇表中共有 V 个 词语. 图 2 LDA 建模过程图 Fig. 2 LDA modeling process diagram 在 LDA 建模中,首先对于文本 dn ,首先随机从 Dirichlet 先验分布 琢 dn = [琢 dn 1 ,琢 dn 2 ,琢 dn 3 …琢 dn K ] T 中选出 的一个主题多项式分布 兹 dn = [ 兹 dn 1 ,兹 dn 2 ,兹 dn 3 …兹 dn K ] T , 然后根据多项式分布 兹 dn给该文档的第 i 个词语分 配一个主题 z dn i = a. 在已知选定的主题 z dn i = a 的情 况下,根据主题词语的 Dirichlet 先验分布[ 茁a1 ,茁a2 , 茁a3…茁aV ] T 生成的多项式分布[渍a1 ,渍a2 ,渍a3…渍aV ] T , 从词袋中抽取一个词语 w dn i . LDA 文本建模的主要 问题就是求解文档鄄鄄 主题和主题鄄鄄 特征词分布参数 矩阵 兹 和 椎 的值,本文使用 Gibbs 采样的方法来估 算 LDA 的参数. 假设已知任意函数的条件分布 p(xi | x - i),其中 x - i = (x1 ,x2 ,…,xi - 1 ,xi + 1 ,…,xn ),通过马尔科夫链 蒙特卡洛算法就可以得到联合分布. 首先建立 z 和 w 的联合分布,其数学表达式如式(2)所示: p(w,z| 琢,茁) = 乙 兹 乙 椎 p(w,z,兹,椎| 琢,茁)d兹d椎(2) 给定 z 和 w 的联合分布,即可通过式(3) 来计 算 Gibbs 采样的条件概率: p(z dn i = a |z 劭 dn 劭 i ,x,琢,茁) = p(z 劭 dn 劭 i ,z dn i = a | x,琢,茁) 移 K a忆 = 1 p(z 劭 dn 劭 i ,z dn i = a忆 | x,琢,茁) (3) 马尔科夫链平稳之后,给定一个采用的主题 z, 设定参数 琢 和 茁,即可通过 EM 算法来估计分布参 数矩阵 兹 和 椎 的值. LDA 建模构成了文本鄄鄄 主题分布,但是缺少了 词语本身之间的联系,只能在一定程度上表示文本 数据. 为了更好地对文本进行表示,还需要利用 Skip鄄鄄Gram 模型来训练语料库,将所有的特征词映 射到一定维度的向量空间中,将词语表示为向量. 在 Skip鄄鄄Gram 模型中,特征词作为输入层,上下文词 作为输出层,即通过特征词来预测上下文词,具体的 模型结构如图 3 所示. 使用 t I 表示输入层特征词的 P 维输入向量,复 制和转置输入层到隐含层的权重矩阵 W 中的第 p 行,可以得到 Q 维隐含层 hp 的定义如式(4)所示: hp = W T p (4) 输出层上,输出 C 个多项式分布,输出都由相 同的隐含和输出矩阵得到,如式(5)所示: P(t c,h = tO,c | t I) = yc,h = e uc,h 移 P h = 1 e uc,h (5) 式中,t c,h是输出层的第 c 个分布上的第 h 个特征词, tO,s是输出上下文词中实际的第 s 个词,t I 是唯一的 输入词,yc,h是输出层第 c 个分布上的第 h 个单元的 输出,uc,h是输出层第 c 个分布上的第 h 个单元的净 输入. 由于输出层面共享相同的权重,则有: uc,h = uh = vth·hp (6) 其中,c = 1,2,…,C. vth表示第 h 个特征词的输出向 ·1210·
郑恒毅等:一种面向网络长文本的话题检测方法 ·1211· 输出层 (开始) T时刻舆情文本 向量表示 与T时刻的话题簇 计算相似度 输入层 隐含层 选择最大 相似度值Max W 归入最大相似度是 Max是否 的话题簇 大于阈值 丬创建新的话题簇 处理完毕 是 结束) 图4基于时间窗口的Single-Pass聚类流程 图3Skip-Gmm模型结构 Fig.4 Single-Pass clustering process based on time window Fig.3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量 图5所示): 最后将Word2vee得到的词向量与文本的TF- 1.计算文档集中所有文本两两之间的文本相似 DF向量进行融合,这样可以同时达到降维和文本 度sim㎡(d:,d;),构建相似度矩阵 2.从相似度矩阵中找出最大相似度值Max(sim 向量化的目的.为了更加完整地表达文本信息,再 加上文本主题的信息.在计算文本相似度时,分别 (d,d)对应的文档dnm、dn,此时Max的值小于设 定的阈值直接跳到Step5,否则dn、dn合成一个话题 计算LDA向量表示下和Word2vec&TF-IDF向量表 类C 示下的余弦距离,两者加权融合 3.计算C与其他文本的相似度,更新相似度 L.3基于Single--Pass&HAC聚类算法的话题检测 矩阵 Single-Pass适合流输入的文本处理,常用于新 4.是否满足预设话题数,否则跳到2. 闻话题检测中,该算法不需要预先设定聚类话题数, 5.聚类结束 根据文本的输入先后顺序进行文本相似度的比较, HAC聚类可以将分散的文本精确的聚到不同 第一篇文档归为第一类,后续的与之前的分类进行 层级,但是由于计算过程中需要反复计算文本相似 比较,如果满足相似度条件则归为一类,否则创建新 度,在大量文本处理的情况下需要大量的存储,仅适 的分类.但是这种方法需要预先设定阈值,并且分 合少量文本的处理.而本文是在Single-Pass聚类之 类效果好坏受限于文本输入顺序.本文在经典的 后引入HAC聚类,仅是通过HAC聚类来合并相似 Single--Pass聚类的基础上进行了优化,首先是利用 度较高的话题簇,Single-Pass聚类后话题簇远远小 舆情发生的时间顺序作为文本的输入顺序,同时按 于输入的文档数,此时再使用HAC聚类时,话题簇 照时间窗口进行切分,时间窗口的单位可以选择/ 数是在合理数量范围内的. d/周,在此基础上,第T+1刻产生的舆情文本在第T: 时刻分好类的基础上,与其每个类簇的质心进行余 2实验结果与分析 弦相似度计算,同样选出相似度最大值,超过阈值则 2.1实验数据与评价指标 归到相似度最大值的话簇,反之创建一个新的话题 2.1.1实验数据 簇,第T2时刻则在第T:,的基础上计相似度.反 利用开源框架Scrapy和Beautiful Soup开发的 复执行以上步骤,直到分类完毕.具体的流程如图4 主题爬虫,爬取了重庆大学校内论坛(民主湖论 所示 坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重 同时为了避免阈值对分类效果的较大影响,本 庆大学新闻网等舆情数据,贴吧、论坛帖子总计 文在Single--Pass的基础上加人了凝聚式层次聚类 6808条,评论、回复贴超过148539条,微博4711 (HAC).HAC聚类的流程(HAC的话题合并流程如 条,转发的微博9537,微博的评论12634,新闻共
郑恒毅等: 一种面向网络长文本的话题检测方法 图 3 Skip鄄鄄Gram 模型结构 Fig. 3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量. 最后将 Word2vec 得到的词向量与文本的 TF鄄鄄 IDF 向量进行融合,这样可以同时达到降维和文本 向量化的目的. 为了更加完整地表达文本信息,再 加上文本主题的信息. 在计算文本相似度时,分别 计算 LDA 向量表示下和 Word2vec&TF鄄鄄IDF 向量表 示下的余弦距离,两者加权融合. 1郾 3 基于 Single鄄鄄Pass & HAC 聚类算法的话题检测 Single鄄鄄Pass 适合流输入的文本处理,常用于新 闻话题检测中,该算法不需要预先设定聚类话题数, 根据文本的输入先后顺序进行文本相似度的比较, 第一篇文档归为第一类,后续的与之前的分类进行 比较,如果满足相似度条件则归为一类,否则创建新 的分类. 但是这种方法需要预先设定阈值,并且分 类效果好坏受限于文本输入顺序. 本文在经典的 Single鄄鄄Pass 聚类的基础上进行了优化,首先是利用 舆情发生的时间顺序作为文本的输入顺序,同时按 照时间窗口进行切分,时间窗口的单位可以选择 h / d / 周,在此基础上,第 Ti + 1刻产生的舆情文本在第 Ti 时刻分好类的基础上,与其每个类簇的质心进行余 弦相似度计算,同样选出相似度最大值,超过阈值则 归到相似度最大值的话簇,反之创建一个新的话题 簇,第 Ti + 2时刻则在第 Ti + 1的基础上计相似度. 反 复执行以上步骤,直到分类完毕. 具体的流程如图 4 所示. 同时为了避免阈值对分类效果的较大影响,本 文在 Single鄄鄄Pass 的基础上加入了凝聚式层次聚类 (HAC). HAC 聚类的流程(HAC 的话题合并流程如 图 4 基于时间窗口的 Single鄄鄄Pass 聚类流程 Fig. 4 Single鄄鄄Pass clustering process based on time window 图 5 所示): 1. 计算文档集中所有文本两两之间的文本相似 度 sim(di,dj),构建相似度矩阵. 2. 从相似度矩阵中找出最大相似度值 Max(sim (di,dj)) 对应的文档 dm 、dn ,此时 Max 的值小于设 定的阈值直接跳到 Step5,否则 dm 、dn 合成一个话题 类 Ck . 3. 计算 Ck 与其他文本的相似度,更新相似度 矩阵. 4. 是否满足预设话题数,否则跳到 2. 5. 聚类结束 HAC 聚类可以将分散的文本精确的聚到不同 层级,但是由于计算过程中需要反复计算文本相似 度,在大量文本处理的情况下需要大量的存储,仅适 合少量文本的处理. 而本文是在 Single鄄鄄Pass 聚类之 后引入 HAC 聚类,仅是通过 HAC 聚类来合并相似 度较高的话题簇,Single鄄鄄 Pass 聚类后话题簇远远小 于输入的文档数,此时再使用 HAC 聚类时,话题簇 数是在合理数量范围内的. 2 实验结果与分析 2郾 1 实验数据与评价指标 2郾 1郾 1 实验数据 利用开源框架 Scrapy 和 Beautiful Soup 开发的 主题爬虫,爬取了重庆大学校内论坛( 民主湖论 坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重 庆大学新闻网等舆情数据,贴吧、论坛帖子总计 6808 条,评论、回复贴超过 148539 条, 微博 4711 条,转发的微博 9537,微博的评论 12634,新闻共 ·1211·
·1212· 工程科学学报.第41卷.第9期 (开始) 数设定为6. 2.基于LDA模型,话题数C设定为6. Single-Pass聚类后 的话题簇 3.基于LDA文本表示和Single-Pass&HAC的 聚类,话题数C设定为200. 建立话题篪间的 相似度矩阵 4.基于Word2vec&TF-IDF文本表示和Single- 选择最大相似度值 Pass&HAC的聚类,Word2vee的维度设定在100. Max(sim(d.d》 5.基于LDA&Word2vec和Single--Pass&HAC的 文是 聚类,统一LDA的话题数设定为200,Word2vec维 Max是否 否 大于阀值T 度设定为100. 实验结果如表1所示 合并两个话题簇, 更新相似度矩阵 表1各种聚类算法的性能 和话题向量 Table 1 Performance of various clustering algorithms 话题族数 聚类算法 准确率召回率F值 是否满足设定 要求 VSM+K-Means 0.7050.7030.704 是 LDA 0.7280.7420.735 、结束 LDA +Single-Pass &HAC 0.7780.7990.789 图5HAC话题合并流程 Word2vec Single-Pass &HAC 0.7940.801 0.797 Fig.5 HAC topic merge process LDA&Word2vec +Single-Pass &HAC 0.833 0.845 0.839 2071条,所有文本总计184300条,选取了其中10 从表1可以看出,传统的基于VSM+K-Means 个话题,每个话题1000条文本用于实验. 的聚类算法由于只是单纯计算词语出现频率,缺少 首先是中文分词,利用开源工具jiba,停用词 了深层次的语义,因此算法的准确性和召回率都是 表选用的哈工大和百度的词表.然后通过LDA训 最差的,其次是LDA方法,LDA主题模型是可以分 练文档集,话题数定为200,=0.1,B=0.25,得到 析出文本-主题向量,但是LDA用于文本分类的效 文本-主题的特征向量.之后在用Word2vec训练语 果不尽如人意,原因是LDA计算的文本-主题的概 料集,得到每个特征词的向量,再通过T℉-DF值与 率模型,并不代表文本一定属于这个主题,同时由于 Word2vec的特征向量进行加权融合得到完整的文 本表示. 本文话题数为6,因此LDA在计算时大大减少了文 本的维度,丢失了高维文本信息.同时可以看出基 2.1.2实验评价指标 文本聚类中常用的评价指标包括准确率(P)、 于Single-Pass&HAC的聚类算法普遍好于K-Means 召回率(R)、F值.F值是准确率和召回率的几何加 和LDA算法,而在文本向量表示方面,单一的LDA 权均值,可以更好的衡量话题检测精度,F值的具体 或者Word2vec都不能完整的表示文本信息,基于 表达如下: LDA&Word2vec的文本表示用于话题检测的效果明 F=(a2+1)pR 显高于单独使用LDA或Word2vec,因此可以看出基 a(P+R) (7) 于LDA&Word2vec和Single-Pass&HAC算法的 通常,a=1,F值越大则表明聚类的效果越好. 话题检测效果优于其他方法. 2.2实验结果分析 2.2.2不同参数对聚类算法性能比较 2.2.1各种聚类算法性能比较 在LDA&Word2vec和Single-Pass&HAC算法 本次实验是为了验证基于LDA&Word2vec和 中,影响性能的参数包括LDA的维数V,Word2vec Single--Pass&HAC的算法优于传统的VSM+K- 的维数Q,LDA和Word2vec的加强融合系数y,以 Means和LDA分类,以及在文本相似度计算时结合 及Single--Pass的阈值T这四个参数.这四个参数的 LDA和Word2vec的效果好于单独使用LDA或者 选择也直接影响算法的性能.通过对照试验来验证 Word2vec. 参数对算法的影响. 总共5组实验,分布如下: 判断LDA和Word2vee的维度对实验结果的影 l.传统的VSM和KMeans结合的方式,聚类簇 响,V取值为50、100、150、200,y=0.5,T=0.90,Q
工程科学学报,第 41 卷,第 9 期 图 5 HAC 话题合并流程 Fig. 5 HAC topic merge process 2071 条,所有文本总计 184300 条,选取了其中 10 个话题,每个话题 1000 条文本用于实验. 首先是中文分词,利用开源工具 jieba,停用词 表选用的哈工大和百度的词表. 然后通过 LDA 训 练文档集,话题数定为 200,琢 = 0郾 1,茁 = 0郾 25,得到 文本鄄鄄主题的特征向量. 之后在用 Word2vec 训练语 料集,得到每个特征词的向量,再通过 TF鄄鄄IDF 值与 Word2vec 的特征向量进行加权融合得到完整的文 本表示. 2郾 1郾 2 实验评价指标 文本聚类中常用的评价指标包括准确率(P)、 召回率(R)、F 值. F 值是准确率和召回率的几何加 权均值,可以更好的衡量话题检测精度,F 值的具体 表达如下: F = (a 2 + 1)P·R a 2 (P + R) (7) 通常,a = 1,F 值越大则表明聚类的效果越好. 2郾 2 实验结果分析 2郾 2郾 1 各种聚类算法性能比较 本次实验是为了验证基于 LDA&Word2vec 和 Single鄄鄄Pass &HAC 的算法优于传统的 VSM + K鄄鄄 Means 和 LDA 分类,以及在文本相似度计算时结合 LDA 和 Word2vec 的效果好于单独使用 LDA 或者 Word2vec. 总共 5 组实验,分布如下: 1. 传统的 VSM 和 KMeans 结合的方式,聚类簇 数设定为 6. 2. 基于 LDA 模型,话题数 C 设定为 6. 3. 基于 LDA 文本表示和 Single鄄鄄 Pass&HAC 的 聚类,话题数 C 设定为 200. 4. 基于 Word2vec&TF鄄鄄 IDF 文本表示和 Single鄄鄄 Pass&HAC 的聚类,Word2vec 的维度设定在 100. 5. 基于 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 的 聚类,统一 LDA 的话题数设定为 200,Word2vec 维 度设定为 100. 实验结果如表 1 所示. 表 1 各种聚类算法的性能 Table 1 Performance of various clustering algorithms 聚类算法 准确率 召回率 F 值 VSM + K鄄鄄Means 0郾 705 0郾 703 0郾 704 LDA 0郾 728 0郾 742 0郾 735 LDA + Single鄄鄄Pass &HAC 0郾 778 0郾 799 0郾 789 Word2vec + Single鄄鄄Pass &HAC 0郾 794 0郾 801 0郾 797 LDA& Word2vec + Single鄄鄄Pass &HAC 0郾 833 0郾 845 0郾 839 从表 1 可以看出,传统的基于 VSM + K鄄鄄 Means 的聚类算法由于只是单纯计算词语出现频率,缺少 了深层次的语义,因此算法的准确性和召回率都是 最差的,其次是 LDA 方法,LDA 主题模型是可以分 析出文本鄄鄄主题向量,但是 LDA 用于文本分类的效 果不尽如人意,原因是 LDA 计算的文本鄄鄄 主题的概 率模型,并不代表文本一定属于这个主题,同时由于 本文话题数为 6,因此 LDA 在计算时大大减少了文 本的维度,丢失了高维文本信息. 同时可以看出基 于 Single鄄鄄Pass&HAC 的聚类算法普遍好于 K鄄鄄Means 和 LDA 算法,而在文本向量表示方面,单一的 LDA 或者 Word2vec 都不能完整的表示文本信息,基于 LDA&Word2vec 的文本表示用于话题检测的效果明 显高于单独使用 LDA 或 Word2vec,因此可以看出基 于 LDA & Word2vec 和 Single鄄鄄 Pass & HAC 算法的 话题检测效果优于其他方法. 2郾 2郾 2 不同参数对聚类算法性能比较 在 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 算 法 中,影响性能的参数包括 LDA 的维数 V,Word2vec 的维数 Q,LDA 和 Word2vec 的加强融合系数 酌,以 及 Single鄄鄄Pass 的阈值 T 这四个参数. 这四个参数的 选择也直接影响算法的性能. 通过对照试验来验证 参数对算法的影响. 判断 LDA 和 Word2vec 的维度对实验结果的影 响,V 取值为 50、100、150、200,酌 = 0郾 5,T = 0郾 90,Q ·1212·
郑恒毅等:一种面向网络长文本的话题检测方法 ·1213· 取值也为50、100、150、200,实验结果如图6所示. 较为分散的类别再次聚类,兼顾了准确性和效率. 由6可知,在V=200,Q=100时有较好的F值,因 在真实数据集上的实验结果表明,本文提出的方法 此固定V=200,Q=100,修改阈值T,T的变化为 相较于现在常用的话题检测方法,如VSM和Sin- 0.85~0.95,不同阈值下F值的变化如图7所示 gle-Pass等,检测精度提高了10%~20%. 0.840 但是,本文对于网络长文本的话题检测仍有一 ·-V=50 ◆-V-100 些不足之处,归纳起来有以下两点:第一点是本文提 0.835 8-V=150 0-V-200 出的话题检测方法对于特定话题的演化和预测本文 0.830 并没有涉及,故下一步可以在本文基础上增加对话 0.825 题的演化分析和预期估计.第二点是本文的话题检 测方法对于话题的聚类有了良好的效果,但是并未 0.820 对话题的情感倾向性进行分析,在今后的工作中可 0.815 以考虑利用Word2vec进行情感字典的扩建. 0.810 0 100 150 200 参考文献 Word2vec维度,Q [1]AlSumait L S.Online Topic Detection,Tracking,and Significance 图6不同维度下F值的变化 Ranking Using Generatire Topic Models Dissertation].Fairfax: Fig.6 Change in F value for different dimensions George Mason University,2009 [2]Allan J.Harding S,Fisher D,et al.Taking topic detection from 0.840 evaluation to practice//Proceedings of the 38th Anmual Hawaii In- 0.835 ternational Conference on System Sciences.Big Island,2005:1 [3]Allan J,Lavrenko V,Swan R.Explorations within topic tracking 0.830 and detection//Topie Detection and Tracking.Boston:Springer, 2002:197 0.825 [4]Schultz J M,Liberman M Y.Towards a "Universal Dictionary" for multi-language information retrieval applications//Topic Detec- 0.820 tion and Tracking.Boston:Springer,2002:225 0.815 [5]Jiang P.Design and Implementation of Public Opinion Analysis System of Shandong Unirersity Dissertation].Jinan:Shandong 0.818850360.870.880890900910.920.930.94095 University,2015 阈值T (姜朋.山东大学與情分析系统的设计与实现[学位论文], 图7倒值T的影响 济南:山东大学,2015) Fig.7 Change in F value for different thresholds [6]Huang M X.The design and the implementation of the public opinion analysis system based on subject discovery.Beijing U 由图7可以看出,LDA维度为200,Word2vec的 nion Univ Nat Sci,2012,26(1):33) 维度为100,Single--Pass的阈值为0.90时有较好的 (黄美璇.基于主题发现的舆情分析系统的设计与实现.北京 联合大学学报:自然科学版,2012,26(1):33) F值. [7]Ren H G.The Design and Implementation of Public Opinion Analy- 3结论 sis System Based on Topic Events Dissertation].Beijing:Beijing University of Posts and Telecommunications,2012 针对现有的网络长文本话题检测方法文本信息 (任海果.基于主题事件的舆情分析系统的设计与实现[学位 表示不完整,话题发现精度、效率低下的问题,提出 论文].北京:北京邮电大学,2012) 了一种新的方法.在文本表示上,本文研究的基于 [8]Wu L H.Forum Based Topic Detection and Tracking Algorithms Study on Dissertation].Beijing:Beijing University of Posts and LDA&Word2vec的文本向量不仅可以表示文本数据 Telecommunications,2013 的特征词向量,而且可以表示文本隐含的主题信息, (吴利华.基于论坛的话题发现与跟踪算法研究[学位论文]. 对文本的信息进行了较为完整地表达,在进行话题 北京:北京邮电大学,2013) 检测时可以有效地提高精度.在文本聚类方面,本 [9] Gao X.Designing and Building APublic Opinion Monitoring Sys- 文研究的基于Single-Pass&HAC的文本聚类方法, tem Based on Forumn Information [Dissertation ]Harbin:Harbin Institute of Technology,2012 在Single-Pass聚类的基础上引人了时间窗口,解决 (高雄.基于论坛的舆情分析系统设计与实现[学位论文] 了其对于输入文本顺序敏感地问题,再利用HAC对 哈尔滨:哈尔滨工业大学,2012)
郑恒毅等: 一种面向网络长文本的话题检测方法 取值也为 50、100、150、200,实验结果如图 6 所示. 由 6 可知,在 V = 200,Q = 100 时有较好的 F 值,因 此固定 V = 200,Q = 100,修改阈值 T,T 的变化为 0郾 85 ~ 0郾 95,不同阈值下 F 值的变化如图 7 所示. 图 6 不同维度下 F 值的变化 Fig. 6 Change in F value for different dimensions 图 7 阈值 T 的影响 Fig. 7 Change in F value for different thresholds 由图 7 可以看出,LDA 维度为 200,Word2vec 的 维度为 100,Single鄄鄄Pass 的阈值为 0郾 90 时有较好的 F 值. 3 结论 针对现有的网络长文本话题检测方法文本信息 表示不完整,话题发现精度、效率低下的问题,提出 了一种新的方法. 在文本表示上,本文研究的基于 LDA&Word2vec 的文本向量不仅可以表示文本数据 的特征词向量,而且可以表示文本隐含的主题信息, 对文本的信息进行了较为完整地表达,在进行话题 检测时可以有效地提高精度. 在文本聚类方面,本 文研究的基于 Single鄄鄄Pass & HAC 的文本聚类方法, 在 Single鄄鄄Pass 聚类的基础上引入了时间窗口,解决 了其对于输入文本顺序敏感地问题,再利用 HAC 对 较为分散的类别再次聚类,兼顾了准确性和效率. 在真实数据集上的实验结果表明,本文提出的方法 相较于现在常用的话题检测方法,如 VSM 和 Sin鄄 gle鄄鄄Pass 等,检测精度提高了 10% ~ 20% . 但是,本文对于网络长文本的话题检测仍有一 些不足之处,归纳起来有以下两点:第一点是本文提 出的话题检测方法对于特定话题的演化和预测本文 并没有涉及,故下一步可以在本文基础上增加对话 题的演化分析和预期估计. 第二点是本文的话题检 测方法对于话题的聚类有了良好的效果,但是并未 对话题的情感倾向性进行分析,在今后的工作中可 以考虑利用 Word2vec 进行情感字典的扩建. 参 考 文 献 [1] AlSumait L S. Online Topic Detection, Tracking, and Significance Ranking Using Generative Topic Models [ Dissertation]. Fairfax: George Mason University, 2009 [2] Allan J, Harding S, Fisher D, et al. Taking topic detection from evaluation to practice / / Proceedings of the 38th Annual Hawaii In鄄 ternational Conference on System Sciences. Big Island, 2005: 1 [3] Allan J, Lavrenko V, Swan R. Explorations within topic tracking and detection / / Topic Detection and Tracking. Boston: Springer, 2002: 197 [4] Schultz J M, Liberman M Y. Towards a “Universal Dictionary冶 for multi鄄language information retrieval applications/ / Topic Detec鄄 tion and Tracking. Boston: Springer, 2002: 225 [5] Jiang P. Design and Implementation of Public Opinion Analysis System of Shandong University [ Dissertation]. Jinan: Shandong University, 2015 (姜朋. 山东大学舆情分析系统的设计与实现[学位论文]. 济南: 山东大学, 2015) [6] Huang M X. The design and the implementation of the public opinion analysis system based on subject discovery. J Beijing U鄄 nion Univ Nat Sci, 2012, 26(1): 33) (黄美璇. 基于主题发现的舆情分析系统的设计与实现. 北京 联合大学学报:自然科学版, 2012, 26(1): 33) [7] Ren H G. The Design and Implementation of Public Opinion Analy鄄 sis System Based on Topic Events [Dissertation]. Beijing: Beijing University of Posts and Telecommunications, 2012 (任海果. 基于主题事件的舆情分析系统的设计与实现[学位 论文]. 北京: 北京邮电大学, 2012) [8] Wu L H. Forum Based Topic Detection and Tracking Algorithms Study on [Dissertation]. Beijing: Beijing University of Posts and Telecommunications, 2013 (吴利华. 基于论坛的话题发现与跟踪算法研究[学位论文]. 北京: 北京邮电大学, 2013) [9] Gao X. Designing and Building APublic Opinion Monitoring Sys鄄 tem Based on Forum Information [Dissertation]. Harbin: Harbin Institute of Technology, 2012 (高雄. 基于论坛的舆情分析系统设计与实现[学位论文]. 哈尔滨: 哈尔滨工业大学, 2012) ·1213·
.1214. 工程科学学报,第41卷,第9期 [10]Zhou YT,Tang J B,Wu Z G.Method of multi-topie Web text on Word2Vee.Comput Sci,2016,43(6):214 classification based on VSM.Appl Res Comput,2008,25 (1): (唐明,朱磊,邹显春.基于Wod2Vee的一种文档向量表 142 示.计算机科学,2016,43(6):214) (周炎涛,唐剑波,吴正国.基于向量空间模型的多主题 [17]Zhang D.Li S D.Topic detection based on K-means//Interna- Wh文本分类方法.计算机应用研究,2008.25(1):142) tional Conference on Electronics,Communications and Control [11]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation.J (/CECC).Ningho,2011:2983 Mach Learn Res,2003,3:993 [18]Meng Z Q,Shen S M,Chen Q L.A network decomposition- [12]Huang B,Yang Y,Mahmood A,et al.Microblog topic detection based text clustering algorithm for topic detection.Appl Mech Ma- based on LDA model and single-pass clustering//International ter,2013,239-240:1318 Conference on Rough Sets and Current Trends in Computing.Ber- [19]Yi X L,Zhao X,Ke N,et al.An improved Single-Pass cluste- lin:Springer,2012 ring algorithm internet-oriented network topic detection /Fourth [13]Hu X L Micro-blog topie drift detection based on VSM and LDA International Conference on Intelligent Control and Information models.J Lanzhou Univ Technol,2015,41(5):104 Processing (ICICIP).Beijing,2013:560 (胡秀丽.基于VSM和LDA模型相结合的微博话题漂移检 [20]Huang S,Peng X P,Niu Z D,et al.News topic detection based 测.兰州理工大学学报,2015,41(5):104) on hierarchical clustering and named entity /7th International [14]Wang ZZ,He M.Du Y P.Text similarity computing based on Conference on Natural Language Processing And Knouledge Engi- topic model LDA.Comput Sci,2013.40(12):229 neering.Tokushima,2011:280 (王振振,何明,杜永萍.基于LDA主题模型的文本相似度 [21]Lei Z,Wu L D.Lei L,et al.Incremental K-means method 计算.计算机科学,2013,40(12):229) based on initialisation of cluster centers and its application in [15]Hinton G E.Learning distributed representations of concepts / news event detection.J Chin Soc Sci Tech Inf,2006,25(3): Proceedings of the Eighth Annual Conference of the Cognitive Sci- 289 ence Society.Amherst,1986:1 (雷震,吴玲达,雷蕾,等.初始化类中心的增量K均值法及 [16]Tang M,Zhu L,Zou X C.Document vector representation based 其在新闻事件探测中的应用.情报学报,2006,25(3):289)
工程科学学报,第 41 卷,第 9 期 [10] Zhou Y T, Tang J B, Wu Z G. Method of multi鄄topic Web text classification based on VSM. Appl Res Comput, 2008, 25 (1): 142 (周炎涛, 唐剑波, 吴正国. 基于向量空间模型的多主题 Web 文本分类方法. 计算机应用研究, 2008, 25(1): 142) [11] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. J Mach Learn Res, 2003, 3: 993 [12] Huang B, Yang Y, Mahmood A, et al. Microblog topic detection based on LDA model and single鄄pass clustering / / International Conference on Rough Sets and Current Trends in Computing. Ber鄄 lin: Springer, 2012 [13] Hu X L. Micro鄄blog topic drift detection based on VSM and LDA models. J Lanzhou Univ Technol, 2015, 41(5): 104 (胡秀丽. 基于 VSM 和 LDA 模型相结合的微博话题漂移检 测. 兰州理工大学学报, 2015, 41(5): 104) [14] Wang Z Z, He M, Du Y P. Text similarity computing based on topic model LDA. Comput Sci, 2013, 40(12): 229 (王振振, 何明, 杜永萍. 基于 LDA 主题模型的文本相似度 计算. 计算机科学, 2013, 40(12): 229) [15] Hinton G E. Learning distributed representations of concepts / / Proceedings of the Eighth Annual Conference of the Cognitive Sci鄄 ence Society. Amherst, 1986: 1 [16] Tang M, Zhu L, Zou X C. Document vector representation based on Word2Vec. Comput Sci, 2016, 43(6): 214 (唐明, 朱磊, 邹显春. 基于 Word2Vec 的一种文档向量表 示. 计算机科学, 2016, 43(6): 214) [17] Zhang D, Li S D. Topic detection based on K鄄means / / Interna鄄 tional Conference on Electronics, Communications and Control (ICECC). Ningbo, 2011: 2983 [18] Meng Z Q, Shen S M, Chen Q L. A network decomposition鄄 based text clustering algorithm for topic detection. Appl Mech Ma鄄 ter, 2013, 239鄄240: 1318 [19] Yi X L, Zhao X, Ke N, et al. An improved Single鄄鄄Pass cluste鄄 ring algorithm internet鄄oriented network topic detection / / Fourth International Conference on Intelligent Control and Information Processing (ICICIP). Beijing, 2013: 560 [20] Huang S, Peng X P, Niu Z D, et al. News topic detection based on hierarchical clustering and named entity / / 7th International Conference on Natural Language Processing And Knowledge Engi鄄 neering. Tokushima, 2011: 280 [21] Lei Z, Wu L D, Lei L, et al. Incremental K鄄means method based on initialisation of cluster centers and its application in news event detection. J Chin Soc Sci Tech Inf, 2006, 25 (3): 289 (雷震, 吴玲达, 雷蕾, 等. 初始化类中心的增量 K 均值法及 其在新闻事件探测中的应用. 情报学报, 2006, 25(3): 289) ·1214·