一种面向网络长文本的话题检测方法

提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题，提出了Word2vec&LDA（latent dirichlet allocation）的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题，提出了基于文本聚类的Single-Pass&HAC（hierarchical agglomerative clustering）的话题发现方法，在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性，同时提高了聚类的精度和效率.为了评估所提出方法的有效性，本文从某大学社交平台收集了来自真实世界的多源数据集，并基于此进行了大量的实验.实验结果证明，本文提出的方法相对于现有的方法，如VSM（state vector space model）、Single-Pass等拥有更好的效果，话题检测的精度提高了10%~20%.

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：1.12MB

工程科学学报，第41卷，第9期：1208-1214,2019年9月 Chinese Journal of Engineering,Vol.41,No.9:1208-1214,September 2019 DOI:10.13374/j.issn2095-9389.2019.09.013;http://journals.ustb.edu.cn 一种面向网络长文本的话题检测方法郑恒毅)，廖城霖)四，李天柱) 1)重庆大学机械工程学院，重庆4000442)重庆大学自动化学院，重庆400044 ☒通信作者，E-mail:liaochenglinl127@gmail.com 摘要提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题，提出了Wod2vc &LDA(latent dirichlet allocation)的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题，提出了基于文本聚类的Single-Pass&HAC(hierarchical agglomerative clustering)的话题发现方法，在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性，同时提高了聚类的精度和效率.为了评估所提出方法的有效性，本文从某大学社交平台收集了来自真实世界的多源数据集，并基于此进行了大量的实验.实验结果证明，本文提出的方法相对于现有的方法，如VSM(state vector space model)、Single-Pass等拥有更好的效果，话题检测的精度提高了l0%~20%. 关键词网络长文本：话题检测：文本表示：话题发现：文本聚类分类号TP391.4 A topic detection method for network long text ZHENG Heng-yi,LIAO Cheng-lin)LI Tian-zhu) 1)College of Mechanical Engineering,Chongqing University,Chongqing 400044.China 2)College of Automation,Chongqing University,Chongqing 400044,China Corresponding author,E-mail:liaochenglinl127@gmail.com ABSTRACT Internet public opinion is an important source of people's views on social hotspots and national current affairs.Topic detection in network long text contributes toward the analysis of network public opinion.According to the results of topic detection,the policymaker can timely and reliably make scientific decisions.In general,topic detection can be divided into two steps,i.e.,repre- sentation learning and topic discovery.However,common representation learning methods,such as state vector space model (VSM) and term frequency-inverse document frequency,often lead to the problems of high dimensionality,sparsity,and latent semantic loss, whereas traditional topic discovery methods depend heavily on the text input orders.To overcome these,a novel topic detection method was presented herein.First,Word2vec latent Dirichlet allocation (LDA)-based methods for representation learning were proposed to avoid the problem of high-dimensional sparsity and neglect of latent semantics.Weighted fusion of the text feature word implicit topic extracted by LDA and the feature word vector of Word2vec mapping could not only perform dimensionality reduction but also completely represent text information.Furthermore,Single-Pass and hierarchical agglomerative clustering for topic discovery could be more robust for input orders.To evaluate the effectiveness and efficiency of the proposed method,extensive experiments were conducted on a real- world multi-source dataset,which was collected from university social platforms.The experimental results show that the proposed meth- od outperforms other methods,such as VSM and Single-Pass,by improving the clustering accuracy by 10%-20%. KEY WORDS network long text;topic detection;text representation;topic discovery;text cluster 收稿日期：2019-01-03

工程科学学报,第 41 卷,第 9 期:1208鄄鄄1214,2019 年 9 月 Chinese Journal of Engineering, Vol. 41, No. 9: 1208鄄鄄1214, September 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2019. 09. 013; http: / / journals. ustb. edu. cn 一种面向网络长文本的话题检测方法郑恒毅1) , 廖城霖2) 苣 , 李天柱2) 1)重庆大学机械工程学院, 重庆 400044 2) 重庆大学自动化学院, 重庆 400044 苣通信作者, E鄄mail:liaochenglin1127@ gmail. com 摘要提出了一种面向网络长文本的话题检测方法. 针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了 Word2vec & LDA (latent dirichlet allocation)的文本表示方法. 将 LDA 提取的文本特征词隐含主题和 Word2vec 映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息. 针对传统话题发现方法对长文本输入顺序敏感问题,提出了基于文本聚类的 Single鄄鄄Pass & HAC (hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率. 为了评估所提出方法的有效性,本文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验. 实验结果证明,本文提出的方法相对于现有的方法,如 VSM (state vector space model)、Single鄄鄄Pass 等拥有更好的效果,话题检测的精度提高了 10% ~ 20% . 关键词网络长文本; 话题检测; 文本表示; 话题发现; 文本聚类分类号 TP391郾 4 收稿日期: 2019鄄鄄01鄄鄄03 A topic detection method for network long text ZHENG Heng鄄yi 1) , LIAO Cheng鄄lin 2) 苣 , LI Tian鄄zhu 2) 1) College of Mechanical Engineering, Chongqing University, Chongqing 400044, China 2) College of Automation, Chongqing University, Chongqing 400044, China 苣Corresponding author, E鄄mail: liaochenglin1127@ gmail. com ABSTRACT Internet public opinion is an important source of people爷 s views on social hotspots and national current affairs. Topic detection in network long text contributes toward the analysis of network public opinion. According to the results of topic detection, the policymaker can timely and reliably make scientific decisions. In general, topic detection can be divided into two steps, i. e. , repre鄄 sentation learning and topic discovery. However, common representation learning methods, such as state vector space model (VSM) and term frequency鄄鄄inverse document frequency, often lead to the problems of high dimensionality, sparsity, and latent semantic loss, whereas traditional topic discovery methods depend heavily on the text input orders. To overcome these, a novel topic detection method was presented herein. First, Word2vec & latent Dirichlet allocation (LDA)鄄based methods for representation learning were proposed to avoid the problem of high鄄dimensional sparsity and neglect of latent semantics. Weighted fusion of the text feature word implicit topic extracted by LDA and the feature word vector of Word2vec mapping could not only perform dimensionality reduction but also completely represent text information. Furthermore, Single鄄鄄Pass and hierarchical agglomerative clustering for topic discovery could be more robust for input orders. To evaluate the effectiveness and efficiency of the proposed method, extensive experiments were conducted on a real鄄 world multi鄄source dataset, which was collected from university social platforms. The experimental results show that the proposed meth鄄 od outperforms other methods, such as VSM and Single鄄鄄Pass, by improving the clustering accuracy by 10% 鄄鄄20% . KEY WORDS network long text; topic detection; text representation; topic discovery; text cluster

郑恒毅等：一种面向网络长文本的话题检测方法 ·1209· 在网络长文本中进行话题检测可以在大量冗余效地解决长文本表示存在的高维稀疏性问题，而且文本数据中找到有价值的主题信息).在网络奥情能够同时表示出文本的主题和特征词信息.针对传分析系统中，网络事件具有突发性和快速传播性，及统话题发现方法对长文本输入顺序敏感导致的聚类时迅速地对网络长文本进行话题检测有助于相关监时精度不高、效率低下的问题，本文研究了一种基于管部门对于网络舆情进行科学地决策).在知识转时间窗口Single-Pass&LDA的聚类算法，能有效减移领域中，将知识库中的知识进行话题检测，可以除小Single-Pass算法对于文本输入顺序敏感性，提高去冗余数据并且将知识进行归类，可以提高后续知话题检测的精度识传输和吸收过程中的效率3] 网络长文本话题检测的主要任务是对大量文本 1基于文本表示与聚类的话题检测方法数据进行聚类)，从而进一步对人们关心的事件进 1.1基于LDA&Word2vec和Single-Pass&HAC 行发现.随着近几年互联网产业的快速发展，国内的话题检测算法的话题检测领域也涌现了不少具有影响力的成果. 本文首先研究了基于LDA和Word2vec融合的例如，山东大学通过对校园网络文本进行Single- 文本特性向量表示，在分别计算了文本的LDA特征 Pass聚类分析，获取话题簇，提出了基于论坛和新闻向量（主题-文本表示）和Word2vec的词向量与的舆情分析系统[).北京邮电大学通过对论坛的文 T℉-DF相乘相加的结果后，运用基于时间窗口的本分析6]，利用简单的聚类方法进行主题发现，提 Single--Pass进行初步聚类，由于基于时间窗口的出了基于论坛的话题发现与跟踪算法[-8).哈尔滨 Single--Pass算法的复杂度较低，可以同时与上一时工业大学“基于论坛的舆情分析系统”[通过对论刻的聚类话题簇进行相似度计算，在大量文本的输坛文本的抽取，基于聚类的主题发现和句法分析的入下快速形成凝聚度高、颗粒小的话题簇，再利用情感倾向来获取论坛的热点信息，得到舆情信息 HAC算法将分散的话题簇通过相似度计算合并，最对树络长文本进行话题检则主要分为两个步终得到一个良好的聚类结果.具体的算法流程如图骤：文本表示和话题发现.在文本表示方法中，经典 1所示. 的文本模型就是VSMo],VSM利用文本特征性的 1.2基于Word2vec&LDA的文本表示权重表示文本，既而在向量空间表示文本的相似度，文本数据无法直接输入到计算机进行处理的， VSM模型简单、操作方便，但是在大量文本数据情需要进行结构化处理，利用向量来对文本进行表示. 况下存在高维度、数据稀疏等缺陷.近年来，越来越在VSM模型中将所有文本数据用D={d,,d2,… 多学者开始将LDA[]应用到网络长文本的话题检 dn,…,dx}来表示，将所有特征词用T={t1,t2,…, 测[2-1)，通过LDA模型的训练得到文本的潜在主 tu}表示，将每个文档表示为d={(w1,t1),(02, 题信息[4-15]，进而有效地提取文本主题，实现话题 2),…,(0,4)},其中0表示i篇文档的t词的权的检测.同时，随着深度学习的发展，有学者将词向重.在本文中使用T℉-DF,即词频-反文档频率权量模型16]引入到文本表示中，丰富了文本特征，加重法来对权重进行计算.计算公式如式(1)所示：强了话题检测的效果.在话题发现中，文本聚类是 N 常用的检测方法.聚类方法的好坏直接影响检测的 +0.01 结果，目前常用的聚类算法有K-Means(7],二分K- Means18】,Single--Pass]、层次聚类2o]等，也有学者 +0.01 将这些经典算法上优化或者组合，例如文献[21]在式中为词语出现的频率，为逆向文件频率，N 传统K-Means的基础上优化了初始化聚类簇心，有为文本总数效地对新闻事件进行了检测.但是K-Means需要基于VSM的话题检测过程中，直接利用特征词事先设定类簇数量，聚类效果依赖初始化的类簇中及其权重来直接比较两篇文档的相似度，这种方法心，Single-Pass对输入顺序和阈值设置十分敏感，层随着数据量的提升会出现维度灾难，并且无法找到次聚类需要大量的时间，效率不高. 词语之间的隐含关系，常常忽略词语在上下文中的本文从网络长文本的特性出发，针对文本表示含义.因此将LDA模型引入，LDA假设每个特征词的高维稀疏性和忽略潜在语义的问题，研究了一种都是由一个隐含的主题抽取得到的，而一篇文本可基于word2vec&LDA的文本向量化方法，不仅能有以由多个不同概率分布的主题生成，每个主题又由

郑恒毅等: 一种面向网络长文本的话题检测方法在网络长文本中进行话题检测可以在大量冗余文本数据中找到有价值的主题信息[1] . 在网络舆情分析系统中,网络事件具有突发性和快速传播性,及时迅速地对网络长文本进行话题检测有助于相关监管部门对于网络舆情进行科学地决策[2] . 在知识转移领域中,将知识库中的知识进行话题检测,可以除去冗余数据并且将知识进行归类,可以提高后续知识传输和吸收过程中的效率[3] . 网络长文本话题检测的主要任务是对大量文本数据进行聚类[4] ,从而进一步对人们关心的事件进行发现. 随着近几年互联网产业的快速发展,国内的话题检测领域也涌现了不少具有影响力的成果. 例如,山东大学通过对校园网络文本进行 Single鄄鄄 Pass 聚类分析,获取话题簇,提出了基于论坛和新闻的舆情分析系统[5] . 北京邮电大学通过对论坛的文本分析[6] ,利用简单的聚类方法进行主题发现,提出了基于论坛的话题发现与跟踪算法[7鄄鄄8] . 哈尔滨工业大学“基于论坛的舆情分析系统冶 [9] 通过对论坛文本的抽取,基于聚类的主题发现和句法分析的情感倾向来获取论坛的热点信息,得到舆情信息. 对网络长文本进行话题检测主要分为两个步骤:文本表示和话题发现. 在文本表示方法中,经典的文本模型就是 VSM [10] ,VSM 利用文本特征性的权重表示文本,既而在向量空间表示文本的相似度, VSM 模型简单、操作方便,但是在大量文本数据情况下存在高维度、数据稀疏等缺陷. 近年来,越来越多学者开始将 LDA [11] 应用到网络长文本的话题检测[12鄄鄄13] ,通过 LDA 模型的训练得到文本的潜在主题信息[14鄄鄄15] ,进而有效地提取文本主题,实现话题的检测. 同时,随着深度学习的发展,有学者将词向量模型[16]引入到文本表示中,丰富了文本特征,加强了话题检测的效果. 在话题发现中,文本聚类是常用的检测方法. 聚类方法的好坏直接影响检测的结果,目前常用的聚类算法有 K鄄鄄Means [17] ,二分 K鄄鄄 Means [18] 、Single鄄鄄Pass [19] 、层次聚类[20] 等,也有学者将这些经典算法上优化或者组合,例如文献[21]在传统 K鄄鄄Means 的基础上优化了初始化聚类簇心,有效地对新闻事件进行了检测. 但是 K鄄鄄 Means 需要事先设定类簇数量,聚类效果依赖初始化的类簇中心,Single鄄鄄Pass 对输入顺序和阈值设置十分敏感,层次聚类需要大量的时间,效率不高. 本文从网络长文本的特性出发,针对文本表示的高维稀疏性和忽略潜在语义的问题,研究了一种基于 word2vec & LDA 的文本向量化方法,不仅能有效地解决长文本表示存在的高维稀疏性问题,而且能够同时表示出文本的主题和特征词信息. 针对传统话题发现方法对长文本输入顺序敏感导致的聚类时精度不高、效率低下的问题,本文研究了一种基于时间窗口 Single鄄鄄Pass & LDA 的聚类算法,能有效减小 Single鄄鄄Pass 算法对于文本输入顺序敏感性,提高话题检测的精度. 1 基于文本表示与聚类的话题检测方法 1郾 1 基于 LDA & Word2vec 和 Single鄄鄄Pass&HAC 的话题检测算法本文首先研究了基于 LDA 和 Word2vec 融合的文本特性向量表示,在分别计算了文本的 LDA 特征向量(主题鄄鄄文本表示) 和 Word2vec 的词向量与 TF鄄鄄IDF 相乘相加的结果后,运用基于时间窗口的 Single鄄鄄Pass 进行初步聚类,由于基于时间窗口的 Single鄄鄄Pass 算法的复杂度较低,可以同时与上一时刻的聚类话题簇进行相似度计算,在大量文本的输入下快速形成凝聚度高、颗粒小的话题簇,再利用 HAC 算法将分散的话题簇通过相似度计算合并,最终得到一个良好的聚类结果. 具体的算法流程如图 1 所示. 1郾 2 基于 Word2vec & LDA 的文本表示文本数据无法直接输入到计算机进行处理的, 需要进行结构化处理,利用向量来对文本进行表示. 在 VSM 模型中将所有文本数据用 D = { d1 ,d2 ,… dn ,…,dN }来表示,将所有特征词用 T = { t 1 ,t 2 ,…, tM }表示,将每个文档表示为 di = {(wi1 ,t 1 ),(wi2 , t 2 ),…,(wij,t j)},其中 wij表示 i 篇文档的 t j 词的权重. 在本文中使用 TF鄄鄄 IDF,即词频鄄鄄反文档频率权重法来对权重进行计算. 计算公式如式(1)所示: wij = f t j·lg ( N f d t j + 0郾 01 ) 移 j沂 [ N f t j·lg ( N f d t j + 0郾 01 ) ] 2 (1) 式中,f t j为词语 t j 出现的频率,f d t j为逆向文件频率,N 为文本总数. 基于 VSM 的话题检测过程中,直接利用特征词及其权重来直接比较两篇文档的相似度,这种方法随着数据量的提升会出现维度灾难,并且无法找到词语之间的隐含关系,常常忽略词语在上下文中的含义. 因此将 LDA 模型引入,LDA 假设每个特征词都是由一个隐含的主题抽取得到的,而一篇文本可以由多个不同概率分布的主题生成,每个主题又由 ·1209·

·1210· 工程科学学报，第41卷，第9期 (开始况下，根据主题词语的Dirichlet先验分布[B。,B.a, BaBv]T生成的多项式分布[p1,p2,poa…pv]I, 舆情文本从词袋中抽取一个词语w.LDA文本建模的主要文本预处理、问题就是求解文档-主题和主题-特征词分布参数分词矩阵0和Φ的值，本文使用Gibbs采样的方法来估 LDA文本建模 Word2vec VSM空间算LDA的参数词向量构建假设已知任意函数的条件分布p(x:Ix-:),其中计算文本相似度词向量与TF-DF 权重相乘相加 x-i=（x1,2,…,x-1x+1,…,xn),通过马尔科夫链蒙特卡洛算法就可以得到联合分布.首先建立z和计算文本相似度 w的联合分布，其数学表达式如式(2)所示：两种文本 p(w.-Ia.B)-p(w.-.0.01o.B)d0d@(2) 相似度结合给定z和w的联合分布，即可通过式(3)来计基于时间窗口的算Gibs采样的条件概率： Single-Pass聚类 p(2=alz,x,aB)= p(=al x,a,B) HAC话题合并 (3) p(,女=a1r,,B）得到最终聚类结果马尔科夫链平稳之后，给定一个采用的主题：，设定参数α和B,即可通过EM算法来估计分布参「结束数矩阵0和Φ的值图1 Single-Pass&HAC算法流程 DA建模构成了文本-主题分布，但是缺少了 Fig.1 Single-Pass HAC algorithm flow 词语本身之间的联系，只能在一定程度上表示文本多个不同概率的主题词来表达.LDA将文本数据抽数据.为了更好地对文本进行表示，还需要利用象为主题、文档、词语的一个贝叶斯概率模型.进行 Skip-Gram模型来训练语料库，将所有的特征词映 LDA建模过程图2所示，其中为每篇文档主题的射到一定维度的向量空间中，将词语表示为向量. Dirichlet先验分布参数：0每篇文档的主题分布；z 在Skip-Gram模型中，特征词作为输入层，上下文词为给词语分配的主题，共有K个，w为词袋中的一个作为输出层，即通过特征词来预测上下文词，具体的词语；为主题中的词语分布；B为每个主题词语分模型结构如图3所示. 布的Dirichlet先验分布参数，词汇表中共有V个使用t,表示输入层特征词的P维输入向量，复词语. 制和转置输入层到隐含层的权重矩阵W中的第p 行，可以得到Q维隐含层h,的定义如式(4)所示： h。=w (4) 输出层上，输出C个多项式分布，输出都由相同的隐含和输出矩阵得到，如式(5)所示： e"e& P(teh =to.elt)=yc.h= (5) 图2LDA建模过程图 Fig.2 LDA modeling process diagram 式中，t,是输出层的第c个分布上的第h个特征词， to是输出上下文词中实际的第s个词，1是唯一的在LDA建模中，首先对于文本d,首先随机从输入词，y,是输出层第c个分布上的第h个单元的 Dirichlet先验分布a=[a,a,a…a]T中选出输出，“。，h是输出层第c个分布上的第h个单元的净的一个主题多项式分布=[叫，时，…股]T, 输入.由于输出层面共享相同的权重，则有：然后根据多项式分布给该文档的第i个词语分 ueh=uh=vhh。 (6) 配一个主题=a.在已知选定的主题=a的情其中，c=1,2,…,C.y,表示第h个特征词的输出向

工程科学学报,第 41 卷,第 9 期图 1 Single鄄鄄Pass & HAC 算法流程 Fig. 1 Single鄄鄄Pass & HAC algorithm flow 多个不同概率的主题词来表达. LDA 将文本数据抽象为主题、文档、词语的一个贝叶斯概率模型. 进行 LDA 建模过程图 2 所示,其中琢为每篇文档主题的 Dirichlet 先验分布参数;兹每篇文档的主题分布;z 为给词语分配的主题,共有 K 个,w 为词袋中的一个词语;渍为主题中的词语分布;茁为每个主题词语分布的 Dirichlet 先验分布参数,词汇表中共有 V 个词语. 图 2 LDA 建模过程图 Fig. 2 LDA modeling process diagram 在 LDA 建模中,首先对于文本 dn ,首先随机从 Dirichlet 先验分布琢 dn = [琢 dn 1 ,琢 dn 2 ,琢 dn 3 …琢 dn K ] T 中选出的一个主题多项式分布兹 dn = [ 兹 dn 1 ,兹 dn 2 ,兹 dn 3 …兹 dn K ] T , 然后根据多项式分布兹 dn给该文档的第 i 个词语分配一个主题 z dn i = a. 在已知选定的主题 z dn i = a 的情况下,根据主题词语的 Dirichlet 先验分布[ 茁a1 ,茁a2 , 茁a3…茁aV ] T 生成的多项式分布[渍a1 ,渍a2 ,渍a3…渍aV ] T , 从词袋中抽取一个词语 w dn i . LDA 文本建模的主要问题就是求解文档鄄鄄主题和主题鄄鄄特征词分布参数矩阵兹和椎的值,本文使用 Gibbs 采样的方法来估算 LDA 的参数. 假设已知任意函数的条件分布 p(xi | x - i),其中 x - i = (x1 ,x2 ,…,xi - 1 ,xi + 1 ,…,xn ),通过马尔科夫链蒙特卡洛算法就可以得到联合分布. 首先建立 z 和 w 的联合分布,其数学表达式如式(2)所示: p(w,z| 琢,茁) = 乙兹乙椎 p(w,z,兹,椎| 琢,茁)d兹d椎(2) 给定 z 和 w 的联合分布,即可通过式(3) 来计算 Gibbs 采样的条件概率: p(z dn i = a |z 劭 dn 劭 i ,x,琢,茁) = p(z 劭 dn 劭 i ,z dn i = a | x,琢,茁) 移 K a忆 = 1 p(z 劭 dn 劭 i ,z dn i = a忆 | x,琢,茁) (3) 马尔科夫链平稳之后,给定一个采用的主题 z, 设定参数琢和茁,即可通过 EM 算法来估计分布参数矩阵兹和椎的值. LDA 建模构成了文本鄄鄄主题分布,但是缺少了词语本身之间的联系,只能在一定程度上表示文本数据. 为了更好地对文本进行表示,还需要利用 Skip鄄鄄Gram 模型来训练语料库,将所有的特征词映射到一定维度的向量空间中,将词语表示为向量. 在 Skip鄄鄄Gram 模型中,特征词作为输入层,上下文词作为输出层,即通过特征词来预测上下文词,具体的模型结构如图 3 所示. 使用 t I 表示输入层特征词的 P 维输入向量,复制和转置输入层到隐含层的权重矩阵 W 中的第 p 行,可以得到 Q 维隐含层 hp 的定义如式(4)所示: hp = W T p (4) 输出层上,输出 C 个多项式分布,输出都由相同的隐含和输出矩阵得到,如式(5)所示: P(t c,h = tO,c | t I) = yc,h = e uc,h 移 P h = 1 e uc,h (5) 式中,t c,h是输出层的第 c 个分布上的第 h 个特征词, tO,s是输出上下文词中实际的第 s 个词,t I 是唯一的输入词,yc,h是输出层第 c 个分布上的第 h 个单元的输出,uc,h是输出层第 c 个分布上的第 h 个单元的净输入. 由于输出层面共享相同的权重,则有: uc,h = uh = vth·hp (6) 其中,c = 1,2,…,C. vth表示第 h 个特征词的输出向 ·1210·

郑恒毅等：一种面向网络长文本的话题检测方法 ·1211· 输出层 (开始) T时刻舆情文本向量表示与T时刻的话题簇计算相似度输入层隐含层选择最大相似度值Max W 归入最大相似度是 Max是否的话题簇大于阈值丬创建新的话题簇处理完毕是结束) 图4基于时间窗口的Single-Pass聚类流程图3Skip-Gmm模型结构 Fig.4 Single-Pass clustering process based on time window Fig.3 Skip gram model structure 量，取自于隐含层到输出层的的权重向量图5所示)：最后将Word2vee得到的词向量与文本的TF- 1.计算文档集中所有文本两两之间的文本相似 DF向量进行融合，这样可以同时达到降维和文本度sim㎡(d:,d;),构建相似度矩阵 2.从相似度矩阵中找出最大相似度值Max(sim 向量化的目的.为了更加完整地表达文本信息，再加上文本主题的信息.在计算文本相似度时，分别 (d,d)对应的文档dnm、dn,此时Max的值小于设定的阈值直接跳到Step5,否则dn、dn合成一个话题计算LDA向量表示下和Word2vec&TF-IDF向量表类C 示下的余弦距离，两者加权融合 3.计算C与其他文本的相似度，更新相似度 L.3基于Single--Pass&HAC聚类算法的话题检测矩阵 Single-Pass适合流输入的文本处理，常用于新 4.是否满足预设话题数，否则跳到2. 闻话题检测中，该算法不需要预先设定聚类话题数， 5.聚类结束根据文本的输入先后顺序进行文本相似度的比较， HAC聚类可以将分散的文本精确的聚到不同第一篇文档归为第一类，后续的与之前的分类进行层级，但是由于计算过程中需要反复计算文本相似比较，如果满足相似度条件则归为一类，否则创建新度，在大量文本处理的情况下需要大量的存储，仅适的分类.但是这种方法需要预先设定阈值，并且分合少量文本的处理.而本文是在Single-Pass聚类之类效果好坏受限于文本输入顺序.本文在经典的后引入HAC聚类，仅是通过HAC聚类来合并相似 Single--Pass聚类的基础上进行了优化，首先是利用度较高的话题簇，Single-Pass聚类后话题簇远远小舆情发生的时间顺序作为文本的输入顺序，同时按于输入的文档数，此时再使用HAC聚类时，话题簇照时间窗口进行切分，时间窗口的单位可以选择/ 数是在合理数量范围内的. d/周，在此基础上，第T+1刻产生的舆情文本在第T: 时刻分好类的基础上，与其每个类簇的质心进行余 2实验结果与分析弦相似度计算，同样选出相似度最大值，超过阈值则 2.1实验数据与评价指标归到相似度最大值的话簇，反之创建一个新的话题 2.1.1实验数据簇，第T2时刻则在第T:,的基础上计相似度.反利用开源框架Scrapy和Beautiful Soup开发的复执行以上步骤，直到分类完毕.具体的流程如图4 主题爬虫，爬取了重庆大学校内论坛（民主湖论所示坛)、重庆大学贴吧、新浪微博（重庆大学相关）、重同时为了避免阈值对分类效果的较大影响，本庆大学新闻网等舆情数据，贴吧、论坛帖子总计文在Single--Pass的基础上加人了凝聚式层次聚类 6808条，评论、回复贴超过148539条，微博4711 (HAC).HAC聚类的流程(HAC的话题合并流程如条，转发的微博9537，微博的评论12634，新闻共

郑恒毅等: 一种面向网络长文本的话题检测方法图 3 Skip鄄鄄Gram 模型结构 Fig. 3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量. 最后将 Word2vec 得到的词向量与文本的 TF鄄鄄 IDF 向量进行融合,这样可以同时达到降维和文本向量化的目的. 为了更加完整地表达文本信息,再加上文本主题的信息. 在计算文本相似度时,分别计算 LDA 向量表示下和 Word2vec&TF鄄鄄IDF 向量表示下的余弦距离,两者加权融合. 1郾 3 基于 Single鄄鄄Pass & HAC 聚类算法的话题检测 Single鄄鄄Pass 适合流输入的文本处理,常用于新闻话题检测中,该算法不需要预先设定聚类话题数, 根据文本的输入先后顺序进行文本相似度的比较, 第一篇文档归为第一类,后续的与之前的分类进行比较,如果满足相似度条件则归为一类,否则创建新的分类. 但是这种方法需要预先设定阈值,并且分类效果好坏受限于文本输入顺序. 本文在经典的 Single鄄鄄Pass 聚类的基础上进行了优化,首先是利用舆情发生的时间顺序作为文本的输入顺序,同时按照时间窗口进行切分,时间窗口的单位可以选择 h / d / 周,在此基础上,第 Ti + 1刻产生的舆情文本在第 Ti 时刻分好类的基础上,与其每个类簇的质心进行余弦相似度计算,同样选出相似度最大值,超过阈值则归到相似度最大值的话簇,反之创建一个新的话题簇,第 Ti + 2时刻则在第 Ti + 1的基础上计相似度. 反复执行以上步骤,直到分类完毕. 具体的流程如图 4 所示. 同时为了避免阈值对分类效果的较大影响,本文在 Single鄄鄄Pass 的基础上加入了凝聚式层次聚类 (HAC). HAC 聚类的流程(HAC 的话题合并流程如图 4 基于时间窗口的 Single鄄鄄Pass 聚类流程 Fig. 4 Single鄄鄄Pass clustering process based on time window 图 5 所示): 1. 计算文档集中所有文本两两之间的文本相似度 sim(di,dj),构建相似度矩阵. 2. 从相似度矩阵中找出最大相似度值 Max(sim (di,dj)) 对应的文档 dm 、dn ,此时 Max 的值小于设定的阈值直接跳到 Step5,否则 dm 、dn 合成一个话题类 Ck . 3. 计算 Ck 与其他文本的相似度,更新相似度矩阵. 4. 是否满足预设话题数,否则跳到 2. 5. 聚类结束 HAC 聚类可以将分散的文本精确的聚到不同层级,但是由于计算过程中需要反复计算文本相似度,在大量文本处理的情况下需要大量的存储,仅适合少量文本的处理. 而本文是在 Single鄄鄄Pass 聚类之后引入 HAC 聚类,仅是通过 HAC 聚类来合并相似度较高的话题簇,Single鄄鄄 Pass 聚类后话题簇远远小于输入的文档数,此时再使用 HAC 聚类时,话题簇数是在合理数量范围内的. 2 实验结果与分析 2郾 1 实验数据与评价指标 2郾 1郾 1 实验数据利用开源框架 Scrapy 和 Beautiful Soup 开发的主题爬虫,爬取了重庆大学校内论坛( 民主湖论坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重庆大学新闻网等舆情数据,贴吧、论坛帖子总计 6808 条,评论、回复贴超过 148539 条, 微博 4711 条,转发的微博 9537,微博的评论 12634,新闻共 ·1211·

·1212· 工程科学学报.第41卷.第9期 (开始) 数设定为6. 2.基于LDA模型，话题数C设定为6. Single-Pass聚类后的话题簇 3.基于LDA文本表示和Single-Pass&HAC的聚类，话题数C设定为200. 建立话题篪间的相似度矩阵 4.基于Word2vec&TF-IDF文本表示和Single- 选择最大相似度值 Pass&HAC的聚类，Word2vee的维度设定在100. Max(sim(d.d》 5.基于LDA&Word2vec和Single--Pass&HAC的文是聚类，统一LDA的话题数设定为200，Word2vec维 Max是否否大于阀值T 度设定为100. 实验结果如表1所示合并两个话题簇，更新相似度矩阵表1各种聚类算法的性能和话题向量 Table 1 Performance of various clustering algorithms 话题族数聚类算法准确率召回率F值是否满足设定要求 VSM+K-Means 0.7050.7030.704 是 LDA 0.7280.7420.735 、结束 LDA +Single-Pass &HAC 0.7780.7990.789 图5HAC话题合并流程 Word2vec Single-Pass &HAC 0.7940.801 0.797 Fig.5 HAC topic merge process LDA&Word2vec +Single-Pass &HAC 0.833 0.845 0.839 2071条，所有文本总计184300条，选取了其中10 从表1可以看出，传统的基于VSM+K-Means 个话题，每个话题1000条文本用于实验. 的聚类算法由于只是单纯计算词语出现频率，缺少首先是中文分词，利用开源工具jiba,停用词了深层次的语义，因此算法的准确性和召回率都是表选用的哈工大和百度的词表.然后通过LDA训最差的，其次是LDA方法，LDA主题模型是可以分练文档集，话题数定为200，=0.1，B=0.25,得到析出文本-主题向量，但是LDA用于文本分类的效文本-主题的特征向量.之后在用Word2vec训练语果不尽如人意，原因是LDA计算的文本-主题的概料集，得到每个特征词的向量，再通过T℉-DF值与率模型，并不代表文本一定属于这个主题，同时由于 Word2vec的特征向量进行加权融合得到完整的文本表示. 本文话题数为6，因此LDA在计算时大大减少了文本的维度，丢失了高维文本信息.同时可以看出基 2.1.2实验评价指标文本聚类中常用的评价指标包括准确率(P)、于Single-Pass&HAC的聚类算法普遍好于K-Means 召回率(R)、F值.F值是准确率和召回率的几何加和LDA算法，而在文本向量表示方面，单一的LDA 权均值，可以更好的衡量话题检测精度，F值的具体或者Word2vec都不能完整的表示文本信息，基于表达如下： LDA&Word2vec的文本表示用于话题检测的效果明 F=(a2+1)pR 显高于单独使用LDA或Word2vec,因此可以看出基 a(P+R) (7) 于LDA&Word2vec和Single-Pass&HAC算法的通常，a=1,F值越大则表明聚类的效果越好. 话题检测效果优于其他方法. 2.2实验结果分析 2.2.2不同参数对聚类算法性能比较 2.2.1各种聚类算法性能比较在LDA&Word2vec和Single-Pass&HAC算法本次实验是为了验证基于LDA&Word2vec和中，影响性能的参数包括LDA的维数V,Word2vec Single--Pass&HAC的算法优于传统的VSM+K- 的维数Q,LDA和Word2vec的加强融合系数y,以 Means和LDA分类，以及在文本相似度计算时结合及Single--Pass的阈值T这四个参数.这四个参数的 LDA和Word2vec的效果好于单独使用LDA或者选择也直接影响算法的性能.通过对照试验来验证 Word2vec. 参数对算法的影响. 总共5组实验，分布如下：判断LDA和Word2vee的维度对实验结果的影 l.传统的VSM和KMeans结合的方式，聚类簇响，V取值为50、100、150、200，y=0.5,T=0.90,Q

工程科学学报,第 41 卷,第 9 期图 5 HAC 话题合并流程 Fig. 5 HAC topic merge process 2071 条,所有文本总计 184300 条,选取了其中 10 个话题,每个话题 1000 条文本用于实验. 首先是中文分词,利用开源工具 jieba,停用词表选用的哈工大和百度的词表. 然后通过 LDA 训练文档集,话题数定为 200,琢 = 0郾 1,茁 = 0郾 25,得到文本鄄鄄主题的特征向量. 之后在用 Word2vec 训练语料集,得到每个特征词的向量,再通过 TF鄄鄄IDF 值与 Word2vec 的特征向量进行加权融合得到完整的文本表示. 2郾 1郾 2 实验评价指标文本聚类中常用的评价指标包括准确率(P)、召回率(R)、F 值. F 值是准确率和召回率的几何加权均值,可以更好的衡量话题检测精度,F 值的具体表达如下: F = (a 2 + 1)P·R a 2 (P + R) (7) 通常,a = 1,F 值越大则表明聚类的效果越好. 2郾 2 实验结果分析 2郾 2郾 1 各种聚类算法性能比较本次实验是为了验证基于 LDA&Word2vec 和 Single鄄鄄Pass &HAC 的算法优于传统的 VSM + K鄄鄄 Means 和 LDA 分类,以及在文本相似度计算时结合 LDA 和 Word2vec 的效果好于单独使用 LDA 或者 Word2vec. 总共 5 组实验,分布如下: 1. 传统的 VSM 和 KMeans 结合的方式,聚类簇数设定为 6. 2. 基于 LDA 模型,话题数 C 设定为 6. 3. 基于 LDA 文本表示和 Single鄄鄄 Pass&HAC 的聚类,话题数 C 设定为 200. 4. 基于 Word2vec&TF鄄鄄 IDF 文本表示和 Single鄄鄄 Pass&HAC 的聚类,Word2vec 的维度设定在 100. 5. 基于 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 的聚类,统一 LDA 的话题数设定为 200,Word2vec 维度设定为 100. 实验结果如表 1 所示. 表 1 各种聚类算法的性能 Table 1 Performance of various clustering algorithms 聚类算法准确率召回率 F 值 VSM + K鄄鄄Means 0郾 705 0郾 703 0郾 704 LDA 0郾 728 0郾 742 0郾 735 LDA + Single鄄鄄Pass &HAC 0郾 778 0郾 799 0郾 789 Word2vec + Single鄄鄄Pass &HAC 0郾 794 0郾 801 0郾 797 LDA& Word2vec + Single鄄鄄Pass &HAC 0郾 833 0郾 845 0郾 839 从表 1 可以看出,传统的基于 VSM + K鄄鄄 Means 的聚类算法由于只是单纯计算词语出现频率,缺少了深层次的语义,因此算法的准确性和召回率都是最差的,其次是 LDA 方法,LDA 主题模型是可以分析出文本鄄鄄主题向量,但是 LDA 用于文本分类的效果不尽如人意,原因是 LDA 计算的文本鄄鄄主题的概率模型,并不代表文本一定属于这个主题,同时由于本文话题数为 6,因此 LDA 在计算时大大减少了文本的维度,丢失了高维文本信息. 同时可以看出基于 Single鄄鄄Pass&HAC 的聚类算法普遍好于 K鄄鄄Means 和 LDA 算法,而在文本向量表示方面,单一的 LDA 或者 Word2vec 都不能完整的表示文本信息,基于 LDA&Word2vec 的文本表示用于话题检测的效果明显高于单独使用 LDA 或 Word2vec,因此可以看出基于 LDA & Word2vec 和 Single鄄鄄 Pass & HAC 算法的话题检测效果优于其他方法. 2郾 2郾 2 不同参数对聚类算法性能比较在 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 算法中,影响性能的参数包括 LDA 的维数 V,Word2vec 的维数 Q,LDA 和 Word2vec 的加强融合系数酌,以及 Single鄄鄄Pass 的阈值 T 这四个参数. 这四个参数的选择也直接影响算法的性能. 通过对照试验来验证参数对算法的影响. 判断 LDA 和 Word2vec 的维度对实验结果的影响,V 取值为 50、100、150、200,酌 = 0郾 5,T = 0郾 90,Q ·1212·

郑恒毅等：一种面向网络长文本的话题检测方法 ·1213· 取值也为50、100、150、200，实验结果如图6所示. 较为分散的类别再次聚类，兼顾了准确性和效率. 由6可知，在V=200,Q=100时有较好的F值，因在真实数据集上的实验结果表明，本文提出的方法此固定V=200,Q=100,修改阈值T,T的变化为相较于现在常用的话题检测方法，如VSM和Sin- 0.85~0.95,不同阈值下F值的变化如图7所示 gle-Pass等，检测精度提高了10%~20%. 0.840 但是，本文对于网络长文本的话题检测仍有一 ·-V=50 ◆-V-100 些不足之处，归纳起来有以下两点：第一点是本文提 0.835 8-V=150 0-V-200 出的话题检测方法对于特定话题的演化和预测本文 0.830 并没有涉及，故下一步可以在本文基础上增加对话 0.825 题的演化分析和预期估计.第二点是本文的话题检测方法对于话题的聚类有了良好的效果，但是并未 0.820 对话题的情感倾向性进行分析，在今后的工作中可 0.815 以考虑利用Word2vec进行情感字典的扩建. 0.810 0 100 150 200 参考文献 Word2vec维度，Q [1]AlSumait L S.Online Topic Detection,Tracking,and Significance 图6不同维度下F值的变化 Ranking Using Generatire Topic Models Dissertation].Fairfax: Fig.6 Change in F value for different dimensions George Mason University,2009 [2]Allan J.Harding S,Fisher D,et al.Taking topic detection from 0.840 evaluation to practice//Proceedings of the 38th Anmual Hawaii In- 0.835 ternational Conference on System Sciences.Big Island,2005:1 [3]Allan J,Lavrenko V,Swan R.Explorations within topic tracking 0.830 and detection//Topie Detection and Tracking.Boston:Springer, 2002:197 0.825 [4]Schultz J M,Liberman M Y.Towards a "Universal Dictionary" for multi-language information retrieval applications//Topic Detec- 0.820 tion and Tracking.Boston:Springer,2002:225 0.815 [5]Jiang P.Design and Implementation of Public Opinion Analysis System of Shandong Unirersity Dissertation].Jinan:Shandong 0.818850360.870.880890900910.920.930.94095 University,2015 阈值T (姜朋.山东大学與情分析系统的设计与实现[学位论文]，图7倒值T的影响济南：山东大学，2015) Fig.7 Change in F value for different thresholds [6]Huang M X.The design and the implementation of the public opinion analysis system based on subject discovery.Beijing U 由图7可以看出，LDA维度为200，Word2vec的 nion Univ Nat Sci,2012,26(1):33) 维度为100，Single--Pass的阈值为0.90时有较好的 (黄美璇.基于主题发现的舆情分析系统的设计与实现.北京联合大学学报：自然科学版，2012,26(1)：33) F值. [7]Ren H G.The Design and Implementation of Public Opinion Analy- 3结论 sis System Based on Topic Events Dissertation].Beijing:Beijing University of Posts and Telecommunications,2012 针对现有的网络长文本话题检测方法文本信息 (任海果.基于主题事件的舆情分析系统的设计与实现[学位表示不完整，话题发现精度、效率低下的问题，提出论文].北京：北京邮电大学，2012) 了一种新的方法.在文本表示上，本文研究的基于 [8]Wu L H.Forum Based Topic Detection and Tracking Algorithms Study on Dissertation].Beijing:Beijing University of Posts and LDA&Word2vec的文本向量不仅可以表示文本数据 Telecommunications,2013 的特征词向量，而且可以表示文本隐含的主题信息， (吴利华.基于论坛的话题发现与跟踪算法研究[学位论文]. 对文本的信息进行了较为完整地表达，在进行话题北京：北京邮电大学，2013) 检测时可以有效地提高精度.在文本聚类方面，本 [9] Gao X.Designing and Building APublic Opinion Monitoring Sys- 文研究的基于Single-Pass&HAC的文本聚类方法， tem Based on Forumn Information [Dissertation ]Harbin:Harbin Institute of Technology,2012 在Single-Pass聚类的基础上引人了时间窗口，解决 (高雄.基于论坛的舆情分析系统设计与实现[学位论文] 了其对于输入文本顺序敏感地问题，再利用HAC对哈尔滨：哈尔滨工业大学，2012)

郑恒毅等: 一种面向网络长文本的话题检测方法取值也为 50、100、150、200,实验结果如图 6 所示. 由 6 可知,在 V = 200,Q = 100 时有较好的 F 值,因此固定 V = 200,Q = 100,修改阈值 T,T 的变化为 0郾 85 ~ 0郾 95,不同阈值下 F 值的变化如图 7 所示. 图 6 不同维度下 F 值的变化 Fig. 6 Change in F value for different dimensions 图 7 阈值 T 的影响 Fig. 7 Change in F value for different thresholds 由图 7 可以看出,LDA 维度为 200,Word2vec 的维度为 100,Single鄄鄄Pass 的阈值为 0郾 90 时有较好的 F 值. 3 结论针对现有的网络长文本话题检测方法文本信息表示不完整,话题发现精度、效率低下的问题,提出了一种新的方法. 在文本表示上,本文研究的基于 LDA&Word2vec 的文本向量不仅可以表示文本数据的特征词向量,而且可以表示文本隐含的主题信息, 对文本的信息进行了较为完整地表达,在进行话题检测时可以有效地提高精度. 在文本聚类方面,本文研究的基于 Single鄄鄄Pass & HAC 的文本聚类方法, 在 Single鄄鄄Pass 聚类的基础上引入了时间窗口,解决了其对于输入文本顺序敏感地问题,再利用 HAC 对较为分散的类别再次聚类,兼顾了准确性和效率. 在真实数据集上的实验结果表明,本文提出的方法相较于现在常用的话题检测方法,如 VSM 和 Sin鄄 gle鄄鄄Pass 等,检测精度提高了 10% ~ 20% . 但是,本文对于网络长文本的话题检测仍有一些不足之处,归纳起来有以下两点:第一点是本文提出的话题检测方法对于特定话题的演化和预测本文并没有涉及,故下一步可以在本文基础上增加对话题的演化分析和预期估计. 第二点是本文的话题检测方法对于话题的聚类有了良好的效果,但是并未对话题的情感倾向性进行分析,在今后的工作中可以考虑利用 Word2vec 进行情感字典的扩建. 参考文献 [1] AlSumait L S. Online Topic Detection, Tracking, and Significance Ranking Using Generative Topic Models [ Dissertation]. Fairfax: George Mason University, 2009 [2] Allan J, Harding S, Fisher D, et al. Taking topic detection from evaluation to practice / / Proceedings of the 38th Annual Hawaii In鄄 ternational Conference on System Sciences. Big Island, 2005: 1 [3] Allan J, Lavrenko V, Swan R. Explorations within topic tracking and detection / / Topic Detection and Tracking. Boston: Springer, 2002: 197 [4] Schultz J M, Liberman M Y. Towards a “Universal Dictionary冶 for multi鄄language information retrieval applications/ / Topic Detec鄄 tion and Tracking. Boston: Springer, 2002: 225 [5] Jiang P. Design and Implementation of Public Opinion Analysis System of Shandong University [ Dissertation]. Jinan: Shandong University, 2015 (姜朋. 山东大学舆情分析系统的设计与实现[学位论文]. 济南: 山东大学, 2015) [6] Huang M X. The design and the implementation of the public opinion analysis system based on subject discovery. J Beijing U鄄 nion Univ Nat Sci, 2012, 26(1): 33) (黄美璇. 基于主题发现的舆情分析系统的设计与实现. 北京联合大学学报:自然科学版, 2012, 26(1): 33) [7] Ren H G. The Design and Implementation of Public Opinion Analy鄄 sis System Based on Topic Events [Dissertation]. Beijing: Beijing University of Posts and Telecommunications, 2012 (任海果. 基于主题事件的舆情分析系统的设计与实现[学位论文]. 北京: 北京邮电大学, 2012) [8] Wu L H. Forum Based Topic Detection and Tracking Algorithms Study on [Dissertation]. Beijing: Beijing University of Posts and Telecommunications, 2013 (吴利华. 基于论坛的话题发现与跟踪算法研究[学位论文]. 北京: 北京邮电大学, 2013) [9] Gao X. Designing and Building APublic Opinion Monitoring Sys鄄 tem Based on Forum Information [Dissertation]. Harbin: Harbin Institute of Technology, 2012 (高雄. 基于论坛的舆情分析系统设计与实现[学位论文]. 哈尔滨: 哈尔滨工业大学, 2012) ·1213·

.1214. 工程科学学报，第41卷，第9期 [10]Zhou YT,Tang J B,Wu Z G.Method of multi-topie Web text on Word2Vee.Comput Sci,2016,43(6):214 classification based on VSM.Appl Res Comput,2008,25 (1): (唐明，朱磊，邹显春.基于Wod2Vee的一种文档向量表 142 示.计算机科学，2016,43(6)：214) (周炎涛，唐剑波，吴正国.基于向量空间模型的多主题 [17]Zhang D.Li S D.Topic detection based on K-means//Interna- Wh文本分类方法.计算机应用研究，2008.25(1)：142) tional Conference on Electronics,Communications and Control [11]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation.J (/CECC).Ningho,2011:2983 Mach Learn Res,2003,3:993 [18]Meng Z Q,Shen S M,Chen Q L.A network decomposition- [12]Huang B,Yang Y,Mahmood A,et al.Microblog topic detection based text clustering algorithm for topic detection.Appl Mech Ma- based on LDA model and single-pass clustering//International ter,2013,239-240:1318 Conference on Rough Sets and Current Trends in Computing.Ber- [19]Yi X L,Zhao X,Ke N,et al.An improved Single-Pass cluste- lin:Springer,2012 ring algorithm internet-oriented network topic detection /Fourth [13]Hu X L Micro-blog topie drift detection based on VSM and LDA International Conference on Intelligent Control and Information models.J Lanzhou Univ Technol,2015,41(5):104 Processing (ICICIP).Beijing,2013:560 (胡秀丽.基于VSM和LDA模型相结合的微博话题漂移检 [20]Huang S,Peng X P,Niu Z D,et al.News topic detection based 测.兰州理工大学学报，2015,41(5)：104) on hierarchical clustering and named entity /7th International [14]Wang ZZ,He M.Du Y P.Text similarity computing based on Conference on Natural Language Processing And Knouledge Engi- topic model LDA.Comput Sci,2013.40(12):229 neering.Tokushima,2011:280 (王振振，何明，杜永萍.基于LDA主题模型的文本相似度 [21]Lei Z,Wu L D.Lei L,et al.Incremental K-means method 计算.计算机科学，2013,40(12)：229) based on initialisation of cluster centers and its application in [15]Hinton G E.Learning distributed representations of concepts / news event detection.J Chin Soc Sci Tech Inf,2006,25(3): Proceedings of the Eighth Annual Conference of the Cognitive Sci- 289 ence Society.Amherst,1986:1 (雷震，吴玲达，雷蕾，等.初始化类中心的增量K均值法及 [16]Tang M,Zhu L,Zou X C.Document vector representation based 其在新闻事件探测中的应用.情报学报，2006,25(3)：289)

工程科学学报,第 41 卷,第 9 期 [10] Zhou Y T, Tang J B, Wu Z G. Method of multi鄄topic Web text classification based on VSM. Appl Res Comput, 2008, 25 (1): 142 (周炎涛, 唐剑波, 吴正国. 基于向量空间模型的多主题 Web 文本分类方法. 计算机应用研究, 2008, 25(1): 142) [11] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation. J Mach Learn Res, 2003, 3: 993 [12] Huang B, Yang Y, Mahmood A, et al. Microblog topic detection based on LDA model and single鄄pass clustering / / International Conference on Rough Sets and Current Trends in Computing. Ber鄄 lin: Springer, 2012 [13] Hu X L. Micro鄄blog topic drift detection based on VSM and LDA models. J Lanzhou Univ Technol, 2015, 41(5): 104 (胡秀丽. 基于 VSM 和 LDA 模型相结合的微博话题漂移检测. 兰州理工大学学报, 2015, 41(5): 104) [14] Wang Z Z, He M, Du Y P. Text similarity computing based on topic model LDA. Comput Sci, 2013, 40(12): 229 (王振振, 何明, 杜永萍. 基于 LDA 主题模型的文本相似度计算. 计算机科学, 2013, 40(12): 229) [15] Hinton G E. Learning distributed representations of concepts / / Proceedings of the Eighth Annual Conference of the Cognitive Sci鄄 ence Society. Amherst, 1986: 1 [16] Tang M, Zhu L, Zou X C. Document vector representation based on Word2Vec. Comput Sci, 2016, 43(6): 214 (唐明, 朱磊, 邹显春. 基于 Word2Vec 的一种文档向量表示. 计算机科学, 2016, 43(6): 214) [17] Zhang D, Li S D. Topic detection based on K鄄means / / Interna鄄 tional Conference on Electronics, Communications and Control (ICECC). Ningbo, 2011: 2983 [18] Meng Z Q, Shen S M, Chen Q L. A network decomposition鄄 based text clustering algorithm for topic detection. Appl Mech Ma鄄 ter, 2013, 239鄄240: 1318 [19] Yi X L, Zhao X, Ke N, et al. An improved Single鄄鄄Pass cluste鄄 ring algorithm internet鄄oriented network topic detection / / Fourth International Conference on Intelligent Control and Information Processing (ICICIP). Beijing, 2013: 560 [20] Huang S, Peng X P, Niu Z D, et al. News topic detection based on hierarchical clustering and named entity / / 7th International Conference on Natural Language Processing And Knowledge Engi鄄 neering. Tokushima, 2011: 280 [21] Lei Z, Wu L D, Lei L, et al. Incremental K鄄means method based on initialisation of cluster centers and its application in news event detection. J Chin Soc Sci Tech Inf, 2006, 25 (3): 289 (雷震, 吴玲达, 雷蕾, 等. 初始化类中心的增量 K 均值法及其在新闻事件探测中的应用. 情报学报, 2006, 25(3): 289) ·1214·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

一种面向网络长文本的话题检测方法