郑恒毅等: 一种面向网络长文本的话题检测方法在网络长文本中进行话题检测可

正在加载图片...

郑恒毅等：一种面向网络长文本的话题检测方法 ·1209· 在网络长文本中进行话题检测可以在大量冗余效地解决长文本表示存在的高维稀疏性问题，而且文本数据中找到有价值的主题信息).在网络奥情能够同时表示出文本的主题和特征词信息.针对传分析系统中，网络事件具有突发性和快速传播性，及统话题发现方法对长文本输入顺序敏感导致的聚类时迅速地对网络长文本进行话题检测有助于相关监时精度不高、效率低下的问题，本文研究了一种基于管部门对于网络舆情进行科学地决策).在知识转时间窗口Single-Pass&LDA的聚类算法，能有效减移领域中，将知识库中的知识进行话题检测，可以除小Single-Pass算法对于文本输入顺序敏感性，提高去冗余数据并且将知识进行归类，可以提高后续知话题检测的精度识传输和吸收过程中的效率3] 网络长文本话题检测的主要任务是对大量文本 1基于文本表示与聚类的话题检测方法数据进行聚类)，从而进一步对人们关心的事件进 1.1基于LDA&Word2vec和Single-Pass&HAC 行发现.随着近几年互联网产业的快速发展，国内的话题检测算法的话题检测领域也涌现了不少具有影响力的成果. 本文首先研究了基于LDA和Word2vec融合的例如，山东大学通过对校园网络文本进行Single- 文本特性向量表示，在分别计算了文本的LDA特征 Pass聚类分析，获取话题簇，提出了基于论坛和新闻向量（主题-文本表示）和Word2vec的词向量与的舆情分析系统[).北京邮电大学通过对论坛的文 T℉-DF相乘相加的结果后，运用基于时间窗口的本分析6]，利用简单的聚类方法进行主题发现，提 Single--Pass进行初步聚类，由于基于时间窗口的出了基于论坛的话题发现与跟踪算法[-8).哈尔滨 Single--Pass算法的复杂度较低，可以同时与上一时工业大学“基于论坛的舆情分析系统”[通过对论刻的聚类话题簇进行相似度计算，在大量文本的输坛文本的抽取，基于聚类的主题发现和句法分析的入下快速形成凝聚度高、颗粒小的话题簇，再利用情感倾向来获取论坛的热点信息，得到舆情信息 HAC算法将分散的话题簇通过相似度计算合并，最对树络长文本进行话题检则主要分为两个步终得到一个良好的聚类结果.具体的算法流程如图骤：文本表示和话题发现.在文本表示方法中，经典 1所示. 的文本模型就是VSMo],VSM利用文本特征性的 1.2基于Word2vec&LDA的文本表示权重表示文本，既而在向量空间表示文本的相似度，文本数据无法直接输入到计算机进行处理的， VSM模型简单、操作方便，但是在大量文本数据情需要进行结构化处理，利用向量来对文本进行表示. 况下存在高维度、数据稀疏等缺陷.近年来，越来越在VSM模型中将所有文本数据用D={d,,d2,… 多学者开始将LDA[]应用到网络长文本的话题检 dn,…,dx}来表示，将所有特征词用T={t1,t2,…, 测[2-1)，通过LDA模型的训练得到文本的潜在主 tu}表示，将每个文档表示为d={(w1,t1),(02, 题信息[4-15]，进而有效地提取文本主题，实现话题 2),…,(0,4)},其中0表示i篇文档的t词的权的检测.同时，随着深度学习的发展，有学者将词向重.在本文中使用T℉-DF,即词频-反文档频率权量模型16]引入到文本表示中，丰富了文本特征，加重法来对权重进行计算.计算公式如式(1)所示：强了话题检测的效果.在话题发现中，文本聚类是 N 常用的检测方法.聚类方法的好坏直接影响检测的 +0.01 结果，目前常用的聚类算法有K-Means(7],二分K- Means18】,Single--Pass]、层次聚类2o]等，也有学者 +0.01 将这些经典算法上优化或者组合，例如文献[21]在式中为词语出现的频率，为逆向文件频率，N 传统K-Means的基础上优化了初始化聚类簇心，有为文本总数效地对新闻事件进行了检测.但是K-Means需要基于VSM的话题检测过程中，直接利用特征词事先设定类簇数量，聚类效果依赖初始化的类簇中及其权重来直接比较两篇文档的相似度，这种方法心，Single-Pass对输入顺序和阈值设置十分敏感，层随着数据量的提升会出现维度灾难，并且无法找到次聚类需要大量的时间，效率不高. 词语之间的隐含关系，常常忽略词语在上下文中的本文从网络长文本的特性出发，针对文本表示含义.因此将LDA模型引入，LDA假设每个特征词的高维稀疏性和忽略潜在语义的问题，研究了一种都是由一个隐含的主题抽取得到的，而一篇文本可基于word2vec&LDA的文本向量化方法，不仅能有以由多个不同概率分布的主题生成，每个主题又由郑恒毅等: 一种面向网络长文本的话题检测方法在网络长文本中进行话题检测可以在大量冗余文本数据中找到有价值的主题信息[1] . 在网络舆情分析系统中,网络事件具有突发性和快速传播性,及时迅速地对网络长文本进行话题检测有助于相关监管部门对于网络舆情进行科学地决策[2] . 在知识转移领域中,将知识库中的知识进行话题检测,可以除去冗余数据并且将知识进行归类,可以提高后续知识传输和吸收过程中的效率[3] . 网络长文本话题检测的主要任务是对大量文本数据进行聚类[4] ,从而进一步对人们关心的事件进行发现. 随着近几年互联网产业的快速发展,国内的话题检测领域也涌现了不少具有影响力的成果. 例如,山东大学通过对校园网络文本进行 Single鄄鄄 Pass 聚类分析,获取话题簇,提出了基于论坛和新闻的舆情分析系统[5] . 北京邮电大学通过对论坛的文本分析[6] ,利用简单的聚类方法进行主题发现,提出了基于论坛的话题发现与跟踪算法[7鄄鄄8] . 哈尔滨工业大学“基于论坛的舆情分析系统冶 [9] 通过对论坛文本的抽取,基于聚类的主题发现和句法分析的情感倾向来获取论坛的热点信息,得到舆情信息. 对网络长文本进行话题检测主要分为两个步骤:文本表示和话题发现. 在文本表示方法中,经典的文本模型就是 VSM [10] ,VSM 利用文本特征性的权重表示文本,既而在向量空间表示文本的相似度, VSM 模型简单、操作方便,但是在大量文本数据情况下存在高维度、数据稀疏等缺陷. 近年来,越来越多学者开始将 LDA [11] 应用到网络长文本的话题检测[12鄄鄄13] ,通过 LDA 模型的训练得到文本的潜在主题信息[14鄄鄄15] ,进而有效地提取文本主题,实现话题的检测. 同时,随着深度学习的发展,有学者将词向量模型[16]引入到文本表示中,丰富了文本特征,加强了话题检测的效果. 在话题发现中,文本聚类是常用的检测方法. 聚类方法的好坏直接影响检测的结果,目前常用的聚类算法有 K鄄鄄Means [17] ,二分 K鄄鄄 Means [18] 、Single鄄鄄Pass [19] 、层次聚类[20] 等,也有学者将这些经典算法上优化或者组合,例如文献[21]在传统 K鄄鄄Means 的基础上优化了初始化聚类簇心,有效地对新闻事件进行了检测. 但是 K鄄鄄 Means 需要事先设定类簇数量,聚类效果依赖初始化的类簇中心,Single鄄鄄Pass 对输入顺序和阈值设置十分敏感,层次聚类需要大量的时间,效率不高. 本文从网络长文本的特性出发,针对文本表示的高维稀疏性和忽略潜在语义的问题,研究了一种基于 word2vec & LDA 的文本向量化方法,不仅能有效地解决长文本表示存在的高维稀疏性问题,而且能够同时表示出文本的主题和特征词信息. 针对传统话题发现方法对长文本输入顺序敏感导致的聚类时精度不高、效率低下的问题,本文研究了一种基于时间窗口 Single鄄鄄Pass & LDA 的聚类算法,能有效减小 Single鄄鄄Pass 算法对于文本输入顺序敏感性,提高话题检测的精度. 1 基于文本表示与聚类的话题检测方法 1郾 1 基于 LDA & Word2vec 和 Single鄄鄄Pass&HAC 的话题检测算法本文首先研究了基于 LDA 和 Word2vec 融合的文本特性向量表示,在分别计算了文本的 LDA 特征向量(主题鄄鄄文本表示) 和 Word2vec 的词向量与 TF鄄鄄IDF 相乘相加的结果后,运用基于时间窗口的 Single鄄鄄Pass 进行初步聚类,由于基于时间窗口的 Single鄄鄄Pass 算法的复杂度较低,可以同时与上一时刻的聚类话题簇进行相似度计算,在大量文本的输入下快速形成凝聚度高、颗粒小的话题簇,再利用 HAC 算法将分散的话题簇通过相似度计算合并,最终得到一个良好的聚类结果. 具体的算法流程如图 1 所示. 1郾 2 基于 Word2vec & LDA 的文本表示文本数据无法直接输入到计算机进行处理的, 需要进行结构化处理,利用向量来对文本进行表示. 在 VSM 模型中将所有文本数据用 D = { d1 ,d2 ,… dn ,…,dN }来表示,将所有特征词用 T = { t 1 ,t 2 ,…, tM }表示,将每个文档表示为 di = {(wi1 ,t 1 ),(wi2 , t 2 ),…,(wij,t j)},其中 wij表示 i 篇文档的 t j 词的权重. 在本文中使用 TF鄄鄄 IDF,即词频鄄鄄反文档频率权重法来对权重进行计算. 计算公式如式(1)所示: wij = f t j·lg ( N f d t j + 0郾 01 ) 移 j沂 [ N f t j·lg ( N f d t j + 0郾 01 ) ] 2 (1) 式中,f t j为词语 t j 出现的频率,f d t j为逆向文件频率,N 为文本总数. 基于 VSM 的话题检测过程中,直接利用特征词及其权重来直接比较两篇文档的相似度,这种方法随着数据量的提升会出现维度灾难,并且无法找到词语之间的隐含关系,常常忽略词语在上下文中的含义. 因此将 LDA 模型引入,LDA 假设每个特征词都是由一个隐含的主题抽取得到的,而一篇文本可以由多个不同概率分布的主题生成,每个主题又由 ·1209·

<<向上翻页向下翻页>>

点击下载：一种面向网络长文本的话题检测方法