正在加载图片...
郑恒毅等:一种面向网络长文本的话题检测方法 ·1209· 在网络长文本中进行话题检测可以在大量冗余 效地解决长文本表示存在的高维稀疏性问题,而且 文本数据中找到有价值的主题信息).在网络奥情 能够同时表示出文本的主题和特征词信息.针对传 分析系统中,网络事件具有突发性和快速传播性,及 统话题发现方法对长文本输入顺序敏感导致的聚类 时迅速地对网络长文本进行话题检测有助于相关监 时精度不高、效率低下的问题,本文研究了一种基于 管部门对于网络舆情进行科学地决策).在知识转 时间窗口Single-Pass&LDA的聚类算法,能有效减 移领域中,将知识库中的知识进行话题检测,可以除 小Single-Pass算法对于文本输入顺序敏感性,提高 去冗余数据并且将知识进行归类,可以提高后续知 话题检测的精度 识传输和吸收过程中的效率3] 网络长文本话题检测的主要任务是对大量文本 1基于文本表示与聚类的话题检测方法 数据进行聚类),从而进一步对人们关心的事件进 1.1基于LDA&Word2vec和Single-Pass&HAC 行发现.随着近几年互联网产业的快速发展,国内 的话题检测算法 的话题检测领域也涌现了不少具有影响力的成果. 本文首先研究了基于LDA和Word2vec融合的 例如,山东大学通过对校园网络文本进行Single- 文本特性向量表示,在分别计算了文本的LDA特征 Pass聚类分析,获取话题簇,提出了基于论坛和新闻 向量(主题-文本表示)和Word2vec的词向量与 的舆情分析系统[).北京邮电大学通过对论坛的文 T℉-DF相乘相加的结果后,运用基于时间窗口的 本分析6],利用简单的聚类方法进行主题发现,提 Single--Pass进行初步聚类,由于基于时间窗口的 出了基于论坛的话题发现与跟踪算法[-8).哈尔滨 Single--Pass算法的复杂度较低,可以同时与上一时 工业大学“基于论坛的舆情分析系统”[通过对论 刻的聚类话题簇进行相似度计算,在大量文本的输 坛文本的抽取,基于聚类的主题发现和句法分析的 入下快速形成凝聚度高、颗粒小的话题簇,再利用 情感倾向来获取论坛的热点信息,得到舆情信息 HAC算法将分散的话题簇通过相似度计算合并,最 对树络长文本进行话题检则主要分为两个步 终得到一个良好的聚类结果.具体的算法流程如图 骤:文本表示和话题发现.在文本表示方法中,经典 1所示. 的文本模型就是VSMo],VSM利用文本特征性的 1.2基于Word2vec&LDA的文本表示 权重表示文本,既而在向量空间表示文本的相似度, 文本数据无法直接输入到计算机进行处理的, VSM模型简单、操作方便,但是在大量文本数据情 需要进行结构化处理,利用向量来对文本进行表示. 况下存在高维度、数据稀疏等缺陷.近年来,越来越 在VSM模型中将所有文本数据用D={d,,d2,… 多学者开始将LDA[]应用到网络长文本的话题检 dn,…,dx}来表示,将所有特征词用T={t1,t2,…, 测[2-1),通过LDA模型的训练得到文本的潜在主 tu}表示,将每个文档表示为d={(w1,t1),(02, 题信息[4-15],进而有效地提取文本主题,实现话题 2),…,(0,4)},其中0表示i篇文档的t词的权 的检测.同时,随着深度学习的发展,有学者将词向 重.在本文中使用T℉-DF,即词频-反文档频率权 量模型16]引入到文本表示中,丰富了文本特征,加 重法来对权重进行计算.计算公式如式(1)所示: 强了话题检测的效果.在话题发现中,文本聚类是 N 常用的检测方法.聚类方法的好坏直接影响检测的 +0.01 结果,目前常用的聚类算法有K-Means(7],二分K- Means18】,Single--Pass]、层次聚类2o]等,也有学者 +0.01 将这些经典算法上优化或者组合,例如文献[21]在 式中为词语出现的频率,为逆向文件频率,N 传统K-Means的基础上优化了初始化聚类簇心,有 为文本总数 效地对新闻事件进行了检测.但是K-Means需要 基于VSM的话题检测过程中,直接利用特征词 事先设定类簇数量,聚类效果依赖初始化的类簇中 及其权重来直接比较两篇文档的相似度,这种方法 心,Single-Pass对输入顺序和阈值设置十分敏感,层 随着数据量的提升会出现维度灾难,并且无法找到 次聚类需要大量的时间,效率不高. 词语之间的隐含关系,常常忽略词语在上下文中的 本文从网络长文本的特性出发,针对文本表示 含义.因此将LDA模型引入,LDA假设每个特征词 的高维稀疏性和忽略潜在语义的问题,研究了一种 都是由一个隐含的主题抽取得到的,而一篇文本可 基于word2vec&LDA的文本向量化方法,不仅能有 以由多个不同概率分布的主题生成,每个主题又由郑恒毅等: 一种面向网络长文本的话题检测方法 在网络长文本中进行话题检测可以在大量冗余 文本数据中找到有价值的主题信息[1] . 在网络舆情 分析系统中,网络事件具有突发性和快速传播性,及 时迅速地对网络长文本进行话题检测有助于相关监 管部门对于网络舆情进行科学地决策[2] . 在知识转 移领域中,将知识库中的知识进行话题检测,可以除 去冗余数据并且将知识进行归类,可以提高后续知 识传输和吸收过程中的效率[3] . 网络长文本话题检测的主要任务是对大量文本 数据进行聚类[4] ,从而进一步对人们关心的事件进 行发现. 随着近几年互联网产业的快速发展,国内 的话题检测领域也涌现了不少具有影响力的成果. 例如,山东大学通过对校园网络文本进行 Single鄄鄄 Pass 聚类分析,获取话题簇,提出了基于论坛和新闻 的舆情分析系统[5] . 北京邮电大学通过对论坛的文 本分析[6] ,利用简单的聚类方法进行主题发现,提 出了基于论坛的话题发现与跟踪算法[7鄄鄄8] . 哈尔滨 工业大学“基于论坛的舆情分析系统冶 [9] 通过对论 坛文本的抽取,基于聚类的主题发现和句法分析的 情感倾向来获取论坛的热点信息,得到舆情信息. 对网络长文本进行话题检测主要分为两个步 骤:文本表示和话题发现. 在文本表示方法中,经典 的文本模型就是 VSM [10] ,VSM 利用文本特征性的 权重表示文本,既而在向量空间表示文本的相似度, VSM 模型简单、操作方便,但是在大量文本数据情 况下存在高维度、数据稀疏等缺陷. 近年来,越来越 多学者开始将 LDA [11] 应用到网络长文本的话题检 测[12鄄鄄13] ,通过 LDA 模型的训练得到文本的潜在主 题信息[14鄄鄄15] ,进而有效地提取文本主题,实现话题 的检测. 同时,随着深度学习的发展,有学者将词向 量模型[16]引入到文本表示中,丰富了文本特征,加 强了话题检测的效果. 在话题发现中,文本聚类是 常用的检测方法. 聚类方法的好坏直接影响检测的 结果,目前常用的聚类算法有 K鄄鄄Means [17] ,二分 K鄄鄄 Means [18] 、Single鄄鄄Pass [19] 、层次聚类[20] 等,也有学者 将这些经典算法上优化或者组合,例如文献[21]在 传统 K鄄鄄Means 的基础上优化了初始化聚类簇心,有 效地对新闻事件进行了检测. 但是 K鄄鄄 Means 需要 事先设定类簇数量,聚类效果依赖初始化的类簇中 心,Single鄄鄄Pass 对输入顺序和阈值设置十分敏感,层 次聚类需要大量的时间,效率不高. 本文从网络长文本的特性出发,针对文本表示 的高维稀疏性和忽略潜在语义的问题,研究了一种 基于 word2vec & LDA 的文本向量化方法,不仅能有 效地解决长文本表示存在的高维稀疏性问题,而且 能够同时表示出文本的主题和特征词信息. 针对传 统话题发现方法对长文本输入顺序敏感导致的聚类 时精度不高、效率低下的问题,本文研究了一种基于 时间窗口 Single鄄鄄Pass & LDA 的聚类算法,能有效减 小 Single鄄鄄Pass 算法对于文本输入顺序敏感性,提高 话题检测的精度. 1 基于文本表示与聚类的话题检测方法 1郾 1 基于 LDA & Word2vec 和 Single鄄鄄Pass&HAC 的话题检测算法 本文首先研究了基于 LDA 和 Word2vec 融合的 文本特性向量表示,在分别计算了文本的 LDA 特征 向量(主题鄄鄄 文本表示) 和 Word2vec 的词向量与 TF鄄鄄IDF 相乘相加的结果后,运用基于时间窗口的 Single鄄鄄Pass 进行初步聚类,由于基于时间窗口的 Single鄄鄄Pass 算法的复杂度较低,可以同时与上一时 刻的聚类话题簇进行相似度计算,在大量文本的输 入下快速形成凝聚度高、颗粒小的话题簇,再利用 HAC 算法将分散的话题簇通过相似度计算合并,最 终得到一个良好的聚类结果. 具体的算法流程如图 1 所示. 1郾 2 基于 Word2vec & LDA 的文本表示 文本数据无法直接输入到计算机进行处理的, 需要进行结构化处理,利用向量来对文本进行表示. 在 VSM 模型中将所有文本数据用 D = { d1 ,d2 ,… dn ,…,dN }来表示,将所有特征词用 T = { t 1 ,t 2 ,…, tM }表示,将每个文档表示为 di = {(wi1 ,t 1 ),(wi2 , t 2 ),…,(wij,t j)},其中 wij表示 i 篇文档的 t j 词的权 重. 在本文中使用 TF鄄鄄 IDF,即词频鄄鄄 反文档频率权 重法来对权重进行计算. 计算公式如式(1)所示: wij = f t j·lg ( N f d t j + 0郾 01 ) 移 j沂 [ N f t j·lg ( N f d t j + 0郾 01 ) ] 2 (1) 式中,f t j为词语 t j 出现的频率,f d t j为逆向文件频率,N 为文本总数. 基于 VSM 的话题检测过程中,直接利用特征词 及其权重来直接比较两篇文档的相似度,这种方法 随着数据量的提升会出现维度灾难,并且无法找到 词语之间的隐含关系,常常忽略词语在上下文中的 含义. 因此将 LDA 模型引入,LDA 假设每个特征词 都是由一个隐含的主题抽取得到的,而一篇文本可 以由多个不同概率分布的主题生成,每个主题又由 ·1209·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有