郑恒毅等: 一种面向网络长文本的话题检测方法图 3 Skip鄄鄄Gram

正在加载图片...

郑恒毅等：一种面向网络长文本的话题检测方法 ·1211· 输出层 (开始) T时刻舆情文本向量表示与T时刻的话题簇计算相似度输入层隐含层选择最大相似度值Max W 归入最大相似度是 Max是否的话题簇大于阈值丬创建新的话题簇处理完毕是结束) 图4基于时间窗口的Single-Pass聚类流程图3Skip-Gmm模型结构 Fig.4 Single-Pass clustering process based on time window Fig.3 Skip gram model structure 量，取自于隐含层到输出层的的权重向量图5所示)：最后将Word2vee得到的词向量与文本的TF- 1.计算文档集中所有文本两两之间的文本相似 DF向量进行融合，这样可以同时达到降维和文本度sim㎡(d:,d;),构建相似度矩阵 2.从相似度矩阵中找出最大相似度值Max(sim 向量化的目的.为了更加完整地表达文本信息，再加上文本主题的信息.在计算文本相似度时，分别 (d,d)对应的文档dnm、dn,此时Max的值小于设定的阈值直接跳到Step5,否则dn、dn合成一个话题计算LDA向量表示下和Word2vec&TF-IDF向量表类C 示下的余弦距离，两者加权融合 3.计算C与其他文本的相似度，更新相似度 L.3基于Single--Pass&HAC聚类算法的话题检测矩阵 Single-Pass适合流输入的文本处理，常用于新 4.是否满足预设话题数，否则跳到2. 闻话题检测中，该算法不需要预先设定聚类话题数， 5.聚类结束根据文本的输入先后顺序进行文本相似度的比较， HAC聚类可以将分散的文本精确的聚到不同第一篇文档归为第一类，后续的与之前的分类进行层级，但是由于计算过程中需要反复计算文本相似比较，如果满足相似度条件则归为一类，否则创建新度，在大量文本处理的情况下需要大量的存储，仅适的分类.但是这种方法需要预先设定阈值，并且分合少量文本的处理.而本文是在Single-Pass聚类之类效果好坏受限于文本输入顺序.本文在经典的后引入HAC聚类，仅是通过HAC聚类来合并相似 Single--Pass聚类的基础上进行了优化，首先是利用度较高的话题簇，Single-Pass聚类后话题簇远远小舆情发生的时间顺序作为文本的输入顺序，同时按于输入的文档数，此时再使用HAC聚类时，话题簇照时间窗口进行切分，时间窗口的单位可以选择/ 数是在合理数量范围内的. d/周，在此基础上，第T+1刻产生的舆情文本在第T: 时刻分好类的基础上，与其每个类簇的质心进行余 2实验结果与分析弦相似度计算，同样选出相似度最大值，超过阈值则 2.1实验数据与评价指标归到相似度最大值的话簇，反之创建一个新的话题 2.1.1实验数据簇，第T2时刻则在第T:,的基础上计相似度.反利用开源框架Scrapy和Beautiful Soup开发的复执行以上步骤，直到分类完毕.具体的流程如图4 主题爬虫，爬取了重庆大学校内论坛（民主湖论所示坛)、重庆大学贴吧、新浪微博（重庆大学相关）、重同时为了避免阈值对分类效果的较大影响，本庆大学新闻网等舆情数据，贴吧、论坛帖子总计文在Single--Pass的基础上加人了凝聚式层次聚类 6808条，评论、回复贴超过148539条，微博4711 (HAC).HAC聚类的流程(HAC的话题合并流程如条，转发的微博9537，微博的评论12634，新闻共郑恒毅等: 一种面向网络长文本的话题检测方法图 3 Skip鄄鄄Gram 模型结构 Fig. 3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量. 最后将 Word2vec 得到的词向量与文本的 TF鄄鄄 IDF 向量进行融合,这样可以同时达到降维和文本向量化的目的. 为了更加完整地表达文本信息,再加上文本主题的信息. 在计算文本相似度时,分别计算 LDA 向量表示下和 Word2vec&TF鄄鄄IDF 向量表示下的余弦距离,两者加权融合. 1郾 3 基于 Single鄄鄄Pass & HAC 聚类算法的话题检测 Single鄄鄄Pass 适合流输入的文本处理,常用于新闻话题检测中,该算法不需要预先设定聚类话题数, 根据文本的输入先后顺序进行文本相似度的比较, 第一篇文档归为第一类,后续的与之前的分类进行比较,如果满足相似度条件则归为一类,否则创建新的分类. 但是这种方法需要预先设定阈值,并且分类效果好坏受限于文本输入顺序. 本文在经典的 Single鄄鄄Pass 聚类的基础上进行了优化,首先是利用舆情发生的时间顺序作为文本的输入顺序,同时按照时间窗口进行切分,时间窗口的单位可以选择 h / d / 周,在此基础上,第 Ti + 1刻产生的舆情文本在第 Ti 时刻分好类的基础上,与其每个类簇的质心进行余弦相似度计算,同样选出相似度最大值,超过阈值则归到相似度最大值的话簇,反之创建一个新的话题簇,第 Ti + 2时刻则在第 Ti + 1的基础上计相似度. 反复执行以上步骤,直到分类完毕. 具体的流程如图 4 所示. 同时为了避免阈值对分类效果的较大影响,本文在 Single鄄鄄Pass 的基础上加入了凝聚式层次聚类 (HAC). HAC 聚类的流程(HAC 的话题合并流程如图 4 基于时间窗口的 Single鄄鄄Pass 聚类流程 Fig. 4 Single鄄鄄Pass clustering process based on time window 图 5 所示): 1. 计算文档集中所有文本两两之间的文本相似度 sim(di,dj),构建相似度矩阵. 2. 从相似度矩阵中找出最大相似度值 Max(sim (di,dj)) 对应的文档 dm 、dn ,此时 Max 的值小于设定的阈值直接跳到 Step5,否则 dm 、dn 合成一个话题类 Ck . 3. 计算 Ck 与其他文本的相似度,更新相似度矩阵. 4. 是否满足预设话题数,否则跳到 2. 5. 聚类结束 HAC 聚类可以将分散的文本精确的聚到不同层级,但是由于计算过程中需要反复计算文本相似度,在大量文本处理的情况下需要大量的存储,仅适合少量文本的处理. 而本文是在 Single鄄鄄Pass 聚类之后引入 HAC 聚类,仅是通过 HAC 聚类来合并相似度较高的话题簇,Single鄄鄄 Pass 聚类后话题簇远远小于输入的文档数,此时再使用 HAC 聚类时,话题簇数是在合理数量范围内的. 2 实验结果与分析 2郾 1 实验数据与评价指标 2郾 1郾 1 实验数据利用开源框架 Scrapy 和 Beautiful Soup 开发的主题爬虫,爬取了重庆大学校内论坛( 民主湖论坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重庆大学新闻网等舆情数据,贴吧、论坛帖子总计 6808 条,评论、回复贴超过 148539 条, 微博 4711 条,转发的微博 9537,微博的评论 12634,新闻共 ·1211·

<<向上翻页向下翻页>>

点击下载：一种面向网络长文本的话题检测方法