正在加载图片...
郑恒毅等:一种面向网络长文本的话题检测方法 ·1211· 输出层 (开始) T时刻舆情文本 向量表示 与T时刻的话题簇 计算相似度 输入层 隐含层 选择最大 相似度值Max W 归入最大相似度是 Max是否 的话题簇 大于阈值 丬创建新的话题簇 处理完毕 是 结束) 图4基于时间窗口的Single-Pass聚类流程 图3Skip-Gmm模型结构 Fig.4 Single-Pass clustering process based on time window Fig.3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量 图5所示): 最后将Word2vee得到的词向量与文本的TF- 1.计算文档集中所有文本两两之间的文本相似 DF向量进行融合,这样可以同时达到降维和文本 度sim㎡(d:,d;),构建相似度矩阵 2.从相似度矩阵中找出最大相似度值Max(sim 向量化的目的.为了更加完整地表达文本信息,再 加上文本主题的信息.在计算文本相似度时,分别 (d,d)对应的文档dnm、dn,此时Max的值小于设 定的阈值直接跳到Step5,否则dn、dn合成一个话题 计算LDA向量表示下和Word2vec&TF-IDF向量表 类C 示下的余弦距离,两者加权融合 3.计算C与其他文本的相似度,更新相似度 L.3基于Single--Pass&HAC聚类算法的话题检测 矩阵 Single-Pass适合流输入的文本处理,常用于新 4.是否满足预设话题数,否则跳到2. 闻话题检测中,该算法不需要预先设定聚类话题数, 5.聚类结束 根据文本的输入先后顺序进行文本相似度的比较, HAC聚类可以将分散的文本精确的聚到不同 第一篇文档归为第一类,后续的与之前的分类进行 层级,但是由于计算过程中需要反复计算文本相似 比较,如果满足相似度条件则归为一类,否则创建新 度,在大量文本处理的情况下需要大量的存储,仅适 的分类.但是这种方法需要预先设定阈值,并且分 合少量文本的处理.而本文是在Single-Pass聚类之 类效果好坏受限于文本输入顺序.本文在经典的 后引入HAC聚类,仅是通过HAC聚类来合并相似 Single--Pass聚类的基础上进行了优化,首先是利用 度较高的话题簇,Single-Pass聚类后话题簇远远小 舆情发生的时间顺序作为文本的输入顺序,同时按 于输入的文档数,此时再使用HAC聚类时,话题簇 照时间窗口进行切分,时间窗口的单位可以选择/ 数是在合理数量范围内的. d/周,在此基础上,第T+1刻产生的舆情文本在第T: 时刻分好类的基础上,与其每个类簇的质心进行余 2实验结果与分析 弦相似度计算,同样选出相似度最大值,超过阈值则 2.1实验数据与评价指标 归到相似度最大值的话簇,反之创建一个新的话题 2.1.1实验数据 簇,第T2时刻则在第T:,的基础上计相似度.反 利用开源框架Scrapy和Beautiful Soup开发的 复执行以上步骤,直到分类完毕.具体的流程如图4 主题爬虫,爬取了重庆大学校内论坛(民主湖论 所示 坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重 同时为了避免阈值对分类效果的较大影响,本 庆大学新闻网等舆情数据,贴吧、论坛帖子总计 文在Single--Pass的基础上加人了凝聚式层次聚类 6808条,评论、回复贴超过148539条,微博4711 (HAC).HAC聚类的流程(HAC的话题合并流程如 条,转发的微博9537,微博的评论12634,新闻共郑恒毅等: 一种面向网络长文本的话题检测方法 图 3 Skip鄄鄄Gram 模型结构 Fig. 3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量. 最后将 Word2vec 得到的词向量与文本的 TF鄄鄄 IDF 向量进行融合,这样可以同时达到降维和文本 向量化的目的. 为了更加完整地表达文本信息,再 加上文本主题的信息. 在计算文本相似度时,分别 计算 LDA 向量表示下和 Word2vec&TF鄄鄄IDF 向量表 示下的余弦距离,两者加权融合. 1郾 3 基于 Single鄄鄄Pass & HAC 聚类算法的话题检测 Single鄄鄄Pass 适合流输入的文本处理,常用于新 闻话题检测中,该算法不需要预先设定聚类话题数, 根据文本的输入先后顺序进行文本相似度的比较, 第一篇文档归为第一类,后续的与之前的分类进行 比较,如果满足相似度条件则归为一类,否则创建新 的分类. 但是这种方法需要预先设定阈值,并且分 类效果好坏受限于文本输入顺序. 本文在经典的 Single鄄鄄Pass 聚类的基础上进行了优化,首先是利用 舆情发生的时间顺序作为文本的输入顺序,同时按 照时间窗口进行切分,时间窗口的单位可以选择 h / d / 周,在此基础上,第 Ti + 1刻产生的舆情文本在第 Ti 时刻分好类的基础上,与其每个类簇的质心进行余 弦相似度计算,同样选出相似度最大值,超过阈值则 归到相似度最大值的话簇,反之创建一个新的话题 簇,第 Ti + 2时刻则在第 Ti + 1的基础上计相似度. 反 复执行以上步骤,直到分类完毕. 具体的流程如图 4 所示. 同时为了避免阈值对分类效果的较大影响,本 文在 Single鄄鄄Pass 的基础上加入了凝聚式层次聚类 (HAC). HAC 聚类的流程(HAC 的话题合并流程如 图 4 基于时间窗口的 Single鄄鄄Pass 聚类流程 Fig. 4 Single鄄鄄Pass clustering process based on time window 图 5 所示): 1. 计算文档集中所有文本两两之间的文本相似 度 sim(di,dj),构建相似度矩阵. 2. 从相似度矩阵中找出最大相似度值 Max(sim (di,dj)) 对应的文档 dm 、dn ,此时 Max 的值小于设 定的阈值直接跳到 Step5,否则 dm 、dn 合成一个话题 类 Ck . 3. 计算 Ck 与其他文本的相似度,更新相似度 矩阵. 4. 是否满足预设话题数,否则跳到 2. 5. 聚类结束 HAC 聚类可以将分散的文本精确的聚到不同 层级,但是由于计算过程中需要反复计算文本相似 度,在大量文本处理的情况下需要大量的存储,仅适 合少量文本的处理. 而本文是在 Single鄄鄄Pass 聚类之 后引入 HAC 聚类,仅是通过 HAC 聚类来合并相似 度较高的话题簇,Single鄄鄄 Pass 聚类后话题簇远远小 于输入的文档数,此时再使用 HAC 聚类时,话题簇 数是在合理数量范围内的. 2 实验结果与分析 2郾 1 实验数据与评价指标 2郾 1郾 1 实验数据 利用开源框架 Scrapy 和 Beautiful Soup 开发的 主题爬虫,爬取了重庆大学校内论坛( 民主湖论 坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重 庆大学新闻网等舆情数据,贴吧、论坛帖子总计 6808 条,评论、回复贴超过 148539 条, 微博 4711 条,转发的微博 9537,微博的评论 12634,新闻共 ·1211·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有