相关文档

一种面向网络长文本的话题检测方法

提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了Word2vec&LDA(latent dirichlet allocation)的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题,提出了基于文本聚类的Single-Pass&HAC(hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率.为了评估所提出方法的有效性,本文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验.实验结果证明,本文提出的方法相对于现有的方法,如VSM(state vector space model)、Single-Pass等拥有更好的效果,话题检测的精度提高了10%~20%.
团购合买资源类别:文库,文档格式:PDF,文档页数:7,文件大小:1.12MB
点击进入文档下载页(PDF格式)
已到末页,全文结束
点击下载(PDF格式)

浏览记录