正在加载图片...
·1176· 智能系统学报 第15卷 大量新闻文档中的重要新闻,以及组织新闻流为 关系的话题追踪方法,实现微博等短文本的事件 新闻事件正成为信息推送服务的关键技术需求。 跟踪。 事件发现技术是信息推送服务的关键技术之 当前有关信息推送服务的研究大多集中在文 一。目前,有关事件发现的大多数方法基于聚类 本聚类的事件发现上,关于事件表示的代表性新 思想实现,包括single-pass算法l-2、k-means算 闻的提取研究还较少,文献[17]的做法是在事件 法B、AP算法B-等。其中主流的一种方法是A- 发现的基础上通过计算得到与聚类中心最相近的 lan等m提出的在线事件发现系统,每当有新的文 文档作为代表性新闻。此外,许多现有方法要求 档到来时,需与已知的事件计算相关度,通过预 保留所有的已处理文档,作为历史信息与新到 先设定的事件相似度阈值判断将该文档嵌入已知 文档进行比较,随着数据规模的扩大以及数据流 事件或生成新的事件。以该方法为基础,研究人 的不断到来,计算量和所需存储空间也会逐渐增 员做出了许多改进工作,主要涉及文本表示形式 大。文本考虑事件发现和事件表示的集成分析 的改进、更多语料特征的利用和文本聚类方法的 兼顾大规模新闻流数据事件发现的可行性,提出 建立。针对现有话题演化挖掘缺乏对话题特征随 一种以代表点选取为核心的增量采样聚类驱动的 时间发展而动态演变的深入分析所导致的挖掘结 事件发现方法,该方法一方面在数据的增量处理 果偏斜问题,赵旭剑等1引入话题特征演变特性 中不断约简非代表性新闻以保证事件发现的效 提出一种新的特征计算模型,利用已有话题文档 率,另一方面以采样获得的代表性新闻为基础实 和最新文档进行话题信息动态扩增,有效修正话 现聚类划分完成新闻事件发现,提供了一种可参 题演化挖掘结果的偏斜。Yin等9针对短文本聚 考的信息推送技术新思路。 类的狄利克雷多项式混合模型,提出了一种折叠 吉布斯抽样算法GSDMM,可自动推断聚类数量, 1方法框架 结果完备性、同质性平衡良好,能够解决短文本 的稀疏高维度问题。周楠等0基于带背景、语言 为获得更好的新闻事件发现和代表性新闻抽 的概率潜在语义分析模型(PLSA with Background 取结果,引入分层增量思想和信息支撑度的信息约 Language,PLSA-BLM),结合关键词聚类发现事件 简策略,提出基于分层增量代表点采样的事件发现 内部子话题,在维基百科等知识库基础上生成事 及表示的集成分析方法,其基本框架如图1所示。 件子话题标签的模型ET-TAG,与已有子话题发 增量采样的代表性新闻提取 现算法相比有更好的性能。Xu等1使用唐森- 香农散度(Jensen-Shannon Divergence)来度量话题 A聚 AP聚类 AD聚着 相似度,引入时间衰减函数来提高相似时间的话 微类集合及 表州 微类集合及 局部代表性 题之间的相似度,改进single-pass算法并结合潜 新集合 新间集 新集合 新闻集合 在狄利克雷分布(latent dirichlet allocation,LDA) 达到有效监测和跟踪话题的目的。 为 件 事件发现的另一个趋势是增量或分层地处理 经类发现后的数据 文档。黄九鸣等四为解决在线社交网络文本流 单向事件内容 支撑度网路G 所含热点短语指向的突发事件和热点话题问题, 道 提出结合AC-Trie前缀树构建的无需分词且适用 还有 构造单向事件内容支 撑度网路G 多种热度度量函数的热点短语挖掘技术。Chen 精 多 等)考虑解决在线主题模型固定话题数、话题重 单向事件内容支撑度 叠问题,因为层次主题模型处理话题重叠的适配 9-上A 一过滤相似新 性,提出了基于知识的半监督层次在线话题检 代表性新博表合 测框架。此外,一些其他方法也被应用于事件发 现。Sayyadi等基于复杂网络思想,提出了基于 已知代表性新间的新闻文档聚类 关键词共现性的KeyGraph话题检测方法。Chen 事件及对应代表性文档: 划分非代表 Topl:事件a对应代表性文档d 等则将层次隐树分析(hierarchical latent tree ana- 性文档 Top2:事件b对应代表性文档d Top3:事件c对应代表性文档d. lysis,.HLTA)引入话题检测,改进期望最大化(ex- pectation-maximization)算法,可以得到更好的主 图1方法框架 题层次结构。柏文言等则开发一种融合用户 Fig.1 Framework of the proposed method大量新闻文档中的重要新闻,以及组织新闻流为 新闻事件正成为信息推送服务的关键技术需求。 事件发现技术是信息推送服务的关键技术之 一。目前,有关事件发现的大多数方法基于聚类 思想实现,包括 single-pass 算法[1-2] 、k-means 算 法 [3-4] 、AP 算法[5-6] 等。其中主流的一种方法是 Al￾lan 等 [7] 提出的在线事件发现系统,每当有新的文 档到来时,需与已知的事件计算相关度,通过预 先设定的事件相似度阈值判断将该文档嵌入已知 事件或生成新的事件。以该方法为基础,研究人 员做出了许多改进工作,主要涉及文本表示形式 的改进、更多语料特征的利用和文本聚类方法的 建立。针对现有话题演化挖掘缺乏对话题特征随 时间发展而动态演变的深入分析所导致的挖掘结 果偏斜问题,赵旭剑等[8] 引入话题特征演变特性 提出一种新的特征计算模型,利用已有话题文档 和最新文档进行话题信息动态扩增,有效修正话 题演化挖掘结果的偏斜。Yin 等 [9] 针对短文本聚 类的狄利克雷多项式混合模型,提出了一种折叠 吉布斯抽样算法 GSDMM,可自动推断聚类数量, 结果完备性、同质性平衡良好,能够解决短文本 的稀疏高维度问题。周楠等[10] 基于带背景、语言 的概率潜在语义分析模型 (PLSA with Background Language, PLSA-BLM),结合关键词聚类发现事件 内部子话题,在维基百科等知识库基础上生成事 件子话题标签的模型 ET-TAG,与已有子话题发 现算法相比有更好的性能。Xu 等 [11] 使用唐森− 香农散度 (Jensen-Shannon Divergence) 来度量话题 相似度,引入时间衰减函数来提高相似时间的话 题之间的相似度,改进 single-pass 算法并结合潜 在狄利克雷分布 (latent dirichlet allocation,LDA) 达到有效监测和跟踪话题的目的。 事件发现的另一个趋势是增量或分层地处理 文档。黄九鸣等[12] 为解决在线社交网络文本流 所含热点短语指向的突发事件和热点话题问题, 提出结合 AC-Trie 前缀树构建的无需分词且适用 多种热度度量函数的热点短语挖掘技术。Chen 等 [13] 考虑解决在线主题模型固定话题数、话题重 叠问题,因为层次主题模型处理话题重叠的适配 性,提出了基于知识的半监督层次在线话题检 测框架。此外,一些其他方法也被应用于事件发 现。Sayyadi 等 [14] 基于复杂网络思想,提出了基于 关键词共现性的 KeyGraph 话题检测方法。Chen 等 [15] 则将层次隐树分析 (hierarchical latent tree ana￾lysis,HLTA) 引入话题检测,改进期望最大化 (ex￾pectation-maximization) 算法,可以得到更好的主 题层次结构。柏文言等[16] 则开发一种融合用户 关系的话题追踪方法,实现微博等短文本的事件 跟踪。 当前有关信息推送服务的研究大多集中在文 本聚类的事件发现上,关于事件表示的代表性新 闻的提取研究还较少,文献 [17] 的做法是在事件 发现的基础上通过计算得到与聚类中心最相近的 文档作为代表性新闻。此外,许多现有方法要求 保留所有的已处理文档[7,14] 作为历史信息与新到 文档进行比较,随着数据规模的扩大以及数据流 的不断到来,计算量和所需存储空间也会逐渐增 大。文本考虑事件发现和事件表示的集成分析, 兼顾大规模新闻流数据事件发现的可行性,提出 一种以代表点选取为核心的增量采样聚类驱动的 事件发现方法,该方法一方面在数据的增量处理 中不断约简非代表性新闻以保证事件发现的效 率,另一方面以采样获得的代表性新闻为基础实 现聚类划分完成新闻事件发现,提供了一种可参 考的信息推送技术新思路。 1 方法框架 为获得更好的新闻事件发现和代表性新闻抽 取结果,引入分层增量思想和信息支撑度的信息约 简策略,提出基于分层增量代表点采样的事件发现 及表示的集成分析方法,其基本框架如图 1 所示。 … 微类集合及 局部代表性 新闻集合 … AP 聚类 … 事件及对应代表性文档: Top1: 事件 a 对应代表性文档 da Top2: 事件 b 对应代表性文档 db Top3: 事件 c 对应代表性文档 dc 构造单向事件内容支 撑度网络 Gt−1 微类集合 Mt 局部代表性 新闻集合 Rt 单向事件内容 支撑度网络 Gt−2 划分非代表 性文档 间隔 Span0 语料 间隔 Span1 语料 间隔 Span2 语料 间隔 SpanT 语料 AP 聚类 AP 聚类 AP 聚类 微类集合及 局部代表性 新闻集合 微类集合及 局部代表性 新闻集合 微类集合及 局部代表性 新闻集合 单向事件内容支撑度 网络 Gt−1上AP聚类, 进一步过滤相似新 闻文档, 得到最终的 代表性新闻集合 是否 还有 语料 Y N 取间隔 Spant 内语料 经微类发现后的数据 事 件 微 类 发 现 流 程 事 件 微 类 聚 合 流 程 已知代表性新闻的新闻文档聚类 ... 增量采样的代表性新闻提取 图 1 方法框架 Fig. 1 Framework of the proposed method ·1176· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有