正在加载图片...
第2期 毋非,等:容错粗糙模型的事件检测研究 115· 窗口更新一次模型,在一个时间窗内的更新方式如 上近似集U.(d),因此在计算特征项权重时,还需 下: 要考虑那些出现在文档上近似集中,但不出现在文 6()=6()+6() 13) 档中的特征项.对于这些特征项,由于它本身并没有 式中:D.表示窗口内的文档集,6,()表示在窗口 出现在文档中,因此需要使其权值小于任意一个出 内特征项的文档频率,6:(6)为更新之后的文档 现在d,中的特征项的权值.于是,使用以下扩展权 频率,另一方面,由于在文档表示中使用了特征项的 值计算公式替换一般的TF-DF公式o N (1+ln(a,()))Xn 切'5∈d: n N 6(功 (14) m ingedwa N ,∈UR(d,)/d: 1+n 6(到 0. 其他 式中:w是在文档d,中的权值.此计算公式用d, 则系统的平均漏报率BMs、平均误报率Pa和归一 中特征项的权值的最小值,乘以一个小于1的数,确 化检测开销(CoeN。m如下所示: 保了出现在d,的上近似集中但没有出现在d,中的 RMs=∑Miss/a, (19) 特征项权值,小于任何d,中的特征项权值. 式中:,为话题个数: 文档向量的权值w的归一化方法为 (15) P=∑FA,/, 20) 式中:为话题个数, 15相似度计算 选取相似度计算函数的一个重要标准就是该函 数能否区分描述相同事件和描述不同事件的新闻报 Gae小人n-SBP+CaEa卫et m in(CMiss Purget.CFA,Purget) 道对.基于向量的相似度计算方法有多种,如余弦相 (21) 似度、Hellinger相似度等,文献12指出,余弦相似 式中:(Coon越小,表明系统性能越好,理想情况 度性能最好,也最稳定.因此采用余弦相似度作为向 下,(CDet Nom=0:CM为漏报一个新话题的代价; 量相似度计算函数. C为误报一次的代价:P是目标话题的先验概 率;P7e:=1-PeCM、C和Pag都是预设值, Sm(di.d) (16) 不同的评测中取值不一样,本文中它们的取值分别 M 为10、01、002 22文档预处理 2实验及分析 预处理的内容主要包括按照一定规则生成特征 21评测标准 项.传统的做法是根据文档的词语频率,去掉一定阈 值内的高频词和低频词,去掉停用词之后形成的集 本文依据DT评测标准,采用漏报率Mss、 误报率(EA,)以及归一化开销(Ce小m来评价 合作为特征项集合.但是由于在事件检测过程中,需 要使用增量TF-DF方法动态更新文档频率,这样, 该检测方法的性能,话题的漏报率和误报率定义 为 使用传统的特征项选择方法在计算上会比较复杂。 M1s-未检没到的与话题相关的报道数 本文提出了使用词频词典来选择特征项的方 与话题相关的报道总数 法.对于每篇新闻报道,使用哈工大信息检索研究室 (17) 语言技术平台共享包,进行分词和词性标注.将 检测到的与话题不相关的报道数 标注好的文档中的名词提取出来,作为特征候选集 FA 与话题不相关的报道总数 合,然后根据词频词典,生成相应的向量.若词典中 (18 的词在文档中出现,则在向量中标记该词出现的次 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 窗口更新一次模型 ,在一个时间窗内的更新方式如 下 : fD′( ti ) = fD ( ti ) + fD k ( ti ). (13) 式中 : Dk 表示窗口内的文档集 , fD k ( ti )表示在窗口 内特征项 ti 的文档频率 , fD′( ti )为更新之后的文档 频率. 另一方面 ,由于在文档表示中使用了特征项的 上近似集 UR ( di ) ,因此在计算特征项权重时 ,还需 要考虑那些出现在文档上近似集中 ,但不出现在文 档中的特征项. 对于这些特征项 ,由于它本身并没有 出现在文档中 ,因此需要使其权值小于任意一个出 现在 di 中的特征项的权值. 于是 ,使用以下扩展权 值计算公式替换一般的 TF2IDF公式 [ 10211 ] . wij = (1 + ln ( fd i ( tj ) ) ) ×ln N fD ( tj ) , tj ∈ di; m int k∈d i wik × ln N fD ( tj ) 1 + ln N fD ( tj ) , tj ∈UR ( di ) / di; 0, 其他. (14) 式中 :wij是 tj在文档 di 中的权值. 此计算公式用 di 中特征项的权值的最小值 ,乘以一个小于 1的数 ,确 保了出现在 di 的上近似集中但没有出现在 di 中的 特征项权值 ,小于任何 di 中的特征项权值. 文档向量的权值 wij的归一化方法为 wij = wij ∑t k∈UR ( d i ) (wij ) 2 . (15) 1. 5 相似度计算 选取相似度计算函数的一个重要标准就是该函 数能否区分描述相同事件和描述不同事件的新闻报 道对. 基于向量的相似度计算方法有多种 ,如余弦相 似度、Hellinger相似度等 ,文献 [ 12 ]指出 ,余弦相似 度性能最好 ,也最稳定. 因此采用余弦相似度作为向 量相似度计算函数. Sim ( di , dj ) = ∑ M k =1 W ik ×W jk ( ∑ M k =1 W 2 ik ) ×( ∑ M k =1 W 2 jk ) . (16) 2 实验及分析 2. 1 评测标准 本文依据 TDT评测标准 ,采用漏报率 (M issi ) 、 误报率 (FAi )以及归一化开销 ( CDet ) Norm [ 13 ]来评价 该检测方法的性能 ,话题 i的漏报率和误报率定义 为 M issi = 未检没到的与话题 i相关的报道数 与话题 i相关的报道总数 , (17) FAi = 检测到的与话题 i不相关的报道数 与话题 i不相关的报道总数 . (18) 则系统的平均漏报率 PM iss、平均误报率 PFA和归一 化检测开销 (CDet ) Norm如下所示 : PM iss = ∑iM issi / tn , (19) 式中 : tn 为话题个数; PFA = ∑i FAi / tn , (20) 式中 : tn 为话题个数 , (CDet ) Norm = CM iss PM iss Ptarget + CFA PFA P┐target m in (CM iss Ptarget , CFA , Ptarget ) . (21) 式中 : (CDet ) Norm越小 ,表明系统性能越好 ,理想情况 下 , (CDet ) Norm = 0; CM iss为漏报一个新话题的代价; CFA为误报一次的代价; Ptarge t是目标话题的先验概 率; P┐ta rget = 1 - Ptarget; CM iss、CFA和 Ptarget都是预设值 , 不同的评测中取值不一样 ,本文中它们的取值分别 为 1. 0、0. 1、0. 02 . 2. 2 文档预处理 预处理的内容主要包括按照一定规则生成特征 项. 传统的做法是根据文档的词语频率 ,去掉一定阈 值内的高频词和低频词 ,去掉停用词之后形成的集 合作为特征项集合. 但是由于在事件检测过程中 ,需 要使用增量 TF2IDF方法动态更新文档频率 ,这样 , 使用传统的特征项选择方法在计算上会比较复杂. 本文提出了使用词频词典来选择特征项的方 法. 对于每篇新闻报道 ,使用哈工大信息检索研究室 语言技术平台共享包 [ 14 ] ,进行分词和词性标注. 将 标注好的文档中的名词提取出来 ,作为特征候选集 合 ,然后根据词频词典 ,生成相应的向量. 若词典中 的词在文档中出现 ,则在向量中标记该词出现的次 第 2期 毋 非 ,等 :容错粗糙模型的事件检测研究 ·115·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有