© 1994-2009 China Academic Journ_中国高校课件下载中心

正在加载图片...

第2期毋非，等：容错粗糙模型的事件检测研究 115· 窗口更新一次模型，在一个时间窗内的更新方式如上近似集U.(d),因此在计算特征项权重时，还需下：要考虑那些出现在文档上近似集中，但不出现在文 6()=6()+6() 13) 档中的特征项.对于这些特征项，由于它本身并没有式中：D.表示窗口内的文档集，6，()表示在窗口出现在文档中，因此需要使其权值小于任意一个出内特征项的文档频率，6：(6)为更新之后的文档现在d,中的特征项的权值.于是，使用以下扩展权频率，另一方面，由于在文档表示中使用了特征项的值计算公式替换一般的TF-DF公式o N (1+ln(a,()))Xn 切'5∈d: n N 6(功 (14) m ingedwa N ,∈UR(d,)/d: 1+n 6(到 0. 其他式中：w是在文档d,中的权值.此计算公式用d, 则系统的平均漏报率BMs、平均误报率Pa和归一中特征项的权值的最小值，乘以一个小于1的数，确化检测开销(CoeN。m如下所示：保了出现在d,的上近似集中但没有出现在d,中的 RMs=∑Miss/a, (19) 特征项权值，小于任何d,中的特征项权值. 式中：，为话题个数：文档向量的权值w的归一化方法为 (15) P=∑FA,/, 20) 式中：为话题个数， 15相似度计算选取相似度计算函数的一个重要标准就是该函数能否区分描述相同事件和描述不同事件的新闻报 Gae小人n-SBP+CaEa卫et m in(CMiss Purget.CFA,Purget) 道对.基于向量的相似度计算方法有多种，如余弦相 (21) 似度、Hellinger相似度等，文献12指出，余弦相似式中：(Coon越小，表明系统性能越好，理想情况度性能最好，也最稳定.因此采用余弦相似度作为向下，(CDet Nom=0:CM为漏报一个新话题的代价；量相似度计算函数. C为误报一次的代价：P是目标话题的先验概率；P7e:=1-PeCM、C和Pag都是预设值， Sm(di.d) (16) 不同的评测中取值不一样，本文中它们的取值分别 M 为10、01、002 22文档预处理 2实验及分析预处理的内容主要包括按照一定规则生成特征 21评测标准项.传统的做法是根据文档的词语频率，去掉一定阈值内的高频词和低频词，去掉停用词之后形成的集本文依据DT评测标准，采用漏报率Mss、误报率(EA,)以及归一化开销(Ce小m来评价合作为特征项集合.但是由于在事件检测过程中，需要使用增量TF-DF方法动态更新文档频率，这样，该检测方法的性能，话题的漏报率和误报率定义为使用传统的特征项选择方法在计算上会比较复杂。 M1s-未检没到的与话题相关的报道数本文提出了使用词频词典来选择特征项的方与话题相关的报道总数法.对于每篇新闻报道，使用哈工大信息检索研究室 (17) 语言技术平台共享包，进行分词和词性标注.将检测到的与话题不相关的报道数标注好的文档中的名词提取出来，作为特征候选集 FA 与话题不相关的报道总数合，然后根据词频词典，生成相应的向量.若词典中 (18 的词在文档中出现，则在向量中标记该词出现的次 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.htp://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 窗口更新一次模型 ,在一个时间窗内的更新方式如下 : fD′( ti ) = fD ( ti ) + fD k ( ti ). (13) 式中 : Dk 表示窗口内的文档集 , fD k ( ti )表示在窗口内特征项 ti 的文档频率 , fD′( ti )为更新之后的文档频率. 另一方面 ,由于在文档表示中使用了特征项的上近似集 UR ( di ) ,因此在计算特征项权重时 ,还需要考虑那些出现在文档上近似集中 ,但不出现在文档中的特征项. 对于这些特征项 ,由于它本身并没有出现在文档中 ,因此需要使其权值小于任意一个出现在 di 中的特征项的权值. 于是 ,使用以下扩展权值计算公式替换一般的 TF2IDF公式 [ 10211 ] . wij = (1 + ln ( fd i ( tj ) ) ) ×ln N fD ( tj ) , tj ∈ di; m int k∈d i wik × ln N fD ( tj ) 1 + ln N fD ( tj ) , tj ∈UR ( di ) / di; 0, 其他. (14) 式中 :wij是 tj在文档 di 中的权值. 此计算公式用 di 中特征项的权值的最小值 ,乘以一个小于 1的数 ,确保了出现在 di 的上近似集中但没有出现在 di 中的特征项权值 ,小于任何 di 中的特征项权值. 文档向量的权值 wij的归一化方法为 wij = wij ∑t k∈UR ( d i ) (wij ) 2 . (15) 1. 5 相似度计算选取相似度计算函数的一个重要标准就是该函数能否区分描述相同事件和描述不同事件的新闻报道对. 基于向量的相似度计算方法有多种 ,如余弦相似度、Hellinger相似度等 ,文献 [ 12 ]指出 ,余弦相似度性能最好 ,也最稳定. 因此采用余弦相似度作为向量相似度计算函数. Sim ( di , dj ) = ∑ M k =1 W ik ×W jk ( ∑ M k =1 W 2 ik ) ×( ∑ M k =1 W 2 jk ) . (16) 2 实验及分析 2. 1 评测标准本文依据 TDT评测标准 ,采用漏报率 (M issi ) 、误报率 (FAi )以及归一化开销 ( CDet ) Norm [ 13 ]来评价该检测方法的性能 ,话题 i的漏报率和误报率定义为 M issi = 未检没到的与话题 i相关的报道数与话题 i相关的报道总数 , (17) FAi = 检测到的与话题 i不相关的报道数与话题 i不相关的报道总数 . (18) 则系统的平均漏报率 PM iss、平均误报率 PFA和归一化检测开销 (CDet ) Norm如下所示 : PM iss = ∑iM issi / tn , (19) 式中 : tn 为话题个数; PFA = ∑i FAi / tn , (20) 式中 : tn 为话题个数 , (CDet ) Norm = CM iss PM iss Ptarget + CFA PFA P┐target m in (CM iss Ptarget , CFA , Ptarget ) . (21) 式中 : (CDet ) Norm越小 ,表明系统性能越好 ,理想情况下 , (CDet ) Norm = 0; CM iss为漏报一个新话题的代价; CFA为误报一次的代价; Ptarge t是目标话题的先验概率; P┐ta rget = 1 - Ptarget; CM iss、CFA和 Ptarget都是预设值 , 不同的评测中取值不一样 ,本文中它们的取值分别为 1. 0、0. 1、0. 02 . 2. 2 文档预处理预处理的内容主要包括按照一定规则生成特征项. 传统的做法是根据文档的词语频率 ,去掉一定阈值内的高频词和低频词 ,去掉停用词之后形成的集合作为特征项集合. 但是由于在事件检测过程中 ,需要使用增量 TF2IDF方法动态更新文档频率 ,这样 , 使用传统的特征项选择方法在计算上会比较复杂. 本文提出了使用词频词典来选择特征项的方法. 对于每篇新闻报道 ,使用哈工大信息检索研究室语言技术平台共享包 [ 14 ] ,进行分词和词性标注. 将标注好的文档中的名词提取出来 ,作为特征候选集合 ,然后根据词频词典 ,生成相应的向量. 若词典中的词在文档中出现 ,则在向量中标记该词出现的次第 2期毋非 ,等 :容错粗糙模型的事件检测研究 ·115·

<<向上翻页向下翻页>>

点击下载：人工智能基础：容错粗糙模型的事件检测研究