正在加载图片...
116 智能系统学报 第4卷 数,若没有出现在文档中,则标记为Q这样,每篇文 是机器都很难判断它们是否属于同一个话题 档都表示成为统一维数的向量,整个文档集被表示 另外,使用词频词典作为特征项选择方法虽然减 为特征项矩阵TE.在增量计算的过程中,可以方便 少了增量TF-DF的计算量:但是也增加了特征项矩 地计算词语在所有文档中出现的次数, 阵的稀疏性,这在一定程度上削弱了容错粗糙模型的 词频词典是搜狐研发中心提供的,该词典为 优势.但仍给出一个启示:词典可以经过进一步的降 2006年10月统计的互联网词库,涉及语料规模在1 维处理,同时,可以将词典扩充为带权值的词典,对于 亿页面以上,本文选取了词频在100万以上的高频 某些具有特殊意义的词可以提高权值.在内容安全的 名词作为实验使用的词频词典,共7338个词, 具体应用中,可以根据不同的需求,生成不同的领域 23实验语料集 词典,是实现热点新闻追踪的一个有效手段 实验语料是搜狐研发中心2006年11月提供的 实验结果还表明,容错精度较大时(>3时), 中文互联网语料s,随机选取其中的1500篇,其中 容错粗糙模型有效地降低了系统的错检率」 1000篇作为容错粗糙集的训练集,500篇作为测试 集.人工标注话题15个,将实验所得的话题聚类结 3结束语 果与人工标注话题相比较,得到最后的实验结果」 事件检测是话题检测与跟踪的核心任务,目前 24实验结果及分析 围绕该任务的检测方法有很多种.本文采用了基于 实验过程中使用了迭代Single-Pass算法进行事 特征项协同出现的容错粗糙模型来建立事件检测框 件聚类.为了同一般的V9M作比较,还实现了V9M 架,并对比了该框架使用向量空间模型的结果.实验 下的实验结果.为了探讨容错类精度对检测结果的 结果表明,应用该模型降低了检测代价,改进了系统 影响,实验中取了4个0的值进行对比,结果如表2 性能.但是本文的方法仅仅考虑了名词,在未来工作 所示 中还应该加入更加丰富的文档表示方法.另外,本文 表2实验结果表 尝试使用词频词典来选择特征项的方法,也有待进 Table 2 Experinent results 一步改进 PMiss PEA (CDe Nom 参考文献: 3 03529 003754 05029 [1]ALLEN J,CARBONELL J,DODD NGION G,YAMRON 8 02083 000897 02442 J,YANG Y.Top ic detection and tracking pibt study.final 15 02188 000417 02355 report [C ]//Proceedings of the DARPA Broadcast News 25 02292 000481 02484 Transcrip tion and Understanding Workshop Virginia:Lans- V9M02738 002373 03687 downe,.1998:194-218 [2]CONNELL M,FENG A,KUMARAN G,et al UMass at 从上表可以看出,当容错类精度较小时例如 IDT 2004 [C]//The 7th Top ic Detection and Tracking Con- 0=时),由于生成的容错类中特征项的数量很大, ference Gaithersbury,USA,2004:35-41 因此漏检率和错检率都很高,甚至比向量空间模型 [3 ]NALLAPATIR Semantic language models for opic detec- 高出很多.而随着取值的增大,特征项容错类中词 tion and tracking[C]//Proceed ings of HLT-NAACL 2003 语的个数在减少,可以找到一个比较恰当的范围 Student Research Workshop.Edmonton,CA,2003:16 如0∈[15,25少.在这个范围内,漏检率、错检率 「4苏新宁.信息检索理论与技术M1北京:科学技术文 和识别代价都达到一个稳定的水平,且总体效果优 献出版社,2004:33-35 于使用V9M的识别结果,归一化识别代价最多降低 [5 ]PAWLAK Z Rough sets theoretical aspects of reasoning a- 了312%. bout data [M Dordrecht Kluwer Academ ic Publishers, 1991:9-27. 但是,容错粗糙模型对漏检率的提高十分有限 [6]KOMOROW SKI J,POLKOW SKIL,ANDRZEJ S Rough 经过分析,认为原因是容错类建立的标准有待改进 sets a tutorial,a new trend in decisionmaking [M ]Singa- 本文在生成容错类时,仅考虑了文本中的名词,而新 pore:Springer,Singapore Pte Ltd,1998:2-5. 闻报道中的实体词地点、时间)和动词在事件框架 [7浏清.Rough集及Rough推理[M]北京:科学出版 的构成中占有重要地位,过滤掉这些词后,文档的特 社,2003:11-13 征项对文档的描述准确性会降低.同时,新闻报道本 [8 SKOWRON A,STEPAN UK J.Generalized approxmation 身也存在一定的模糊性,有一些报道无论是人工还 paces[C]//3rd Intemational Workshop on Rough Sets 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 数 ,若没有出现在文档中 ,则标记为 0. 这样 ,每篇文 档都表示成为统一维数的向量 ,整个文档集被表示 为特征项矩阵 TF. 在增量计算的过程中 ,可以方便 地计算词语在所有文档中出现的次数. 词频词典是搜狐研发中心 [ 15 ]提供的 ,该词典为 2006年 10月统计的互联网词库 ,涉及语料规模在 1 亿页面以上. 本文选取了词频在 100万以上的高频 名词作为实验使用的词频词典 ,共 7 338个词. 2. 3 实验语料集 实验语料是搜狐研发中心 2006年 11月提供的 中文互联网语料 [ 15 ] ,随机选取其中的 1 500篇 ,其中 1 000篇作为容错粗糙集的训练集 , 500篇作为测试 集. 人工标注话题 15个 ,将实验所得的话题聚类结 果与人工标注话题相比较 ,得到最后的实验结果. 2. 4 实验结果及分析 实验过程中使用了迭代 Single2Pass算法进行事 件聚类. 为了同一般的 VSM作比较 ,还实现了 VSM 下的实验结果. 为了探讨容错类精度 θ对检测结果的 影响,实验中取了 4个 θ的值进行对比,结果如表 2 所示. 表 2 实验结果表 Table 2 Exper im en t results θ PM iss PFA (CDet ) Norm 3 0. 352 9 0. 037 54 0. 502 9 8 0. 208 3 0. 008 97 0. 244 2 15 0. 218 8 0. 004 17 0. 235 5 25 0. 229 2 0. 004 81 0. 248 4 VSM 0. 273 8 0. 023 73 0. 368 7 从上表可以看出 ,当容错类精度较小时 (例如 θ= 3时 ) ,由于生成的容错类中特征项的数量很大 , 因此漏检率和错检率都很高 ,甚至比向量空间模型 高出很多. 而随着 θ取值的增大 ,特征项容错类中词 语的个数在减少 , 可以找到一个比较恰当的范围 (如 θ∈[ 15, 25 ]). 在这个范围内 ,漏检率、错检率 和识别代价都达到一个稳定的水平 ,且总体效果优 于使用 VSM的识别结果 ,归一化识别代价最多降低 了 31. 2%. 但是 ,容错粗糙模型对漏检率的提高十分有限 , 经过分析 ,认为原因是容错类建立的标准有待改进. 本文在生成容错类时 ,仅考虑了文本中的名词 ,而新 闻报道中的实体词 (地点、时间 )和动词在事件框架 的构成中占有重要地位 ,过滤掉这些词后 ,文档的特 征项对文档的描述准确性会降低. 同时 ,新闻报道本 身也存在一定的模糊性 ,有一些报道无论是人工还 是机器都很难判断它们是否属于同一个话题. 另外,使用词频词典作为特征项选择方法虽然减 少了增量 TF2IDF的计算量;但是也增加了特征项矩 阵的稀疏性,这在一定程度上削弱了容错粗糙模型的 优势. 但仍给出一个启示:词典可以经过进一步的降 维处理,同时 ,可以将词典扩充为带权值的词典,对于 某些具有特殊意义的词可以提高权值. 在内容安全的 具体应用中,可以根据不同的需求,生成不同的领域 词典,是实现热点新闻追踪的一个有效手段. 实验结果还表明 ,容错精度较大时 (θ> 3时 ) , 容错粗糙模型有效地降低了系统的错检率. 3 结束语 事件检测是话题检测与跟踪的核心任务 ,目前 围绕该任务的检测方法有很多种. 本文采用了基于 特征项协同出现的容错粗糙模型来建立事件检测框 架 ,并对比了该框架使用向量空间模型的结果. 实验 结果表明 ,应用该模型降低了检测代价 ,改进了系统 性能. 但是本文的方法仅仅考虑了名词 ,在未来工作 中还应该加入更加丰富的文档表示方法. 另外 ,本文 尝试使用词频词典来选择特征项的方法 ,也有待进 一步改进. 参考文献 : [ 1 ]ALLEN J, CARBONELL J, DODD INGTON G, YAMRON J, YANG Y. Top ic detection and tracking p ilot study: final report [ C ] / /Proceedings of the DARPA Broadcast News Transcrip tion and Understanding Workshop. V irginia: Lans2 downe, 1998: 1942218. [ 2 ]CONNELL M, FENG A, KUMARAN G, et al. UMass at TDT 2004 [C ] / /The 7 th Top ic Detection and Tracking Con2 ference. Gaithersbury, USA, 2004: 35241. [ 3 ]NALLAPATI R. Semantic language models for top ic detec2 tion and tracking[ C ] / /Proceedings of HLT2NAACL 2003 Student Research Workshop. Edmonton, CA, 2003: 126. [ 4 ]苏新宁. 信息检索理论与技术 [M ]. 北京 :科学技术文 献出版社 , 2004: 33235. [ 5 ] PAWLAK Z. Rough sets: theoretical aspects of reasoning a2 bout data [M ]. Dordrecht: Kluwer Academ ic Publishers, 1991: 9227. [ 6 ] KOMOROW SKI J, POLKOW SKI L, ANDRZEJ S. Rough sets: a tutorial, a new trend in decision2making[M ]. Singa2 pore: Sp ringer, Singapore Pte L td, 1998: 225. [ 7 ]刘 清. Rough集及 Rough推理 [M ]. 北京 :科学出版 社 , 2003: 11213. [ 8 ] SKOWRON A, STEPAN IUK J. Generalized app roximation spaces[ C ] / / 3 rd International Workshop on Rough Sets ·116· 智 能 系 统 学 报 第 4卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有