© 1994-2009 China Academic Journ_中国高校课件下载中心

正在加载图片...

116 智能系统学报第4卷数，若没有出现在文档中，则标记为Q这样，每篇文是机器都很难判断它们是否属于同一个话题档都表示成为统一维数的向量，整个文档集被表示另外，使用词频词典作为特征项选择方法虽然减为特征项矩阵TE.在增量计算的过程中，可以方便少了增量TF-DF的计算量：但是也增加了特征项矩地计算词语在所有文档中出现的次数，阵的稀疏性，这在一定程度上削弱了容错粗糙模型的词频词典是搜狐研发中心提供的，该词典为优势.但仍给出一个启示：词典可以经过进一步的降 2006年10月统计的互联网词库，涉及语料规模在1 维处理，同时，可以将词典扩充为带权值的词典，对于亿页面以上，本文选取了词频在100万以上的高频某些具有特殊意义的词可以提高权值.在内容安全的名词作为实验使用的词频词典，共7338个词，具体应用中，可以根据不同的需求，生成不同的领域 23实验语料集词典，是实现热点新闻追踪的一个有效手段实验语料是搜狐研发中心2006年11月提供的实验结果还表明，容错精度较大时(>3时)，中文互联网语料s,随机选取其中的1500篇，其中容错粗糙模型有效地降低了系统的错检率」 1000篇作为容错粗糙集的训练集，500篇作为测试集.人工标注话题15个，将实验所得的话题聚类结 3结束语果与人工标注话题相比较，得到最后的实验结果」事件检测是话题检测与跟踪的核心任务，目前 24实验结果及分析围绕该任务的检测方法有很多种.本文采用了基于实验过程中使用了迭代Single-Pass算法进行事特征项协同出现的容错粗糙模型来建立事件检测框件聚类.为了同一般的V9M作比较，还实现了V9M 架，并对比了该框架使用向量空间模型的结果.实验下的实验结果.为了探讨容错类精度对检测结果的结果表明，应用该模型降低了检测代价，改进了系统影响，实验中取了4个0的值进行对比，结果如表2 性能.但是本文的方法仅仅考虑了名词，在未来工作所示中还应该加入更加丰富的文档表示方法.另外，本文表2实验结果表尝试使用词频词典来选择特征项的方法，也有待进 Table 2 Experinent results 一步改进 PMiss PEA (CDe Nom 参考文献： 3 03529 003754 05029 [1]ALLEN J,CARBONELL J,DODD NGION G,YAMRON 8 02083 000897 02442 J,YANG Y.Top ic detection and tracking pibt study.final 15 02188 000417 02355 report [C ]//Proceedings of the DARPA Broadcast News 25 02292 000481 02484 Transcrip tion and Understanding Workshop Virginia:Lans- V9M02738 002373 03687 downe,.1998:194-218 [2]CONNELL M,FENG A,KUMARAN G,et al UMass at 从上表可以看出，当容错类精度较小时例如 IDT 2004 [C]//The 7th Top ic Detection and Tracking Con- 0=时)，由于生成的容错类中特征项的数量很大， ference Gaithersbury,USA,2004:35-41 因此漏检率和错检率都很高，甚至比向量空间模型 [3 ]NALLAPATIR Semantic language models for opic detec- 高出很多.而随着取值的增大，特征项容错类中词 tion and tracking[C]//Proceed ings of HLT-NAACL 2003 语的个数在减少，可以找到一个比较恰当的范围 Student Research Workshop.Edmonton,CA,2003:16 如0∈[15,25少.在这个范围内，漏检率、错检率「4苏新宁.信息检索理论与技术M1北京：科学技术文和识别代价都达到一个稳定的水平，且总体效果优献出版社，2004：33-35 于使用V9M的识别结果，归一化识别代价最多降低 [5 ]PAWLAK Z Rough sets theoretical aspects of reasoning a- 了312%. bout data [M Dordrecht Kluwer Academ ic Publishers, 1991:9-27. 但是，容错粗糙模型对漏检率的提高十分有限 [6]KOMOROW SKI J,POLKOW SKIL,ANDRZEJ S Rough 经过分析，认为原因是容错类建立的标准有待改进 sets a tutorial,a new trend in decisionmaking [M ]Singa- 本文在生成容错类时，仅考虑了文本中的名词，而新 pore:Springer,Singapore Pte Ltd,1998:2-5. 闻报道中的实体词地点、时间)和动词在事件框架 [7浏清.Rough集及Rough推理[M]北京：科学出版的构成中占有重要地位，过滤掉这些词后，文档的特社，2003：11-13 征项对文档的描述准确性会降低.同时，新闻报道本 [8 SKOWRON A,STEPAN UK J.Generalized approxmation 身也存在一定的模糊性，有一些报道无论是人工还 paces[C]//3rd Intemational Workshop on Rough Sets 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved http://www.cnki.net© 1994-2009 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net 数 ,若没有出现在文档中 ,则标记为 0. 这样 ,每篇文档都表示成为统一维数的向量 ,整个文档集被表示为特征项矩阵 TF. 在增量计算的过程中 ,可以方便地计算词语在所有文档中出现的次数. 词频词典是搜狐研发中心 [ 15 ]提供的 ,该词典为 2006年 10月统计的互联网词库 ,涉及语料规模在 1 亿页面以上. 本文选取了词频在 100万以上的高频名词作为实验使用的词频词典 ,共 7 338个词. 2. 3 实验语料集实验语料是搜狐研发中心 2006年 11月提供的中文互联网语料 [ 15 ] ,随机选取其中的 1 500篇 ,其中 1 000篇作为容错粗糙集的训练集 , 500篇作为测试集. 人工标注话题 15个 ,将实验所得的话题聚类结果与人工标注话题相比较 ,得到最后的实验结果. 2. 4 实验结果及分析实验过程中使用了迭代 Single2Pass算法进行事件聚类. 为了同一般的 VSM作比较 ,还实现了 VSM 下的实验结果. 为了探讨容错类精度 θ对检测结果的影响,实验中取了 4个 θ的值进行对比,结果如表 2 所示. 表 2 实验结果表 Table 2 Exper im en t results θ PM iss PFA (CDet ) Norm 3 0. 352 9 0. 037 54 0. 502 9 8 0. 208 3 0. 008 97 0. 244 2 15 0. 218 8 0. 004 17 0. 235 5 25 0. 229 2 0. 004 81 0. 248 4 VSM 0. 273 8 0. 023 73 0. 368 7 从上表可以看出 ,当容错类精度较小时 (例如 θ= 3时 ) ,由于生成的容错类中特征项的数量很大 , 因此漏检率和错检率都很高 ,甚至比向量空间模型高出很多. 而随着 θ取值的增大 ,特征项容错类中词语的个数在减少 , 可以找到一个比较恰当的范围 (如 θ∈[ 15, 25 ]). 在这个范围内 ,漏检率、错检率和识别代价都达到一个稳定的水平 ,且总体效果优于使用 VSM的识别结果 ,归一化识别代价最多降低了 31. 2%. 但是 ,容错粗糙模型对漏检率的提高十分有限 , 经过分析 ,认为原因是容错类建立的标准有待改进. 本文在生成容错类时 ,仅考虑了文本中的名词 ,而新闻报道中的实体词 (地点、时间 )和动词在事件框架的构成中占有重要地位 ,过滤掉这些词后 ,文档的特征项对文档的描述准确性会降低. 同时 ,新闻报道本身也存在一定的模糊性 ,有一些报道无论是人工还是机器都很难判断它们是否属于同一个话题. 另外,使用词频词典作为特征项选择方法虽然减少了增量 TF2IDF的计算量;但是也增加了特征项矩阵的稀疏性,这在一定程度上削弱了容错粗糙模型的优势. 但仍给出一个启示:词典可以经过进一步的降维处理,同时 ,可以将词典扩充为带权值的词典,对于某些具有特殊意义的词可以提高权值. 在内容安全的具体应用中,可以根据不同的需求,生成不同的领域词典,是实现热点新闻追踪的一个有效手段. 实验结果还表明 ,容错精度较大时 (θ> 3时 ) , 容错粗糙模型有效地降低了系统的错检率. 3 结束语事件检测是话题检测与跟踪的核心任务 ,目前围绕该任务的检测方法有很多种. 本文采用了基于特征项协同出现的容错粗糙模型来建立事件检测框架 ,并对比了该框架使用向量空间模型的结果. 实验结果表明 ,应用该模型降低了检测代价 ,改进了系统性能. 但是本文的方法仅仅考虑了名词 ,在未来工作中还应该加入更加丰富的文档表示方法. 另外 ,本文尝试使用词频词典来选择特征项的方法 ,也有待进一步改进. 参考文献 : [ 1 ]ALLEN J, CARBONELL J, DODD INGTON G, YAMRON J, YANG Y. Top ic detection and tracking p ilot study: final report [ C ] / /Proceedings of the DARPA Broadcast News Transcrip tion and Understanding Workshop. V irginia: Lans2 downe, 1998: 1942218. [ 2 ]CONNELL M, FENG A, KUMARAN G, et al. UMass at TDT 2004 [C ] / /The 7 th Top ic Detection and Tracking Con2 ference. Gaithersbury, USA, 2004: 35241. [ 3 ]NALLAPATI R. Semantic language models for top ic detec2 tion and tracking[ C ] / /Proceedings of HLT2NAACL 2003 Student Research Workshop. Edmonton, CA, 2003: 126. [ 4 ]苏新宁. 信息检索理论与技术 [M ]. 北京 :科学技术文献出版社 , 2004: 33235. [ 5 ] PAWLAK Z. Rough sets: theoretical aspects of reasoning a2 bout data [M ]. Dordrecht: Kluwer Academ ic Publishers, 1991: 9227. [ 6 ] KOMOROW SKI J, POLKOW SKI L, ANDRZEJ S. Rough sets: a tutorial, a new trend in decision2making[M ]. Singa2 pore: Sp ringer, Singapore Pte L td, 1998: 225. [ 7 ]刘清. Rough集及 Rough推理 [M ]. 北京 :科学出版社 , 2003: 11213. [ 8 ] SKOWRON A, STEPAN IUK J. Generalized app roximation spaces[ C ] / / 3 rd International Workshop on Rough Sets ·116· 智能系统学报第 4卷

<<向上翻页向下翻页>>

点击下载：人工智能基础：容错粗糙模型的事件检测研究