正在加载图片...
第4期 杨志豪,等:基于支撑向量机的生物医学文献蛋白质关系抽取 ·367 表2引入特征对性能的影响 Table 2 Performance of usng different fea tures 特征类型 特征组合 词项 实体距 关键词 链接 链接语法 召回率/%准确率/% F值/% 特征 离特征 特征 特征 分析特征 组合1 635 23.4 342 组合2 642 285 395 组合3 707 33.2 452 组合4 712 37.8 49.4 组合5 ★ 704 436 538 注:标记“·的特征项表示被引入的特征 将结果与基于链接语法分析的B ioP IExtrac~ 系统具有明显的优势,在准确率上,B ioP ISVM Extrac- toI6)、nEx系统和B ioRAT系统的结果对比,结果 or系统低于其他3个系统 如表3和表4所示.B ioP ISVMExtractor.系统的召回 从召回率与准确率的综合分类率F指数来看, 率(704%)要明显高于B ioP IExtrac0r(39.80%)、 B ioP ISVMExtractor系统的综合分类率F达到了 htEx(2694%)和B ioRAT(2031%)系统,这表明 53.8%,高于同一测试语料上的其他系统:BioP IEx- 基于支持向量机方法能获得比语法分析方法更高的 tractor系统(4633%)、htEx系统(3820%)和 召回率.在大多数情况下,生物医学研究者更倾向于 B ioRAT系统(29.68%). 获得更高的召回率,在这一点上B ioP ISVMExtractor 表3 B ioP ISVM Extracor召回率与B ioP IExtracpr IntEx和B oRAT的比较 Table 3 Recall com parison am ong BioP SVM Extractor,BioP IExtractor,h tEx and BiRAT BioP ISVM Extracbr BioP IExtracpr IntEx BDRAT 结果 个数 百分率1% 个数 百分率/% 个数 百分率/% 个数百分率/% 召回 276 7040 156 3980 142 2694 79 2031 未召回 116 1960 236 6020 385 73.06 310 7969 总数 392 10000 392 10000 527 10000 389 10000 表4 B ioP SVMExtracor?准确率及综合分类率与BioP IExtracor、hEx和B iRAT的比较 Table 4 Prec ision com parison among BioP ISVM Extractor,BioP IExtractor,htEx and BioRAT BioP ISVM Extracbr BioP IExtracpr IntEx B DRAT 结果 个数百分率1% 个数 百分率/% 个数 百分率/% 个数 百分率/% 正确 672 4360 543 55.41 262 6566 239 5507 不正确 869 5640 437 4459 137 3434 195 4493 总数 1541 10000 980 10000 399 10000 434 10000 F值 5380 4633 3820 2968 3.3错误分析与讨论 错误的大多数,如果不考虑只包含在正文中的实体 从生物医学文本中进行蛋白质(基因)相互作 关系,B ioP ISVMExtractor.系统在该测试集上的召回 用关系的抽取受限于自然语言语法、语义的复杂性, 率会进一步提高」 要想取得较高的性能,也是极具挑战性的任务.对关 在关系抽取各个阶段中,指代消解、命名实体识 系抽取的错误原因进行了分析 别、链接分析、特征提取等处理环节,每个环节都可 需要指出的是,由于DP数据库中的记录包含 能导致错误的发生.其中,指代消解部分的错误是因 的关系来自229篇PutMed文献的摘要和正文,而 为自然语言文本中指代关系的复杂性.命名实体识 实验语料只是229篇PubMed文献的摘要,所以不 别部分的错误是因为生物实体命名很不规范,生物 可避免地会影响召回率的性能.这种情况占召回率 实体命名识别是当前研究的一个难点和热点,当前 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net表 2 引入特征对性能的影响 Table 2 Performance of using d ifferen t fea tures 特征组合 特征类型 词项 特征 实体距 离特征 关键词 特征 链接 特征 链接语法 分析特征 召回率 /% 准确率 /% F值 /% 组合 1 3 63. 5 23. 4 34. 2 组合 2 3 3 64. 2 28. 5 39. 5 组合 3 3 3 3 70. 7 33. 2 45. 2 组合 4 3 3 3 3 71. 2 37. 8 49. 4 组合 5 3 3 3 3 3 70. 4 43. 6 53. 8 注 :标记“3 ”的特征项表示被引入的特征. 将结果与基于链接语法分析的 B ioPIExtrac2 tor [ 16 ]、IntEx系统和 BioRAT系统的结果对比 ,结果 如表 3和表 4所示. B ioPISVMExtractor系统的召回 率 ( 70. 4% )要明显高于 BioPIExtractor ( 39. 80% )、 IntEx(26. 94% )和 B ioRAT ( 20. 31% )系统 ,这表明 基于支持向量机方法能获得比语法分析方法更高的 召回率. 在大多数情况下 ,生物医学研究者更倾向于 获得更高的召回率 ,在这一点上 BioPISVMExtractor 系统具有明显的优势 ,在准确率上 ,BioPISVMExtrac2 tor系统低于其他 3个系统. 从召回率与准确率的综合分类率 F指数来看 , BioPISVMExtractor系统的 综合分类 率 F 达 到了 53. 8% ,高于同一测试语料上的其他系统 : BioPIEx2 tractor系统 ( 46. 33% ) 、IntEx系统 ( 38. 20% ) 和 BioRAT系统 (29. 68% ). 表 3 BioP ISVMExtractor召回率与 BioP IExtractor、IntEx和 BioRAT的比较 Table 3 Reca ll com par ison am ong BioPISVM Extractor, BioPIExtractor, In tEx and BioRAT 结果 BioP ISVMExtractor 个数 百分率 /% BioP IExtractor 个数 百分率 /% IntEx 个数 百分率 /% BioRAT 个数 百分率 /% 召回 276 70. 40 156 39. 80 142 26. 94 79 20. 31 未召回 116 19. 60 236 60. 20 385 73. 06 310 79. 69 总数 392 100. 00 392 100. 00 527 100. 00 389 100. 00 表 4 BioP ISVMExtractor准确率及综合分类率与 BioP IExtractor、IntEx和 BioRAT的比较 Table 4 Prec ision com par ison am ong BioPISVM Extractor, BioPIExtractor, In tEx and BioRAT 结果 BioP ISVMExtractor 个数 百分率 /% BioP IExtractor 个数 百分率 /% IntEx 个数 百分率 /% BioRAT 个数 百分率 /% 正确 672 43. 60 543 55. 41 262 65. 66 239 55. 07 不正确 869 56. 40 437 44. 59 137 34. 34 195 44. 93 总数 1 541 100. 00 980 100. 00 399 100. 00 434 100. 00 F值 53. 80 46. 33 38. 20 29. 68 3. 3 错误分析与讨论 从生物医学文本中进行蛋白质 (基因 )相互作 用关系的抽取受限于自然语言语法、语义的复杂性 , 要想取得较高的性能 ,也是极具挑战性的任务. 对关 系抽取的错误原因进行了分析. 需要指出的是 ,由于 D IP数据库中的记录包含 的关系来自 229篇 PubMed文献的摘要和正文 ,而 实验语料只是 229篇 PubMed文献的摘要 ,所以不 可避免地会影响召回率的性能. 这种情况占召回率 错误的大多数 ,如果不考虑只包含在正文中的实体 关系 , BioPISVMExtractor系统在该测试集上的召回 率会进一步提高. 在关系抽取各个阶段中 ,指代消解、命名实体识 别、链接分析、特征提取等处理环节 ,每个环节都可 能导致错误的发生. 其中 ,指代消解部分的错误是因 为自然语言文本中指代关系的复杂性. 命名实体识 别部分的错误是因为生物实体命名很不规范 ,生物 实体命名识别是当前研究的一个难点和热点 ,当前 第 4期 杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 763 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有