表 2 引入特征对性能的影响 Table 2 Performance of

正在加载图片...

第4期杨志豪，等：基于支撑向量机的生物医学文献蛋白质关系抽取 ·367 表2引入特征对性能的影响 Table 2 Performance of usng different fea tures 特征类型特征组合词项实体距关键词链接链接语法召回率/%准确率/% F值/% 特征离特征特征特征分析特征组合1 635 23.4 342 组合2 642 285 395 组合3 707 33.2 452 组合4 712 37.8 49.4 组合5 ★ 704 436 538 注：标记“·的特征项表示被引入的特征将结果与基于链接语法分析的B ioP IExtrac~ 系统具有明显的优势，在准确率上，B ioP ISVM Extrac- toI6)、nEx系统和B ioRAT系统的结果对比，结果 or系统低于其他3个系统如表3和表4所示.B ioP ISVMExtractor.系统的召回从召回率与准确率的综合分类率F指数来看，率(704%)要明显高于B ioP IExtrac0r(39.80%)、 B ioP ISVMExtractor系统的综合分类率F达到了 htEx(2694%)和B ioRAT(2031%)系统，这表明 53.8%,高于同一测试语料上的其他系统：BioP IEx- 基于支持向量机方法能获得比语法分析方法更高的 tractor系统(4633%)、htEx系统(3820%)和召回率.在大多数情况下，生物医学研究者更倾向于 B ioRAT系统(29.68%). 获得更高的召回率，在这一点上B ioP ISVMExtractor 表3 B ioP ISVM Extracor召回率与B ioP IExtracpr IntEx和B oRAT的比较 Table 3 Recall com parison am ong BioP SVM Extractor,BioP IExtractor,h tEx and BiRAT BioP ISVM Extracbr BioP IExtracpr IntEx BDRAT 结果个数百分率1% 个数百分率/% 个数百分率/% 个数百分率/% 召回 276 7040 156 3980 142 2694 79 2031 未召回 116 1960 236 6020 385 73.06 310 7969 总数 392 10000 392 10000 527 10000 389 10000 表4 B ioP SVMExtracor?准确率及综合分类率与BioP IExtracor、hEx和B iRAT的比较 Table 4 Prec ision com parison among BioP ISVM Extractor,BioP IExtractor,htEx and BioRAT BioP ISVM Extracbr BioP IExtracpr IntEx B DRAT 结果个数百分率1% 个数百分率/% 个数百分率/% 个数百分率/% 正确 672 4360 543 55.41 262 6566 239 5507 不正确 869 5640 437 4459 137 3434 195 4493 总数 1541 10000 980 10000 399 10000 434 10000 F值 5380 4633 3820 2968 3.3错误分析与讨论错误的大多数，如果不考虑只包含在正文中的实体从生物医学文本中进行蛋白质（基因）相互作关系，B ioP ISVMExtractor.系统在该测试集上的召回用关系的抽取受限于自然语言语法、语义的复杂性，率会进一步提高」要想取得较高的性能，也是极具挑战性的任务.对关在关系抽取各个阶段中，指代消解、命名实体识系抽取的错误原因进行了分析别、链接分析、特征提取等处理环节，每个环节都可需要指出的是，由于DP数据库中的记录包含能导致错误的发生.其中，指代消解部分的错误是因的关系来自229篇PutMed文献的摘要和正文，而为自然语言文本中指代关系的复杂性.命名实体识实验语料只是229篇PubMed文献的摘要，所以不别部分的错误是因为生物实体命名很不规范，生物可避免地会影响召回率的性能.这种情况占召回率实体命名识别是当前研究的一个难点和热点，当前 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net表 2 引入特征对性能的影响 Table 2 Performance of using d ifferen t fea tures 特征组合特征类型词项特征实体距离特征关键词特征链接特征链接语法分析特征召回率 /% 准确率 /% F值 /% 组合 1 3 63. 5 23. 4 34. 2 组合 2 3 3 64. 2 28. 5 39. 5 组合 3 3 3 3 70. 7 33. 2 45. 2 组合 4 3 3 3 3 71. 2 37. 8 49. 4 组合 5 3 3 3 3 3 70. 4 43. 6 53. 8 注 :标记“3 ”的特征项表示被引入的特征. 将结果与基于链接语法分析的 B ioPIExtrac2 tor [ 16 ]、IntEx系统和 BioRAT系统的结果对比 ,结果如表 3和表 4所示. B ioPISVMExtractor系统的召回率 ( 70. 4% )要明显高于 BioPIExtractor ( 39. 80% )、 IntEx(26. 94% )和 B ioRAT ( 20. 31% )系统 ,这表明基于支持向量机方法能获得比语法分析方法更高的召回率. 在大多数情况下 ,生物医学研究者更倾向于获得更高的召回率 ,在这一点上 BioPISVMExtractor 系统具有明显的优势 ,在准确率上 ,BioPISVMExtrac2 tor系统低于其他 3个系统. 从召回率与准确率的综合分类率 F指数来看 , BioPISVMExtractor系统的综合分类率 F 达到了 53. 8% ,高于同一测试语料上的其他系统 : BioPIEx2 tractor系统 ( 46. 33% ) 、IntEx系统 ( 38. 20% ) 和 BioRAT系统 (29. 68% ). 表 3 BioP ISVMExtractor召回率与 BioP IExtractor、IntEx和 BioRAT的比较 Table 3 Reca ll com par ison am ong BioPISVM Extractor, BioPIExtractor, In tEx and BioRAT 结果 BioP ISVMExtractor 个数百分率 /% BioP IExtractor 个数百分率 /% IntEx 个数百分率 /% BioRAT 个数百分率 /% 召回 276 70. 40 156 39. 80 142 26. 94 79 20. 31 未召回 116 19. 60 236 60. 20 385 73. 06 310 79. 69 总数 392 100. 00 392 100. 00 527 100. 00 389 100. 00 表 4 BioP ISVMExtractor准确率及综合分类率与 BioP IExtractor、IntEx和 BioRAT的比较 Table 4 Prec ision com par ison am ong BioPISVM Extractor, BioPIExtractor, In tEx and BioRAT 结果 BioP ISVMExtractor 个数百分率 /% BioP IExtractor 个数百分率 /% IntEx 个数百分率 /% BioRAT 个数百分率 /% 正确 672 43. 60 543 55. 41 262 65. 66 239 55. 07 不正确 869 56. 40 437 44. 59 137 34. 34 195 44. 93 总数 1 541 100. 00 980 100. 00 399 100. 00 434 100. 00 F值 53. 80 46. 33 38. 20 29. 68 3. 3 错误分析与讨论从生物医学文本中进行蛋白质 (基因 )相互作用关系的抽取受限于自然语言语法、语义的复杂性 , 要想取得较高的性能 ,也是极具挑战性的任务. 对关系抽取的错误原因进行了分析. 需要指出的是 ,由于 D IP数据库中的记录包含的关系来自 229篇 PubMed文献的摘要和正文 ,而实验语料只是 229篇 PubMed文献的摘要 ,所以不可避免地会影响召回率的性能. 这种情况占召回率错误的大多数 ,如果不考虑只包含在正文中的实体关系 , BioPISVMExtractor系统在该测试集上的召回率会进一步提高. 在关系抽取各个阶段中 ,指代消解、命名实体识别、链接分析、特征提取等处理环节 ,每个环节都可能导致错误的发生. 其中 ,指代消解部分的错误是因为自然语言文本中指代关系的复杂性. 命名实体识别部分的错误是因为生物实体命名很不规范 ,生物实体命名识别是当前研究的一个难点和热点 ,当前第 4期杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 763 ·

<<向上翻页向下翻页>>

点击下载：机器学习：基于支持向量机的生物医学文献蛋白质关系抽取