第3卷第4期 智能系统学报 Vol 3 Ng 4 2008年8月 CAA I Transactions on Intelligent Systems Aug 2008 基于支持向量机的生物医学文献蛋白质关系抽取 杨志豪',洪莉2,林鸿飞,李彦鹏' (1大连理工大学电子与信息工程学院,辽宁大连116024:2朝阳师范高等专科学校数学计算机系,辽宁朝阳122000) 摘要:从生物医学文献中抽取蛋白质(基因)交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测以及新药 的研制等均具有重要的意义.提出了一种基于支持向量机(SM)的蛋白质基因)交互作用关系抽取方法.该方法除 了选取词项特征、关键词特征、实体距离特征链接特征外,还利用链接语法分析方法可以获得较高准确率的特性, 引入链接语法分析方法抽取结果特征.实验结果表明,该方法的召回率性能与使用同一测试语料的其他系统相比具 有明显的优势,综合分类率F指标也高于其他系统 关键词:关系抽取;链接语法;支持向量机 中图分类号:TP391文献标识码:A文章编号:1673-4785(2008)04036109 Extraction of nforma tion on proten-proten nteraction from biomedical litera tures using an SVM YANG Zhi-hao,HONG Li,L IN Hong-fei,L I Yanpeng (1.College of Electonic and Infomation Engineering.Dalian University of Technolgy,Dalian 116024,China;2 DeparmentofMath- ematics and Computer,Chaoyang Teachers College,Chaoyang 122000,China) Abstract:Automated extracton of protein-protein interaction infomation from biomedical literature is helpful when building a protein knowledge netork,predicting protein functions and designing new drugs This paper presents a method for proteinprotein interaction extraction from biomedical literature using a support vectormachine (SVM). In thismethod,besides common index parameters such as word features,keyword features,entity distance features and link path features,a link grammar extraction feature is used to mprove precision when identifying protein pro- tein interactions Expermental results indicated that the recall rate and the F-score of thismethod are much higher than that ofother extraction systems for the same dataset Keywords:interaction extraction;link grammar,support vector machine (SVM) 随着高通量生物技术的发展,生物医学的实验求十分迫切.其中,从生物医学文献中抽取蛋白质 手段和研究方法均发生了巨大的变革,领域内实验 基因)相互作用关系可以帮助建立蛋白质知识网 数据的指数性增长,给数据的存储与传输,数据 络、预测蛋白质关系以及辅助新药的研制,因此具有 的处理、理解与应用带来一系列问题,来自数学、化 重要的研究意义 学、药学、统计学和计算机科学等领域专家给予了广 1相关研究 泛关注,并取得了大量成果.生物医学文献作为成果 展示和学术交流的主要方式之一,其数目之大,增长 当前进行蛋白质基因)交互关系抽取主要有3 速度之快远远超过了其他学科领域,采用文本挖掘 种方法:基于自然语言处理的系统、基于模式匹配的 技术从这座宝库快速有效地提取生物医学知识的需 系统和基于机器学习与统计的方法」 基于自然语言处理的系统通过分析语法结构进 收稿日期:20080507. 基金项目:国家自然科学基金资助项目(60373095,60673039):国家 行关系抽取,依据它们的分析策略将它们分为浅层 “863"高科技计划资助项目(2006AA01Z151). 通信作者:杨志豪.Emaik Yang小@dlut edu cn 分析系统和深层分析系统.Pustejovsky等人使用浅 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第 3卷第 4期 智 能 系 统 学 报 Vol. 3 №. 4 2008年 8月 CAA I Transactions on Intelligent System s Aug. 2008 基于支持向量机的生物医学文献蛋白质关系抽取 杨志豪 1 ,洪 莉 2 ,林鸿飞 1 ,李彦鹏 1 (1. 大连理工大学 电子与信息工程学院 ,辽宁 大连 116024; 2. 朝阳师范高等专科学校 数学计算机系 ,辽宁 朝阳 122000) 摘 要 :从生物医学文献中抽取蛋白质 (基因 )交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测以及新药 的研制等均具有重要的意义. 提出了一种基于支持向量机 ( SVM)的蛋白质 (基因 )交互作用关系抽取方法. 该方法除 了选取词项特征、关键词特征、实体距离特征、链接特征外 ,还利用链接语法分析方法可以获得较高准确率的特性 , 引入链接语法分析方法抽取结果特征. 实验结果表明 ,该方法的召回率性能与使用同一测试语料的其他系统相比具 有明显的优势 ,综合分类率 F指标也高于其他系统. 关键词 :关系抽取 ;链接语法 ;支持向量机 中图分类号 : TP391 文献标识码 : A 文章编号 : 167324785 (2008) 0420361209 Extraction of information on prote in2prote in interaction from biomedical literatures using an SVM YANG Zhi2hao 1 , HONG L i 2 , L IN Hong2fei 1 , L I Yan2peng 1 (1. College of Electronic and Information Engineering, Dalian University of Technology, Dalian 116024, China; 2. Department ofMath2 ematics and Computer, Chaoyang Teachers College, Chaoyang 122000, China) Abstract:Automated extraction of p rotein2p rotein interaction information from biomedical literature is helpful when building a p rotein knowledge network, p redicting p rotein functions and designing new drugs. This paper p resents a method for p rotein2p rotein interaction extraction from biomedical literature using a support vectormachine (SVM). In thismethod, besides common index parameters such asword features, keyword features, entity distance features and link path features, a link grammar extraction feature is used to imp rove p recision when identifying p rotein2p ro2 tein interactions. Experimental results indicated that the recall rate and the F2score of thismethod are much higher than that of other extraction system s for the same dataset. Keywords: interaction extraction; link grammar; support vector machine (SVM) 收稿日期 : 2008205207. 基金项目 :国家自然科学基金资助项目 ( 60373095, 60673039) ;国家 “863”高科技计划资助项目 (2006AA01Z151). 通信作者 :杨志豪. E2mail: Yangzh@dlut. edu. cn. 随着高通量生物技术的发展 ,生物医学的实验 手段和研究方法均发生了巨大的变革 ,领域内实验 数据的“指数性 ”增长 ,给数据的存储与传输 ,数据 的处理、理解与应用带来一系列问题 ,来自数学、化 学、药学、统计学和计算机科学等领域专家给予了广 泛关注 ,并取得了大量成果. 生物医学文献作为成果 展示和学术交流的主要方式之一 ,其数目之大 ,增长 速度之快远远超过了其他学科领域 ,采用文本挖掘 技术从这座宝库快速有效地提取生物医学知识的需 求十分迫切. 其中 ,从生物医学文献中抽取蛋白质 (基因 )相互作用关系可以帮助建立蛋白质知识网 络、预测蛋白质关系以及辅助新药的研制 ,因此具有 重要的研究意义. 1 相关研究 当前进行蛋白质 (基因 )交互关系抽取主要有 3 种方法 :基于自然语言处理的系统、基于模式匹配的 系统和基于机器学习与统计的方法. 基于自然语言处理的系统通过分析语法结构进 行关系抽取 ,依据它们的分析策略将它们分为浅层 分析系统和深层分析系统. Pustejovsky等人使用浅
·362· 智能系统学报 第3卷 层分析方法从生物医学文献的摘要中抽取蛋白质抑 基于机器学习和统计的方法较前2种方法的优 制关系),但只得到了57%的召回率.Leoy等人提 势在于不需要付出繁重的努力去定义规则或语法 出了一个浅层分析器,用于从文献中抽取名词短语 它自动提取实体交互模式而不需要人的参与.目前 间的类属关系,精确率达到了90%)1.与浅层分析 己经出现了许多基于蛋白质称名共现的机器学习与 相比,深层分析方法也有很多人使用过.Pak等人 统计的方法【93] 提出了一个基于可组合的分类语法的深层分析器, 其中根据挖掘单位如摘要、句子等)又分为不 该分析器首先定位目标动词,然后使用双向增量分 同的类型.Andrade等I和Marcottle等3的方法在 析技术扫描该动词的左部和右部以获得语法成 摘要集合中提取蛋白质交互关系.前者将一组相关 分).该系统的召回率和精确率分别是48%和 文档与一组随机选取的文档对比来提取领域知识 80%.另一个深层分析器利用词典分析程序和上下 (如基因功能和交互);后者检索到可能包含蛋白质 文无关文法抽取蛋白质和基因的交互关系,得到的 交互关系的文档;Craven等Io最早开发了基于机器 召回率为63.9%,精确率为70.2%1.另外,Davu 学习的句子级蛋白质交互关系抽取系统.使用贝叶 cu等人提出了一个基于链接语法分析器(link gram- 斯分类器,对于一个包含2个实体名的句子,返回它 mar)的关系抽取系统hEs),使用链接语法分析器 们存在交互关系的概率.后续的研究者使用了包括 将复杂句划分为简单句,又将简单句划分为更具体 隐马尔科夫模型、支撑向量机的机器学习方法来判 的句子成分,然后从这些成分中选择满足条件的部 别包含蛋白质交互关系的句子;还有的方法研究句 分进行关系抽取,他们的召回率是2694%,精确率 子中一对实体存在交互关系的概率.Stap ley等四使 是65.66%.浅层分析系统只限于把句子解析成较 用固定的基因名列表,借助共现方法在Medline记 小的单元,而不揭示单元之间的句法关系.对于句子 录中构建每个基因对的相似性矩阵来检测它们的关 中简单的实体关系能获得较好的性能,但对于复杂 系.Jenssen等I2I采用类似的方法发现了DNA array 句子中多个实体间的关系抽取则性能较差.深层分 实验中的人类基因聚类间的关系 析系统着眼于充分分析整个句子的语法特点,从而 简单的统计方法(如基于蛋白质名称共现的方 最大限度地揭示句子所反映的主题内容,能获得更 法)不能准确地描述蛋白质之间的关系,因此会导 高的准确性,但需要更高的计算能力和时间复杂性. 致较高的抽取错误率;而复杂的统计模型为了获得 基于模式匹配的系统比基于自然语言处理的系 准确的模型参数需要大量的训练集,在实际应用中 统要简单得多,它们根据预先定义好的模式和匹配 通常是难以得到的, 规则将标注好词性的序列与结构信息进行匹配.人 以上3种蛋白质(基因)交互关系抽取的方法 们开发了许多系统,用于自动模式获取和关系抽取. 都有各自的优缺点,实际上许多系统都采用混合的 其中大部分需要特殊的训练资源,比如标注了领域 方法以获得更好的性能 特定标签的文本.Oo等人提出了一个基于模式的 当前研究存在的一个问题是:大部分抽取系统 系统,该系统使用简单词的人工编码规则和标注了 采用的是自己制作的语料,缺乏统一的性能评价标 词性的模式从生物医学文献的摘要中抽取特殊种类 准.2001年B laschke和Valencia推荐使用DP数据 的蛋白质交互关系[6],得到了较高的召回率和精确库,并将其作为评测生物关系抽取系统的标准 率,分别为825%和943%.Huang等人提出了一 库I.DP是1999年由UCLA的D.Elsenberg实验 种从语料中自动获取模式的方法和一个基于动态规 室建立,它的目标是成为一个蛋白质蛋白质相互 划的匹配算法),精确率和召回率大约都在80%. 作用的数据库,把关于蛋白质相互作用的多样的实 David等人开发了一个名为B ioRA T1的系统,该系 验信息整合成一个容易进行查询的专一数据库 统使用了一个信息抽取引擎和一个模板设计工具来 DP数据库中的每条记录都定义了一对相互作用的 进行关系抽取,得到的召回率为20.31%,精确率为 蛋白质,并且提供了描述这些交互作用的文档.到 5507%.基于模式匹配系统性能依赖于模式的数量 2004年,DP数据库已有超过18500个蛋白质交互 和质量,难以处理较复杂的句子,而且无法抽取跨句 关系[).研究人员可以首先使用自己的系统进行关 子的实体关系 系抽取,然后将抽取结果与DP数据库中的记录进 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
层分析方法从生物医学文献的摘要中抽取蛋白质抑 制关系 [ 1 ] ,但只得到了 57%的召回率. Leroy等人提 出了一个浅层分析器 ,用于从文献中抽取名词短语 间的类属关系 ,精确率达到了 90% [ 2 ] . 与浅层分析 相比 ,深层分析方法也有很多人使用过. Park等人 提出了一个基于可组合的分类语法的深层分析器 , 该分析器首先定位目标动词 ,然后使用双向增量分 析技术扫描该动词的左部和右部以获得语法成 分 [ 3 ] . 该系统的召回率和精确率分别是 48%和 80%. 另一个深层分析器利用词典分析程序和上下 文无关文法抽取蛋白质和基因的交互关系 ,得到的 召回率为 63. 9% ,精确率为 70. 2% [ 4 ] . 另外 , Davul2 cu等人提出了一个基于链接语法分析器 ( link gram2 mar)的关系抽取系统 IntEx [ 5 ] ,使用链接语法分析器 将复杂句划分为简单句 ,又将简单句划分为更具体 的句子成分 ,然后从这些成分中选择满足条件的部 分进行关系抽取 ,他们的召回率是 26. 94% ,精确率 是 65. 66%. 浅层分析系统只限于把句子解析成较 小的单元 ,而不揭示单元之间的句法关系. 对于句子 中简单的实体关系能获得较好的性能 ,但对于复杂 句子中多个实体间的关系抽取则性能较差. 深层分 析系统着眼于充分分析整个句子的语法特点 ,从而 最大限度地揭示句子所反映的主题内容 ,能获得更 高的准确性 ,但需要更高的计算能力和时间复杂性. 基于模式匹配的系统比基于自然语言处理的系 统要简单得多 ,它们根据预先定义好的模式和匹配 规则将标注好词性的序列与结构信息进行匹配. 人 们开发了许多系统 ,用于自动模式获取和关系抽取. 其中大部分需要特殊的训练资源 ,比如标注了领域 特定标签的文本. Ono等人提出了一个基于模式的 系统 ,该系统使用简单词的人工编码规则和标注了 词性的模式从生物医学文献的摘要中抽取特殊种类 的蛋白质交互关系 [ 6 ] ,得到了较高的召回率和精确 率 ,分别为 82. 5%和 94. 3%. Huang等人提出了一 种从语料中自动获取模式的方法和一个基于动态规 划的匹配算法 [ 7 ] ,精确率和召回率大约都在 80%. David等人开发了一个名为 BioRAT [ 8 ]的系统 ,该系 统使用了一个信息抽取引擎和一个模板设计工具来 进行关系抽取 ,得到的召回率为 20. 31% ,精确率为 55. 07%. 基于模式匹配系统性能依赖于模式的数量 和质量 ,难以处理较复杂的句子 ,而且无法抽取跨句 子的实体关系. 基于机器学习和统计的方法较前 2种方法的优 势在于不需要付出繁重的努力去定义规则或语法 , 它自动提取实体交互模式而不需要人的参与. 目前 已经出现了许多基于蛋白质称名共现的机器学习与 统计的方法 [ 9213 ] . 其中根据挖掘单位 (如摘要、句子等 )又分为不 同的类型. Andrade等 [ 9 ]和 Marcottle等 [ 13 ]的方法在 摘要集合中提取蛋白质交互关系. 前者将一组相关 文档与一组随机选取的文档对比来提取领域知识 (如基因功能和交互 ) ;后者检索到可能包含蛋白质 交互关系的文档 ; Craven等 [ 10 ]最早开发了基于机器 学习的句子级蛋白质交互关系抽取系统. 使用贝叶 斯分类器 ,对于一个包含 2个实体名的句子 ,返回它 们存在交互关系的概率. 后续的研究者使用了包括 隐马尔科夫模型、支撑向量机的机器学习方法来判 别包含蛋白质交互关系的句子 ;还有的方法研究句 子中一对实体存在交互关系的概率. Stap ley等 [ 11 ]使 用固定的基因名列表 ,借助共现方法在 Medline记 录中构建每个基因对的相似性矩阵来检测它们的关 系. Jenssen等 [ 12 ]采用类似的方法发现了 DNA array 实验中的人类基因聚类间的关系. 简单的统计方法 (如基于蛋白质名称共现的方 法 )不能准确地描述蛋白质之间的关系 ,因此会导 致较高的抽取错误率 ;而复杂的统计模型为了获得 准确的模型参数需要大量的训练集 ,在实际应用中 通常是难以得到的. 以上 3种蛋白质 (基因 )交互关系抽取的方法 都有各自的优缺点 ,实际上许多系统都采用混合的 方法以获得更好的性能. 当前研究存在的一个问题是 :大部分抽取系统 采用的是自己制作的语料 ,缺乏统一的性能评价标 准. 2001年 Blaschke和 Valencia推荐使用 D IP数据 库 ,并将其作为评测生物关系抽取系统的标准 库 [ 14 ] . D IP是 1999年由 UCLA的 D. Elsenberg实验 室建立 ,它的目标是成为一个蛋白质 —蛋白质相互 作用的数据库 ,把关于蛋白质相互作用的多样的实 验信息整合成一个容易进行查询的专一数据库. D IP数据库中的每条记录都定义了一对相互作用的 蛋白质 ,并且提供了描述这些交互作用的文档. 到 2004年 ,D IP数据库已有超过 18 500个蛋白质交互 关系 [ 15 ] . 研究人员可以首先使用自己的系统进行关 系抽取 ,然后将抽取结果与 D IP数据库中的记录进 · 263 · 智 能 系 统 学 报 第 3卷
第4期 杨志豪,等:基于支撑向量机的生物医学文献蛋白质关系抽取 ·363 行比较.这样做可以使评测结果更加令人信服.2004 系.B ioP ISVMExtractor系统的框架如图1所示 年David等人使用DP数据库的一个子集(392条 DP测试语料 IEPA训练语料 记录)进行了蛋白质相互作用关系抽取测试.他们 的B ioRAT系统得到的召回率为20.31%,精确率为 55.07%.2005年Davulcu等人开发的nEx系统,使 指 实 特 用链接语法分析器在同一子集上得到2694%的召 代 体 征 SVM模型 回率和6566%的精确率 消 识 提 笔者曾提出了一个基于链接语法分析的蛋白质 解 别 取 基因)交互作用关系的抽取方法61.该方法使用 条件随机域(conditional random fields,.CRF)与上下 分类结果 文线索结合的生物实体识别方法,再通过链接语法 分析划分语法成分,从语法成分及其合理组合中抽 图1 B ioP ISVMExtracpri系统框架 Fig 1 System framework of B oP ISVMExtractor 取蛋白质基因)交互作用关系.使用与BRAT和 tEx系统相同的DP语料进行测试,实验结果表明 21指代消解 该方法的召回率以及综合分类率F指标都高于B0 指代消解是自然语言处理的重要内容,在信息抽 RAT和nEx系统.类似链接语法分析器的深层分 取系统中,指代消解是一个关键问题]生物医学文 析系统着眼于充分分析整个句子的语法特点,从而 本中的基因交互关系经常通过与实体相关的代词来 最大限度地揭示句子所反映的主题内容,能获得更 表述.因此,信息抽取方法必须考虑代词的消解 高的准确性,但需要较高的计算能力和时间复杂性, 所设计系统的指代消解部分目前处理的是第三 而且召回率较低.基于机器学习和统计的方法优势 人称代词和反身代词,因为第一人称和第二人称代 在于不需要付出繁重的努力去定义规则或语法,它 词经常都被用于指代文本的作者,与关系抽取中所 自动提取实体交互模式而不需要人的参与,通常可 涉及到的实体几乎没有关系.指代消解部分首先使 以获得较高的召回率,而在大多数情况下,这是生物 用GEN Taggeri进行词性标注,将文本中的单 医学研究者更倾向于得到的 数名词、名词短语和复数名词、名词短语标注出来, 因此,本文提出了一种基于支持向量机(support 然后使用与该代词最为接近的并且单复数相吻合的 vector machines,SM)的蛋白质交互作用关系抽取 名词或名词短语来消解该代词 方法.该方法通过适当特征的选取(包括词项特征、 22实体识别 关键词特征、实体距离特征、链接特征以及链接语法 实体识别的目的是在生物医学文本中对专业词 分析特征),利用SM分类器判断句子中每对蛋白 汇加以确认和分类,这类实体包括基因、蛋白质、 质基因)是否存在相互作用关系.实验证明这种方 DNA和RNA等,进行蛋白质相互作用关系的抽取, 法可以获得比基于自然语言处理和基于模板方法更 第1步要做的就是进行生物实体识别.笔者曾提出 高的召回率 过的基于条件随机域(CRF)与上下文线索结合的生 物实体识别方法在NLPBA2004数据集上,可以达 2方法描述 到75.04%的F值,在BioCreative2004的测试集上, 使用上述方法,实现了一个蛋白质相互作用关 可以达到8371%的F值2o1.在B ioP ISVMExtracor 系的抽取系统B ioP ISVMExtrac bor该系统使用EPA 系统中,也使用了该方法 语料作为训练语料1,使用DP语料作为测试语 23SM模型 料.系统首先对DP语料进行指代消解,然后进行实 近年来,支持向量机(SM)的研究在广泛开展 体识别,之后对语料句子中的每个蛋白质对进行特 支持向量机是V.V ipnik等根据统计学习理论(statis 征提取,并使用SM分类器进行二值分类,即分为 tical leaming theory,.LT)提出的一种新的机器学习 存在相互作用关系的蛋白质对和不存在相互作用关 方法,该方法能较好地解决小样本、非线性、高维数和 系的蛋白质对,从而抽取出蛋白质间的相互作用关 局部极小点等实际问题22),己成为机器学习界的研 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
行比较. 这样做可以使评测结果更加令人信服. 2004 年 David等人使用 D IP数据库的一个子集 ( 392条 记录 )进行了蛋白质相互作用关系抽取测试. 他们 的 BioRAT系统得到的召回率为 20. 31% ,精确率为 55. 07%. 2005年 Davulcu等人开发的 IntEx系统 ,使 用链接语法分析器在同一子集上得到 26. 94%的召 回率和 65. 66%的精确率. 笔者曾提出了一个基于链接语法分析的蛋白质 (基因 )交互作用关系的抽取方法 [ 16 ] . 该方法使用 条件随机域 ( conditional random fields, CRF)与上下 文线索结合的生物实体识别方法 ,再通过链接语法 分析划分语法成分 ,从语法成分及其合理组合中抽 取蛋白质 (基因 )交互作用关系. 使用与 B ioRAT和 IntEx系统相同的 D IP语料进行测试 ,实验结果表明 该方法的召回率以及综合分类率 F指标都高于 Bio2 RAT和 IntEx系统. 类似链接语法分析器的深层分 析系统着眼于充分分析整个句子的语法特点 ,从而 最大限度地揭示句子所反映的主题内容 ,能获得更 高的准确性 ,但需要较高的计算能力和时间复杂性 , 而且召回率较低. 基于机器学习和统计的方法优势 在于不需要付出繁重的努力去定义规则或语法 ,它 自动提取实体交互模式而不需要人的参与 ,通常可 以获得较高的召回率 ,而在大多数情况下 ,这是生物 医学研究者更倾向于得到的. 因此 ,本文提出了一种基于支持向量机 ( support vector machines, SVM)的蛋白质交互作用关系抽取 方法. 该方法通过适当特征的选取 (包括词项特征、 关键词特征、实体距离特征、链接特征以及链接语法 分析特征 ) ,利用 SVM分类器判断句子中每对蛋白 质 (基因 )是否存在相互作用关系. 实验证明这种方 法可以获得比基于自然语言处理和基于模板方法更 高的召回率. 2 方法描述 使用上述方法 ,实现了一个蛋白质相互作用关 系的抽取系统 B ioPISVMExtractor. 该系统使用 IEPA 语料作为训练语料 [ 17 ] ,使用 D IP语料作为测试语 料. 系统首先对 D IP语料进行指代消解 ,然后进行实 体识别 ,之后对语料句子中的每个蛋白质对进行特 征提取 ,并使用 SVM 分类器进行二值分类 ,即分为 存在相互作用关系的蛋白质对和不存在相互作用关 系的蛋白质对 ,从而抽取出蛋白质间的相互作用关 系. BioPISVMExtractor系统的框架如图 1所示. 图 1 BioP ISVMExtractor系统框架 Fig. 1 System framework of BioP ISVMExtractor 2. 1 指代消解 指代消解是自然语言处理的重要内容 ,在信息抽 取系统中 ,指代消解是一个关键问题 [ 18 ] . 生物医学文 本中的基因交互关系经常通过与实体相关的代词来 表述.因此 ,信息抽取方法必须考虑代词的消解. 所设计系统的指代消解部分目前处理的是第三 人称代词和反身代词 ,因为第一人称和第二人称代 词经常都被用于指代文本的作者 ,与关系抽取中所 涉及到的实体几乎没有关系. 指代消解部分首先使 用 GEN IA Tagger进行词性标注 [ 19 ] ,将文本中的单 数名词、名词短语和复数名词、名词短语标注出来 , 然后使用与该代词最为接近的并且单复数相吻合的 名词或名词短语来消解该代词. 2. 2 实体识别 实体识别的目的是在生物医学文本中对专业词 汇加以确认和分类 ,这类实体包括基因、蛋白质、 DNA和 RNA等. 进行蛋白质相互作用关系的抽取 , 第 1步要做的就是进行生物实体识别. 笔者曾提出 过的基于条件随机域 (CRF)与上下文线索结合的生 物实体识别方法在 JNLPBA2004数据集上 ,可以达 到 75. 04%的 F值 ,在 BioCreative 2004的测试集上 , 可以达到 83. 71%的 F值 [ 20 ] . 在 BioPISVMExtractor 系统中 ,也使用了该方法. 2. 3 SVM模型 近年来 ,支持向量机 (SVM)的研究在广泛开展. 支持向量机是 V. Vipnik等根据统计学习理论 ( statis2 tical learning theory, SLT)提出的一种新的机器学习 方法 ,该方法能较好地解决小样本、非线性、高维数和 局部极小点等实际问题 [ 21223 ] ,已成为机器学习界的研 第 4期 杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 363 ·
·364· 智能系统学报 第3卷 究热点之一,并成功地应用于分类、函数逼近和时间 错分样本惩罚的程度.广义最优分类面的对偶问题 序列预测等方面242] 与线性可分情况下几乎完全相同.只是条件(3)变 SM是从线性可分情况下的最优分类面发展 成了条件7): 而来的,所谓最优分类面就是要求分类面不但能将 0≤a,≤C,i=1,…n (7 两类正确分开,而且使分类间隔最大.分类线性方程 对非线性问题,可以通过非线性变换转化为某 为x·w+b=0,其中,w为分类面的法线,b决定 个高维空间中的线性问题,在变换空间上求最优分 相对于原点的位置.可以对它们进行归一化,使得对 类面.这种变换可能比较复杂,因此这种思路在一般 线性可分的样本集(x,片),i=,1,,nx∈R, 情况下不易实现.但是注意到,在上面的对偶问题 片∈{+1,·1}满足: 中,不论是式(4)还是表达的寻优函数式(5)都只涉 y[w·x)+b]-1≥0,i=1,n1) 及训练样本之间的内积运算(x·x,在高维空间 此时分类间隔等于2/‖wⅡ,使间隔最大等价于使 实际上只需进行内积运算,而这种内积运算是可以 川wI2最小.满足式(1)且使川w2最小的分类 用原空间中的函数实现的,甚至没有必要知道变换 2 的形式.根据泛函的有关理论,只要一种核函数K 面就是最优分类面 (x,x满足Mercer条件,它就对应某一变换空间中 利用Lagrange优化方法可以把上述最优分类 的内积.因此,在求解最优分类面中采用适当的内积 面问题转化为其对偶问题28」,即在约束条件: 函数K(x,x)就可以实现某一非线性变化后的线 性分类,而计算复杂度却没有增加,此时目标函数变 a,=0 2 为 和 a,≥0,i=1,…n (3) 0a)= 下对a,求解: 而相应的分类函数也变为如式(9)所示: Qa)=】 4 fW=gn(ayK(.W+6. (9 的最大值.式(4)中,a,为与每个样本对应的La 24特征选取 grange乘子.这是一个不等式约束下二次函数寻优 使用SM分类器进行蛋白质相互作用关系抽 的问题,存在惟一解.容易证明,解中将只有一部分 取的核心工作是特征项的选取.选取特征项的好坏 通常是少部分)α,不为零,对应的样本就是支持向 将直接影响到分类的精度.为了使蛋白质相互作用 量.解上述问题后得到的最优分类函数为 关系抽取系统达到较高的精度,采用了多种特征,包 f(x)=sgn{(w·x)+b}= 括特征词项特征、关键词特征、实体距离特征、链接 特征以及链接语法分析特征 g叫2ay%·为+6 (5 241词项特征 式中的求和实际上只对支持向量进行.a;是非 在本文系统中使用了3种词项特征.它们分别 零loagrang乘子,b是最优分类阈值,可以用任意一 是包含在2个蛋白质名中的词项、2个蛋白质名之 个支持向量满足式(1)中的等号)求得,或通过2 间的词项以及2个蛋白质名周围的词项. 类中任意一对支持向量取中值求得 2411包含在2个蛋白质名中的词项 在线性不可分的情况下,可以在式1)条件中 顾名思义,这些特征包括出现在2个蛋白质名 增加一个松弛项ε,≥0,成为 中的所有词.因为一个蛋白质名可以是一个词,也可 y[(w·x)+b1-1+e,≥0, 以是多个词,所以相应的特征也是包含一个词或者 i=1.…,n 6) 多个词.例如句子A:“We show here that recombinant 将目标改为求we)=子Iw2+C(∑e,)最 bovne pr ion proten strongly interacts with the cata- 2 lytic alpha/apha'subunits of prote n kina se" 小,即折衷考虑最少错分样本和最大分类间隔,得到 句子中用黑体标注的词便是蛋白质名.这样,在 广义最优分类面.其中,C>0是一个常数,它控制对 特征向量中它们的特征值就分别被表示为pl_bo 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
究热点之一 ,并成功地应用于分类、函数逼近和时间 序列预测等方面 [ 24226 ] . SVM是从线性可分情况下的最优分类面发展 而来的 ,所谓最优分类面就是要求分类面不但能将 两类正确分开 ,而且使分类间隔最大. 分类线性方程 为 x·w + b = 0,其中 , w 为分类面的法线 , b决定 相对于原点的位置. 可以对它们进行归一化 ,使得对 线性可分的样本集 ( xi , yi ) , i = , 1, …, n, xi ∈R d , yi ∈{ + 1, - 1}满足 : yi [ (w·xi ) + b ] - 1 ≥ 0, i = 1, …, n. (1) 此时分类间隔等于 2 /‖w ‖,使间隔最大等价于使 ‖w‖ 2 最小. 满足式 (1)且使 1 2 ‖w ‖ 2 最小的分类 面就是最优分类面. 利用 Lagrange优化方法可以把上述最优分类 面问题转化为其对偶问题 [ 28 ] ,即在约束条件 : ∑ n i =1 yiαi = 0 (2) 和 αi ≥ 0, i = 1, …, n (3) 下对 αi 求解 : Q (α) = ∑ n i =1 αi - 1 2 ∑ n i, j=1 αiαj yi yj ( xj·xj ) (4) 的最大值. 式 ( 4 )中 ,αi 为与每个样本对应的 La2 grange乘子. 这是一个不等式约束下二次函数寻优 的问题 ,存在惟一解. 容易证明 ,解中将只有一部分 (通常是少部分 )αi 不为零 ,对应的样本就是支持向 量. 解上述问题后得到的最优分类函数为 f ( x) = sgn{ (w·x) + b} = sgn{ ∑ n i =1 α3 i yi ( xi ·x) + b 3 }. (5) 式中的求和实际上只对支持向量进行.α3 i 是非 零 loagrang乘子 , b 3 是最优分类阈值 ,可以用任意一 个支持向量 (满足式 ( 1)中的等号 )求得 ,或通过 2 类中任意一对支持向量取中值求得. 在线性不可分的情况下 ,可以在式 ( 1)条件中 增加一个松弛项 εi ≥0,成为 yi [ (w·xi ) + b ] - 1 +εi ≥ 0, i = 1, …, n, (6) 将目标改为求 (w,ε) = 1 2 ‖w‖ 2 + C ( ∑ n i =1 εi ) 最 小 ,即折衷考虑最少错分样本和最大分类间隔 ,得到 广义最优分类面. 其中 , C > 0是一个常数 ,它控制对 错分样本惩罚的程度. 广义最优分类面的对偶问题 与线性可分情况下几乎完全相同. 只是条件 ( 3)变 成了条件 (7) : 0 ≤αi ≤ C, i = 1, …, n. (7) 对非线性问题 ,可以通过非线性变换转化为某 个高维空间中的线性问题 ,在变换空间上求最优分 类面. 这种变换可能比较复杂 ,因此这种思路在一般 情况下不易实现. 但是注意到 , 在上面的对偶问题 中 ,不论是式 (4)还是表达的寻优函数式 ( 5)都只涉 及训练样本之间的内积运算 ( xi ·xj ) ,在高维空间 实际上只需进行内积运算 ,而这种内积运算是可以 用原空间中的函数实现的 ,甚至没有必要知道变换 的形式. 根据泛函的有关理论 ,只要一种核函数 K ( xi , xj )满足 Mercer条件 ,它就对应某一变换空间中 的内积. 因此 ,在求解最优分类面中采用适当的内积 函数 K ( xi , xj )就可以实现某一非线性变化后的线 性分类 ,而计算复杂度却没有增加 ,此时目标函数变 为 Q (α) = ∑ n i =1 αi - 1 2 ∑ n i, j =1 αiαj yi yjK ( xi , xj ). (8) 而相应的分类函数也变为如式 (9)所示 : f ( x) = sgn ( ∑ n i =1 α3 i yi K ( xi , x) + b 3 ). (9) 2. 4 特征选取 使用 SVM分类器进行蛋白质相互作用关系抽 取的核心工作是特征项的选取. 选取特征项的好坏 将直接影响到分类的精度. 为了使蛋白质相互作用 关系抽取系统达到较高的精度 ,采用了多种特征 ,包 括特征词项特征、关键词特征、实体距离特征、链接 特征以及链接语法分析特征. 2. 4. 1 词项特征 在本文系统中使用了 3种词项特征. 它们分别 是包含在 2个蛋白质名中的词项、2个蛋白质名之 间的词项以及 2个蛋白质名周围的词项. 2. 4. 1. 1 包含在 2个蛋白质名中的词项 顾名思义 ,这些特征包括出现在 2个蛋白质名 中的所有词. 因为一个蛋白质名可以是一个词 ,也可 以是多个词 ,所以相应的特征也是包含一个词或者 多个词. 例如句子 A:“We show here that recombinant bov ine pr ion prote in strongly interacts with the cata2 lytic alpha / alpha’subunits of prote in kina se”. 句子中用黑体标注的词便是蛋白质名. 这样 ,在 特征向量中它们的特征值就分别被表示为 p1 _bo2 · 463 · 智 能 系 统 学 报 第 3卷
第4期 杨志豪,等:基于支撑向量机的生物医学文献蛋白质关系抽取 ·365· vine、pl_prion、pl_protein以及p2_prote in、p2_kr 系统因此引入实体距离特征.如果两实体间距离小 nase 于等于3个单词,则相应的特征值就被表示为 24122个蛋白质名之间的词项 “D ISLessThree”,如果两实体间距离大于3个单词 这些特征包括位于2个蛋白质名之间的所有单 而小于等于6个单词,则相应的特征值就被表示为 词.如果2个蛋白质名之间没有单词出现,那么这个 “D ISBeteenThreeSix”,如果两实体间距离大于6 特征就被设置为空(NULL). 个单词而小于等于9个单词,则相应的特征值就被 对于上面例句A中的句子,位于2个蛋白质名 表示为“D IBeteenSixN ine”,如果两实体间距离大 之间的单词串是“strongly interacts wit讪the catalytic 于9个单词而小于等于12个单词,则相应的特征值 apha/apha'subunits of'”,那么在特征向量中它们的 就被表示为“D IBetweenN ine Twelve”,两实体间距 特征值就被表示为b_strongly,b_interacts、b_wih、b 离大于12个单词,则相应的特征值就被表示为 the,b_catalytic,b_alpha/alpha b subunits b of “D ISMore Twelve” 24132个蛋白质名周围的词项 244链接特征 这些特征由2部分组成:一部分是第1个蛋白 系统中对链接特征的提取用到的是链接语法分 质名左边的n个词项:另1部分是第2个蛋白质名 析器.链接语法(link grammar)是D.Sleator和D, 右边的n个词项.这里,n是需要考虑的蛋白质名周 Temperley21于1991年提出的.它便于语言工程的 围的词项个数,在本文系统中n值被设为3与2个 实现,是计算语言学中引人注目的一种新的语法理 蛋白质名之间的词项特征相似,如果在第1个蛋白论.一部链接语法就是一个单词的集合,其中每个单 质名左边没有词项,那么这个特征就被设置为空词后面记录着各自的链接要求.这些链接要求可以 NULL:同理,如果在第2个蛋白质名右边没有词 通过一系列链接子表达式指定.一个由单词组成的 项出现,那么这个特征也被设置为空NULL).这里 串,如果在单词之间存在满足下列条件的链的话 不考虑这些词出现的顺序, (或者说能够在单词之间画出一些链,并且这些链 对于上面的例句A.2个蛋白质名周围的词项 满足下面的条件),就说这个单词串是链接语法所 包括:第I个蛋白质名左边的3个词项“here that re- 定义的语言中的句子.首先这些链满足了其中所有 combinant'”:第2个蛋白质名右边的3个词项“” 单词的链接要求,其次满足下面4条元规则:1)平 那么在特征向量中它们的特征值就分别被表示为1 面性,这些链之间互相不交叉;2)连通性,这些链足 here、1 that、1_recombine以及t 以把所有的单词链接在一起;3)顺序性,公式中较 242交互词特征 左边的链接子必须和距离单词较近的单词链接,反 这里所说的交互词,指的是表示2个蛋白质名之 之,公式中较右边的链接子必须和距离单词较远的 间交互作用关系的交互动词(interactor),如例句A 单词链接;4)排他性,一对单词之间同时不能有2 中的“interact'就是表明句中2个蛋白质间关系的交 条链链接】 互词.构造的关互词表中包含了大约500个交互词. 简单的链接表达式由链接子、二元操作符&和 在本文系统中,如果有交互词位于2个蛋白质 or以及圆括号组成.每个链接子由名字和后缀2部 名之间或者位于2个蛋白质名周围,那么这个交互 分组成.后缀有2个,分别是+和-,+和-表示链 词就被加入到交互词特征中.如果句中出现多个包 接的方向,+表示向右链接,-表示向左链接.单词 含在交互词表中的关交互词,那么系统会选取句中 串中某个单词如果有一个向右的链接子,例如X+, 的第1个出现的交互词.如果句中没有关键词出现, 而另一个单词有一个向左的链接子X·,那么这2 那么这个特征就被设置为空(NULL). 个链接子就相互匹配,这两个单词之间就可以画一 对于例句A中的句子,查找交互词表,找到的 条X链.同时可以说,链接子X+或X-得到了满足 关键词为“interacts'”,那么在特征向量中它的特征 或说链接满足了链接子X+或X-,在链接子被满 值就被表示为kinteracts 足的基础上,可以定义:1)公式X&Y要被满足,则 243实体距离特征 链接必须同时满足链接子X和Y,2)公式XorY要 距离较近的实体存在交互关系的可能性较大, 被满足,则链接必须满足链接子X和Y中的一个 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
vine、p1_p rion、p1 _p rotein以及 p2 _p rotein、p2 _ki2 nase. 2. 4. 1. 2 2个蛋白质名之间的词项 这些特征包括位于 2个蛋白质名之间的所有单 词. 如果 2个蛋白质名之间没有单词出现 ,那么这个 特征就被设置为空 (NULL). 对于上面例句 A中的句子 ,位于 2个蛋白质名 之间的单词串是“strongly interacts with the catalytic alpha / alpha’subunits of”,那么在特征向量中它们的 特征值就被表示为 b_ strongly、b_ interacts、b_with、b _the、b_catalytic、b_alpha / alpha、’ b_subunits和 b_of. 2. 4. 1. 3 2个蛋白质名周围的词项 这些特征由 2部分组成 :一部分是第 1个蛋白 质名左边的 n个词项;另 1部分是第 2个蛋白质名 右边的 n个词项. 这里 , n是需要考虑的蛋白质名周 围的词项个数 ,在本文系统中 n值被设为 3. 与 2个 蛋白质名之间的词项特征相似 ,如果在第 1个蛋白 质名左边没有词项 , 那么这个特征就被设置为空 (NULL) ;同理 ,如果在第 2个蛋白质名右边没有词 项出现 ,那么这个特征也被设置为空 (NULL). 这里 不考虑这些词出现的顺序. 对于上面的例句 A, 2个蛋白质名周围的词项 包括 :第 1个蛋白质名左边的 3个词项“here that re2 combinant”;第 2个蛋白质名右边的 3个词项“. ”. 那么在特征向量中它们的特征值就分别被表示为 l_ here、l_that、l_recombine以及 r_. 2. 4. 2 交互词特征 这里所说的交互词,指的是表示 2个蛋白质名之 间交互作用关系的交互动词 ( interactor) ,如例句 A 中的“interact”就是表明句中 2个蛋白质间关系的交 互词.构造的关互词表中包含了大约 500个交互词. 在本文系统中 ,如果有交互词位于 2个蛋白质 名之间或者位于 2个蛋白质名周围 ,那么这个交互 词就被加入到交互词特征中. 如果句中出现多个包 含在交互词表中的关交互词 ,那么系统会选取句中 的第 1个出现的交互词. 如果句中没有关键词出现 , 那么这个特征就被设置为空 (NULL). 对于例句 A 中的句子 , 查找交互词表 , 找到的 关键词为“interacts”, 那么在特征向量中它的特征 值就被表示为 k_interacts. 2. 4. 3 实体距离特征 距离较近的实体存在交互关系的可能性较大 , 系统因此引入实体距离特征. 如果两实体间距离小 于等于 3 个单词 , 则相应的特征值就被表示为 “D ISLessThree”; 如果两实体间距离大于 3个单词 而小于等于 6个单词 ,则相应的特征值就被表示为 “D ISBetweenThreeSix”; 如果两实体间距离大于 6 个单词而小于等于 9个单词 ,则相应的特征值就被 表示为“D ISBetweenSixN ine”; 如果两实体间距离大 于 9个单词而小于等于 12个单词 ,则相应的特征值 就被表示为“D ISBetweenN ineTwelve”; 两实体间距 离大于 12 个单词 ,则相应的特征值就被表示为 “D ISMoreTwelve”. 2. 4. 4 链接特征 系统中对链接特征的提取用到的是链接语法分 析器. 链接语法 ( link grammar)是 D. Sleator和 D. Temperley [ 28 ]于 1991年提出的. 它便于语言工程的 实现 ,是计算语言学中引人注目的一种新的语法理 论. 一部链接语法就是一个单词的集合 ,其中每个单 词后面记录着各自的链接要求. 这些链接要求可以 通过一系列链接子表达式指定. 一个由单词组成的 串 ,如果在单词之间存在满足下列条件的链的话 (或者说能够在单词之间画出一些链 ,并且这些链 满足下面的条件 ) ,就说这个单词串是链接语法所 定义的语言中的句子. 首先这些链满足了其中所有 单词的链接要求 ,其次满足下面 4条元规则 : 1)平 面性 ,这些链之间互相不交叉 ; 2)连通性 ,这些链足 以把所有的单词链接在一起 ; 3)顺序性 ,公式中较 左边的链接子必须和距离单词较近的单词链接 ;反 之 ,公式中较右边的链接子必须和距离单词较远的 单词链接 ; 4)排他性 ,一对单词之间同时不能有 2 条链链接. 简单的链接表达式由链接子、二元操作符 &和 or以及圆括号组成. 每个链接子由名字和后缀 2部 分组成. 后缀有 2个 ,分别是 +和 - . +和 - 表示链 接的方向 , +表示向右链接 , - 表示向左链接. 单词 串中某个单词如果有一个向右的链接子 ,例如 X + , 而另一个单词有一个向左的链接子 X - ,那么这 2 个链接子就相互匹配 ,这两个单词之间就可以画一 条 X链. 同时可以说 ,链接子 X +或 X - 得到了满足 或说链接满足了链接子 X +或 X - . 在链接子被满 足的基础上 ,可以定义 : 1)公式 X & Y要被满足 ,则 链接必须同时满足链接子 X和 Y; 2)公式 X or Y要 被满足 ,则链接必须满足链接子 X和 Y中的一个. 第 4期 杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 563 ·
·366· 智能系统学报 第3卷 图2显示了链接语法分析器应用于例句“Bovine YEs”,否则,就被表示成“L ink NO” PR DN protein as a modulator of protein KNASE CK2 对于例句A中的句子,经过链接语法分析器分 is described”上的效果 析后得到的链接路径为:“bovine a~>A->protein n 在识别出语料中的每个句子中包含的命名实体 ->Ss->interacts v->MVp->with->Jp-> 后,使用链接语法分析器提取句子中2个命名实体 subunits[!]n->Mp -of->Jp ->kinase[?] 之间存在链接路径.如果相应的链接路径能够被提 n<-AN<-protein n”那么相应的特征就被表示 取出来,那么相应的特征值就被表示为“Lk 为“Link YES” Xp_ Ss Wd- -GN- +--AN--+---Mp--++---Dsu--+--Mp---+ LFFT-WALL bovine.a PRION protein.n as.p a modulator[?].n of protein.n KINASE Ck2 is.v described.v 图2一个生物医学文献中的句子的链接语法结果 Fig 2 Results of a sentence fiom bimedical literature after link grammar parsing 245链接语法分析特征 traction perfomance assessment)语料.该语料是由美 通过链接语法分析划分语法成分抽取蛋白质交 国爱荷华州立大学的JDNG和D.BERLEANT等 互作用关系161,能获得较高的准确率(5541%).因人构建的u81.它包含303篇Medline摘要,这些摘要 此将该方法识别的结果作为特征引入,可能会提高是使用10个查询串对PuMεd进行查询得到的结 SM分类器的准确率.如果句子中的一对蛋白质用 果,其中每个查询串都包含由“AND连接词连接的 链接语法分析方法被提取出来,那么相应的特征值 2个生物医学名词,它们是生物医学研究者根据文 就被表示为“LinkExtracted_YES”,否则,就被表示成 本挖掘系统用户的兴趣来制定的.这些由查询串查 “L inkExtracted NO” 询到的摘要包含336个正例(蛋白质与蛋白质之间 对于例句A“We show here that recombinant bo- 存在相互作用关系)和308个负例(蛋白质与蛋白 vine prion protein strongly interacts with the catalytic 质之间不存在相互作用关系).在EPA语料中所有 apha/apha'subun its of protein kinase”,抽取的特征 的蛋白质名都已经被正确地标注,以使语料更适合 如表1所示 关系抽取的使用.系统所采用的测试语料来源于交 表1例句A的特征选取 互蛋白质数据库(DP),共包含392条正确关系记 Table 1 Fea ture choice of exam ple sen tence A 录.EPA语料和DP语料都是来自于包含蛋白质与 特征名 特征值 蛋白质交互信息的MEDL NE摘要,属于同质的数 第1个蛋白质名 pl bovine,pl prion,pl_protein 据,适合分别作为训练语料和测试语料 第2个蛋白质名 p2 protein,p2 kinase 3.2实验结果 2个蛋白质名之间的 b strongly,b interacts,b with 由于未得到这229篇PubMed文献的正文,本 词项 b the 文只使用它们的摘要进行了关系抽取测试,然后对 左边的词项 I here,I that,I recombine 比DP392条记录对结果进行了人工评测.表2列 右边的词项 实体距离特征 D BeweenSixN ine 出了引入不同特征对性能的影响.可以看到只使用 交互词特征 k interacts 词项特征获得的召回率和准确率都比较低,但随着 链接特征 Link_YES 更多特征的引进,召回率和准确率都得到提高.在链 链接语法分析特征 LinkExtracted YES 接语法分析特征引入后,召回率虽然略有下降(从 3实验与讨论 71.2%降到704%),但准确率提高较多(从37.8% 提高到43.6%),也得到了更好的综合分类率F指 31实验语料 数(从49.4%提高到53.8%) 系统所采用的训练语料是EPA(interaction ex 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
图 2显示了链接语法分析器应用于例句 “Bovine PR ION p rotein as a modulator of p rotein KINASE CK2 is described. ”上的效果. 在识别出语料中的每个句子中包含的命名实体 后 ,使用链接语法分析器提取句子中 2个命名实体 之间存在链接路径. 如果相应的链接路径能够被提 取出来 , 那么相应的特征值就被表示为“L ink _ YES”;否则 ,就被表示成“Link_NO”. 对于例句 A中的句子 ,经过链接语法分析器分 析后得到的链接路径为 :“bovine. a2>A2> p rotein. n - > Ss - > interacts. v - >MVp - >with - > Jp - > subunits[ ! ]. n - >Mp - > of - > Jp - > kinase [ ? ]. n < - AN < - p rotein. n”. 那么相应的特征就被表示 为“Link_YES”. 图 2 一个生物医学文献中的句子的链接语法结果 Fig. 2 Results of a sentence from biomedical literature after link grammar parsing 2. 4. 5 链接语法分析特征 通过链接语法分析划分语法成分抽取蛋白质交 互作用关系 [ 16 ] ,能获得较高的准确率 (55. 41% ). 因 此将该方法识别的结果作为特征引入 ,可能会提高 SVM分类器的准确率. 如果句子中的一对蛋白质用 链接语法分析方法被提取出来 ,那么相应的特征值 就被表示为“LinkExtracted_YES”,否则 ,就被表示成 “LinkExtracted_NO”. 对于例句 A“We show here that recombinant bo2 vine p rion p rotein strongly interacts with the catalytic alpha / alpha’ subunits of p rotein kinase”,抽取的特征 如表 1所示. 表 1 例句 A的特征选取 Table 1 Fea ture cho ice of exam ple sen tence A 特征名 特征值 第 1个蛋白质名 p1_bovine, p1_p rion, p1_p rotein 第 2个蛋白质名 p2_p rotein, p2_kinase 2个蛋白质名之间的 词项 b_strongly, b_interacts, b_with, b_the 左边的词项 l_here, l_that, l_recombine 右边的词项 r_ 实体距离特征 D ISBetweenSixN ine 交互词特征 k_interacts 链接特征 L ink_YES 链接语法分析特征 L inkExtracted_YES 3 实验与讨论 3. 1 实验语料 系统所采用的训练语料是 IEPA ( interaction ex2 traction performance assessment)语料. 该语料是由美 国爱荷华州立大学的 J. D ING和 D. BERLEANT等 人构建的 [ 18 ] . 它包含 303篇 Medline摘要 ,这些摘要 是使用 10个查询串对 PubMed进行查询得到的结 果 ,其中每个查询串都包含由“AND”连接词连接的 2个生物医学名词 ,它们是生物医学研究者根据文 本挖掘系统用户的兴趣来制定的. 这些由查询串查 询到的摘要包含 336个正例 (蛋白质与蛋白质之间 存在相互作用关系 )和 308个负例 (蛋白质与蛋白 质之间不存在相互作用关系 ). 在 IEPA语料中所有 的蛋白质名都已经被正确地标注 ,以使语料更适合 关系抽取的使用. 系统所采用的测试语料来源于交 互蛋白质数据库 (D IP) ,共包含 392条正确关系记 录. IEPA语料和 D IP语料都是来自于包含蛋白质与 蛋白质交互信息的 MEDL INE摘要 ,属于同质的数 据 ,适合分别作为训练语料和测试语料. 3. 2 实验结果 由于未得到这 229篇 PubMed文献的正文 ,本 文只使用它们的摘要进行了关系抽取测试 ,然后对 比 D IP 392条记录对结果进行了人工评测. 表 2列 出了引入不同特征对性能的影响. 可以看到只使用 词项特征获得的召回率和准确率都比较低 ,但随着 更多特征的引进 ,召回率和准确率都得到提高. 在链 接语法分析特征引入后 ,召回率虽然略有下降 (从 71. 2%降到 70. 4% ) ,但准确率提高较多 (从 37. 8% 提高到 43. 6% ) ,也得到了更好的综合分类率 F指 数 (从 49. 4%提高到 53. 8% ). · 663 · 智 能 系 统 学 报 第 3卷
第4期 杨志豪,等:基于支撑向量机的生物医学文献蛋白质关系抽取 ·367 表2引入特征对性能的影响 Table 2 Performance of usng different fea tures 特征类型 特征组合 词项 实体距 关键词 链接 链接语法 召回率/%准确率/% F值/% 特征 离特征 特征 特征 分析特征 组合1 635 23.4 342 组合2 642 285 395 组合3 707 33.2 452 组合4 712 37.8 49.4 组合5 ★ 704 436 538 注:标记“·的特征项表示被引入的特征 将结果与基于链接语法分析的B ioP IExtrac~ 系统具有明显的优势,在准确率上,B ioP ISVM Extrac- toI6)、nEx系统和B ioRAT系统的结果对比,结果 or系统低于其他3个系统 如表3和表4所示.B ioP ISVMExtractor.系统的召回 从召回率与准确率的综合分类率F指数来看, 率(704%)要明显高于B ioP IExtrac0r(39.80%)、 B ioP ISVMExtractor系统的综合分类率F达到了 htEx(2694%)和B ioRAT(2031%)系统,这表明 53.8%,高于同一测试语料上的其他系统:BioP IEx- 基于支持向量机方法能获得比语法分析方法更高的 tractor系统(4633%)、htEx系统(3820%)和 召回率.在大多数情况下,生物医学研究者更倾向于 B ioRAT系统(29.68%). 获得更高的召回率,在这一点上B ioP ISVMExtractor 表3 B ioP ISVM Extracor召回率与B ioP IExtracpr IntEx和B oRAT的比较 Table 3 Recall com parison am ong BioP SVM Extractor,BioP IExtractor,h tEx and BiRAT BioP ISVM Extracbr BioP IExtracpr IntEx BDRAT 结果 个数 百分率1% 个数 百分率/% 个数 百分率/% 个数百分率/% 召回 276 7040 156 3980 142 2694 79 2031 未召回 116 1960 236 6020 385 73.06 310 7969 总数 392 10000 392 10000 527 10000 389 10000 表4 B ioP SVMExtracor?准确率及综合分类率与BioP IExtracor、hEx和B iRAT的比较 Table 4 Prec ision com parison among BioP ISVM Extractor,BioP IExtractor,htEx and BioRAT BioP ISVM Extracbr BioP IExtracpr IntEx B DRAT 结果 个数百分率1% 个数 百分率/% 个数 百分率/% 个数 百分率/% 正确 672 4360 543 55.41 262 6566 239 5507 不正确 869 5640 437 4459 137 3434 195 4493 总数 1541 10000 980 10000 399 10000 434 10000 F值 5380 4633 3820 2968 3.3错误分析与讨论 错误的大多数,如果不考虑只包含在正文中的实体 从生物医学文本中进行蛋白质(基因)相互作 关系,B ioP ISVMExtractor.系统在该测试集上的召回 用关系的抽取受限于自然语言语法、语义的复杂性, 率会进一步提高」 要想取得较高的性能,也是极具挑战性的任务.对关 在关系抽取各个阶段中,指代消解、命名实体识 系抽取的错误原因进行了分析 别、链接分析、特征提取等处理环节,每个环节都可 需要指出的是,由于DP数据库中的记录包含 能导致错误的发生.其中,指代消解部分的错误是因 的关系来自229篇PutMed文献的摘要和正文,而 为自然语言文本中指代关系的复杂性.命名实体识 实验语料只是229篇PubMed文献的摘要,所以不 别部分的错误是因为生物实体命名很不规范,生物 可避免地会影响召回率的性能.这种情况占召回率 实体命名识别是当前研究的一个难点和热点,当前 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
表 2 引入特征对性能的影响 Table 2 Performance of using d ifferen t fea tures 特征组合 特征类型 词项 特征 实体距 离特征 关键词 特征 链接 特征 链接语法 分析特征 召回率 /% 准确率 /% F值 /% 组合 1 3 63. 5 23. 4 34. 2 组合 2 3 3 64. 2 28. 5 39. 5 组合 3 3 3 3 70. 7 33. 2 45. 2 组合 4 3 3 3 3 71. 2 37. 8 49. 4 组合 5 3 3 3 3 3 70. 4 43. 6 53. 8 注 :标记“3 ”的特征项表示被引入的特征. 将结果与基于链接语法分析的 B ioPIExtrac2 tor [ 16 ]、IntEx系统和 BioRAT系统的结果对比 ,结果 如表 3和表 4所示. B ioPISVMExtractor系统的召回 率 ( 70. 4% )要明显高于 BioPIExtractor ( 39. 80% )、 IntEx(26. 94% )和 B ioRAT ( 20. 31% )系统 ,这表明 基于支持向量机方法能获得比语法分析方法更高的 召回率. 在大多数情况下 ,生物医学研究者更倾向于 获得更高的召回率 ,在这一点上 BioPISVMExtractor 系统具有明显的优势 ,在准确率上 ,BioPISVMExtrac2 tor系统低于其他 3个系统. 从召回率与准确率的综合分类率 F指数来看 , BioPISVMExtractor系统的 综合分类 率 F 达 到了 53. 8% ,高于同一测试语料上的其他系统 : BioPIEx2 tractor系统 ( 46. 33% ) 、IntEx系统 ( 38. 20% ) 和 BioRAT系统 (29. 68% ). 表 3 BioP ISVMExtractor召回率与 BioP IExtractor、IntEx和 BioRAT的比较 Table 3 Reca ll com par ison am ong BioPISVM Extractor, BioPIExtractor, In tEx and BioRAT 结果 BioP ISVMExtractor 个数 百分率 /% BioP IExtractor 个数 百分率 /% IntEx 个数 百分率 /% BioRAT 个数 百分率 /% 召回 276 70. 40 156 39. 80 142 26. 94 79 20. 31 未召回 116 19. 60 236 60. 20 385 73. 06 310 79. 69 总数 392 100. 00 392 100. 00 527 100. 00 389 100. 00 表 4 BioP ISVMExtractor准确率及综合分类率与 BioP IExtractor、IntEx和 BioRAT的比较 Table 4 Prec ision com par ison am ong BioPISVM Extractor, BioPIExtractor, In tEx and BioRAT 结果 BioP ISVMExtractor 个数 百分率 /% BioP IExtractor 个数 百分率 /% IntEx 个数 百分率 /% BioRAT 个数 百分率 /% 正确 672 43. 60 543 55. 41 262 65. 66 239 55. 07 不正确 869 56. 40 437 44. 59 137 34. 34 195 44. 93 总数 1 541 100. 00 980 100. 00 399 100. 00 434 100. 00 F值 53. 80 46. 33 38. 20 29. 68 3. 3 错误分析与讨论 从生物医学文本中进行蛋白质 (基因 )相互作 用关系的抽取受限于自然语言语法、语义的复杂性 , 要想取得较高的性能 ,也是极具挑战性的任务. 对关 系抽取的错误原因进行了分析. 需要指出的是 ,由于 D IP数据库中的记录包含 的关系来自 229篇 PubMed文献的摘要和正文 ,而 实验语料只是 229篇 PubMed文献的摘要 ,所以不 可避免地会影响召回率的性能. 这种情况占召回率 错误的大多数 ,如果不考虑只包含在正文中的实体 关系 , BioPISVMExtractor系统在该测试集上的召回 率会进一步提高. 在关系抽取各个阶段中 ,指代消解、命名实体识 别、链接分析、特征提取等处理环节 ,每个环节都可 能导致错误的发生. 其中 ,指代消解部分的错误是因 为自然语言文本中指代关系的复杂性. 命名实体识 别部分的错误是因为生物实体命名很不规范 ,生物 实体命名识别是当前研究的一个难点和热点 ,当前 第 4期 杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 763 ·
·368· 智能系统学报 第3卷 最好的实体识别系统的F指数也不超过80%.这部 tems to extract protein protein interactons fiom full texts 分错误所占的比例相对较大.此外,链接语法分析器 [J].Bpint6 matics,.2004,20(18):3604-3612 本身也会产生链接提取错误.由于训练语料较少,特 [8 ]DAV D C,BEMARD B,W LL AM L,et al BioRAT:ex- 征较稀疏所导致的关系抽取错误也占了一定比例. tracting bolgical infomation fiom full-length papers[J] Bonf6 matics,.2004,20(17):3206-3213 4结束语 [9]ANDRADE M A,VALEN CCA A.Automatic extraction of keyords fiom scientific text app lication to the knowledge 本文提出的一种基于支持向量机的蛋白质交互 domain of protein families [J ]Bioinfomatic,1998, 作用关系抽取方法,该方法通过适当特征的选取,利 14(7):600-607 用SM分类器判断句子中每对蛋白质(基因)是否 [10 ]CRAVEN M,KUML IEN J.Constructing biolgical know 存在相互作用关系.实验结果表明该方法取得的召 edge bases by extracting infomation from text sources 回率和综合分类率优于同一测试语料上其他系统, [C]//Proceedings of the 7th Intemational Conference on 尤其在召回率方面,该方法的效果明显高于其他系 Intelligent Systems for Molecular Biolgy Heidelberg, 统,能较好地满足生物医学研究者的要求.下一步的 Gemany,.1999:77-86 工作,将考察引入其他特征对抽取性能的影响.此 [11]STAPLEY B,BENO IT G Biobibliometrics infomation 外,会对语料文献的正文和摘要同时进行关系抽取, retrieval and visualizaton from cooccurrences of gene 进一步考察抽取效果 names in medline abstracts[C]//Proceedings of the Pa- cific Symposium on Bicomputing [S I ]2000:529- 参考文献: 540 [12 ]JENSSEN T K,LAEGRED A,KOMOROW SKIIJ,et al [1 ]PUSTEJOVSKY J,CASTANO,ZHANG J.Robust relation- A literature nework of human genes for high-throughput a- al parsing over bimedical literature:extracting inhibit rela- nalysis of gene expresson [J ]Nature Genetics,2001, tions[C]//Proceedings of the Seventh Pacific Symposium 28(1):21-28 on Bio-Computing [S I ]2002:362-373 [13 ]MARCOTTE E M,XENAR DS L EISENBERG D,et al [2]LEROY G,CHEN H,MARTNEZ J D.A shallow parser Mining literature for poteinprotein interactions [J] based on cbsed-class words o capture relations in biomed- Bi0inf6 matics.2001,17(4):359-363. ical text J ]Joumal of Biomedical Infomatics,2003, [14 ]BLA SCHKE C,VALENC AA.Can bibliographic pointers 36(3):145-158 for known biolgical data be found autmatically?Protein [3]PARK J C,KM H S,KM J J.Bidirectional incremental interactions as a case study [J ]Comparative and Func- parsing for automatic pathway identification with combinatory tional Genam ics,2001 (2):196-206 categrical grammar[C]//Proceedings of the Pacific Sym- [15 ]LUKASZ S,CHR ISTOPHER SM,ADAM J S,et al The posium on BD-Computing Hawaii,USA,2001:396-407 database of interacting proteins:2004 update[J].Nucle ic [4]TEMKN JM,GLDER M R Extraction of protein interac- Acids Research,2004,32(1):449-451 tion infomation from unstructured text using a context-free [16 ]YANG Zhihao,L N Hongfei,WU Baodong BioPP IExtrac- grammar[J ]B ioinfomatics,2003,19:2046-2053. or.a protein-protein interacton extracton system for bio- [5 ]AHMED S T,CH NDAMBARAM D,DAVULCU H,et al medical literature J]Expert Systems with App lications, IntEx:a syntactic ole driven protein protein interaction ex- 2007(12):14-19 tractor for biomedical text[C]//Proceeding of the ACL- [17]D NG J,BERLEANT D,NETTETON D,et al Mining ISB Workshop on L ink ing B iologicalL iterature,Ontobgies MEDL NE:abstracts,sentences,or phrases?[C]//Pro- and Databases:Mining Biological Semantics Detoit, ceedings of the Pacific Symposium on Biocomputing Ha- M ichigan,USA,2005:54-61. waii,USA,2002:326-37 [6 ]ONO T,H ISH KGAKI H,TAN IGAM li A,et al Automatic [18正厚峰.指代消解的基本方法和实现技术[J]中文信 extraction of inomation on protein-protein interactions fiom 息学报,2002,16(6):9-17 the biological literature J ]Boinmatics,2001,17 (2): WANG Houfeng Survey:computatonal models and tech- 155-161. nobgies in anaphora resolution [J].Joumal of Chinese In- [7]HUANGM L,ZHU X Y,HAO Y,et al Discovering pat- fomation Processing.2002,16(6):9-17 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
最好的实体识别系统的 F指数也不超过 80%. 这部 分错误所占的比例相对较大. 此外 ,链接语法分析器 本身也会产生链接提取错误. 由于训练语料较少 ,特 征较稀疏所导致的关系抽取错误也占了一定比例. 4 结束语 本文提出的一种基于支持向量机的蛋白质交互 作用关系抽取方法 ,该方法通过适当特征的选取 ,利 用 SVM分类器判断句子中每对蛋白质 (基因 )是否 存在相互作用关系. 实验结果表明该方法取得的召 回率和综合分类率优于同一测试语料上其他系统 , 尤其在召回率方面 ,该方法的效果明显高于其他系 统 ,能较好地满足生物医学研究者的要求. 下一步的 工作 ,将考察引入其他特征对抽取性能的影响. 此 外 ,会对语料文献的正文和摘要同时进行关系抽取 , 进一步考察抽取效果. 参考文献 : [ 1 ] PUSTEJOVSKY J, CASTANO, ZHANG J. Robust relation2 al parsing over biomedical literature: extracting inhibit rela2 tions[ C ] / / Proceedings of the Seventh Pacific Symposium on Bio2Computing. [ S. l. ], 2002: 3622373. [ 2 ]LEROY G, CHEN H, MARTINEZ J D. A shallow parser based on closed2class words to cap ture relations in biomed2 ical text [ J ]. Journal of Biomedical Informatics, 2003, 36 (3) : 1452158. [ 3 ] PARK J C, KIM H S, KIM J J. Bidirectional incremental parsing for automatic pathway identification with combinatory categorical grammar[C ] / / Proceedings of the Pacific Sym2 posium on Bio2Computing. Hawaii, USA, 2001: 3962407. [ 4 ] TEMKIN J M, GILDER M R. Extraction of p rotein interac2 tion information from unstructured text using a context2free grammar[J ]. Bioinformatics, 2003, 19: 204622053. [ 5 ]AHMED S T, CH INDAMBARAM D, DAVULCU H, et al. IntEx: a syntactic role driven p rotein2p rotein interaction ex2 tractor for bio2medical text[ C ] / / Proceeding of the ACL2 ISMB Workshop on L inkingBiologicalL iterature, Ontologies and Databases: M ining Biological Semantics. Detroit, M ichigan, USA, 2005: 54261. [ 6 ]ONO T, H ISH IGAKI H, TAN IGAM Ii A, et al. Automatic extraction of information on p rotein2p rotein interactions from the biological literature [ J ]. Bioinformatics, 2001, 17 (2) : 1552161. [ 7 ]HUANG M L, ZHU X Y, HAO Y, et al. D iscovering pat2 terns to extract p rotein2p rotein interactions from full texts [J ]. Bioinformatics, 2004, 20 (18) : 360423612. [ 8 ]DAV ID C, BEMARD B, W ILL IAM L, et al. BioRAT: ex2 tracting biological information from full2length papers[ J ]. Bioinformatics, 2004, 20 (17) : 320623213. [ 9 ]ANDRADE M A, VALEN ICA A. Automatic extraction of keywords from scientific text: app lication to the knowledge domain of p rotein fam ilies [ J ]. Bioinformatic, 1998, 14 (7) : 6002607. [ 10 ]CRAVEN M, KUML IEN J. Constructing biological knowl2 edge bases by extracting information from text sources [C ] / / Proceedings of the 7 th International Conference on Intelligent Systems for Molecular Biology. Heidelberg, Germany, 1999: 77286. [ 11 ] STAPLEY B, BENO IT G. Biobibliometrics: information retrieval and visualization from co2occurrences of gene names in medline abstracts[ C ] / / Proceedings of the Pa2 cific Symposium on Biocomputing. [ S. l. ], 2000: 5292 540. [ 12 ]JENSSEN T K, LAEGREID A, KOMOROW SKII J, et al. A literature network of human genes for high2throughput a2 nalysis of gene exp ression [ J ]. Nature Genetics, 2001, 28 (1) : 21228. [ 13 ]MARCOTTE E M, XENAR IOS I, EISENBERG D, et al. M ining literature for p rotein2p rotein interactions [ J ]. Bioinformatics, 2001, 17 (4) : 3592363. [ 14 ]BLASCHKE C, VALENCIA A. Can bibliographic pointers for known biological data be found automatically? Protein interactions as a case study [ J ]. Comparative and Func2 tional Genomics, 2001 (2) : 1962206. [ 15 ]LUKASZ S, CHR ISTOPHER SM, ADAM J S, et al. The database of interacting p roteins: 2004 update[J ]. Nucleic Acids Research, 2004, 32 (1) : 4492451. [ 16 ]YANG Zhihao, L IN Hongfei, WU Baodong. BioPP IExtrac2 tor: a p rotein2p rotein interaction extraction system for bio2 medical literature [J ]. Expert Systems with App lications, 2007 (12) : 14219. [ 17 ] D ING J, BERLEANT D, NETTETON D, et al. M ining MEDL INE: abstracts, sentences, or phrases? [C ] / / Pro2 ceedings of the Pacific Symposium on Biocomputing. Ha2 waii, USA, 2002: 326237. [ 18 ]王厚峰. 指代消解的基本方法和实现技术 [J ]. 中文信 息学报 , 2002, 16 (6) : 9217. WANG Houfeng. Survey: computational models and tech2 nologies in anaphora resolution[J ]. Journal of Chinese In2 formation Processing, 2002, 16 (6) : 9217. · 863 · 智 能 系 统 学 报 第 3卷
第4期 杨志豪,等:基于支撑向量机的生物医学文献蛋白质关系抽取 ·369· [19]TSURUOKA Y,TATEISHli Y,KM J D,et al Deveb- [26 ]MULLER K R,SMOLA A J,RATSCH G,et al Predic- ping a robust part-of-speech tagger for bimedical text ting tme series with support vector machines[C]//Pro- [C]//Proceedings of Advances in Infomatics-10th Pan- ceedings of the 7th Interational Conference on Artificial hellenic Conference on Infomatics Volos,Greece,2005: Neural Netorks Lausanne,Switzerland,1997. 382-392 [27 ]BURGES C J C A tutorial on support vector machines or [20]YANG Zhihao,L N Hongfei,L I Yanpeng Expbiting the pattem recognition[J Data Mining and Knowledge Dis- contextual cues for bio-entity name recogniton in biomedic- covery,1998,2(2):121-167. al literature J ]Joural of B iomedical Infomatics, [28]SLEA TOR D,TEMPERLEY D.Parsing English with a 2008(1):36-42 link grammar C ]/Proceedings of Third Intemational [21]VAPN IK V N.The nature of statistical leaming theory Workshop on Parsing Technobgies Tilburg.Netherlands, [M]New York:Springer-Verlag,1995. 1993 [22阎辉,张学工,李衍达.应用SM方法进行沉积微相 作者简介: 识别[J]物探化探计算技术,2000,22(2):158-164 杨志豪,男,1973年生,讲师,主要 YAN Hui,ZHANG Xuegong.LI Yanda Support vecbor 研究方向为文本挖掘和中文信息处理 machine methods in pattem recognition of sedmentary faci- 发表学术论文20余篇。 es [J]Computing Techniques for Gophysical and Geochenical Exp bration,2000,22(2):158-164. [23张学工.关于统计学习理论与支持向量机[J]自动化 学报,2000,26(1):32-42 ZHANG Xuegong Introduction statistical leaming theory 洪莉,女,1962年生,副教授,主 and support vector machines[J].Acta Automatica Sinica, 要研究方向为智能信息处理 2000,26(1):32-42 [24李凯,郭子雪.一种基于M的函数模拟方法[J] 微机发展,2001(3):56 L I Kai,GUO Zixue A function smulation based on sup- port vector machine [J]Microcomputer Develpment 2001(3):5-6 林鸿飞,男,1962年生,教授,博士 [25马云潜,张学工.支持向量机函数拟合在分形插值中的应 生导师,主要研究方向为搜索引擎、文 用[J]清华大学学报,2000,40(3):76-78 本挖掘、情感计算、中文信息处理以及 MA Yungian,ZHANG Xuegong Application of support 商业智能的研究.主持2项国家自然科 vecor machines function regression in fractal intepolation 学基金和1项国家863高科技计划研 [J]Joumal of Tsinghua University,2000,40(3):76-78 究项目.发表学术论文百余篇 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
[ 19 ]TSURUOKA Y, TATEISH Ii Y, KIM J D, et al. Develo2 p ing a robust part2of2speech tagger for biomedical text [C ] / / Proceedings of Advances in Informatics210 th Pan2 hellenic Conference on Informatics. Volos, Greece, 2005: 3822392. [ 20 ]YANG Zhihao, L IN Hongfei, L I Yanpeng. Exp loiting the contextual cues for bio2entity name recognition in biomedic2 al literature [ J ]. Journal of Biomedical Informatics, 2008 (1) : 36242. [ 21 ] VAPN IK V N. The nature of statistical learning theory [M ]. New York: Sp ringer2Verlag, 1995. [ 22 ]阎 辉 ,张学工 ,李衍达. 应用 SVM方法进行沉积微相 识别 [J ]. 物探化探计算技术 , 2000, 22 (2) : 1582164. YAN Hui, ZHANG Xuegong, L I Yanda. Support vector machine methods in pattern recognition of sedimentary faci2 es [ J ]. Computing Techniques for Giophysical and Geochenical Exp loration, 2000, 22 (2) : 1582164. [ 23 ]张学工. 关于统计学习理论与支持向量机 [J ]. 自动化 学报 , 2000, 26 (1) : 32242. ZHANG Xuegong. Introduction to statistical learning theory and support vector machines[J ]. Acta Automatica Sinica, 2000, 26 (1) : 32242. [ 24 ]李 凯 ,郭子雪. 一种基于 SVM 的函数模拟方法 [J ]. 微机发展 , 2001 (3) : 526. L I Kai, GUO Zixue. A function simulation based on sup2 port vector machine [ J ]. M icrocomputer Development, 2001 (3) : 526. [ 25 ]马云潜 ,张学工. 支持向量机函数拟合在分形插值中的应 用 [J ].清华大学学报 , 2000, 40 (3): 76278. MA Yunqian, ZHANG Xuegong. App lication of support vector machines function regression in fractal interpolation [J ]. Journal of Tsinghua University, 2000, 40 (3) : 76278. [ 26 ]MU¨LLER K R, SMOLA A J, RATSCH G, et al. Predic2 ting time series with support vector machines[ C ] / / Pro2 ceedings of the 7 th International Conference on A rtificial Neural Networks. Lausanne, Switzerland, 1997. [ 27 ]BURGES C J C. A tutorial on support vector machines for pattern recognition [J ]. Data M ining and Knowledge D is2 covery, 1998, 2 (2) : 1212167. [ 28 ] SLEATOR D, TEMPERLEY D. Parsing English with a link grammar [ C ] / / Proceedings of Third International Workshop on Parsing Technologies. Tilburg, Netherlands, 1993. 作者简介 : 杨志豪 ,男 , 1973年生 ,讲师 ,主要 研究方向为文本挖掘和中文信息处理 , 发表学术论文 20余篇. 洪 莉 ,女 , 1962年生 ,副教授 ,主 要研究方向为智能信息处理. 林鸿飞 ,男 , 1962年生 ,教授 ,博士 生导师 ,主要研究方向为搜索引擎、文 本挖掘、情感计算、中文信息处理以及 商业智能的研究. 主持 2项国家自然科 学基金和 1项国家 863高科技计划研 究项目. 发表学术论文百余篇. 第 4期 杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 963 ·