机器学习：基于支持向量机的生物医学文献蛋白质关系抽取

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：611.56KB

第3卷第4期智能系统学报 Vol 3 Ng 4 2008年8月 CAA I Transactions on Intelligent Systems Aug 2008 基于支持向量机的生物医学文献蛋白质关系抽取杨志豪'，洪莉2，林鸿飞，李彦鹏' (1大连理工大学电子与信息工程学院，辽宁大连116024：2朝阳师范高等专科学校数学计算机系，辽宁朝阳122000) 摘要：从生物医学文献中抽取蛋白质（基因）交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测以及新药的研制等均具有重要的意义.提出了一种基于支持向量机(SM)的蛋白质基因)交互作用关系抽取方法.该方法除了选取词项特征、关键词特征、实体距离特征链接特征外，还利用链接语法分析方法可以获得较高准确率的特性，引入链接语法分析方法抽取结果特征.实验结果表明，该方法的召回率性能与使用同一测试语料的其他系统相比具有明显的优势，综合分类率F指标也高于其他系统关键词：关系抽取；链接语法；支持向量机中图分类号：TP391文献标识码：A文章编号：1673-4785(2008)04036109 Extraction of nforma tion on proten-proten nteraction from biomedical litera tures using an SVM YANG Zhi-hao,HONG Li,L IN Hong-fei,L I Yanpeng (1.College of Electonic and Infomation Engineering.Dalian University of Technolgy,Dalian 116024,China;2 DeparmentofMath- ematics and Computer,Chaoyang Teachers College,Chaoyang 122000,China) Abstract:Automated extracton of protein-protein interaction infomation from biomedical literature is helpful when building a protein knowledge netork,predicting protein functions and designing new drugs This paper presents a method for proteinprotein interaction extraction from biomedical literature using a support vectormachine (SVM). In thismethod,besides common index parameters such as word features,keyword features,entity distance features and link path features,a link grammar extraction feature is used to mprove precision when identifying protein pro- tein interactions Expermental results indicated that the recall rate and the F-score of thismethod are much higher than that ofother extraction systems for the same dataset Keywords:interaction extraction;link grammar,support vector machine (SVM) 随着高通量生物技术的发展，生物医学的实验求十分迫切.其中，从生物医学文献中抽取蛋白质手段和研究方法均发生了巨大的变革，领域内实验基因)相互作用关系可以帮助建立蛋白质知识网数据的指数性增长，给数据的存储与传输，数据络、预测蛋白质关系以及辅助新药的研制，因此具有的处理、理解与应用带来一系列问题，来自数学、化重要的研究意义学、药学、统计学和计算机科学等领域专家给予了广 1相关研究泛关注，并取得了大量成果.生物医学文献作为成果展示和学术交流的主要方式之一，其数目之大，增长当前进行蛋白质基因)交互关系抽取主要有3 速度之快远远超过了其他学科领域，采用文本挖掘种方法：基于自然语言处理的系统、基于模式匹配的技术从这座宝库快速有效地提取生物医学知识的需系统和基于机器学习与统计的方法」基于自然语言处理的系统通过分析语法结构进收稿日期：20080507. 基金项目：国家自然科学基金资助项目(60373095,60673039)：国家行关系抽取，依据它们的分析策略将它们分为浅层 “863"高科技计划资助项目(2006AA01Z151). 通信作者：杨志豪.Emaik Yang小@dlut edu cn 分析系统和深层分析系统.Pustejovsky等人使用浅 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

第 3卷第 4期智能系统学报 Vol. 3 №. 4 2008年 8月 CAA I Transactions on Intelligent System s Aug. 2008 基于支持向量机的生物医学文献蛋白质关系抽取杨志豪 1 ,洪莉 2 ,林鸿飞 1 ,李彦鹏 1 (1. 大连理工大学电子与信息工程学院 ,辽宁大连 116024; 2. 朝阳师范高等专科学校数学计算机系 ,辽宁朝阳 122000) 摘要 :从生物医学文献中抽取蛋白质 (基因 )交互作用关系对蛋白质知识网络的建立、蛋白质关系的预测以及新药的研制等均具有重要的意义. 提出了一种基于支持向量机 ( SVM)的蛋白质 (基因 )交互作用关系抽取方法. 该方法除了选取词项特征、关键词特征、实体距离特征、链接特征外 ,还利用链接语法分析方法可以获得较高准确率的特性 , 引入链接语法分析方法抽取结果特征. 实验结果表明 ,该方法的召回率性能与使用同一测试语料的其他系统相比具有明显的优势 ,综合分类率 F指标也高于其他系统. 关键词 :关系抽取 ;链接语法 ;支持向量机中图分类号 : TP391 文献标识码 : A 文章编号 : 167324785 (2008) 0420361209 Extraction of information on prote in2prote in interaction from biomedical literatures using an SVM YANG Zhi2hao 1 , HONG L i 2 , L IN Hong2fei 1 , L I Yan2peng 1 (1. College of Electronic and Information Engineering, Dalian University of Technology, Dalian 116024, China; 2. Department ofMath2 ematics and Computer, Chaoyang Teachers College, Chaoyang 122000, China) Abstract:Automated extraction of p rotein2p rotein interaction information from biomedical literature is helpful when building a p rotein knowledge network, p redicting p rotein functions and designing new drugs. This paper p resents a method for p rotein2p rotein interaction extraction from biomedical literature using a support vectormachine (SVM). In thismethod, besides common index parameters such asword features, keyword features, entity distance features and link path features, a link grammar extraction feature is used to imp rove p recision when identifying p rotein2p ro2 tein interactions. Experimental results indicated that the recall rate and the F2score of thismethod are much higher than that of other extraction system s for the same dataset. Keywords: interaction extraction; link grammar; support vector machine (SVM) 收稿日期 : 2008205207. 基金项目 :国家自然科学基金资助项目 ( 60373095, 60673039) ;国家 “863”高科技计划资助项目 (2006AA01Z151). 通信作者 :杨志豪. E2mail: Yangzh@dlut. edu. cn. 随着高通量生物技术的发展 ,生物医学的实验手段和研究方法均发生了巨大的变革 ,领域内实验数据的“指数性 ”增长 ,给数据的存储与传输 ,数据的处理、理解与应用带来一系列问题 ,来自数学、化学、药学、统计学和计算机科学等领域专家给予了广泛关注 ,并取得了大量成果. 生物医学文献作为成果展示和学术交流的主要方式之一 ,其数目之大 ,增长速度之快远远超过了其他学科领域 ,采用文本挖掘技术从这座宝库快速有效地提取生物医学知识的需求十分迫切. 其中 ,从生物医学文献中抽取蛋白质 (基因 )相互作用关系可以帮助建立蛋白质知识网络、预测蛋白质关系以及辅助新药的研制 ,因此具有重要的研究意义. 1 相关研究当前进行蛋白质 (基因 )交互关系抽取主要有 3 种方法 :基于自然语言处理的系统、基于模式匹配的系统和基于机器学习与统计的方法. 基于自然语言处理的系统通过分析语法结构进行关系抽取 ,依据它们的分析策略将它们分为浅层分析系统和深层分析系统. Pustejovsky等人使用浅

·362· 智能系统学报第3卷层分析方法从生物医学文献的摘要中抽取蛋白质抑基于机器学习和统计的方法较前2种方法的优制关系)，但只得到了57%的召回率.Leoy等人提势在于不需要付出繁重的努力去定义规则或语法出了一个浅层分析器，用于从文献中抽取名词短语它自动提取实体交互模式而不需要人的参与.目前间的类属关系，精确率达到了90%)1.与浅层分析己经出现了许多基于蛋白质称名共现的机器学习与相比，深层分析方法也有很多人使用过.Pak等人统计的方法【93] 提出了一个基于可组合的分类语法的深层分析器，其中根据挖掘单位如摘要、句子等)又分为不该分析器首先定位目标动词，然后使用双向增量分同的类型.Andrade等I和Marcottle等3的方法在析技术扫描该动词的左部和右部以获得语法成摘要集合中提取蛋白质交互关系.前者将一组相关分).该系统的召回率和精确率分别是48%和文档与一组随机选取的文档对比来提取领域知识 80%.另一个深层分析器利用词典分析程序和上下 (如基因功能和交互)；后者检索到可能包含蛋白质文无关文法抽取蛋白质和基因的交互关系，得到的交互关系的文档；Craven等Io最早开发了基于机器召回率为63.9%，精确率为70.2%1.另外，Davu 学习的句子级蛋白质交互关系抽取系统.使用贝叶 cu等人提出了一个基于链接语法分析器(link gram- 斯分类器，对于一个包含2个实体名的句子，返回它 mar)的关系抽取系统hEs),使用链接语法分析器们存在交互关系的概率.后续的研究者使用了包括将复杂句划分为简单句，又将简单句划分为更具体隐马尔科夫模型、支撑向量机的机器学习方法来判的句子成分，然后从这些成分中选择满足条件的部别包含蛋白质交互关系的句子；还有的方法研究句分进行关系抽取，他们的召回率是2694%，精确率子中一对实体存在交互关系的概率.Stap ley等四使是65.66%.浅层分析系统只限于把句子解析成较用固定的基因名列表，借助共现方法在Medline记小的单元，而不揭示单元之间的句法关系.对于句子录中构建每个基因对的相似性矩阵来检测它们的关中简单的实体关系能获得较好的性能，但对于复杂系.Jenssen等I2I采用类似的方法发现了DNA array 句子中多个实体间的关系抽取则性能较差.深层分实验中的人类基因聚类间的关系析系统着眼于充分分析整个句子的语法特点，从而简单的统计方法（如基于蛋白质名称共现的方最大限度地揭示句子所反映的主题内容，能获得更法)不能准确地描述蛋白质之间的关系，因此会导高的准确性，但需要更高的计算能力和时间复杂性. 致较高的抽取错误率；而复杂的统计模型为了获得基于模式匹配的系统比基于自然语言处理的系准确的模型参数需要大量的训练集，在实际应用中统要简单得多，它们根据预先定义好的模式和匹配通常是难以得到的，规则将标注好词性的序列与结构信息进行匹配.人以上3种蛋白质（基因）交互关系抽取的方法们开发了许多系统，用于自动模式获取和关系抽取. 都有各自的优缺点，实际上许多系统都采用混合的其中大部分需要特殊的训练资源，比如标注了领域方法以获得更好的性能特定标签的文本.Oo等人提出了一个基于模式的当前研究存在的一个问题是：大部分抽取系统系统，该系统使用简单词的人工编码规则和标注了采用的是自己制作的语料，缺乏统一的性能评价标词性的模式从生物医学文献的摘要中抽取特殊种类准.2001年B laschke和Valencia推荐使用DP数据的蛋白质交互关系[6]，得到了较高的召回率和精确库，并将其作为评测生物关系抽取系统的标准率，分别为825%和943%.Huang等人提出了一库I.DP是1999年由UCLA的D.Elsenberg实验种从语料中自动获取模式的方法和一个基于动态规室建立，它的目标是成为一个蛋白质蛋白质相互划的匹配算法)，精确率和召回率大约都在80%. 作用的数据库，把关于蛋白质相互作用的多样的实 David等人开发了一个名为B ioRA T1的系统，该系验信息整合成一个容易进行查询的专一数据库统使用了一个信息抽取引擎和一个模板设计工具来 DP数据库中的每条记录都定义了一对相互作用的进行关系抽取，得到的召回率为20.31%，精确率为蛋白质，并且提供了描述这些交互作用的文档.到 5507%.基于模式匹配系统性能依赖于模式的数量 2004年，DP数据库已有超过18500个蛋白质交互和质量，难以处理较复杂的句子，而且无法抽取跨句关系[).研究人员可以首先使用自己的系统进行关子的实体关系系抽取，然后将抽取结果与DP数据库中的记录进 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

层分析方法从生物医学文献的摘要中抽取蛋白质抑制关系 [ 1 ] ,但只得到了 57%的召回率. Leroy等人提出了一个浅层分析器 ,用于从文献中抽取名词短语间的类属关系 ,精确率达到了 90% [ 2 ] . 与浅层分析相比 ,深层分析方法也有很多人使用过. Park等人提出了一个基于可组合的分类语法的深层分析器 , 该分析器首先定位目标动词 ,然后使用双向增量分析技术扫描该动词的左部和右部以获得语法成分 [ 3 ] . 该系统的召回率和精确率分别是 48%和 80%. 另一个深层分析器利用词典分析程序和上下文无关文法抽取蛋白质和基因的交互关系 ,得到的召回率为 63. 9% ,精确率为 70. 2% [ 4 ] . 另外 , Davul2 cu等人提出了一个基于链接语法分析器 ( link gram2 mar)的关系抽取系统 IntEx [ 5 ] ,使用链接语法分析器将复杂句划分为简单句 ,又将简单句划分为更具体的句子成分 ,然后从这些成分中选择满足条件的部分进行关系抽取 ,他们的召回率是 26. 94% ,精确率是 65. 66%. 浅层分析系统只限于把句子解析成较小的单元 ,而不揭示单元之间的句法关系. 对于句子中简单的实体关系能获得较好的性能 ,但对于复杂句子中多个实体间的关系抽取则性能较差. 深层分析系统着眼于充分分析整个句子的语法特点 ,从而最大限度地揭示句子所反映的主题内容 ,能获得更高的准确性 ,但需要更高的计算能力和时间复杂性. 基于模式匹配的系统比基于自然语言处理的系统要简单得多 ,它们根据预先定义好的模式和匹配规则将标注好词性的序列与结构信息进行匹配. 人们开发了许多系统 ,用于自动模式获取和关系抽取. 其中大部分需要特殊的训练资源 ,比如标注了领域特定标签的文本. Ono等人提出了一个基于模式的系统 ,该系统使用简单词的人工编码规则和标注了词性的模式从生物医学文献的摘要中抽取特殊种类的蛋白质交互关系 [ 6 ] ,得到了较高的召回率和精确率 ,分别为 82. 5%和 94. 3%. Huang等人提出了一种从语料中自动获取模式的方法和一个基于动态规划的匹配算法 [ 7 ] ,精确率和召回率大约都在 80%. David等人开发了一个名为 BioRAT [ 8 ]的系统 ,该系统使用了一个信息抽取引擎和一个模板设计工具来进行关系抽取 ,得到的召回率为 20. 31% ,精确率为 55. 07%. 基于模式匹配系统性能依赖于模式的数量和质量 ,难以处理较复杂的句子 ,而且无法抽取跨句子的实体关系. 基于机器学习和统计的方法较前 2种方法的优势在于不需要付出繁重的努力去定义规则或语法 , 它自动提取实体交互模式而不需要人的参与. 目前已经出现了许多基于蛋白质称名共现的机器学习与统计的方法 [ 9213 ] . 其中根据挖掘单位 (如摘要、句子等 )又分为不同的类型. Andrade等 [ 9 ]和 Marcottle等 [ 13 ]的方法在摘要集合中提取蛋白质交互关系. 前者将一组相关文档与一组随机选取的文档对比来提取领域知识 (如基因功能和交互 ) ;后者检索到可能包含蛋白质交互关系的文档 ; Craven等 [ 10 ]最早开发了基于机器学习的句子级蛋白质交互关系抽取系统. 使用贝叶斯分类器 ,对于一个包含 2个实体名的句子 ,返回它们存在交互关系的概率. 后续的研究者使用了包括隐马尔科夫模型、支撑向量机的机器学习方法来判别包含蛋白质交互关系的句子 ;还有的方法研究句子中一对实体存在交互关系的概率. Stap ley等 [ 11 ]使用固定的基因名列表 ,借助共现方法在 Medline记录中构建每个基因对的相似性矩阵来检测它们的关系. Jenssen等 [ 12 ]采用类似的方法发现了 DNA array 实验中的人类基因聚类间的关系. 简单的统计方法 (如基于蛋白质名称共现的方法 )不能准确地描述蛋白质之间的关系 ,因此会导致较高的抽取错误率 ;而复杂的统计模型为了获得准确的模型参数需要大量的训练集 ,在实际应用中通常是难以得到的. 以上 3种蛋白质 (基因 )交互关系抽取的方法都有各自的优缺点 ,实际上许多系统都采用混合的方法以获得更好的性能. 当前研究存在的一个问题是 :大部分抽取系统采用的是自己制作的语料 ,缺乏统一的性能评价标准. 2001年 Blaschke和 Valencia推荐使用 D IP数据库 ,并将其作为评测生物关系抽取系统的标准库 [ 14 ] . D IP是 1999年由 UCLA的 D. Elsenberg实验室建立 ,它的目标是成为一个蛋白质 —蛋白质相互作用的数据库 ,把关于蛋白质相互作用的多样的实验信息整合成一个容易进行查询的专一数据库. D IP数据库中的每条记录都定义了一对相互作用的蛋白质 ,并且提供了描述这些交互作用的文档. 到 2004年 ,D IP数据库已有超过 18 500个蛋白质交互关系 [ 15 ] . 研究人员可以首先使用自己的系统进行关系抽取 ,然后将抽取结果与 D IP数据库中的记录进 · 263 · 智能系统学报第 3卷

第4期杨志豪，等：基于支撑向量机的生物医学文献蛋白质关系抽取 ·363 行比较.这样做可以使评测结果更加令人信服.2004 系.B ioP ISVMExtractor系统的框架如图1所示年David等人使用DP数据库的一个子集(392条 DP测试语料 IEPA训练语料记录)进行了蛋白质相互作用关系抽取测试.他们的B ioRAT系统得到的召回率为20.31%，精确率为 55.07%.2005年Davulcu等人开发的nEx系统，使指实特用链接语法分析器在同一子集上得到2694%的召代体征 SVM模型回率和6566%的精确率消识提笔者曾提出了一个基于链接语法分析的蛋白质解别取基因)交互作用关系的抽取方法61.该方法使用条件随机域(conditional random fields,.CRF)与上下分类结果文线索结合的生物实体识别方法，再通过链接语法分析划分语法成分，从语法成分及其合理组合中抽图1 B ioP ISVMExtracpri系统框架 Fig 1 System framework of B oP ISVMExtractor 取蛋白质基因)交互作用关系.使用与BRAT和 tEx系统相同的DP语料进行测试，实验结果表明 21指代消解该方法的召回率以及综合分类率F指标都高于B0 指代消解是自然语言处理的重要内容，在信息抽 RAT和nEx系统.类似链接语法分析器的深层分取系统中，指代消解是一个关键问题]生物医学文析系统着眼于充分分析整个句子的语法特点，从而本中的基因交互关系经常通过与实体相关的代词来最大限度地揭示句子所反映的主题内容，能获得更表述.因此，信息抽取方法必须考虑代词的消解高的准确性，但需要较高的计算能力和时间复杂性，所设计系统的指代消解部分目前处理的是第三而且召回率较低.基于机器学习和统计的方法优势人称代词和反身代词，因为第一人称和第二人称代在于不需要付出繁重的努力去定义规则或语法，它词经常都被用于指代文本的作者，与关系抽取中所自动提取实体交互模式而不需要人的参与，通常可涉及到的实体几乎没有关系.指代消解部分首先使以获得较高的召回率，而在大多数情况下，这是生物用GEN Taggeri进行词性标注，将文本中的单医学研究者更倾向于得到的数名词、名词短语和复数名词、名词短语标注出来，因此，本文提出了一种基于支持向量机(support 然后使用与该代词最为接近的并且单复数相吻合的 vector machines,SM)的蛋白质交互作用关系抽取名词或名词短语来消解该代词方法.该方法通过适当特征的选取（包括词项特征、 22实体识别关键词特征、实体距离特征、链接特征以及链接语法实体识别的目的是在生物医学文本中对专业词分析特征)，利用SM分类器判断句子中每对蛋白汇加以确认和分类，这类实体包括基因、蛋白质、质基因)是否存在相互作用关系.实验证明这种方 DNA和RNA等，进行蛋白质相互作用关系的抽取，法可以获得比基于自然语言处理和基于模板方法更第1步要做的就是进行生物实体识别.笔者曾提出高的召回率过的基于条件随机域(CRF)与上下文线索结合的生物实体识别方法在NLPBA2004数据集上，可以达 2方法描述到75.04%的F值，在BioCreative2004的测试集上，使用上述方法，实现了一个蛋白质相互作用关可以达到8371%的F值2o1.在B ioP ISVMExtracor 系的抽取系统B ioP ISVMExtrac bor该系统使用EPA 系统中，也使用了该方法语料作为训练语料1，使用DP语料作为测试语 23SM模型料.系统首先对DP语料进行指代消解，然后进行实近年来，支持向量机(SM)的研究在广泛开展体识别，之后对语料句子中的每个蛋白质对进行特支持向量机是V.V ipnik等根据统计学习理论(statis 征提取，并使用SM分类器进行二值分类，即分为 tical leaming theory,.LT)提出的一种新的机器学习存在相互作用关系的蛋白质对和不存在相互作用关方法，该方法能较好地解决小样本、非线性、高维数和系的蛋白质对，从而抽取出蛋白质间的相互作用关局部极小点等实际问题22)，己成为机器学习界的研 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

行比较. 这样做可以使评测结果更加令人信服. 2004 年 David等人使用 D IP数据库的一个子集 ( 392条记录 )进行了蛋白质相互作用关系抽取测试. 他们的 BioRAT系统得到的召回率为 20. 31% ,精确率为 55. 07%. 2005年 Davulcu等人开发的 IntEx系统 ,使用链接语法分析器在同一子集上得到 26. 94%的召回率和 65. 66%的精确率. 笔者曾提出了一个基于链接语法分析的蛋白质 (基因 )交互作用关系的抽取方法 [ 16 ] . 该方法使用条件随机域 ( conditional random fields, CRF)与上下文线索结合的生物实体识别方法 ,再通过链接语法分析划分语法成分 ,从语法成分及其合理组合中抽取蛋白质 (基因 )交互作用关系. 使用与 B ioRAT和 IntEx系统相同的 D IP语料进行测试 ,实验结果表明该方法的召回率以及综合分类率 F指标都高于 Bio2 RAT和 IntEx系统. 类似链接语法分析器的深层分析系统着眼于充分分析整个句子的语法特点 ,从而最大限度地揭示句子所反映的主题内容 ,能获得更高的准确性 ,但需要较高的计算能力和时间复杂性 , 而且召回率较低. 基于机器学习和统计的方法优势在于不需要付出繁重的努力去定义规则或语法 ,它自动提取实体交互模式而不需要人的参与 ,通常可以获得较高的召回率 ,而在大多数情况下 ,这是生物医学研究者更倾向于得到的. 因此 ,本文提出了一种基于支持向量机 ( support vector machines, SVM)的蛋白质交互作用关系抽取方法. 该方法通过适当特征的选取 (包括词项特征、关键词特征、实体距离特征、链接特征以及链接语法分析特征 ) ,利用 SVM分类器判断句子中每对蛋白质 (基因 )是否存在相互作用关系. 实验证明这种方法可以获得比基于自然语言处理和基于模板方法更高的召回率. 2 方法描述使用上述方法 ,实现了一个蛋白质相互作用关系的抽取系统 B ioPISVMExtractor. 该系统使用 IEPA 语料作为训练语料 [ 17 ] ,使用 D IP语料作为测试语料. 系统首先对 D IP语料进行指代消解 ,然后进行实体识别 ,之后对语料句子中的每个蛋白质对进行特征提取 ,并使用 SVM 分类器进行二值分类 ,即分为存在相互作用关系的蛋白质对和不存在相互作用关系的蛋白质对 ,从而抽取出蛋白质间的相互作用关系. BioPISVMExtractor系统的框架如图 1所示. 图 1 BioP ISVMExtractor系统框架 Fig. 1 System framework of BioP ISVMExtractor 2. 1 指代消解指代消解是自然语言处理的重要内容 ,在信息抽取系统中 ,指代消解是一个关键问题 [ 18 ] . 生物医学文本中的基因交互关系经常通过与实体相关的代词来表述.因此 ,信息抽取方法必须考虑代词的消解. 所设计系统的指代消解部分目前处理的是第三人称代词和反身代词 ,因为第一人称和第二人称代词经常都被用于指代文本的作者 ,与关系抽取中所涉及到的实体几乎没有关系. 指代消解部分首先使用 GEN IA Tagger进行词性标注 [ 19 ] ,将文本中的单数名词、名词短语和复数名词、名词短语标注出来 , 然后使用与该代词最为接近的并且单复数相吻合的名词或名词短语来消解该代词. 2. 2 实体识别实体识别的目的是在生物医学文本中对专业词汇加以确认和分类 ,这类实体包括基因、蛋白质、 DNA和 RNA等. 进行蛋白质相互作用关系的抽取 , 第 1步要做的就是进行生物实体识别. 笔者曾提出过的基于条件随机域 (CRF)与上下文线索结合的生物实体识别方法在 JNLPBA2004数据集上 ,可以达到 75. 04%的 F值 ,在 BioCreative 2004的测试集上 , 可以达到 83. 71%的 F值 [ 20 ] . 在 BioPISVMExtractor 系统中 ,也使用了该方法. 2. 3 SVM模型近年来 ,支持向量机 (SVM)的研究在广泛开展. 支持向量机是 V. Vipnik等根据统计学习理论 ( statis2 tical learning theory, SLT)提出的一种新的机器学习方法 ,该方法能较好地解决小样本、非线性、高维数和局部极小点等实际问题 [ 21223 ] ,已成为机器学习界的研第 4期杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 363 ·

·364· 智能系统学报第3卷究热点之一，并成功地应用于分类、函数逼近和时间错分样本惩罚的程度.广义最优分类面的对偶问题序列预测等方面242] 与线性可分情况下几乎完全相同.只是条件(3)变 SM是从线性可分情况下的最优分类面发展成了条件7)：而来的，所谓最优分类面就是要求分类面不但能将 0≤a,≤C,i=1,…n (7 两类正确分开，而且使分类间隔最大.分类线性方程对非线性问题，可以通过非线性变换转化为某为x·w+b=0,其中，w为分类面的法线，b决定个高维空间中的线性问题，在变换空间上求最优分相对于原点的位置.可以对它们进行归一化，使得对类面.这种变换可能比较复杂，因此这种思路在一般线性可分的样本集(x,片)，i=,1,,nx∈R, 情况下不易实现.但是注意到，在上面的对偶问题片∈{+1，·1}满足：中，不论是式(4)还是表达的寻优函数式(5)都只涉 y[w·x)+b]-1≥0，i=1,n1) 及训练样本之间的内积运算(x·x,在高维空间此时分类间隔等于2/‖wⅡ，使间隔最大等价于使实际上只需进行内积运算，而这种内积运算是可以川wI2最小.满足式(1)且使川w2最小的分类用原空间中的函数实现的，甚至没有必要知道变换 2 的形式.根据泛函的有关理论，只要一种核函数K 面就是最优分类面 (x,x满足Mercer条件，它就对应某一变换空间中利用Lagrange优化方法可以把上述最优分类的内积.因此，在求解最优分类面中采用适当的内积面问题转化为其对偶问题28」，即在约束条件：函数K(x,x)就可以实现某一非线性变化后的线性分类，而计算复杂度却没有增加，此时目标函数变 a,=0 2 为和 a,≥0，i=1,…n (3) 0a)= 下对a,求解：而相应的分类函数也变为如式(9)所示： Qa)=】 4 fW=gn(ayK(.W+6. (9 的最大值.式(4)中，a,为与每个样本对应的La 24特征选取 grange乘子.这是一个不等式约束下二次函数寻优使用SM分类器进行蛋白质相互作用关系抽的问题，存在惟一解.容易证明，解中将只有一部分取的核心工作是特征项的选取.选取特征项的好坏通常是少部分)α，不为零，对应的样本就是支持向将直接影响到分类的精度.为了使蛋白质相互作用量.解上述问题后得到的最优分类函数为关系抽取系统达到较高的精度，采用了多种特征，包 f(x)=sgn{(w·x)+b}= 括特征词项特征、关键词特征、实体距离特征、链接特征以及链接语法分析特征 g叫2ay%·为+6 (5 241词项特征式中的求和实际上只对支持向量进行.a;是非在本文系统中使用了3种词项特征.它们分别零loagrang乘子，b是最优分类阈值，可以用任意一是包含在2个蛋白质名中的词项、2个蛋白质名之个支持向量满足式(1)中的等号)求得，或通过2 间的词项以及2个蛋白质名周围的词项. 类中任意一对支持向量取中值求得 2411包含在2个蛋白质名中的词项在线性不可分的情况下，可以在式1)条件中顾名思义，这些特征包括出现在2个蛋白质名增加一个松弛项ε，≥0，成为中的所有词.因为一个蛋白质名可以是一个词，也可 y[(w·x)+b1-1+e,≥0，以是多个词，所以相应的特征也是包含一个词或者 i=1.…,n 6) 多个词.例如句子A:“We show here that recombinant 将目标改为求we)=子Iw2+C(∑e,)最 bovne pr ion proten strongly interacts with the cata- 2 lytic alpha/apha'subunits of prote n kina se" 小，即折衷考虑最少错分样本和最大分类间隔，得到句子中用黑体标注的词便是蛋白质名.这样，在广义最优分类面.其中，C>0是一个常数，它控制对特征向量中它们的特征值就分别被表示为pl_bo 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

究热点之一 ,并成功地应用于分类、函数逼近和时间序列预测等方面 [ 24226 ] . SVM是从线性可分情况下的最优分类面发展而来的 ,所谓最优分类面就是要求分类面不但能将两类正确分开 ,而且使分类间隔最大. 分类线性方程为 x·w + b = 0,其中 , w 为分类面的法线 , b决定相对于原点的位置. 可以对它们进行归一化 ,使得对线性可分的样本集 ( xi , yi ) , i = , 1, …, n, xi ∈R d , yi ∈{ + 1, - 1}满足 : yi [ (w·xi ) + b ] - 1 ≥ 0, i = 1, …, n. (1) 此时分类间隔等于 2 /‖w ‖,使间隔最大等价于使 ‖w‖ 2 最小. 满足式 (1)且使 1 2 ‖w ‖ 2 最小的分类面就是最优分类面. 利用 Lagrange优化方法可以把上述最优分类面问题转化为其对偶问题 [ 28 ] ,即在约束条件 : ∑ n i =1 yiαi = 0 (2) 和 αi ≥ 0, i = 1, …, n (3) 下对 αi 求解 : Q (α) = ∑ n i =1 αi - 1 2 ∑ n i, j=1 αiαj yi yj ( xj·xj ) (4) 的最大值. 式 ( 4 )中 ,αi 为与每个样本对应的 La2 grange乘子. 这是一个不等式约束下二次函数寻优的问题 ,存在惟一解. 容易证明 ,解中将只有一部分 (通常是少部分 )αi 不为零 ,对应的样本就是支持向量. 解上述问题后得到的最优分类函数为 f ( x) = sgn{ (w·x) + b} = sgn{ ∑ n i =1 α3 i yi ( xi ·x) + b 3 }. (5) 式中的求和实际上只对支持向量进行.α3 i 是非零 loagrang乘子 , b 3 是最优分类阈值 ,可以用任意一个支持向量 (满足式 ( 1)中的等号 )求得 ,或通过 2 类中任意一对支持向量取中值求得. 在线性不可分的情况下 ,可以在式 ( 1)条件中增加一个松弛项 εi ≥0,成为 yi [ (w·xi ) + b ] - 1 +εi ≥ 0, i = 1, …, n, (6) 将目标改为求 (w,ε) = 1 2 ‖w‖ 2 + C ( ∑ n i =1 εi ) 最小 ,即折衷考虑最少错分样本和最大分类间隔 ,得到广义最优分类面. 其中 , C > 0是一个常数 ,它控制对错分样本惩罚的程度. 广义最优分类面的对偶问题与线性可分情况下几乎完全相同. 只是条件 ( 3)变成了条件 (7) : 0 ≤αi ≤ C, i = 1, …, n. (7) 对非线性问题 ,可以通过非线性变换转化为某个高维空间中的线性问题 ,在变换空间上求最优分类面. 这种变换可能比较复杂 ,因此这种思路在一般情况下不易实现. 但是注意到 , 在上面的对偶问题中 ,不论是式 (4)还是表达的寻优函数式 ( 5)都只涉及训练样本之间的内积运算 ( xi ·xj ) ,在高维空间实际上只需进行内积运算 ,而这种内积运算是可以用原空间中的函数实现的 ,甚至没有必要知道变换的形式. 根据泛函的有关理论 ,只要一种核函数 K ( xi , xj )满足 Mercer条件 ,它就对应某一变换空间中的内积. 因此 ,在求解最优分类面中采用适当的内积函数 K ( xi , xj )就可以实现某一非线性变化后的线性分类 ,而计算复杂度却没有增加 ,此时目标函数变为 Q (α) = ∑ n i =1 αi - 1 2 ∑ n i, j =1 αiαj yi yjK ( xi , xj ). (8) 而相应的分类函数也变为如式 (9)所示 : f ( x) = sgn ( ∑ n i =1 α3 i yi K ( xi , x) + b 3 ). (9) 2. 4 特征选取使用 SVM分类器进行蛋白质相互作用关系抽取的核心工作是特征项的选取. 选取特征项的好坏将直接影响到分类的精度. 为了使蛋白质相互作用关系抽取系统达到较高的精度 ,采用了多种特征 ,包括特征词项特征、关键词特征、实体距离特征、链接特征以及链接语法分析特征. 2. 4. 1 词项特征在本文系统中使用了 3种词项特征. 它们分别是包含在 2个蛋白质名中的词项、2个蛋白质名之间的词项以及 2个蛋白质名周围的词项. 2. 4. 1. 1 包含在 2个蛋白质名中的词项顾名思义 ,这些特征包括出现在 2个蛋白质名中的所有词. 因为一个蛋白质名可以是一个词 ,也可以是多个词 ,所以相应的特征也是包含一个词或者多个词. 例如句子 A:“We show here that recombinant bov ine pr ion prote in strongly interacts with the cata2 lytic alpha / alpha’subunits of prote in kina se”. 句子中用黑体标注的词便是蛋白质名. 这样 ,在特征向量中它们的特征值就分别被表示为 p1 _bo2 · 463 · 智能系统学报第 3卷

第4期杨志豪，等：基于支撑向量机的生物医学文献蛋白质关系抽取 ·365· vine、pl_prion、pl_protein以及p2_prote in、p2_kr 系统因此引入实体距离特征.如果两实体间距离小 nase 于等于3个单词，则相应的特征值就被表示为 24122个蛋白质名之间的词项 “D ISLessThree”,如果两实体间距离大于3个单词这些特征包括位于2个蛋白质名之间的所有单而小于等于6个单词，则相应的特征值就被表示为词.如果2个蛋白质名之间没有单词出现，那么这个 “D ISBeteenThreeSix”,如果两实体间距离大于6 特征就被设置为空(NULL). 个单词而小于等于9个单词，则相应的特征值就被对于上面例句A中的句子，位于2个蛋白质名表示为“D IBeteenSixN ine”,如果两实体间距离大之间的单词串是“strongly interacts wit讪the catalytic 于9个单词而小于等于12个单词，则相应的特征值 apha/apha'subunits of'”,那么在特征向量中它们的就被表示为“D IBetweenN ine Twelve”,两实体间距特征值就被表示为b_strongly,b_interacts、b_wih、b 离大于12个单词，则相应的特征值就被表示为 the,b_catalytic,b_alpha/alpha b subunits b of “D ISMore Twelve” 24132个蛋白质名周围的词项 244链接特征这些特征由2部分组成：一部分是第1个蛋白系统中对链接特征的提取用到的是链接语法分质名左边的n个词项：另1部分是第2个蛋白质名析器.链接语法(link grammar)是D.Sleator和D, 右边的n个词项.这里，n是需要考虑的蛋白质名周 Temperley21于1991年提出的.它便于语言工程的围的词项个数，在本文系统中n值被设为3与2个实现，是计算语言学中引人注目的一种新的语法理蛋白质名之间的词项特征相似，如果在第1个蛋白论.一部链接语法就是一个单词的集合，其中每个单质名左边没有词项，那么这个特征就被设置为空词后面记录着各自的链接要求.这些链接要求可以 NULL:同理，如果在第2个蛋白质名右边没有词通过一系列链接子表达式指定.一个由单词组成的项出现，那么这个特征也被设置为空NULL).这里串，如果在单词之间存在满足下列条件的链的话不考虑这些词出现的顺序， (或者说能够在单词之间画出一些链，并且这些链对于上面的例句A.2个蛋白质名周围的词项满足下面的条件)，就说这个单词串是链接语法所包括：第I个蛋白质名左边的3个词项“here that re- 定义的语言中的句子.首先这些链满足了其中所有 combinant'”:第2个蛋白质名右边的3个词项“” 单词的链接要求，其次满足下面4条元规则：1)平那么在特征向量中它们的特征值就分别被表示为1 面性，这些链之间互相不交叉；2)连通性，这些链足 here、1 that、1_recombine以及t 以把所有的单词链接在一起；3)顺序性，公式中较 242交互词特征左边的链接子必须和距离单词较近的单词链接，反这里所说的交互词，指的是表示2个蛋白质名之之，公式中较右边的链接子必须和距离单词较远的间交互作用关系的交互动词（interactor),如例句A 单词链接；4)排他性，一对单词之间同时不能有2 中的“interact'就是表明句中2个蛋白质间关系的交条链链接】互词.构造的关互词表中包含了大约500个交互词. 简单的链接表达式由链接子、二元操作符&和在本文系统中，如果有交互词位于2个蛋白质 or以及圆括号组成.每个链接子由名字和后缀2部名之间或者位于2个蛋白质名周围，那么这个交互分组成.后缀有2个，分别是+和-，+和-表示链词就被加入到交互词特征中.如果句中出现多个包接的方向，+表示向右链接，-表示向左链接.单词含在交互词表中的关交互词，那么系统会选取句中串中某个单词如果有一个向右的链接子，例如X+, 的第1个出现的交互词.如果句中没有关键词出现，而另一个单词有一个向左的链接子X·,那么这2 那么这个特征就被设置为空(NULL). 个链接子就相互匹配，这两个单词之间就可以画一对于例句A中的句子，查找交互词表，找到的条X链.同时可以说，链接子X+或X-得到了满足关键词为“interacts'”,那么在特征向量中它的特征或说链接满足了链接子X+或X-,在链接子被满值就被表示为kinteracts 足的基础上，可以定义：1)公式X&Y要被满足，则 243实体距离特征链接必须同时满足链接子X和Y,2)公式XorY要距离较近的实体存在交互关系的可能性较大，被满足，则链接必须满足链接子X和Y中的一个 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

vine、p1_p rion、p1 _p rotein以及 p2 _p rotein、p2 _ki2 nase. 2. 4. 1. 2 2个蛋白质名之间的词项这些特征包括位于 2个蛋白质名之间的所有单词. 如果 2个蛋白质名之间没有单词出现 ,那么这个特征就被设置为空 (NULL). 对于上面例句 A中的句子 ,位于 2个蛋白质名之间的单词串是“strongly interacts with the catalytic alpha / alpha’subunits of”,那么在特征向量中它们的特征值就被表示为 b_ strongly、b_ interacts、b_with、b _the、b_catalytic、b_alpha / alpha、’ b_subunits和 b_of. 2. 4. 1. 3 2个蛋白质名周围的词项这些特征由 2部分组成 :一部分是第 1个蛋白质名左边的 n个词项;另 1部分是第 2个蛋白质名右边的 n个词项. 这里 , n是需要考虑的蛋白质名周围的词项个数 ,在本文系统中 n值被设为 3. 与 2个蛋白质名之间的词项特征相似 ,如果在第 1个蛋白质名左边没有词项 , 那么这个特征就被设置为空 (NULL) ;同理 ,如果在第 2个蛋白质名右边没有词项出现 ,那么这个特征也被设置为空 (NULL). 这里不考虑这些词出现的顺序. 对于上面的例句 A, 2个蛋白质名周围的词项包括 :第 1个蛋白质名左边的 3个词项“here that re2 combinant”;第 2个蛋白质名右边的 3个词项“. ”. 那么在特征向量中它们的特征值就分别被表示为 l_ here、l_that、l_recombine以及 r_. 2. 4. 2 交互词特征这里所说的交互词,指的是表示 2个蛋白质名之间交互作用关系的交互动词 ( interactor) ,如例句 A 中的“interact”就是表明句中 2个蛋白质间关系的交互词.构造的关互词表中包含了大约 500个交互词. 在本文系统中 ,如果有交互词位于 2个蛋白质名之间或者位于 2个蛋白质名周围 ,那么这个交互词就被加入到交互词特征中. 如果句中出现多个包含在交互词表中的关交互词 ,那么系统会选取句中的第 1个出现的交互词. 如果句中没有关键词出现 , 那么这个特征就被设置为空 (NULL). 对于例句 A 中的句子 , 查找交互词表 , 找到的关键词为“interacts”, 那么在特征向量中它的特征值就被表示为 k_interacts. 2. 4. 3 实体距离特征距离较近的实体存在交互关系的可能性较大 , 系统因此引入实体距离特征. 如果两实体间距离小于等于 3 个单词 , 则相应的特征值就被表示为 “D ISLessThree”; 如果两实体间距离大于 3个单词而小于等于 6个单词 ,则相应的特征值就被表示为 “D ISBetweenThreeSix”; 如果两实体间距离大于 6 个单词而小于等于 9个单词 ,则相应的特征值就被表示为“D ISBetweenSixN ine”; 如果两实体间距离大于 9个单词而小于等于 12个单词 ,则相应的特征值就被表示为“D ISBetweenN ineTwelve”; 两实体间距离大于 12 个单词 ,则相应的特征值就被表示为 “D ISMoreTwelve”. 2. 4. 4 链接特征系统中对链接特征的提取用到的是链接语法分析器. 链接语法 ( link grammar)是 D. Sleator和 D. Temperley [ 28 ]于 1991年提出的. 它便于语言工程的实现 ,是计算语言学中引人注目的一种新的语法理论. 一部链接语法就是一个单词的集合 ,其中每个单词后面记录着各自的链接要求. 这些链接要求可以通过一系列链接子表达式指定. 一个由单词组成的串 ,如果在单词之间存在满足下列条件的链的话 (或者说能够在单词之间画出一些链 ,并且这些链满足下面的条件 ) ,就说这个单词串是链接语法所定义的语言中的句子. 首先这些链满足了其中所有单词的链接要求 ,其次满足下面 4条元规则 : 1)平面性 ,这些链之间互相不交叉 ; 2)连通性 ,这些链足以把所有的单词链接在一起 ; 3)顺序性 ,公式中较左边的链接子必须和距离单词较近的单词链接 ;反之 ,公式中较右边的链接子必须和距离单词较远的单词链接 ; 4)排他性 ,一对单词之间同时不能有 2 条链链接. 简单的链接表达式由链接子、二元操作符 &和 or以及圆括号组成. 每个链接子由名字和后缀 2部分组成. 后缀有 2个 ,分别是 +和 - . +和 - 表示链接的方向 , +表示向右链接 , - 表示向左链接. 单词串中某个单词如果有一个向右的链接子 ,例如 X + , 而另一个单词有一个向左的链接子 X - ,那么这 2 个链接子就相互匹配 ,这两个单词之间就可以画一条 X链. 同时可以说 ,链接子 X +或 X - 得到了满足或说链接满足了链接子 X +或 X - . 在链接子被满足的基础上 ,可以定义 : 1)公式 X & Y要被满足 ,则链接必须同时满足链接子 X和 Y; 2)公式 X or Y要被满足 ,则链接必须满足链接子 X和 Y中的一个. 第 4期杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 563 ·

·366· 智能系统学报第3卷图2显示了链接语法分析器应用于例句“Bovine YEs”,否则，就被表示成“L ink NO” PR DN protein as a modulator of protein KNASE CK2 对于例句A中的句子，经过链接语法分析器分 is described”上的效果析后得到的链接路径为：“bovine a~>A->protein n 在识别出语料中的每个句子中包含的命名实体 ->Ss->interacts v->MVp->with->Jp-> 后，使用链接语法分析器提取句子中2个命名实体 subunits[!]n->Mp -of->Jp ->kinase[?] 之间存在链接路径.如果相应的链接路径能够被提 n<-AN<-protein n”那么相应的特征就被表示取出来，那么相应的特征值就被表示为“Lk 为“Link YES” Xp_ Ss Wd- -GN- +--AN--+---Mp--++---Dsu--+--Mp---+ LFFT-WALL bovine.a PRION protein.n as.p a modulator[?].n of protein.n KINASE Ck2 is.v described.v 图2一个生物医学文献中的句子的链接语法结果 Fig 2 Results of a sentence fiom bimedical literature after link grammar parsing 245链接语法分析特征 traction perfomance assessment)语料.该语料是由美通过链接语法分析划分语法成分抽取蛋白质交国爱荷华州立大学的JDNG和D.BERLEANT等互作用关系161，能获得较高的准确率(5541%).因人构建的u81.它包含303篇Medline摘要，这些摘要此将该方法识别的结果作为特征引入，可能会提高是使用10个查询串对PuMεd进行查询得到的结 SM分类器的准确率.如果句子中的一对蛋白质用果，其中每个查询串都包含由“AND连接词连接的链接语法分析方法被提取出来，那么相应的特征值 2个生物医学名词，它们是生物医学研究者根据文就被表示为“LinkExtracted_YES”,否则，就被表示成本挖掘系统用户的兴趣来制定的.这些由查询串查 “L inkExtracted NO” 询到的摘要包含336个正例（蛋白质与蛋白质之间对于例句A“We show here that recombinant bo- 存在相互作用关系)和308个负例（蛋白质与蛋白 vine prion protein strongly interacts with the catalytic 质之间不存在相互作用关系).在EPA语料中所有 apha/apha'subun its of protein kinase”,抽取的特征的蛋白质名都已经被正确地标注，以使语料更适合如表1所示关系抽取的使用.系统所采用的测试语料来源于交表1例句A的特征选取互蛋白质数据库(DP),共包含392条正确关系记 Table 1 Fea ture choice of exam ple sen tence A 录.EPA语料和DP语料都是来自于包含蛋白质与特征名特征值蛋白质交互信息的MEDL NE摘要，属于同质的数第1个蛋白质名 pl bovine,pl prion,pl_protein 据，适合分别作为训练语料和测试语料第2个蛋白质名 p2 protein,p2 kinase 3.2实验结果 2个蛋白质名之间的 b strongly,b interacts,b with 由于未得到这229篇PubMed文献的正文，本词项 b the 文只使用它们的摘要进行了关系抽取测试，然后对左边的词项 I here,I that,I recombine 比DP392条记录对结果进行了人工评测.表2列右边的词项实体距离特征 D BeweenSixN ine 出了引入不同特征对性能的影响.可以看到只使用交互词特征 k interacts 词项特征获得的召回率和准确率都比较低，但随着链接特征 Link_YES 更多特征的引进，召回率和准确率都得到提高.在链链接语法分析特征 LinkExtracted YES 接语法分析特征引入后，召回率虽然略有下降（从 3实验与讨论 71.2%降到704%)，但准确率提高较多（从37.8% 提高到43.6%)，也得到了更好的综合分类率F指 31实验语料数（从49.4%提高到53.8%）系统所采用的训练语料是EPA(interaction ex 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

图 2显示了链接语法分析器应用于例句 “Bovine PR ION p rotein as a modulator of p rotein KINASE CK2 is described. ”上的效果. 在识别出语料中的每个句子中包含的命名实体后 ,使用链接语法分析器提取句子中 2个命名实体之间存在链接路径. 如果相应的链接路径能够被提取出来 , 那么相应的特征值就被表示为“L ink _ YES”;否则 ,就被表示成“Link_NO”. 对于例句 A中的句子 ,经过链接语法分析器分析后得到的链接路径为 :“bovine. a2>A2> p rotein. n - > Ss - > interacts. v - >MVp - >with - > Jp - > subunits[ ! ]. n - >Mp - > of - > Jp - > kinase [ ? ]. n < - AN < - p rotein. n”. 那么相应的特征就被表示为“Link_YES”. 图 2 一个生物医学文献中的句子的链接语法结果 Fig. 2 Results of a sentence from biomedical literature after link grammar parsing 2. 4. 5 链接语法分析特征通过链接语法分析划分语法成分抽取蛋白质交互作用关系 [ 16 ] ,能获得较高的准确率 (55. 41% ). 因此将该方法识别的结果作为特征引入 ,可能会提高 SVM分类器的准确率. 如果句子中的一对蛋白质用链接语法分析方法被提取出来 ,那么相应的特征值就被表示为“LinkExtracted_YES”,否则 ,就被表示成 “LinkExtracted_NO”. 对于例句 A“We show here that recombinant bo2 vine p rion p rotein strongly interacts with the catalytic alpha / alpha’ subunits of p rotein kinase”,抽取的特征如表 1所示. 表 1 例句 A的特征选取 Table 1 Fea ture cho ice of exam ple sen tence A 特征名特征值第 1个蛋白质名 p1_bovine, p1_p rion, p1_p rotein 第 2个蛋白质名 p2_p rotein, p2_kinase 2个蛋白质名之间的词项 b_strongly, b_interacts, b_with, b_the 左边的词项 l_here, l_that, l_recombine 右边的词项 r_ 实体距离特征 D ISBetweenSixN ine 交互词特征 k_interacts 链接特征 L ink_YES 链接语法分析特征 L inkExtracted_YES 3 实验与讨论 3. 1 实验语料系统所采用的训练语料是 IEPA ( interaction ex2 traction performance assessment)语料. 该语料是由美国爱荷华州立大学的 J. D ING和 D. BERLEANT等人构建的 [ 18 ] . 它包含 303篇 Medline摘要 ,这些摘要是使用 10个查询串对 PubMed进行查询得到的结果 ,其中每个查询串都包含由“AND”连接词连接的 2个生物医学名词 ,它们是生物医学研究者根据文本挖掘系统用户的兴趣来制定的. 这些由查询串查询到的摘要包含 336个正例 (蛋白质与蛋白质之间存在相互作用关系 )和 308个负例 (蛋白质与蛋白质之间不存在相互作用关系 ). 在 IEPA语料中所有的蛋白质名都已经被正确地标注 ,以使语料更适合关系抽取的使用. 系统所采用的测试语料来源于交互蛋白质数据库 (D IP) ,共包含 392条正确关系记录. IEPA语料和 D IP语料都是来自于包含蛋白质与蛋白质交互信息的 MEDL INE摘要 ,属于同质的数据 ,适合分别作为训练语料和测试语料. 3. 2 实验结果由于未得到这 229篇 PubMed文献的正文 ,本文只使用它们的摘要进行了关系抽取测试 ,然后对比 D IP 392条记录对结果进行了人工评测. 表 2列出了引入不同特征对性能的影响. 可以看到只使用词项特征获得的召回率和准确率都比较低 ,但随着更多特征的引进 ,召回率和准确率都得到提高. 在链接语法分析特征引入后 ,召回率虽然略有下降 (从 71. 2%降到 70. 4% ) ,但准确率提高较多 (从 37. 8% 提高到 43. 6% ) ,也得到了更好的综合分类率 F指数 (从 49. 4%提高到 53. 8% ). · 663 · 智能系统学报第 3卷

第4期杨志豪，等：基于支撑向量机的生物医学文献蛋白质关系抽取 ·367 表2引入特征对性能的影响 Table 2 Performance of usng different fea tures 特征类型特征组合词项实体距关键词链接链接语法召回率/%准确率/% F值/% 特征离特征特征特征分析特征组合1 635 23.4 342 组合2 642 285 395 组合3 707 33.2 452 组合4 712 37.8 49.4 组合5 ★ 704 436 538 注：标记“·的特征项表示被引入的特征将结果与基于链接语法分析的B ioP IExtrac~ 系统具有明显的优势，在准确率上，B ioP ISVM Extrac- toI6)、nEx系统和B ioRAT系统的结果对比，结果 or系统低于其他3个系统如表3和表4所示.B ioP ISVMExtractor.系统的召回从召回率与准确率的综合分类率F指数来看，率(704%)要明显高于B ioP IExtrac0r(39.80%)、 B ioP ISVMExtractor系统的综合分类率F达到了 htEx(2694%)和B ioRAT(2031%)系统，这表明 53.8%,高于同一测试语料上的其他系统：BioP IEx- 基于支持向量机方法能获得比语法分析方法更高的 tractor系统(4633%)、htEx系统(3820%)和召回率.在大多数情况下，生物医学研究者更倾向于 B ioRAT系统(29.68%). 获得更高的召回率，在这一点上B ioP ISVMExtractor 表3 B ioP ISVM Extracor召回率与B ioP IExtracpr IntEx和B oRAT的比较 Table 3 Recall com parison am ong BioP SVM Extractor,BioP IExtractor,h tEx and BiRAT BioP ISVM Extracbr BioP IExtracpr IntEx BDRAT 结果个数百分率1% 个数百分率/% 个数百分率/% 个数百分率/% 召回 276 7040 156 3980 142 2694 79 2031 未召回 116 1960 236 6020 385 73.06 310 7969 总数 392 10000 392 10000 527 10000 389 10000 表4 B ioP SVMExtracor?准确率及综合分类率与BioP IExtracor、hEx和B iRAT的比较 Table 4 Prec ision com parison among BioP ISVM Extractor,BioP IExtractor,htEx and BioRAT BioP ISVM Extracbr BioP IExtracpr IntEx B DRAT 结果个数百分率1% 个数百分率/% 个数百分率/% 个数百分率/% 正确 672 4360 543 55.41 262 6566 239 5507 不正确 869 5640 437 4459 137 3434 195 4493 总数 1541 10000 980 10000 399 10000 434 10000 F值 5380 4633 3820 2968 3.3错误分析与讨论错误的大多数，如果不考虑只包含在正文中的实体从生物医学文本中进行蛋白质（基因）相互作关系，B ioP ISVMExtractor.系统在该测试集上的召回用关系的抽取受限于自然语言语法、语义的复杂性，率会进一步提高」要想取得较高的性能，也是极具挑战性的任务.对关在关系抽取各个阶段中，指代消解、命名实体识系抽取的错误原因进行了分析别、链接分析、特征提取等处理环节，每个环节都可需要指出的是，由于DP数据库中的记录包含能导致错误的发生.其中，指代消解部分的错误是因的关系来自229篇PutMed文献的摘要和正文，而为自然语言文本中指代关系的复杂性.命名实体识实验语料只是229篇PubMed文献的摘要，所以不别部分的错误是因为生物实体命名很不规范，生物可避免地会影响召回率的性能.这种情况占召回率实体命名识别是当前研究的一个难点和热点，当前 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

表 2 引入特征对性能的影响 Table 2 Performance of using d ifferen t fea tures 特征组合特征类型词项特征实体距离特征关键词特征链接特征链接语法分析特征召回率 /% 准确率 /% F值 /% 组合 1 3 63. 5 23. 4 34. 2 组合 2 3 3 64. 2 28. 5 39. 5 组合 3 3 3 3 70. 7 33. 2 45. 2 组合 4 3 3 3 3 71. 2 37. 8 49. 4 组合 5 3 3 3 3 3 70. 4 43. 6 53. 8 注 :标记“3 ”的特征项表示被引入的特征. 将结果与基于链接语法分析的 B ioPIExtrac2 tor [ 16 ]、IntEx系统和 BioRAT系统的结果对比 ,结果如表 3和表 4所示. B ioPISVMExtractor系统的召回率 ( 70. 4% )要明显高于 BioPIExtractor ( 39. 80% )、 IntEx(26. 94% )和 B ioRAT ( 20. 31% )系统 ,这表明基于支持向量机方法能获得比语法分析方法更高的召回率. 在大多数情况下 ,生物医学研究者更倾向于获得更高的召回率 ,在这一点上 BioPISVMExtractor 系统具有明显的优势 ,在准确率上 ,BioPISVMExtrac2 tor系统低于其他 3个系统. 从召回率与准确率的综合分类率 F指数来看 , BioPISVMExtractor系统的综合分类率 F 达到了 53. 8% ,高于同一测试语料上的其他系统 : BioPIEx2 tractor系统 ( 46. 33% ) 、IntEx系统 ( 38. 20% ) 和 BioRAT系统 (29. 68% ). 表 3 BioP ISVMExtractor召回率与 BioP IExtractor、IntEx和 BioRAT的比较 Table 3 Reca ll com par ison am ong BioPISVM Extractor, BioPIExtractor, In tEx and BioRAT 结果 BioP ISVMExtractor 个数百分率 /% BioP IExtractor 个数百分率 /% IntEx 个数百分率 /% BioRAT 个数百分率 /% 召回 276 70. 40 156 39. 80 142 26. 94 79 20. 31 未召回 116 19. 60 236 60. 20 385 73. 06 310 79. 69 总数 392 100. 00 392 100. 00 527 100. 00 389 100. 00 表 4 BioP ISVMExtractor准确率及综合分类率与 BioP IExtractor、IntEx和 BioRAT的比较 Table 4 Prec ision com par ison am ong BioPISVM Extractor, BioPIExtractor, In tEx and BioRAT 结果 BioP ISVMExtractor 个数百分率 /% BioP IExtractor 个数百分率 /% IntEx 个数百分率 /% BioRAT 个数百分率 /% 正确 672 43. 60 543 55. 41 262 65. 66 239 55. 07 不正确 869 56. 40 437 44. 59 137 34. 34 195 44. 93 总数 1 541 100. 00 980 100. 00 399 100. 00 434 100. 00 F值 53. 80 46. 33 38. 20 29. 68 3. 3 错误分析与讨论从生物医学文本中进行蛋白质 (基因 )相互作用关系的抽取受限于自然语言语法、语义的复杂性 , 要想取得较高的性能 ,也是极具挑战性的任务. 对关系抽取的错误原因进行了分析. 需要指出的是 ,由于 D IP数据库中的记录包含的关系来自 229篇 PubMed文献的摘要和正文 ,而实验语料只是 229篇 PubMed文献的摘要 ,所以不可避免地会影响召回率的性能. 这种情况占召回率错误的大多数 ,如果不考虑只包含在正文中的实体关系 , BioPISVMExtractor系统在该测试集上的召回率会进一步提高. 在关系抽取各个阶段中 ,指代消解、命名实体识别、链接分析、特征提取等处理环节 ,每个环节都可能导致错误的发生. 其中 ,指代消解部分的错误是因为自然语言文本中指代关系的复杂性. 命名实体识别部分的错误是因为生物实体命名很不规范 ,生物实体命名识别是当前研究的一个难点和热点 ,当前第 4期杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 763 ·

·368· 智能系统学报第3卷最好的实体识别系统的F指数也不超过80%.这部 tems to extract protein protein interactons fiom full texts 分错误所占的比例相对较大.此外，链接语法分析器 [J].Bpint6 matics,.2004,20(18):3604-3612 本身也会产生链接提取错误.由于训练语料较少，特 [8 ]DAV D C,BEMARD B,W LL AM L,et al BioRAT:ex- 征较稀疏所导致的关系抽取错误也占了一定比例. tracting bolgical infomation fiom full-length papers[J] Bonf6 matics,.2004,20(17):3206-3213 4结束语 [9]ANDRADE M A,VALEN CCA A.Automatic extraction of keyords fiom scientific text app lication to the knowledge 本文提出的一种基于支持向量机的蛋白质交互 domain of protein families [J ]Bioinfomatic,1998, 作用关系抽取方法，该方法通过适当特征的选取，利 14(7):600-607 用SM分类器判断句子中每对蛋白质（基因）是否 [10 ]CRAVEN M,KUML IEN J.Constructing biolgical know 存在相互作用关系.实验结果表明该方法取得的召 edge bases by extracting infomation from text sources 回率和综合分类率优于同一测试语料上其他系统， [C]//Proceedings of the 7th Intemational Conference on 尤其在召回率方面，该方法的效果明显高于其他系 Intelligent Systems for Molecular Biolgy Heidelberg, 统，能较好地满足生物医学研究者的要求.下一步的 Gemany,.1999:77-86 工作，将考察引入其他特征对抽取性能的影响.此 [11]STAPLEY B,BENO IT G Biobibliometrics infomation 外，会对语料文献的正文和摘要同时进行关系抽取， retrieval and visualizaton from cooccurrences of gene 进一步考察抽取效果 names in medline abstracts[C]//Proceedings of the Pa- cific Symposium on Bicomputing [S I ]2000:529- 参考文献： 540 [12 ]JENSSEN T K,LAEGRED A,KOMOROW SKIIJ,et al [1 ]PUSTEJOVSKY J,CASTANO,ZHANG J.Robust relation- A literature nework of human genes for high-throughput a- al parsing over bimedical literature:extracting inhibit rela- nalysis of gene expresson [J ]Nature Genetics,2001, tions[C]//Proceedings of the Seventh Pacific Symposium 28(1):21-28 on Bio-Computing [S I ]2002:362-373 [13 ]MARCOTTE E M,XENAR DS L EISENBERG D,et al [2]LEROY G,CHEN H,MARTNEZ J D.A shallow parser Mining literature for poteinprotein interactions [J] based on cbsed-class words o capture relations in biomed- Bi0inf6 matics.2001,17(4):359-363. ical text J ]Joumal of Biomedical Infomatics,2003, [14 ]BLA SCHKE C,VALENC AA.Can bibliographic pointers 36(3):145-158 for known biolgical data be found autmatically?Protein [3]PARK J C,KM H S,KM J J.Bidirectional incremental interactions as a case study [J ]Comparative and Func- parsing for automatic pathway identification with combinatory tional Genam ics,2001 (2):196-206 categrical grammar[C]//Proceedings of the Pacific Sym- [15 ]LUKASZ S,CHR ISTOPHER SM,ADAM J S,et al The posium on BD-Computing Hawaii,USA,2001:396-407 database of interacting proteins:2004 update[J].Nucle ic [4]TEMKN JM,GLDER M R Extraction of protein interac- Acids Research,2004,32(1):449-451 tion infomation from unstructured text using a context-free [16 ]YANG Zhihao,L N Hongfei,WU Baodong BioPP IExtrac- grammar[J ]B ioinfomatics,2003,19:2046-2053. or.a protein-protein interacton extracton system for bio- [5 ]AHMED S T,CH NDAMBARAM D,DAVULCU H,et al medical literature J]Expert Systems with App lications, IntEx:a syntactic ole driven protein protein interaction ex- 2007(12):14-19 tractor for biomedical text[C]//Proceeding of the ACL- [17]D NG J,BERLEANT D,NETTETON D,et al Mining ISB Workshop on L ink ing B iologicalL iterature,Ontobgies MEDL NE:abstracts,sentences,or phrases?[C]//Pro- and Databases:Mining Biological Semantics Detoit, ceedings of the Pacific Symposium on Biocomputing Ha- M ichigan,USA,2005:54-61. waii,USA,2002:326-37 [6 ]ONO T,H ISH KGAKI H,TAN IGAM li A,et al Automatic [18正厚峰.指代消解的基本方法和实现技术[J]中文信 extraction of inomation on protein-protein interactions fiom 息学报，2002,16(6)：9-17 the biological literature J ]Boinmatics,2001,17 (2): WANG Houfeng Survey:computatonal models and tech- 155-161. nobgies in anaphora resolution [J].Joumal of Chinese In- [7]HUANGM L,ZHU X Y,HAO Y,et al Discovering pat- fomation Processing.2002,16(6):9-17 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

最好的实体识别系统的 F指数也不超过 80%. 这部分错误所占的比例相对较大. 此外 ,链接语法分析器本身也会产生链接提取错误. 由于训练语料较少 ,特征较稀疏所导致的关系抽取错误也占了一定比例. 4 结束语本文提出的一种基于支持向量机的蛋白质交互作用关系抽取方法 ,该方法通过适当特征的选取 ,利用 SVM分类器判断句子中每对蛋白质 (基因 )是否存在相互作用关系. 实验结果表明该方法取得的召回率和综合分类率优于同一测试语料上其他系统 , 尤其在召回率方面 ,该方法的效果明显高于其他系统 ,能较好地满足生物医学研究者的要求. 下一步的工作 ,将考察引入其他特征对抽取性能的影响. 此外 ,会对语料文献的正文和摘要同时进行关系抽取 , 进一步考察抽取效果. 参考文献 : [ 1 ] PUSTEJOVSKY J, CASTANO, ZHANG J. Robust relation2 al parsing over biomedical literature: extracting inhibit rela2 tions[ C ] / / Proceedings of the Seventh Pacific Symposium on Bio2Computing. [ S. l. ], 2002: 3622373. [ 2 ]LEROY G, CHEN H, MARTINEZ J D. A shallow parser based on closed2class words to cap ture relations in biomed2 ical text [ J ]. Journal of Biomedical Informatics, 2003, 36 (3) : 1452158. [ 3 ] PARK J C, KIM H S, KIM J J. Bidirectional incremental parsing for automatic pathway identification with combinatory categorical grammar[C ] / / Proceedings of the Pacific Sym2 posium on Bio2Computing. Hawaii, USA, 2001: 3962407. [ 4 ] TEMKIN J M, GILDER M R. Extraction of p rotein interac2 tion information from unstructured text using a context2free grammar[J ]. Bioinformatics, 2003, 19: 204622053. [ 5 ]AHMED S T, CH INDAMBARAM D, DAVULCU H, et al. IntEx: a syntactic role driven p rotein2p rotein interaction ex2 tractor for bio2medical text[ C ] / / Proceeding of the ACL2 ISMB Workshop on L inkingBiologicalL iterature, Ontologies and Databases: M ining Biological Semantics. Detroit, M ichigan, USA, 2005: 54261. [ 6 ]ONO T, H ISH IGAKI H, TAN IGAM Ii A, et al. Automatic extraction of information on p rotein2p rotein interactions from the biological literature [ J ]. Bioinformatics, 2001, 17 (2) : 1552161. [ 7 ]HUANG M L, ZHU X Y, HAO Y, et al. D iscovering pat2 terns to extract p rotein2p rotein interactions from full texts [J ]. Bioinformatics, 2004, 20 (18) : 360423612. [ 8 ]DAV ID C, BEMARD B, W ILL IAM L, et al. BioRAT: ex2 tracting biological information from full2length papers[ J ]. Bioinformatics, 2004, 20 (17) : 320623213. [ 9 ]ANDRADE M A, VALEN ICA A. Automatic extraction of keywords from scientific text: app lication to the knowledge domain of p rotein fam ilies [ J ]. Bioinformatic, 1998, 14 (7) : 6002607. [ 10 ]CRAVEN M, KUML IEN J. Constructing biological knowl2 edge bases by extracting information from text sources [C ] / / Proceedings of the 7 th International Conference on Intelligent Systems for Molecular Biology. Heidelberg, Germany, 1999: 77286. [ 11 ] STAPLEY B, BENO IT G. Biobibliometrics: information retrieval and visualization from co2occurrences of gene names in medline abstracts[ C ] / / Proceedings of the Pa2 cific Symposium on Biocomputing. [ S. l. ], 2000: 5292 540. [ 12 ]JENSSEN T K, LAEGREID A, KOMOROW SKII J, et al. A literature network of human genes for high2throughput a2 nalysis of gene exp ression [ J ]. Nature Genetics, 2001, 28 (1) : 21228. [ 13 ]MARCOTTE E M, XENAR IOS I, EISENBERG D, et al. M ining literature for p rotein2p rotein interactions [ J ]. Bioinformatics, 2001, 17 (4) : 3592363. [ 14 ]BLASCHKE C, VALENCIA A. Can bibliographic pointers for known biological data be found automatically? Protein interactions as a case study [ J ]. Comparative and Func2 tional Genomics, 2001 (2) : 1962206. [ 15 ]LUKASZ S, CHR ISTOPHER SM, ADAM J S, et al. The database of interacting p roteins: 2004 update[J ]. Nucleic Acids Research, 2004, 32 (1) : 4492451. [ 16 ]YANG Zhihao, L IN Hongfei, WU Baodong. BioPP IExtrac2 tor: a p rotein2p rotein interaction extraction system for bio2 medical literature [J ]. Expert Systems with App lications, 2007 (12) : 14219. [ 17 ] D ING J, BERLEANT D, NETTETON D, et al. M ining MEDL INE: abstracts, sentences, or phrases? [C ] / / Pro2 ceedings of the Pacific Symposium on Biocomputing. Ha2 waii, USA, 2002: 326237. [ 18 ]王厚峰. 指代消解的基本方法和实现技术 [J ]. 中文信息学报 , 2002, 16 (6) : 9217. WANG Houfeng. Survey: computational models and tech2 nologies in anaphora resolution[J ]. Journal of Chinese In2 formation Processing, 2002, 16 (6) : 9217. · 863 · 智能系统学报第 3卷

第4期杨志豪，等：基于支撑向量机的生物医学文献蛋白质关系抽取 ·369· [19]TSURUOKA Y,TATEISHli Y,KM J D,et al Deveb- [26 ]MULLER K R,SMOLA A J,RATSCH G,et al Predic- ping a robust part-of-speech tagger for bimedical text ting tme series with support vector machines[C]//Pro- [C]//Proceedings of Advances in Infomatics-10th Pan- ceedings of the 7th Interational Conference on Artificial hellenic Conference on Infomatics Volos,Greece,2005: Neural Netorks Lausanne,Switzerland,1997. 382-392 [27 ]BURGES C J C A tutorial on support vector machines or [20]YANG Zhihao,L N Hongfei,L I Yanpeng Expbiting the pattem recognition[J Data Mining and Knowledge Dis- contextual cues for bio-entity name recogniton in biomedic- covery,1998,2(2):121-167. al literature J ]Joural of B iomedical Infomatics, [28]SLEA TOR D,TEMPERLEY D.Parsing English with a 2008(1):36-42 link grammar C ]/Proceedings of Third Intemational [21]VAPN IK V N.The nature of statistical leaming theory Workshop on Parsing Technobgies Tilburg.Netherlands, [M]New York:Springer-Verlag,1995. 1993 [22阎辉，张学工，李衍达.应用SM方法进行沉积微相作者简介：识别[J]物探化探计算技术，2000,22(2)：158-164 杨志豪，男，1973年生，讲师，主要 YAN Hui,ZHANG Xuegong.LI Yanda Support vecbor 研究方向为文本挖掘和中文信息处理 machine methods in pattem recognition of sedmentary faci- 发表学术论文20余篇。 es [J]Computing Techniques for Gophysical and Geochenical Exp bration,2000,22(2):158-164. [23张学工.关于统计学习理论与支持向量机[J]自动化学报，2000,26(1)：32-42 ZHANG Xuegong Introduction statistical leaming theory 洪莉，女，1962年生，副教授，主 and support vector machines[J].Acta Automatica Sinica, 要研究方向为智能信息处理 2000,26(1):32-42 [24李凯，郭子雪.一种基于M的函数模拟方法[J] 微机发展，2001(3)：56 L I Kai,GUO Zixue A function smulation based on sup- port vector machine [J]Microcomputer Develpment 2001(3):5-6 林鸿飞，男，1962年生，教授，博士 [25马云潜，张学工.支持向量机函数拟合在分形插值中的应生导师，主要研究方向为搜索引擎、文用[J]清华大学学报，2000,40(3)：76-78 本挖掘、情感计算、中文信息处理以及 MA Yungian,ZHANG Xuegong Application of support 商业智能的研究.主持2项国家自然科 vecor machines function regression in fractal intepolation 学基金和1项国家863高科技计划研 [J]Joumal of Tsinghua University,2000,40(3):76-78 究项目.发表学术论文百余篇 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

[ 19 ]TSURUOKA Y, TATEISH Ii Y, KIM J D, et al. Develo2 p ing a robust part2of2speech tagger for biomedical text [C ] / / Proceedings of Advances in Informatics210 th Pan2 hellenic Conference on Informatics. Volos, Greece, 2005: 3822392. [ 20 ]YANG Zhihao, L IN Hongfei, L I Yanpeng. Exp loiting the contextual cues for bio2entity name recognition in biomedic2 al literature [ J ]. Journal of Biomedical Informatics, 2008 (1) : 36242. [ 21 ] VAPN IK V N. The nature of statistical learning theory [M ]. New York: Sp ringer2Verlag, 1995. [ 22 ]阎辉 ,张学工 ,李衍达. 应用 SVM方法进行沉积微相识别 [J ]. 物探化探计算技术 , 2000, 22 (2) : 1582164. YAN Hui, ZHANG Xuegong, L I Yanda. Support vector machine methods in pattern recognition of sedimentary faci2 es [ J ]. Computing Techniques for Giophysical and Geochenical Exp loration, 2000, 22 (2) : 1582164. [ 23 ]张学工. 关于统计学习理论与支持向量机 [J ]. 自动化学报 , 2000, 26 (1) : 32242. ZHANG Xuegong. Introduction to statistical learning theory and support vector machines[J ]. Acta Automatica Sinica, 2000, 26 (1) : 32242. [ 24 ]李凯 ,郭子雪. 一种基于 SVM 的函数模拟方法 [J ]. 微机发展 , 2001 (3) : 526. L I Kai, GUO Zixue. A function simulation based on sup2 port vector machine [ J ]. M icrocomputer Development, 2001 (3) : 526. [ 25 ]马云潜 ,张学工. 支持向量机函数拟合在分形插值中的应用 [J ].清华大学学报 , 2000, 40 (3): 76278. MA Yunqian, ZHANG Xuegong. App lication of support vector machines function regression in fractal interpolation [J ]. Journal of Tsinghua University, 2000, 40 (3) : 76278. [ 26 ]MU¨LLER K R, SMOLA A J, RATSCH G, et al. Predic2 ting time series with support vector machines[ C ] / / Pro2 ceedings of the 7 th International Conference on A rtificial Neural Networks. Lausanne, Switzerland, 1997. [ 27 ]BURGES C J C. A tutorial on support vector machines for pattern recognition [J ]. Data M ining and Knowledge D is2 covery, 1998, 2 (2) : 1212167. [ 28 ] SLEATOR D, TEMPERLEY D. Parsing English with a link grammar [ C ] / / Proceedings of Third International Workshop on Parsing Technologies. Tilburg, Netherlands, 1993. 作者简介 : 杨志豪 ,男 , 1973年生 ,讲师 ,主要研究方向为文本挖掘和中文信息处理 , 发表学术论文 20余篇. 洪莉 ,女 , 1962年生 ,副教授 ,主要研究方向为智能信息处理. 林鸿飞 ,男 , 1962年生 ,教授 ,博士生导师 ,主要研究方向为搜索引擎、文本挖掘、情感计算、中文信息处理以及商业智能的研究. 主持 2项国家自然科学基金和 1项国家 863高科技计划研究项目. 发表学术论文百余篇. 第 4期杨志豪 ,等 :基于支撑向量机的生物医学文献蛋白质关系抽取 · 963 ·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录