第10卷第1期 智能系统学报 Vol.10 No.1 2015年2月 CAAI Transactions on Intelligent Systems Feb.2015 D0I:10.10.3969/i.issn.1673-4785.201311017 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150113.1130.008.html 基于弱监督学习的中文网络百科关系抽取 贾真,何大可,杨燕,杨宇飞,冶忠林 (西南交道大学信息科学与技术学院,四川成都610031) 摘要:实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽 取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料:针对训练语料数量较 少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的 训练语料:然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方 法获得较高的准确率。 关键词:知识获取;信息抽取:关系抽取:弱监督学习:自扩展:中文网络百科:条件随机场:朴素贝叶斯 中图分类号:TP391文献标志码:A文章编号:1673-4785(2015)01-0113-07 中文引用格式:贾真,何大可,杨燕,等.基于弱监督学习的中文网络百科关系抽取.智能系统学报,2015,10(1):113-119. 英文引用格式:JIA Zhen,HE Dake,YANG Yan,etal.Relation extraction from Chinese online encyclopedia based on weakly super- vised learnin[J].CAAI Transactions on Intelligent Systems,2015,1(6):113-119. Relation extraction from Chinese online encyclopedia based on weakly supervised learnin JIA Zhen,HE Dake,YANG Yan,YANG Yufei,YE Zhonglin School of Information and Science Technology,Southwest Jiaotong University,Chengdu 610031,China) Abstract:Entity relation extraction plays an important role in the fields of information retrieval,automatic question answering and ontology learning.An entity relation extraction frame based on weakly-supervised learning is proposed in the paper.First,training data are acquired automatically from natural language texts by using relation triples in structured knowledge base.To solve the problem that the number of training data is small and features are insuffi- cient,a bootstrapping method is used to train sentence classifiers based on naive Bayes model.This method can ac- quire more training data from unlabelled data.The relation extractors are trained by using conditional random fields (CRF)model.The experiment results showed that the method is feasible and effective.Compared with the existing methods state-of-the-art method,the proposed method achieves high accuracy. Keywords:knowledge acquisition;information extraction;relation extraction;weakly supervised learning;boot- strapping;Chinese online encyclopedia;conditional random fields;naive Bayes 实体关系抽取是自动构建知识库的基础,同时 定关系类型转向开放领域,数据源从标准语料库转 在自动问答、信息检索等多个领域具有重要的应用 向海量的网络数据,传统基于模式匹配和有监督统 价值。传统实体关系抽取方法主要有基于模式匹配 计机器学习的方法逐渐显示出局限性。由于开放领 或基于有监督的统计机器学习。随着关系抽取从限 域的关系类型数量巨大,不同关系的模式表现形式 多样,变化较大,在基于模式匹配的方法中,难以用 收稿日期:2013-11-07.网络出版日期:2015-01-13. 人工方式定义全部的模式。在基于有监督机器学习 基金项目:国家自然科学基金资助项目(61170111,61134002, 方法中,人工标注训练语料需要耗费大量的人力和 61202043.61262058) 通信作者:贾真.E-mail:zjia@home.swjtu.cdu.cm. 时间,面向海量的网络数据,人工标注几乎是不可能
第 员园 卷第 员 期摇摇摇摇摇摇摇摇摇摇摇 摇摇摇 智 能 系 统 学 报摇摇摇摇摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 灾燥造援员园 翼援员 圆园员缘 年 圆 月摇摇摇摇摇摇摇摇摇摇摇 悦粤粤陨 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 云藻遭援 圆园员缘 阅韵陨院员园援员园援猿怨远怨 辕 躁援蚤泽泽灶援员远苑猿鄄源苑愿缘援圆园员猿员员园员苑 网络出版地址院澡贼贼责院 辕 辕 憎憎憎援糟灶噪蚤援灶藻贼 辕 噪糟皂泽 辕 凿藻贼葬蚤造 辕 圆猿援员缘猿愿援栽孕援圆园员缘园员员猿援员员猿园援园园愿援澡贼皂造 基于弱监督学习的中文网络百科关系抽取 贾真袁何大可袁杨燕袁杨宇飞袁冶忠林 渊西南交通大学 信息科学与技术学院袁四川 成都 远员园园猿员冤 摘 要院实体关系抽取在信息检索尧自动问答尧本体学习等领域都具有重要作用遥 提出了基于弱监督学习的关系抽 取框架遥 首先利用知识库中已有结构化的关系三元组袁从自然语言文本中自动获取训练语料曰针对训练语料数量较 少导致特征不足的问题袁采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法袁从未标注数据中获取更多的 训练语料曰然后利用条件随机场模型训练关系抽取器遥 实验结果表明所提方法的有效性袁有现有方法相比袁文中方 法获得较高的准确率遥 关键词院知识获取曰信息抽取曰关系抽取曰弱监督学习曰自扩展曰中文网络百科曰条件随机场曰朴素贝叶斯 中图分类号院 栽孕猿怨员 摇 文献标志码院粤摇 文章编号院员远苑猿鄄源苑愿缘渊圆园员缘冤园员鄄园员员猿鄄园苑 中文引用格式院贾真袁何大可袁杨燕袁等援基于弱监督学习的中文网络百科关系抽取援 智能系统学报袁 圆园员缘袁 员园渊员冤 院 员员猿鄄员员怨援 英文引用格式院允陨粤 在澡藻灶袁匀耘 阅葬噪藻袁再粤晕郧 再葬灶袁藻贼 葬造援砸藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 枣则燥皂 悦澡蚤灶藻泽藻 燥灶造蚤灶藻 藻灶糟赠糟造燥责藻凿蚤葬 遭葬泽藻凿 燥灶 憎藻葬噪造赠 泽怎责藻则鄄 增蚤泽藻凿 造藻葬则灶蚤灶咱允暂援 悦粤粤陨 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽袁 圆园员缘袁 员渊远冤 院 员员猿鄄员员怨援 砸藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 枣则燥皂 悦澡蚤灶藻泽藻 燥灶造蚤灶藻 藻灶糟赠糟造燥责藻凿蚤葬 遭葬泽藻凿 燥灶 憎藻葬噪造赠 泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶 允陨粤 在澡藻灶袁匀耘 阅葬噪藻袁再粤晕郧 再葬灶袁再粤晕郧 再怎枣藻蚤袁再耘 在澡燥灶早造蚤灶 渊 杂糟澡燥燥造 燥枣 陨灶枣燥则皂葬贼蚤燥灶 葬灶凿 杂糟蚤藻灶糟藻 栽藻糟澡灶燥造燥早赠袁 杂燥怎贼澡憎藻泽贼 允蚤葬燥贼燥灶早 哉灶蚤增藻则泽蚤贼赠袁 悦澡藻灶早凿怎 远员园园猿员袁 悦澡蚤灶葬冤 粤遭泽贼则葬糟贼院耘灶贼蚤贼赠 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 责造葬赠泽 葬灶 蚤皂责燥则贼葬灶贼 则燥造藻 蚤灶 贼澡藻 枣蚤藻造凿泽 燥枣 蚤灶枣燥则皂葬贼蚤燥灶 则藻贼则蚤藻增葬造袁 葬怎贼燥皂葬贼蚤糟 择怎藻泽贼蚤燥灶 葬灶泽憎藻则蚤灶早 葬灶凿 燥灶贼燥造燥早赠 造藻葬则灶蚤灶早援 粤灶 藻灶贼蚤贼赠 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 枣则葬皂藻 遭葬泽藻凿 燥灶 憎藻葬噪造赠鄄泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶早 蚤泽 责则燥责燥泽藻凿 蚤灶 贼澡藻 责葬责藻则援 云蚤则泽贼袁 贼则葬蚤灶蚤灶早 凿葬贼葬 葬则藻 葬糟择怎蚤则藻凿 葬怎贼燥皂葬贼蚤糟葬造造赠 枣则燥皂 灶葬贼怎则葬造 造葬灶早怎葬早藻 贼藻曾贼泽 遭赠 怎泽蚤灶早 则藻造葬贼蚤燥灶 贼则蚤责造藻泽 蚤灶 泽贼则怎糟贼怎则藻凿 噪灶燥憎造藻凿早藻 遭葬泽藻援 栽燥 泽燥造增藻 贼澡藻 责则燥遭造藻皂 贼澡葬贼 贼澡藻 灶怎皂遭藻则 燥枣 贼则葬蚤灶蚤灶早 凿葬贼葬 蚤泽 泽皂葬造造 葬灶凿 枣藻葬贼怎则藻泽 葬则藻 蚤灶泽怎枣枣蚤鄄 糟蚤藻灶贼袁 葬 遭燥燥贼泽贼则葬责责蚤灶早 皂藻贼澡燥凿 蚤泽 怎泽藻凿 贼燥 贼则葬蚤灶 泽藻灶贼藻灶糟藻 糟造葬泽泽蚤枣蚤藻则泽 遭葬泽藻凿 燥灶 灶葬蚤增藻 月葬赠藻泽 皂燥凿藻造援 栽澡蚤泽 皂藻贼澡燥凿 糟葬灶 葬糟鄄 择怎蚤则藻 皂燥则藻 贼则葬蚤灶蚤灶早 凿葬贼葬 枣则燥皂 怎灶造葬遭藻造造藻凿 凿葬贼葬援 栽澡藻 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼燥则泽 葬则藻 贼则葬蚤灶藻凿 遭赠 怎泽蚤灶早 糟燥灶凿蚤贼蚤燥灶葬造 则葬灶凿燥皂 枣蚤藻造凿泽 渊 悦砸云冤 皂燥凿藻造援 栽澡藻 藻曾责藻则蚤皂藻灶贼 则藻泽怎造贼泽 泽澡燥憎藻凿 贼澡葬贼 贼澡藻 皂藻贼澡燥凿 蚤泽 枣藻葬泽蚤遭造藻 葬灶凿 藻枣枣藻糟贼蚤增藻援 悦燥皂责葬则藻凿 憎蚤贼澡 贼澡藻 藻曾蚤泽贼蚤灶早 皂藻贼澡燥凿泽 泽贼葬贼藻鄄燥枣鄄贼澡藻鄄葬则贼 皂藻贼澡燥凿袁 贼澡藻 责则燥责燥泽藻凿 皂藻贼澡燥凿 葬糟澡蚤藻增藻泽 澡蚤早澡 葬糟糟怎则葬糟赠援 运藻赠憎燥则凿泽院噪灶燥憎造藻凿早藻 葬糟择怎蚤泽蚤贼蚤燥灶曰 蚤灶枣燥则皂葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶曰 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶曰 憎藻葬噪造赠 泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶早曰 遭燥燥贼鄄 泽贼则葬责责蚤灶早曰 悦澡蚤灶藻泽藻 燥灶造蚤灶藻 藻灶糟赠糟造燥责藻凿蚤葬曰 糟燥灶凿蚤贼蚤燥灶葬造 则葬灶凿燥皂 枣蚤藻造凿泽曰 灶葬蚤增藻 月葬赠藻泽 收稿日期院圆园员猿鄄员员鄄园苑援摇 网络出版日期院圆园员缘鄄园员鄄员猿援 基金 项 目院 国家自然科学基金资助项目 渊 远员员苑园员员员袁 远员员猿源园园圆袁 远员圆园圆园源猿袁 远员圆远圆园缘愿冤援 通信作者院贾真援耘鄄皂葬蚤造院扎躁蚤葬岳 澡燥皂藻援泽憎躁贼怎援藻凿怎援糟灶援 摇 摇 实体关系抽取是自动构建知识库的基础袁同时 在自动问答尧信息检索等多个领域具有重要的应用 价值遥 传统实体关系抽取方法主要有基于模式匹配 或基于有监督的统计机器学习遥 随着关系抽取从限 定关系类型转向开放领域袁数据源从标准语料库转 向海量的网络数据袁传统基于模式匹配和有监督统 计机器学习的方法逐渐显示出局限性遥 由于开放领 域的关系类型数量巨大袁不同关系的模式表现形式 多样袁变化较大袁在基于模式匹配的方法中袁难以用 人工方式定义全部的模式遥 在基于有监督机器学习 方法中袁人工标注训练语料需要耗费大量的人力和 时间袁面向海量的网络数据袁人工标注几乎是不可能
·114 智能系统学报 第10卷 的。如何能够监督最小化,即不使用人工标注或减 9次评测,2008年ACE评测改名为文本分析会议 少人工标注,也能构建高性能的关系抽取系统是当 (text analysis conference,TAC),从20O8年至今已经 前的研究热点。由于基于弱监督学习(weakly st- 举行了6次评测。ACE评测中关系抽取任务包括7 pervised learning)的关系抽取方法能够在较少人工 个大类关系和若干个子关系。实体关系抽取方法主 干预下、自动获取训练语料而受到了广泛的关注。 要有模式匹配的方法和机器学习的方法。在模式匹 基于弱监督学习的关系抽取框架依赖于一个某领域 配的方法中,模式的自动获取技术是研究的关键。 的知识库,从知识库中可以获取关系三元组,同时需 机器学习方法根据是否需要人工标注训练语料分为 要大量的文本集。从文本集中寻找含有关系实体对 有监督机器学习、半监督机器学习和无监督机器学 的句子,用来建立训练集,然后用这个训练集训练抽 习。有监督学习方法有特征向量的方法2和核函 取器,从测试文本集中抽取关系实例。现有方法都 数的方法[s6)。半监督学习方法以少量的关系实例 是自动抽取含有关系实体对的句子作为训练语料, 为种子,采用不断迭代的方法从未标注语料中抽取 这种利用实体对共现得到的训练语料很不可靠,例 可靠性较高的关系实例[)。无监督关系抽取主要 如,从知识库中获取关系三元组,〈鲁迅,国籍, 使用聚类方法[89,并为聚类后的簇赋予关系名称。 中国〉,从文本集中获取含有实体对(鲁迅,中国〉的 弱监督学习的关系抽取最早由Craven和Kum- 句子:“鲁迅以小说创作起家。1918年在《新青年》 lien提出[ao),用于从学术文献的摘要中抽取蛋白质 杂志发表的《狂人日记》是中国现代白话小说的开 与基因之间的关系。Wū等[山利用维基百科信息盒 山之作,影响深远”。这句话并没有表达鲁迅国籍 中结构化的(属性,属性值〉二元组对维基百科条目 是中国的关系。Riedel等)在纽约时报文本集中进 文本的句子进行回标,自动获取属性关系抽取训练 行统计,发现含有国籍关系实体对的句子中38%的 语料,并使用CRF模型为每个属性训练抽取器。 句子没有表达国籍这个关系,含有出生地关系实体 Bunescu等[]分别将具有关系的实体对正例和反例 对的句子中有35%的句子没有表达出生地关系。 作为查询请求,从搜索引擎查询结果中提取包含实 利用有噪声的训练语料训练模型会影响准确率,降 体对的句子作为训练语料。Mintz等fa)从Freebase 低抽取性能。为了提高训练语料的准确率,文中利 www.freebase.com中获取具有关系的实体对,从维基 用关系词语对训练语料进行约束,即句子中不仅要 百科条目文本中获取关系抽取的训练数据。Mintz 有实体对,还要有表达关系的词语。由于知识库中 的方法基于以下假设:如果2个实体之间存在某种 的关系实例数量有限,导致训练语料可能较少,存在 关系,那么所有含有实体对的句子都描述了这个关 特征不足的问题,文中利用训练语料训练句子分类 系。Yao等对Mimt也等u]提出的方法进行了改 器,并基于bootstrapping方法迭代地从未标注数据 进,把关系抽取和实体的种类综合考虑,利用实体的 中获取新的训练语料。最后利用CRF模型训练关 类别来过滤掉部分错误的关系。Riedel等认为 系抽取器。文中的主要贡献有: Mintz的假设过于严格,含有关系实体对的句子并不 1)与利用实体对获取训练语料相比,利用关系 一定表达了该关系。Riedel将Mintz的假设放松为: 三元组获取训练语料的质量有了明显提升; 如果2个实体之间存在某种关系,那么含有实体对 2)引入了句子分类器从未标注语料中提取新 的句子中至少有一个句子描述了该关系。Surdeanu 的训练语料,缓解了训练语料不足问题; 等[)基于弱监督学习对TAC-KBP进行属性模板填 3)以互动百科信息盒中的关系实例作为知识 充,先将维基百科信息盒中的半结构化信息映射至 库,互动百科条目文本作为训练文本集和测试文本 KBP结构化的属性模板,再从语料中获取包含实例 集进行实验,验证了文中方法的有效性。 名和属性值二元组的句子作为训练语料。陈立玮和 相关工作 冯岩松等16从互动百科信息盒中获取实体对,从新 闻数据中获取训练语料,提出了bootstrapping思想 实体关系抽取研究始于信息理解会议(message 的协同训练方法来对弱监督关系抽取模型进行强 understanding conference,MUC)。I998年最后一次 化,并提出了将传统特征与n-gram特征相结合进行 MUC-7上首次提出了关系抽取任务。在MUC-7之 协同训练的方法。 后,MUC被自动内容抽取(automatic content extrac. 2 弱监督学习的关系抽取方法 tion,ACE)评测所取代。ACE由美国国家标准技术 研究院NIST组织,从1999年至2008年已经举办过 弱监督学习的关系抽取框架包括3个重要的因
的遥 如何能够监督最小化袁即不使用人工标注或减 少人工标注袁也能构建高性能的关系抽取系统是当 前的研究热点遥 由于基于弱监督学习渊 憎藻葬噪造赠 泽怎鄄 责藻则增蚤泽藻凿 造藻葬则灶蚤灶早冤的关系抽取方法能够在较少人工 干预下尧自动获取训练语料而受到了广泛的关注遥 基于弱监督学习的关系抽取框架依赖于一个某领域 的知识库袁从知识库中可以获取关系三元组袁同时需 要大量的文本集遥 从文本集中寻找含有关系实体对 的句子袁用来建立训练集袁然后用这个训练集训练抽 取器袁从测试文本集中抽取关系实例遥 现有方法都 是自动抽取含有关系实体对的句子作为训练语料袁 这种利用实体对共现得到的训练语料很不可靠袁例 如袁从知识库中获取关系三元组袁 掖 鲁 迅袁 国 籍袁 中国业 袁从文本集中获取含有实体对掖鲁迅袁中国业的 句子院野鲁迅以小说创作起家遥 员怨员愿 年在叶新青年曳 杂志发表的叶狂人日记曳是中国现代白话小说的开 山之作袁影响深远冶 遥 这句话并没有表达鲁迅国籍 是中国的关系遥 砸蚤藻凿藻造 等咱员暂在纽约时报文本集中进 行统计袁发现含有国籍关系实体对的句子中 猿愿豫的 句子没有表达国籍这个关系袁含有出生地关系实体 对的句子中有 猿缘豫的句子没有表达出生地关系遥 利用有噪声的训练语料训练模型会影响准确率袁降 低抽取性能遥 为了提高训练语料的准确率袁文中利 用关系词语对训练语料进行约束袁即句子中不仅要 有实体对袁还要有表达关系的词语遥 由于知识库中 的关系实例数量有限袁导致训练语料可能较少袁存在 特征不足的问题袁文中利用训练语料训练句子分类 器袁并基于 遭燥燥贼泽贼则葬责责蚤灶早 方法迭代地从未标注数据 中获取新的训练语料遥 最后利用 悦砸云 模型训练关 系抽取器遥 文中的主要贡献有院 员冤 与利用实体对获取训练语料相比袁利用关系 三元组获取训练语料的质量有了明显提升曰 圆冤 引入了句子分类器从未标注语料中提取新 的训练语料袁缓解了训练语料不足问题曰 猿冤 以互动百科信息盒中的关系实例作为知识 库袁互动百科条目文本作为训练文本集和测试文本 集进行实验袁验证了文中方法的有效性遥 员摇 相关工作 实体关系抽取研究始于信息理解会议渊 皂藻泽泽葬早藻 怎灶凿藻则泽贼葬灶凿蚤灶早 糟燥灶枣藻则藻灶糟藻袁 酝哉悦冤 遥 员怨怨愿 年最后一次 酝哉悦鄄苑 上首次提出了关系抽取任务遥 在 酝哉悦鄄苑 之 后袁酝哉悦 被自动内容抽取渊 葬怎贼燥皂葬贼蚤糟 糟燥灶贼藻灶贼 藻曾贼则葬糟鄄 贼蚤燥灶袁 粤悦耘冤评测所取代遥 粤悦耘 由美国国家标准技术 研究院 晕陨杂栽 组织袁从 员怨怨怨 年至 圆园园愿 年已经举办过 怨 次评测袁圆园园愿 年 粤悦耘 评测改名为文本分析会议 渊贼藻曾贼 葬灶葬造赠泽蚤泽 糟燥灶枣藻则藻灶糟藻袁栽粤悦冤 袁从 圆园园愿 年至今已经 举行了 远 次评测遥 粤悦耘 评测中关系抽取任务包括 苑 个大类关系和若干个子关系遥 实体关系抽取方法主 要有模式匹配的方法和机器学习的方法遥 在模式匹 配的方法中袁模式的自动获取技术是研究的关键遥 机器学习方法根据是否需要人工标注训练语料分为 有监督机器学习尧半监督机器学习和无监督机器学 习遥 有监督学习方法有特征向量的方法咱圆鄄源暂 和核函 数的方法咱缘鄄远暂 遥 半监督学习方法以少量的关系实例 为种子袁采用不断迭代的方法从未标注语料中抽取 可靠性较高的关系实例咱苑暂 遥 无监督关系抽取主要 使用聚类方法咱愿鄄怨暂 袁并为聚类后的簇赋予关系名称遥 弱监督学习的关系抽取最早由 悦则葬增藻灶 和 运怎皂鄄 造蚤藻灶 提出咱员园暂 袁用于从学术文献的摘要中抽取蛋白质 与基因之间的关系遥 宰怎 等咱员员暂利用维基百科信息盒 中结构化的掖属性袁属性值业二元组对维基百科条目 文本的句子进行回标袁自动获取属性关系抽取训练 语料袁并使用 悦砸云 模型为每个属性训练抽取器遥 月怎灶藻泽糟怎 等咱员圆暂分别将具有关系的实体对正例和反例 作为查询请求袁从搜索引擎查询结果中提取包含实 体对的句子作为训练语料遥 酝蚤灶贼扎 等咱员猿暂 从 云则藻藻遭葬泽藻 憎憎憎援枣则藻藻遭葬泽藻援糟燥皂 中获取具有关系的实体对袁从维基 百科条目文本中获取关系抽取的训练数据遥 酝蚤灶贼扎 的方法基于以下假设院如果 圆 个实体之间存在某种 关系袁那么所有含有实体对的句子都描述了这个关 系遥 再葬燥 等咱员源暂 对 酝蚤灶贼扎 等咱员猿暂 提出的方法进行了改 进袁把关系抽取和实体的种类综合考虑袁利用实体的 类别来过滤掉部分错误的关系遥 砸蚤藻凿藻造 等咱员暂 认为 酝蚤灶贼扎 的假设过于严格袁含有关系实体对的句子并不 一定表达了该关系遥 砸蚤藻凿藻造 将 酝蚤灶贼扎 的假设放松为院 如果 圆 个实体之间存在某种关系袁那么含有实体对 的句子中至少有一个句子描述了该关系遥 杂怎则凿藻葬灶怎 等咱员缘暂基于弱监督学习对 栽粤悦鄄运月孕 进行属性模板填 充袁先将维基百科信息盒中的半结构化信息映射至 运月孕 结构化的属性模板袁再从语料中获取包含实例 名和属性值二元组的句子作为训练语料遥 陈立玮和 冯岩松等咱员远暂从互动百科信息盒中获取实体对袁从新 闻数据中获取训练语料袁提出了 遭燥燥贼泽贼则葬责责蚤灶早 思想 的协同训练方法来对弱监督关系抽取模型进行强 化袁并提出了将传统特征与 灶鄄 早则葬皂 特征相结合进行 协同训练的方法遥 圆摇 弱监督学习的关系抽取方法 弱监督学习的关系抽取框架包括 猿 个重要的因 窑员员源窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 员园 卷
第1期 贾真,等:基于弱监督学习的中文网络百科关系抽取 ·115 素:知识库、训练语料和抽取模型。 分支层节点总数和分支间隔。为了避免语义漂移, 2.1知识库 文中仅计算第5层分支词语间的语义相似度。例 互动百科是目前最大的中文网络百科之一,互 如,“创建”的同义词为“创立、开创、创始、创建、创 动百科的部分条目中,存在人工创建的信息盒,信息 办”等,“时间”的同义词为“时间、时刻、时日、工夫、 盒中包含了大量半结构化的关系三元组。例如,从 日子、光阴”等。将扩展后的这些同义词组合成为 互动百科条目“西南交通大学”信息盒中能够获取 新的关系关键词,例如“创立时间、开创时刻”等。 关系三元组(西南交通大学,创建时间,1896年〉。 同义词词典的关系关键词获取受到词典规模的限 其中,“西南交通大学”是关系主体,“1896年”是关 制,无法对未登录词进行同义扩展。因此,在提取训 系客体,创建时间为关系词语。经统计发现,互动百 练语料时,若某一含有关系实体对的句子中某词语 科信息盒中的关系名称是统一定义的,具有较好的 与关系关键词的字面相似度[20]大于45%,该词语成 唯一性和标识性。文中利用互动百科信息盒获取关 为关系关键词,该句子成为训练数据。 系三元组,构造知识库。信息盒是半结构化信息,某 从知识库中提取关系三元组〈西南交通大学, 些关系有多个客体(如“知名校友”一栏中有多个人 创建时间,1896年〉,百科文本集中有一个包含西南 名),某些关系的客体不是实体词,而是1个句子 交通大学和1896年的句子,该句子同时包含关系关 (如“校训”),因此需要对其进行结构化处理。由于 键词“创建”,如图1所示。提取该句子作为“创建 实体关系抽取依赖于命名实体识别,因此只提取主 时间”关系的训练语料。 体和客体是命名实体的关系。对于1个关系具有多 西南交通大学 个客体的情况,例如“知名校友”信息盒中的内容 为:林同炎,刘大同,张维。分别组成3个关系三元 技信 西两风大 组:〈西南交通大学,知名校友,刘大同〉、〈西南交通 大学,知名校友,林同炎)和〈西南交通大学,知名校 西离交通大学创建于1©6年,时将山海关北心洋铁路 宫学堂,是我国的力最早的离等学府之一,也是中国 友,张维〉。 土木工程和文通工程高等教高的策源地。 2.2训练语料 图1从文本集中获取训练数据 2.2.1训练语料自动获取 Fig.1 Training data acquisition from texts 现有弱监督学习的关系抽取框架是利用关系实 2.2.2基于句子分类器的训练语料优化 体对从文本中获取训练语料的,然而,包含实体对的 与人工标注的可靠的训练语料不同,由于自然 句子有时并不是关系描述语句。基于实体对的共现 语言预处理错误或知识库中的关系客体在文本中不 自动建立起来的训练语料中有大量的噪声,正确的 存在,就会导致错误和遗漏的标注。特别是由于知 训练语料并不多。为了提高训练语料的准确率,假 识库中的关系实例数量较少时,自动获取的训练语 设关系描述语句中通常以某个特定的关系关键词为 料数量较少,许多测试数据中的特征在训练语料中 核心,例如,“所属地区”关系的表达可能为“位于 很少出现甚至不存在。文中将已标注的训练语料作 处于、属于”等。“创建时间”关系的表达可能为“创 为正例,从未标注数据中提取部分数据作为反例,采 立、创建、成立”等。知识库中的关系名称是统一 用bootstapping方法训练分类器,然后对未标注数据 的,然而语句中对关系的表达有多种方式。如果直 进行分类,标注为正例的数据作为新的训练数据。 接匹配关系词语,会导致过低的召回率,因此,需要 一个分类器性能的优劣往往取决于选择的特征 将关系关键词进行同义扩展。 是否能够最大程度地表达不同类别的差异,选择恰 首先采用西南交通大学中文分词]对关系词 当的特征有助于学习到性能较好的分类器,实现不 语进行细粒度分词。例如,“创建时间”细粒度分词 同类别的最优划分。句子分类常用的特征包括词法 后为“创建”和“时间”2个词。然后分别对这2个 特征、句法特征和n-gam特征。词法特征由句子中 词语进行同义扩展。文中采用基于同义词词林1) 的词序列和词性序列构成,而句子中的语言描述过 的语义相似度计算扩展关系词语。语义相似度计算 于具体,很难在其他的句子中再次出现,导致严重的 采用田久乐等[提出的方法。该方法是根据词语 数据稀疏性问题,也使得训练出的模型缺乏泛化能 的义项在同义词词林的位置和编码计算出词语的语 力。句法特征从句子的依存句法分析结果中获取。 义相似度。满足相似度阈值的词语都视为同义词。 句法特征也存在词法特征中的数据稀疏性问题,并 词语相似度的值受到3个因素的制约:分支层系数、 且句法特征依赖于句法分析的效果,然而现有中文
素院知识库尧训练语料和抽取模型遥 圆援员摇 知识库 互动百科是目前最大的中文网络百科之一袁互 动百科的部分条目中袁存在人工创建的信息盒袁信息 盒中包含了大量半结构化的关系三元组遥 例如袁从 互动百科条目野西南交通大学冶信息盒中能够获取 关系三元组掖西南交通大学袁创建时间袁员愿怨远 年业 遥 其中袁野西南交通大学冶是关系主体袁野员愿怨远 年冶是关 系客体袁创建时间为关系词语遥 经统计发现袁互动百 科信息盒中的关系名称是统一定义的袁具有较好的 唯一性和标识性遥 文中利用互动百科信息盒获取关 系三元组袁构造知识库遥 信息盒是半结构化信息袁某 些关系有多个客体渊如野知名校友冶一栏中有多个人 名冤 袁某些关系的客体不是实体词袁而是 员 个句子 渊如野校训冶冤袁因此需要对其进行结构化处理遥 由于 实体关系抽取依赖于命名实体识别袁因此只提取主 体和客体是命名实体的关系遥 对于 员 个关系具有多 个客体的情况袁例如野知名校友冶 信息盒中的内容 为院林同炎袁刘大同袁张维遥 分别组成 猿 个关系三元 组院掖西南交通大学袁知名校友袁刘大同业尧掖西南交通 大学袁知名校友袁林同炎业和掖西南交通大学袁知名校 友袁张维业 遥 圆援圆摇 训练语料 圆援圆援员摇 训练语料自动获取 现有弱监督学习的关系抽取框架是利用关系实 体对从文本中获取训练语料的袁然而袁包含实体对的 句子有时并不是关系描述语句遥 基于实体对的共现 自动建立起来的训练语料中有大量的噪声袁正确的 训练语料并不多遥 为了提高训练语料的准确率袁假 设关系描述语句中通常以某个特定的关系关键词为 核心袁例如袁野所属地区冶 关系的表达可能为野位于尧 处于尧属于冶等遥 野创建时间冶关系的表达可能为野创 立尧创建尧成立冶 等遥 知识库中的关系名称是统一 的袁然而语句中对关系的表达有多种方式遥 如果直 接匹配关系词语袁会导致过低的召回率袁因此袁需要 将关系关键词进行同义扩展遥 首先采用西南交通大学中文分词咱员苑暂 对关系词 语进行细粒度分词遥 例如袁野创建时间冶细粒度分词 后为野创建冶和野时间冶 圆 个词遥 然后分别对这 圆 个 词语进行同义扩展遥 文中采用基于同义词词林咱员愿暂 的语义相似度计算扩展关系词语遥 语义相似度计算 采用田久乐等咱员怨暂 提出的方法遥 该方法是根据词语 的义项在同义词词林的位置和编码计算出词语的语 义相似度遥 满足相似度阈值的词语都视为同义词遥 词语相似度的值受到 猿 个因素的制约院分支层系数尧 分支层节点总数和分支间隔遥 为了避免语义漂移袁 文中仅计算第 缘 层分支词语间的语义相似度遥 例 如袁野创建冶的同义词为野创立尧开创尧创始尧创建尧创 办冶等袁野时间冶的同义词为野时间尧时刻尧时日尧工夫尧 日子尧光阴冶等遥 将扩展后的这些同义词组合成为 新的关系关键词袁例如野创立时间尧开创时刻冶 等遥 同义词词典的关系关键词获取受到词典规模的限 制袁无法对未登录词进行同义扩展遥 因此袁在提取训 练语料时袁若某一含有关系实体对的句子中某词语 与关系关键词的字面相似度咱圆园暂大于 源缘豫袁该词语成 为关系关键词袁该句子成为训练数据遥 从知识库中提取关系三元组掖西南交通大学袁 创建时间袁员愿怨远 年业 袁百科文本集中有一个包含西南 交通大学和 员愿怨远 年的句子袁该句子同时包含关系关 键词野创建冶 袁如图 员 所示遥 提取该句子作为野创建 时间冶关系的训练语料遥 图 员摇 从文本集中获取训练数据 云蚤早援员摇 栽则葬蚤灶蚤灶早 凿葬贼葬 葬糟择怎蚤泽蚤贼蚤燥灶 枣则燥皂 贼藻曾贼泽 圆援圆援圆摇 基于句子分类器的训练语料优化 与人工标注的可靠的训练语料不同袁由于自然 语言预处理错误或知识库中的关系客体在文本中不 存在袁就会导致错误和遗漏的标注遥 特别是由于知 识库中的关系实例数量较少时袁自动获取的训练语 料数量较少袁许多测试数据中的特征在训练语料中 很少出现甚至不存在遥 文中将已标注的训练语料作 为正例袁从未标注数据中提取部分数据作为反例袁采 用 遭燥燥贼泽贼葬责责蚤灶早 方法训练分类器袁然后对未标注数据 进行分类袁标注为正例的数据作为新的训练数据遥 一个分类器性能的优劣往往取决于选择的特征 是否能够最大程度地表达不同类别的差异袁选择恰 当的特征有助于学习到性能较好的分类器袁实现不 同类别的最优划分遥 句子分类常用的特征包括词法 特征尧句法特征和 灶 鄄早则葬皂 特征遥 词法特征由句子中 的词序列和词性序列构成袁而句子中的语言描述过 于具体袁很难在其他的句子中再次出现袁导致严重的 数据稀疏性问题袁也使得训练出的模型缺乏泛化能 力遥 句法特征从句子的依存句法分析结果中获取遥 句法特征也存在词法特征中的数据稀疏性问题袁并 且句法特征依赖于句法分析的效果袁然而现有中文 第 员 期摇摇摇摇摇摇摇摇摇摇摇摇摇 贾真袁等院基于弱监督学习的中文网络百科关系抽取 窑员员缘窑
·116 智能系统学报 第10卷 句法分析工具的准确率都不是很理想,导致句法特 目标信息的序列标注问题。 征不可靠。n-gram特征通常是文本中n个连续词组 为了进行CRF的训练,文中在训练语料中引人 成的序列,可以捕捉到局部范围内连续词语之间的 标注集对训练语料进行转换。文中使用的是BES0 序列关系,体现语法习惯,n-gam只包含3~4个词, 序列标注集,其中B代表关系关键词的开始:I代表 因而不会像传统词法特征那样过于具体,导致特征 关系关键词的内部:E代表关系关键词的结尾:S代 稀疏,几乎不可能再现。除了传统词语序列的 表独立的实体:0代表了当前词既不是实体,也不是 gram特征,文献[16]把连续词语的词性标注组织成 关系关键词。 词性序列n-gam特征;以及把词语和它的词性序列 例如对训练语句“滨海大学/ntu是/vshi一所/ 组成n-gram特征,并使用tri-gram,即n=3。 mq综合性/n国立大学/nis,/w成立/i于/p1991 文中采用由词语和它的词性组成的n-gram特 年/”进行序列标注如图2。 征,并令n=1,2,3。 @⊙⊙⊙⊙⊙@(@@ 1-gram:l个词语+词性(word,/pos,)(wordi) 2-gam:2个连续词语+词性(word,/pos:,wor e0思⊙@①@ d:+1/pos:+1) 图2序列标注示例 3-gram:3个连续词语+词性(word,/pos:,wor Fig.2 Sequence labeling example di+/posi+,wordi+/posi+2) 从句子中2个实体词之间的文本中提取1/2/3 图2中,S-SUB表示关系主体,S-0BJ表示关系 客体,B-REL表示关系关键词的开始,E-REL表示 gram作为特征值。1/2/3-gram表示既取1-gram,又 取2-gram、3-gram。例如句子“英国威尔士大学/ntu 关系关键词结尾。将该训练语句转换为序列标注的 圣三一学院/t成立/y于/p1848年/”中提取了多 形式如表1。 表1 训练语句序列标注 个1-gam“圣三一学院/nt”、“成立/v”、“于/p” Table 1 Sequence labeling of training sentenc 等,以及多个2-gram“圣三一学院/nt,成立/v”、 “成立/v,于/p”等。 特征1 特征2 标注 文中利用朴素贝叶斯分类(naive Bayes classifi- 滨海大学 ntu S-SUB cation,NBC)模型训练句子分类器。训练数据作为 是 shi 0 正例,从未标注数据中提取部分数据(未标注数据 一所 mq 0 中也含有实体对)作为反例,首先提取正例特征和 综合性 0 反例特征训练分类器,然后对未标注数据进行分类, 对新正例进行标注,并将新正例加入到训练语料中。 国立大学 nis 0 对新正例进行标注的方法是根据实体类别分别标注 w 0 关系主体和关系客体,将出现概率最大n-gam标注 成立 B-REL 为关系关键词。例如,1-gram“成立”出现概率最大, 于 P E-BEP 那么“成立”就是关系关键词,若句子中有多个关系 1991年 S-OBJ 主体或客体,则标注最先出现的实体对作为关系主 体和客体。 在CRF建立抽取模型过程中,特征选取与特征 2.3抽取模型 模板的制定是一项重要任务。特征选取时CRF模 条件随机场(conditional random field,CRF)是 型不仅能够综合使用字、词、词性、词形等上下文信 由Lafferty等2于2001年首先提出,是目前优秀的 息,还能利用各种外部信息,如词典等。文中选取词 机器学习模型之一。已被广泛用于中文分词、实体 本身、词性、上下文信息(定义活动的窗口)作为特 识别、词性标注和信息提取等自然语言处理领域。 征。“上下文信息”指的是包括当前词在内的及其 CRF是一个判别式模型,其最简单的形式是线性的 前后若干个词所组成的观察窗口[2】。窗口过大,选 CRF,即模型中各个节点之间构成线性结构。一个 择的特征会急剧增加,影响运行效率:窗口过小,选 线性的CRF对应于一个有限状态机,它非常适合于 择的特征较少,影响抽取器的性能。根据分析,选择 进行线性数据序列的标注,在信息提取任务中,基于 长度为3的窗口,即观察包含当前词在内以及其前 CRF用于序列标注的优势,将信息提取问题转换成 后各2个词。特征模板如表2所示
句法分析工具的准确率都不是很理想袁导致句法特 征不可靠遥 灶鄄早则葬皂 特征通常是文本中 灶 个连续词组 成的序列袁可以捕捉到局部范围内连续词语之间的 序列关系袁体现语法习惯袁灶鄄早则葬皂 只包含 猿耀源 个词袁 因而不会像传统词法特征那样过于具体袁导致特征 稀疏袁几乎不可能再现遥 除了传统词语序列的 灶鄄 早则葬皂 特征袁文献咱员远暂把连续词语的词性标注组织成 词性序列 灶 鄄早则葬皂 特征曰以及把词语和它的词性序列 组成 灶鄄早则葬皂 特征袁并使用 贼则蚤鄄早则葬皂袁即灶 越 猿遥 文中采用由词语和它的词性组成的 灶鄄早则葬皂 特 征袁并令 灶 越 员袁圆袁猿遥 员鄄早则葬皂院员 个词语垣词性 渊憎燥则凿蚤 辕 责燥泽蚤冤 渊憎燥则凿蚤冤 圆鄄早则葬皂院圆 个连续词语垣词性渊 憎燥则凿蚤 辕 责燥泽蚤袁 憎燥则鄄 凿蚤 垣员 辕 责燥泽蚤 垣员 冤 猿鄄早则葬皂院猿 个连续词语垣词性渊 憎燥则凿蚤 辕 责燥泽蚤袁 憎燥则鄄 凿蚤 垣员 辕 责燥泽蚤 垣员 袁 憎燥则凿蚤 垣圆 辕 责燥泽蚤 垣圆 冤 从句子中 圆 个实体词之间的文本中提取 员 辕 圆 辕 猿鄄 早则葬皂 作为特征值遥 员 辕 圆 辕 猿鄄早则葬皂 表示既取 员鄄早则葬皂袁又 取 圆鄄早则葬皂尧猿鄄早则葬皂遥 例如句子野英国威尔士大学辕 灶贼怎 圣三一学院辕 灶贼 成立辕 增 于辕 责 员愿源愿 年辕 贼冶中提取了多 个 员鄄早则葬皂 野圣三一学院 辕 灶贼冶 尧野成立 辕 增冶尧野于 辕 责冶 等袁以及多个 圆鄄早则葬皂野圣三一学院 辕 灶贼 袁 成立 辕 增冶尧 野成立 辕 增袁 于 辕 责冶等遥 文中利用朴素贝叶斯分类渊 灶葬觙增藻 月葬赠藻泽 糟造葬泽泽蚤枣蚤鄄 糟葬贼蚤燥灶袁晕月悦冤模型训练句子分类器遥 训练数据作为 正例袁从未标注数据中提取部分数据渊未标注数据 中也含有实体对冤 作为反例袁首先提取正例特征和 反例特征训练分类器袁然后对未标注数据进行分类袁 对新正例进行标注袁并将新正例加入到训练语料中遥 对新正例进行标注的方法是根据实体类别分别标注 关系主体和关系客体袁将出现概率最大 灶 鄄早则葬皂 标注 为关系关键词遥 例如袁员鄄早则葬皂野成立冶出现概率最大袁 那么野成立冶就是关系关键词袁若句子中有多个关系 主体或客体袁则标注最先出现的实体对作为关系主 体和客体遥 圆援猿摇 抽取模型 条件随机场渊 糟燥灶凿蚤贼蚤燥灶葬造 则葬灶凿燥皂 枣蚤藻造凿袁 悦砸云冤 是 由 蕴葬枣枣藻则贼赠 等咱圆员暂于 圆园园员 年首先提出袁是目前优秀的 机器学习模型之一遥 已被广泛用于中文分词尧实体 识别尧词性标注和信息提取等自然语言处理领域遥 悦砸云 是一个判别式模型袁其最简单的形式是线性的 悦砸云袁即模型中各个节点之间构成线性结构遥 一个 线性的 悦砸云 对应于一个有限状态机袁它非常适合于 进行线性数据序列的标注袁在信息提取任务中袁基于 悦砸云 用于序列标注的优势袁将信息提取问题转换成 目标信息的序列标注问题遥 为了进行 悦砸云 的训练袁文中在训练语料中引入 标注集对训练语料进行转换遥 文中使用的是 月陨耘杂韵 序列标注集袁其中 月 代表关系关键词的开始曰陨 代表 关系关键词的内部曰耘 代表关系关键词的结尾曰杂 代 表独立的实体曰韵 代表了当前词既不是实体袁也不是 关系关键词遥 例如对训练语句野滨海大学辕 灶贼怎 是辕 增泽澡蚤 一所辕 皂择 综合性辕 灶 国立大学辕 灶蚤泽 袁 辕 憎 成立辕 增蚤 于辕 责 员怨怨员 年辕 贼冶进行序列标注如图 圆遥 图 圆摇 序列标注示例 云蚤早援圆摇 杂藻择怎藻灶糟藻 造葬遭藻造蚤灶早 藻曾葬皂责造藻 图 圆 中袁杂鄄杂哉月 表示关系主体袁杂鄄韵月允 表示关系 客体袁月鄄砸耘蕴 表示关系关键词的开始袁耘鄄砸耘蕴 表示 关系关键词结尾遥 将该训练语句转换为序列标注的 形式如表 员遥 表 员摇 训练语句序列标注 栽葬遭造藻 员摇 杂藻择怎藻灶糟藻 造葬遭藻造蚤灶早 燥枣 贼则葬蚤灶蚤灶早 泽藻灶贼藻灶糟 特征 员 特征 圆 标注 滨海大学 灶贼怎 杂鄄杂哉月 是 泽澡蚤 韵 一所 皂择 韵 综合性 灶 韵 国立大学 灶蚤泽 韵 袁 憎韵 成立 增 月鄄砸耘蕴 于 责 耘鄄月耘孕 员怨怨员 年 贼 杂鄄韵月允 摇 摇 在 悦砸云 建立抽取模型过程中袁特征选取与特征 模板的制定是一项重要任务遥 特征选取时 悦砸云 模 型不仅能够综合使用字尧词尧词性尧词形等上下文信 息袁还能利用各种外部信息袁如词典等遥 文中选取词 本身尧词性尧上下文信息渊定义活动的窗口冤作为特 征遥 野上下文信息冶指的是包括当前词在内的及其 前后若干个词所组成的观察窗口咱圆圆暂 遥 窗口过大袁选 择的特征会急剧增加袁影响运行效率曰窗口过小袁选 择的特征较少袁影响抽取器的性能遥 根据分析袁选择 长度为 猿 的窗口袁即观察包含当前词在内以及其前 后各 圆 个词遥 特征模板如表 圆 所示遥 窑员员远窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 员园 卷
第1期 贾真,等:基于弱监督学习的中文网络百科关系抽取 .117. 表2特征模板 gam特征:词语序列特征、词性序列特征、以及词语 Table 2 Feature templates 和词性组合序列特征。这里分别测试了3种特征的 模板形式 模板含义 分类器准确率(Pc),测试结果如表3所示。 W(0) 当前词 表3不同特征下分类器性能比较 Table 3 Performance comparison among different feature % W(-1) 当前词左边第1个词 创建时间 国籍 所属地区出生年月 W(-2) 特征 当前词左边第2个词 词语序列 72 94 98 96 W(1) 当前词右边第1个词 词性序列 92 90 W(2) 当前词右边第2个词 70 专 词语+词性序列 72 90 94 90 P(0) 当前词词性 P(-1) 当前词左边第1个词的词性 通过表3看出,用词语序列作为特征的分类器 准确率最好,其次是词语+词性序列特征。然而词 P(-2) 当前词左边第2个词的词性 语序列作为特征的分类器获取的新正例数量较少, P(1) 当前词右边第1个词的词性 用词语+词性序列特征和词性特征获取新正例的数 P(2) 当前词右边第2个词的词性 量均较多。例如表4中,对于“创建时间”关系,用 W(0)P(0) 当前词和词性 词语+词性序列获取的新正例数量为4174个,用词 W(-1)P(-1) 当前词左边第1个词和词性 语序列获取的新正例仅为2697个:对于“出生年 W(-2)P(-2) 当前词左边第2个词和词性 月”关系,用词语+词性获取的新正例数量为3491 W(1)P(1) 当前词右边第1个词和词性 个,用词语序列获取的新正例仅有1795个。因此, 采用词语+词性组合特征的分类器总体性能最好。 W(2)P(2) 当前词右边第2个词和词性 表4不同特征下训练语料数量比较 3 实验与结果分析 Table 4 quantity comparison among different feature % 特征 创建时间 国籍 所属地区出生年月 弱监督关系抽取需要结构化知识库构建训练 词语序列 2697 88 4234 1795 集。知识的表达形式为三元组,即(主体,关系,客 词性序列 4174 136 6820 3491 体)的结构。选用互动百科信息盒构造结构化知识 库并进行分词和实体识别预处理,关系三元组中的 词语+词性序列4174 136 6820 3491 主体和客体必须为命名实体,从中选取“创建时 在抽取器的评价中,文中采用关系的准确率 间”、“国籍”、“出生年月”、“所属地区”等4种关系 (P)、召回率(R)、F值(F-Score)作为最终的评价标 进行实验。文本集采用互动百科条目文章。这里以 准,计算方法如式(2)~(4)所示。 “创建时间”关系为例对语料进行说明。关系主体 P= -×100% 类型为机构名(词性标注为t),客体类型为时间 (2) (词性标注为t)。从信息盒中抽取关系三元组共有 V 9257个,匹配句子有6876个,从其余未匹配的句 R= ×100% V (3) 子中提取含有实体二元组(t,t)的句子作为测试 F-Score 2×PXR ×100% 文本集,测试文本集中的句子数共114831个。 (4) P+R 实验结果的评价包括分类器的评价和抽取器的 式中:V是抽取正确的关系个数:V,是抽取关系的总 评价。分类器的性能用从测试文本集中得到的正例 个数:V是语料中关系的个数。 中正确标记的关系比率来评价,正确的比率越大说 将本中方法与不采用分类器直接利用三元组获 明分类器的性能越好。实验从测试文本集中得到正 取的训练语料训练CRF抽取器的抽取结果进行对 确的正例数量为T2,正例总数记为T,。准确率P。 比,对比结果如表5所示。从表5可以看出,与未经 计算公式如式(1): 过训练语料优化而直接采用CRF训练抽取器的方 法相比,文中方法在保持了较高准确率的基础上,召 Pc=- ×100% T, (1) 回率也有了较大的提高。说明利用朴素贝叶斯分类 由于从测试文本集中生成的正例总数较多,故 器从反例中获取新正例来优化训练语料,在一定程 采用随机抽样的评价方法。文中设计了3种n- 度上提高了训练语料的质量和抽取的性能。在以上
表 圆摇 特征模板 栽葬遭造藻 圆摇 云藻葬贼怎则藻 贼藻皂责造葬贼藻泽 模板形式 模板含义 宰渊园冤 当前词 宰渊原员冤 当前词左边第 员 个词 宰渊原圆冤 当前词左边第 圆 个词 宰渊员冤 当前词右边第 员 个词 宰渊圆冤 当前词右边第 圆 个词 孕渊园冤 当前词词性 孕渊原员冤 当前词左边第 员 个词的词性 孕渊原圆冤 当前词左边第 圆 个词的词性 孕渊员冤 当前词右边第 员 个词的词性 孕渊圆冤 当前词右边第 圆 个词的词性 宰渊园冤孕渊园冤 当前词和词性 宰渊原员冤孕渊原员冤 当前词左边第 员 个词和词性 宰渊原圆冤孕渊原圆冤 当前词左边第 圆 个词和词性 宰渊员冤孕渊员冤 当前词右边第 员 个词和词性 宰渊圆冤孕渊圆冤 当前词右边第 圆 个词和词性 猿摇 实验与结果分析 弱监督关系抽取需要结构化知识库构建训练 集遥 知识的表达形式为三元组袁即掖主体袁关系袁客 体业的结构遥 选用互动百科信息盒构造结构化知识 库并进行分词和实体识别预处理袁关系三元组中的 主体和客体必须为命名实体袁从中选取野 创建时 间冶尧野国籍冶尧野出生年月冶尧野所属地区冶等 源 种关系 进行实验遥 文本集采用互动百科条目文章遥 这里以 野创建时间冶关系为例对语料进行说明遥 关系主体 类型为机构名渊词性标注为 灶贼冤袁客体类型为时间 渊词性标注为 贼冤遥 从信息盒中抽取关系三元组共有 怨 圆缘苑 个袁匹配句子有 远 愿苑远 个袁从其余未匹配的句 子中提取含有实体二元组掖 灶贼袁 贼业 的句子作为测试 文本集袁测试文本集中的句子数共 员员源 愿猿员 个遥 实验结果的评价包括分类器的评价和抽取器的 评价遥 分类器的性能用从测试文本集中得到的正例 中正确标记的关系比率来评价袁正确的比率越大说 明分类器的性能越好遥 实验从测试文本集中得到正 确的正例数量为 栽圆 袁正例总数记为 栽员 遥 准确率 孕悦 计算公式如式渊员冤院 孕悦 越 栽员 栽圆 伊 员园园豫 渊员冤 摇 摇 由于从测试文本集中生成的正例总数较多袁故 采用随机抽样的评价方法遥 文中设计了 猿 种 灶 鄄 早则葬皂 特征院词语序列特征尧词性序列特征尧以及词语 和词性组合序列特征遥 这里分别测试了 猿 种特征的 分类器准确率渊孕悦 冤 袁测试结果如表 猿 所示遥 表 猿摇 不同特征下分类器性能比较 栽葬遭造藻 猿摇 孕藻则枣燥则皂葬灶糟藻 糟燥皂责葬则蚤泽燥灶 葬皂燥灶早 凿蚤枣枣藻则藻灶贼 枣藻葬贼怎则藻摇 豫 特征 创建时间 国籍 所属地区 出生年月 词语序列 苑圆 怨源 怨愿 怨远 词性序列 苑园 愿源 怨圆 怨园 词语垣词性序列 苑圆 怨园 怨源 怨园 摇 摇 通过表 猿 看出袁用词语序列作为特征的分类器 准确率最好袁其次是词语垣词性序列特征遥 然而词 语序列作为特征的分类器获取的新正例数量较少袁 用词语垣词性序列特征和词性特征获取新正例的数 量均较多遥 例如表 源 中袁对于野创建时间冶关系袁用 词语垣词性序列获取的新正例数量为 源 员苑源 个袁用词 语序列获取的新正例仅为 圆 远怨苑 个曰对于野出生年 月冶关系袁用词语垣词性获取的新正例数量为 猿 源怨员 个袁用词语序列获取的新正例仅有 员 苑怨缘 个遥 因此袁 采用词语垣词性组合特征的分类器总体性能最好遥 表 源摇 不同特征下训练语料数量比较 栽葬遭造藻 源摇 择怎葬灶贼蚤贼赠 糟燥皂责葬则蚤泽燥灶 葬皂燥灶早 凿蚤枣枣藻则藻灶贼 枣藻葬贼怎则藻 豫 特征 创建时间 国籍 所属地区 出生年月 词语序列 圆远怨苑 愿愿 源圆猿源 员苑怨缘 词性序列 源员苑源 员猿远 远愿圆园 猿源怨员 词语垣词性序列 源员苑源 员猿远 远愿圆园 猿源怨员 摇 摇 在抽取器的评价中袁文中采用关系的准确率 渊孕冤 尧召回率渊砸冤 尧云 值渊云鄄杂糟燥则藻冤作为最终的评价标 准袁计算方法如式渊圆冤 耀 渊源冤所示遥 孕 越 灾员 灾圆 伊 员园园豫 渊圆冤 砸 越 灾员 灾猿 伊 员园园豫 渊猿冤 云 原 杂糟燥则藻 越 圆 伊 孕 伊 砸 孕 垣 砸 伊 员园园豫 渊源冤 式中院灾员是抽取正确的关系个数曰灾圆是抽取关系的总 个数曰灾猿是语料中关系的个数遥 将本中方法与不采用分类器直接利用三元组获 取的训练语料训练 悦砸云 抽取器的抽取结果进行对 比袁对比结果如表 缘 所示遥 从表 缘 可以看出袁与未经 过训练语料优化而直接采用 悦砸云 训练抽取器的方 法相比袁文中方法在保持了较高准确率的基础上袁召 回率也有了较大的提高遥 说明利用朴素贝叶斯分类 器从反例中获取新正例来优化训练语料袁在一定程 度上提高了训练语料的质量和抽取的性能遥 在以上 第 员 期摇摇摇摇摇摇摇摇摇摇摇摇摇 贾真袁等院基于弱监督学习的中文网络百科关系抽取 窑员员苑窑
·118 智能系统学报 第10卷 4种关系抽取中,创建时间关系的准确率和召回率 架,该方法从中文网络百科条目半结构化的信息盒 均较低,这是由于句子中的关系主体(类型为t)或 中提取关系三元组构建知识库,利用关系三元组对 关系客体(类型为t)不唯一,例如大学机构往往有 百科文本中进行回标,包含实体对和关系词语的句 子机构(如院系等),以子机构的创建时间作为关系 子成为关系抽取的训练语料,该方法有效解决了训 客体则会造成错误。 练语料自动构建的问题。针对训练语料较为稀疏从 表5与未优化训练语料的关系抽取方法对比 而导致特征不足的问题,提出了bootstrapping的训 Table 5 Performance comparison with the method of un- 练语料优化方法,该方法以已标注的训练语料为正 optimized training corpus o 例,以部分未标注数据为反例,训练贝叶斯分类器, 文中方法 未优化训练语料 然后从未标注数据中提取新的正例,补充训练语料 关系 准确率召回率F值 准确率召回率F值 的不足。对于分类器特征提取问题,论文提出一种 之 词和词性组合的n-am特征,从正例和反例的句子 创建时间 11.9 20.6 68 8.8 15.6 中分别提取词语和词性组合的1/2/3-gram作为特 国籍 84 84.6 84.3 98 72.1 83.1 征,训练分类器。实验结果表明优化训练语料能够 出生年月96 27.5 42.8 96 33.4 49.6 提升关系抽取的性能。利用关系词语对训练语料和 所属地区 98 95.3 96.6 98 77.3 86.4 测试语料进行约束,与仅利用实体对共现获取的训 现有弱监督学习的关系抽取框架是将关系抽取 练语料进行关系抽取相比,抽取准确率有了显著提 看做一个分类问题,首先利用实体对获取训练语料, 高。 然后训练分类器,从测试文本集的句子中提取实体 参考文献: 对,利用分类器对实体对进行关系预测。文中与文 献[13]的方法进行对比,对比结果如表6。 [1]RIEDEL S,YAO L,MCCALLUM A.Modeling relations 表6与其他弱监督学习的关系抽取方法对比 and their mentions without labeled text[J].Machine Learn- ing and Knowledge Discovery in Databases,2010,6323: Table 6 Performance comparison with other weakly super- 148-163 vised method 会 [2]ZHANG T,Regularized winnow methods J].Advance in 文中方法 文献[13]方法 Neural Information Processing Systems,2001(13):703- 关系 准确率召回率F值 准确率召回率F值 709. [3]KAMBHATLA N.Combining lexical,syntactic and semantic 创建时间 72 11.9 20.6 47 99 55.1 features with maximum entropy models for extracting rela- 国籍 84 84.6 84.3 0.02 99 0.03 tions[C]//Proceedings of the ACL,2004 on Interactive 27.542.866.670.2 Poster and Demonstration Sessions.Barcelona,Spain, 出生年月96 68.4 2004:178-181. 所属地区98 95.396.6 37.7 99 54.6 [4]TRATZ S,HOVY E.ISI:automatic classification of rela- 通过表6的实验结果可以看出,现有弱监督学 tions between nominals using a maximum entropy classifier 习的关系抽取系统获得较高的召回率,然而,关系预 [C]//Proceedings of the 5th International Workshop on Semantic Evaluation.Uppsala,Sweden,2010:222-225. 测的准确率非常低,这是由于没有关系词语的约束 [5]ZELENKO D,AONE C.RICHARDELLA A.Kernel meth- 会导致关系识别错误。尤其在“国籍”关系抽取中, ods for relation extraction [J].Machine Learning,2003 句子中人名和地名共现的情况非常多,而仅有较少 (3):1083-1106. 的句子表达国籍关系。文中方法的准确率普遍较 [6]GIULIANO C,LAVELLI A,PIGHIN D,et al.FBK-IRST: 高,而且“国籍”关系和“所属地区”关系抽取也取得 Kernel methods for semantic relation extraction[C]//Pro- ceedings of the 4th Interational Workshop on Semantic E. 了较高的召回率,总体抽取性能优于现有弱监督学 valuations (SemEval-2007).Prague,Czech,2007:141- 习的关系抽取方法。此外,对于简单句子的抽取效 144 果较好,复杂句子或长句子的抽取效果不好。分词、 [7]程显毅,朱倩.未定义类型的关系抽取的半监督学习框 词性标注、实体标注等自然语言预处理错误对于关 架研究[J].南京大学学报:自然科学版,2012,48(4): 系抽取性能也会产生影响。 466-474. CHENG Xianyi,ZHU Qian.A study of relation extraction of 结束语 undefined relation type based on semi-supervised leaming framework[]].Journal of Nanjing University:Natural Sci- 文中提出了一种弱监督学习的关系抽取方法框 ences,.2012,48(4):466-474
源 种关系抽取中袁创建时间关系的准确率和召回率 均较低袁这是由于句子中的关系主体渊类型为 灶贼冤或 关系客体渊类型为 贼冤不唯一袁例如大学机构往往有 子机构渊如院系等冤 袁以子机构的创建时间作为关系 客体则会造成错误遥 表 缘摇 与未优化训练语料的关系抽取方法对比 栽葬遭造藻 缘摇 孕藻则枣燥则皂葬灶糟藻 糟燥皂责葬则蚤泽燥灶 憎蚤贼澡 贼澡藻 皂藻贼澡燥凿 燥枣 怎灶鄄 燥责贼蚤皂蚤扎藻凿 贼则葬蚤灶蚤灶早 糟燥则责怎泽摇 豫 关系 文中方法 未优化训练语料 准确率 召回率 云 值 准确率 召回率 云 值 创建时间 苑圆 员员援怨 圆园援远 远愿 愿援愿 员缘援远 国籍 愿源 愿源援远 愿源援猿 怨愿 苑圆援员 愿猿援员 出生年月 怨远 圆苑援缘 源圆援愿 怨远 猿猿援源 源怨援远 所属地区 怨愿 怨缘援猿 怨远援远 怨愿 苑苑援猿 愿远援源 摇 摇 现有弱监督学习的关系抽取框架是将关系抽取 看做一个分类问题袁首先利用实体对获取训练语料袁 然后训练分类器袁从测试文本集的句子中提取实体 对袁利用分类器对实体对进行关系预测遥 文中与文 献咱员猿暂的方法进行对比袁对比结果如表 远遥 表 远摇 与其他弱监督学习的关系抽取方法对比 栽葬遭造藻 远摇 孕藻则枣燥则皂葬灶糟藻 糟燥皂责葬则蚤泽燥灶 憎蚤贼澡 燥贼澡藻则 憎藻葬噪造赠 泽怎责藻则鄄 增蚤泽藻凿 皂藻贼澡燥凿 豫 关系 文中方法 文献咱员猿暂方法 准确率 召回率 云 值 准确率 召回率 云 值 创建时间 苑圆 员员援怨 圆园援远 源苑 怨怨 缘缘援员 国籍 愿源 愿源援远 愿源援猿 园援园圆 怨怨 园援园猿 出生年月 怨远 圆苑援缘 源圆援愿 远远援远 苑园援圆 远愿援源 所属地区 怨愿 怨缘援猿 怨远援远 猿苑援苑 怨怨 缘源援远 摇 摇 通过表 远 的实验结果可以看出袁现有弱监督学 习的关系抽取系统获得较高的召回率袁然而袁关系预 测的准确率非常低袁这是由于没有关系词语的约束 会导致关系识别错误遥 尤其在野国籍冶关系抽取中袁 句子中人名和地名共现的情况非常多袁而仅有较少 的句子表达国籍关系遥 文中方法的准确率普遍较 高袁而且野国籍冶关系和野所属地区冶关系抽取也取得 了较高的召回率袁总体抽取性能优于现有弱监督学 习的关系抽取方法遥 此外袁对于简单句子的抽取效 果较好袁复杂句子或长句子的抽取效果不好遥 分词尧 词性标注尧实体标注等自然语言预处理错误对于关 系抽取性能也会产生影响遥 源摇 结束语 文中提出了一种弱监督学习的关系抽取方法框 架袁该方法从中文网络百科条目半结构化的信息盒 中提取关系三元组构建知识库袁利用关系三元组对 百科文本中进行回标袁包含实体对和关系词语的句 子成为关系抽取的训练语料袁该方法有效解决了训 练语料自动构建的问题遥 针对训练语料较为稀疏从 而导致特征不足的问题袁提出了 遭燥燥贼泽贼则葬责责蚤灶早 的训 练语料优化方法袁该方法以已标注的训练语料为正 例袁以部分未标注数据为反例袁训练贝叶斯分类器袁 然后从未标注数据中提取新的正例袁补充训练语料 的不足遥 对于分类器特征提取问题袁论文提出一种 词和词性组合的 灶 鄄早则葬皂 特征袁从正例和反例的句子 中分别提取词语和词性组合的 员 辕 圆 辕 猿鄄早则葬皂 作为特 征袁训练分类器遥 实验结果表明优化训练语料能够 提升关系抽取的性能遥 利用关系词语对训练语料和 测试语料进行约束袁与仅利用实体对共现获取的训 练语料进行关系抽取相比袁抽取准确率有了显著提 高遥 参考文献院 咱员暂 砸陨耘阅耘蕴 杂袁 再粤韵 蕴袁 酝悦悦粤蕴蕴哉酝 粤援 酝燥凿藻造蚤灶早 则藻造葬贼蚤燥灶泽 葬灶凿 贼澡藻蚤则 皂藻灶贼蚤燥灶泽 憎蚤贼澡燥怎贼 造葬遭藻造藻凿 贼藻曾贼咱 允暂援 酝葬糟澡蚤灶藻 蕴藻葬则灶鄄 蚤灶早 葬灶凿 运灶燥憎造藻凿早藻 阅蚤泽糟燥增藻则赠 蚤灶 阅葬贼葬遭葬泽藻泽袁 圆园员园袁 远猿圆猿院 员源愿鄄员远猿援 咱圆暂 在匀粤晕郧 栽袁 砸藻早怎造葬则蚤扎藻凿 憎蚤灶灶燥憎 皂藻贼澡燥凿泽 咱 允暂援 粤凿增葬灶糟藻 蚤灶 晕藻怎则葬造 陨灶枣燥则皂葬贼蚤燥灶 孕则燥糟藻泽泽蚤灶早 杂赠泽贼藻皂泽袁 圆园园员 渊 员猿 冤 院 苑园猿鄄 苑园怨援 咱猿暂运粤酝月匀粤栽蕴粤 晕援 悦燥皂遭蚤灶蚤灶早 造藻曾蚤糟葬造袁 泽赠灶贼葬糟贼蚤糟 葬灶凿 泽藻皂葬灶贼蚤糟 枣藻葬贼怎则藻泽 憎蚤贼澡 皂葬曾蚤皂怎皂 藻灶贼则燥责赠 皂燥凿藻造泽 枣燥则 藻曾贼则葬糟贼蚤灶早 则藻造葬鄄 贼蚤燥灶泽咱 悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 粤悦蕴袁 圆园园源 燥灶 陨灶贼藻则葬糟贼蚤增藻 孕燥泽贼藻则 葬灶凿 阅藻皂燥灶泽贼则葬贼蚤燥灶 杂藻泽泽蚤燥灶泽援 月葬则糟藻造燥灶葬袁 杂责葬蚤灶袁 圆园园源院 员苑愿鄄员愿员援 咱源暂 栽砸粤栽在 杂袁 匀韵灾再 耘援 陨杂陨院 葬怎贼燥皂葬贼蚤糟 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 燥枣 则藻造葬鄄 贼蚤燥灶泽 遭藻贼憎藻藻灶 灶燥皂蚤灶葬造泽 怎泽蚤灶早 葬 皂葬曾蚤皂怎皂 藻灶贼则燥责赠 糟造葬泽泽蚤枣蚤藻则 咱悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 缘贼澡 陨灶贼藻则灶葬贼蚤燥灶葬造 宰燥则噪泽澡燥责 燥灶 杂藻皂葬灶贼蚤糟 耘增葬造怎葬贼蚤燥灶援 哉责责泽葬造葬袁 杂憎藻凿藻灶袁 圆园员园院 圆圆圆鄄圆圆缘援 咱缘暂在耘蕴耘晕运韵 阅袁 粤韵晕耘 悦袁 砸陨悦匀粤砸阅耘蕴蕴粤 粤援 运藻则灶藻造 皂藻贼澡鄄 燥凿泽 枣燥则 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 咱 允 暂援 酝葬糟澡蚤灶藻 蕴藻葬则灶蚤灶早袁 圆园园猿 渊猿冤 院员园愿猿鄄员员园远援 咱远暂郧陨哉蕴陨粤晕韵 悦袁 蕴粤灾耘蕴蕴陨 粤袁 孕陨郧匀陨晕 阅袁 藻贼 葬造援 云月运鄄陨砸杂栽院 运藻则灶藻造 皂藻贼澡燥凿泽 枣燥则 泽藻皂葬灶贼蚤糟 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶咱 悦暂 辕 辕 孕则燥鄄 糟藻藻凿蚤灶早泽 燥枣 贼澡藻 源贼澡 陨灶贼藻则灶葬贼蚤燥灶葬造 宰燥则噪泽澡燥责 燥灶 杂藻皂葬灶贼蚤糟 耘鄄 增葬造怎葬贼蚤燥灶泽 渊 杂藻皂耘增葬造鄄圆园园苑冤援 孕则葬早怎藻袁 悦扎藻糟澡袁 圆园园苑院 员源员鄄 员源源援 咱苑暂程显毅袁 朱倩援 未定义类型的关系抽取的半监督学习框 架研究咱允暂援 南京大学学报院自然科学版袁 圆园员圆袁 源愿渊 源冤 院 源远远鄄源苑源援 悦匀耘晕郧 载蚤葬灶赠蚤袁 在匀哉 匝蚤葬灶援 粤 泽贼怎凿赠 燥枣 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 燥枣 怎灶凿藻枣蚤灶藻凿 则藻造葬贼蚤燥灶 贼赠责藻 遭葬泽藻凿 燥灶 泽藻皂蚤鄄泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶早 枣则葬皂藻憎燥则噪咱 允暂援 允燥怎则灶葬造 燥枣 晕葬灶躁蚤灶早 哉灶蚤增藻则泽蚤贼赠院 晕葬贼怎则葬造 杂糟蚤鄄 藻灶糟藻泽袁 圆园员圆袁 源愿渊源冤 院 源远远鄄源苑源援 窑员员愿窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 员园 卷
第1期 贾真,等:基于弱监督学习的中文网络百科关系抽取 ·119· [8]BOLLEGALA D,MATSUO Y,ISHIZUKA M.Relational [19]田久乐,赵蔚.基于同义词词林的词语相似度计算方法 duality:unsupervised extraction of semantic relations be- [J].吉林大学学报:自然科学版,2010,28(6):602- tween entities on the Web[C]//Proceedings of the 19th 608. World Wide Web Conference.New York,2010:151-160. TIAN Jiule,ZHAO Wei.Words similarity algorithm based [9]YAN Y.OKACAKI N.MATSUO Y.et al.Unsupervised on Tongyici Cilin in semantic Web adaptive learning system relation extraction by mining Wikipedia texts using informa- [J].Journal of Jilin University:Inform ation Science Edi- tion from the Web[C]//Proceedings of the Joint Confer- ti0n,2010.28(6):602-608. ence of the 46th Annual Meeting of the ACL and the 4th In- [20]张雪英,闾国年.基于字面相似度的地理信息分类体系 ternational Joint Conference on Natural Language Processing 自动转换方法[J].遥感学报,2008,12(3):433-440. of the AFNLP.Singapore,2009:1021-1029. ZHANG Xueying,LU Guonian.Approach to automatic [10]CRAVEN M,KUMLIEN J.Constructing biological knowl- conversion of geographic information classification schemes edge bases by extracting information from text sources [J].Journal of Remote Sensing,2008,12(3):433-440. [C]//Proceedings of the 7th International Conference on [21]LAFFERTY J,PEREIRA F,MCCALUM A.Conditional Intelligent Systems for Molecular Biology.Palo Alto,CA. random fields:probabilistic models for segmenting and la- 1999::77-86. beling sequence data[C]//Proceedings of 18th Interna- [11]WU F,DANIEL S W.Autonomously semantifying wikipe- tional Conference on Machine Learning.San Francisco: dia[C]//Proceedings of the ACM Sixteenth Conference AAAI Press,2001:282-289. on Information and Knowledge Management.New York, [22]张佳宝.基于条件随机场的中文命名实体识别研究 2007:41.50. [D].长沙:国防科技大学,2010:45-59. [12]BUNESCU R C,MOONEY R J.Learning to extract rela- ZHANG Jiabao.The research on conditional random fields tions from the web using minimal supervision[C]//Pro- based Chinese named entity recognition[D].Changsha: ceedings of the 45th Annual Meeting of the Association for National University of Defense Technology,2010:45-59. Computational Linguistics.Stroudsburg,2007:567-570. 作者简介: [13]MINTZ M,BILIS S,SNOW R.Distant supervision for re- 贾真,1975年生,女,讲师,主要研 lation extraction without labeled data [C]//Proceedings 究方向为内容安全、信息抽取、知识工 of the 47th Annual Meeting of the Association for Computa- 程。四川省计算机学会大数据专委会 tional Linguistics.Stroudsburg,2009:1003-1011. 委员,中国计算机学会中文信息技术专 [14]YAO LM,RIEDEL S,MCAALLUM A.Collective cross 委会委员。 document relation extraction without labeled data[C]// Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,2010:1013- 1023. 何大可,1944年生,男,教授,博士 [15]SURDANU M,MCCLOSKY D,TIBSHIRANI J,et al.A 生导师,中国密码学会副理事长,学术 simple distant supervision approach for the TAC-KBP slot 委员会委员,信息安全国家重点实验室 filling task [C]//Proceedings of the Text Analysis Confer- 第四届学术委员会委员,全国并行计算 ence 2010-Knowledge Base Population Worksho.[s.I.], 专业委员会委员,中国电子学会高级会 2010:1-5 员。主要研究方向为信息安全、内容安 [16]陈立玮,冯岩松,赵东岩.基于弱监督学习的海量网络 数据关系抽取[J].计算机研究与发展,2013,50(9): 全、并行计算。曾获陕西省及国家教委科技进步二等奖、国 1825-1835. 家自然科学四等奖发表学术论文240余篇,出版专著3部。 CHEN Liwei,FENG Yansong,ZHAO Dongyan.Extracting relations from the web via weakly supervised leaming[J] Journal of Computer Research and Development,2013,50 杨燕,1964年生,女,教授,博士生 (9):1825-1835. 导师,博士,主要研究方向为数据挖掘 [17]尹红风,贾真,李天瑞,等.西南交通大学中文分词 计算智能、集成学习。ACM成都分部副 [EB/OL].[2012-07-24].http://ics.swjtu.edu.cn. 主席,中国计算机学会人工智能与模式 YIN Hongfeng,JIA Zhen,LI Tianrui,et al.Southwest 识别专委会委员和理论计算机科学专 Jiaotong University Chinese Segmentation EB/OL]. 委会委员,中国人工智能学会机器学习 [2012-07-24].http://ics.swjtu.edu.cn. 专委会委员和粗糙集与软计算专委会 [18]CHE W X,LI Z H,LIU T.LTP:a Chinese language 委员。曾获四川省优秀教学成果二等奖,校优秀教学成果 technology platform[C]//Proceedings of the Coling 2010. 一、二等奖,发表学术论文120余篇,出版专著1部。 [s.1.],2010:13-16
咱愿暂 月韵蕴蕴耘郧粤蕴粤 阅袁 酝粤栽杂哉韵 再袁 陨杂匀陨在哉运粤 酝援 砸藻造葬贼蚤燥灶葬造 凿怎葬造蚤贼赠院 怎灶泽怎责藻则增蚤泽藻凿 藻曾贼则葬糟贼蚤燥灶 燥枣 泽藻皂葬灶贼蚤糟 则藻造葬贼蚤燥灶泽 遭藻鄄 贼憎藻藻灶 藻灶贼蚤贼蚤藻泽 燥灶 贼澡藻 宰藻遭 咱 悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 员怨贼澡 宰燥则造凿 宰蚤凿藻 宰藻遭 悦燥灶枣藻则藻灶糟藻援 晕藻憎 再燥则噪袁 圆园员园院 员缘员鄄员远园援 咱怨暂 再粤晕 再袁 韵运粤悦粤运陨 晕袁 酝粤栽杂哉韵 再袁 藻贼 葬造援 哉灶泽怎责藻则增蚤泽藻凿 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 遭赠 皂蚤灶蚤灶早 宰蚤噪蚤责藻凿蚤葬 贼藻曾贼泽 怎泽蚤灶早 蚤灶枣燥则皂葬鄄 贼蚤燥灶 枣则燥皂 贼澡藻 宰藻遭 咱 悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 允燥蚤灶贼 悦燥灶枣藻则鄄 藻灶糟藻 燥枣 贼澡藻 源远贼澡 粤灶灶怎葬造 酝藻藻贼蚤灶早 燥枣 贼澡藻 粤悦蕴 葬灶凿 贼澡藻 源贼澡 陨灶鄄 贼藻则灶葬贼蚤燥灶葬造 允燥蚤灶贼 悦燥灶枣藻则藻灶糟藻 燥灶 晕葬贼怎则葬造 蕴葬灶早怎葬早藻 孕则燥糟藻泽泽蚤灶早 燥枣 贼澡藻 粤云晕蕴孕援 杂蚤灶早葬责燥则藻袁 圆园园怨院 员园圆员鄄员园圆怨援 咱员园暂悦砸粤灾耘晕 酝袁 运哉酝蕴陨耘晕 允援 悦燥灶泽贼则怎糟贼蚤灶早 遭蚤燥造燥早蚤糟葬造 噪灶燥憎造鄄 藻凿早藻 遭葬泽藻泽 遭赠 藻曾贼则葬糟贼蚤灶早 蚤灶枣燥则皂葬贼蚤燥灶 枣则燥皂 贼藻曾贼 泽燥怎则糟藻泽 咱悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 苑贼澡 陨灶贼藻则灶葬贼蚤燥灶葬造 悦燥灶枣藻则藻灶糟藻 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽 枣燥则 酝燥造藻糟怎造葬则 月蚤燥造燥早赠援 孕葬造燥 粤造贼燥袁 悦粤袁 员怨怨怨院 苑苑鄄愿远援 咱员员暂宰哉 云袁 阅粤晕陨耘蕴 杂 宰援 粤怎贼燥灶燥皂燥怎泽造赠 泽藻皂葬灶贼蚤枣赠蚤灶早 憎蚤噪蚤责藻鄄 凿蚤葬咱 悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 粤悦酝 杂蚤曾贼藻藻灶贼澡 悦燥灶枣藻则藻灶糟藻 燥灶 陨灶枣燥则皂葬贼蚤燥灶 葬灶凿 运灶燥憎造藻凿早藻 酝葬灶葬早藻皂藻灶贼援 晕藻憎 再燥则噪袁 圆园园苑院 源员鄄缘园援 咱员圆暂 月哉晕耘杂悦哉 砸 悦袁 酝韵韵晕耘再 砸 允援 蕴藻葬则灶蚤灶早 贼燥 藻曾贼则葬糟贼 则藻造葬鄄 贼蚤燥灶泽 枣则燥皂 贼澡藻 憎藻遭 怎泽蚤灶早 皂蚤灶蚤皂葬造 泽怎责藻则增蚤泽蚤燥灶 咱 悦暂 辕 辕 孕则燥鄄 糟藻藻凿蚤灶早泽 燥枣 贼澡藻 源缘贼澡 粤灶灶怎葬造 酝藻藻贼蚤灶早 燥枣 贼澡藻 粤泽泽燥糟蚤葬贼蚤燥灶 枣燥则 悦燥皂责怎贼葬贼蚤燥灶葬造 蕴蚤灶早怎蚤泽贼蚤糟泽援 杂贼则燥怎凿泽遭怎则早袁 圆园园苑院 缘远苑鄄缘苑园援 咱员猿暂酝陨晕栽在 酝袁 月陨蕴蕴杂 杂袁 杂晕韵宰 砸援 阅蚤泽贼葬灶贼 泽怎责藻则增蚤泽蚤燥灶 枣燥则 则藻鄄 造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 憎蚤贼澡燥怎贼 造葬遭藻造藻凿 凿葬贼葬 咱悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 源苑贼澡 粤灶灶怎葬造 酝藻藻贼蚤灶早 燥枣 贼澡藻 粤泽泽燥糟蚤葬贼蚤燥灶 枣燥则 悦燥皂责怎贼葬鄄 贼蚤燥灶葬造 蕴蚤灶早怎蚤泽贼蚤糟泽援 杂贼则燥怎凿泽遭怎则早袁 圆园园怨院 员园园猿鄄员园员员援 咱员源暂 再粤韵 蕴酝袁 砸陨耘阅耘蕴 杂袁 酝悦粤粤蕴蕴哉酝 粤援 悦燥造造藻糟贼蚤增藻 糟则燥泽泽 凿燥糟怎皂藻灶贼 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 憎蚤贼澡燥怎贼 造葬遭藻造藻凿 凿葬贼葬 咱 悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 圆园员园 悦燥灶枣藻则藻灶糟藻 燥灶 耘皂责蚤则蚤糟葬造 酝藻贼澡燥凿泽 蚤灶 晕葬贼怎则葬造 蕴葬灶早怎葬早藻 孕则燥糟藻泽泽蚤灶早援 杂贼则燥怎凿泽遭怎则早袁 圆园员园院 员园员猿鄄 员园圆猿援 咱员缘暂 杂哉砸阅粤晕哉 酝袁 酝悦悦蕴韵杂运再 阅袁 栽陨月杂匀陨砸粤晕陨 允袁 藻贼 葬造援 粤 泽蚤皂责造藻 凿蚤泽贼葬灶贼 泽怎责藻则增蚤泽蚤燥灶 葬责责则燥葬糟澡 枣燥则 贼澡藻 栽粤悦鄄运月孕 泽造燥贼 枣蚤造造蚤灶早 贼葬泽噪 咱悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 栽藻曾贼 粤灶葬造赠泽蚤泽 悦燥灶枣藻则鄄 藻灶糟藻 圆园员园鄄运灶燥憎造藻凿早藻 月葬泽藻 孕燥责怎造葬贼蚤燥灶 宰燥则噪泽澡燥援 咱 泽援 造援暂 袁 圆园员园院员鄄缘援 咱员远暂陈立玮袁 冯岩松袁 赵东岩援 基于弱监督学习的海量网络 数据关系抽取咱允暂援 计算机研究与发展袁 圆园员猿袁 缘园渊 怨冤 院 员愿圆缘鄄员愿猿缘援 悦匀耘晕 蕴蚤憎藻蚤袁 云耘晕郧 再葬灶泽燥灶早袁 在匀粤韵 阅燥灶早赠葬灶援 耘曾贼则葬糟贼蚤灶早 则藻造葬贼蚤燥灶泽 枣则燥皂 贼澡藻 憎藻遭 增蚤葬 憎藻葬噪造赠 泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶早咱 允暂援 允燥怎则灶葬造 燥枣 悦燥皂责怎贼藻则 砸藻泽藻葬则糟澡 葬灶凿 阅藻增藻造燥责皂藻灶贼袁 圆园员猿袁 缘园 渊怨冤 院 员愿圆缘鄄员愿猿缘援 咱员苑暂尹红风袁 贾真袁 李天瑞袁 等援 西南交通大学中文分词 咱耘月 辕 韵蕴暂援 咱圆园员圆鄄园苑鄄圆源暂援 澡贼贼责院 辕 辕 蚤糟泽援泽憎躁贼怎援藻凿怎援糟灶援 再陨晕 匀燥灶早枣藻灶早袁 允陨粤 在澡藻灶袁 蕴陨 栽蚤葬灶则怎蚤袁 藻贼 葬造援 杂燥怎贼澡憎藻泽贼 允蚤葬燥贼燥灶早 哉灶蚤增藻则泽蚤贼赠 悦澡蚤灶藻泽藻 杂藻早皂藻灶贼葬贼蚤燥灶 咱 耘月 辕 韵蕴 暂援 咱圆园员圆鄄园苑鄄圆源暂援 澡贼贼责院 辕 辕 蚤糟泽援泽憎躁贼怎援藻凿怎援糟灶援 咱员愿暂 悦匀耘 宰 载袁 蕴陨 在 匀袁 蕴陨哉 栽援 蕴栽孕院 葬 悦澡蚤灶藻泽藻 造葬灶早怎葬早藻 贼藻糟澡灶燥造燥早赠 责造葬贼枣燥则皂咱 悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 悦燥造蚤灶早 圆园员园援 咱 泽援造援暂 袁 圆园员园院 员猿鄄员远援 咱员怨暂田久乐袁 赵蔚援 基于同义词词林的词语相似度计算方法 咱允暂援 吉林大学学报院 自然科学版袁 圆园员园袁 圆愿渊 远冤 院 远园圆鄄 远园愿援 栽陨粤晕 允蚤怎造藻袁 在匀粤韵 宰藻蚤援 宰燥则凿泽 泽蚤皂蚤造葬则蚤贼赠 葬造早燥则蚤贼澡皂 遭葬泽藻凿 燥灶 栽燥灶早赠蚤糟蚤 悦蚤造蚤灶 蚤灶 泽藻皂葬灶贼蚤糟 宰藻遭 葬凿葬责贼蚤增藻 造藻葬则灶蚤灶早 泽赠泽贼藻皂 咱允暂援 允燥怎则灶葬造 燥枣 允蚤造蚤灶 哉灶蚤增藻则泽蚤贼赠院 陨灶枣燥则皂 葬贼蚤燥灶 杂糟蚤藻灶糟藻 耘凿蚤鄄 贼蚤燥灶袁 圆园员园袁 圆愿渊远冤 院 远园圆鄄远园愿援 咱圆园暂张雪英袁 闾国年援 基于字面相似度的地理信息分类体系 自动转换方法咱允暂援遥感学报袁 圆园园愿袁 员圆渊猿冤 院 源猿猿鄄源源园援 在匀粤晕郧 载怎藻赠蚤灶早袁 蕴哉 郧怎燥灶蚤葬灶援 粤责责则燥葬糟澡 贼燥 葬怎贼燥皂葬贼蚤糟 糟燥灶增藻则泽蚤燥灶 燥枣 早藻燥早则葬责澡蚤糟 蚤灶枣燥则皂葬贼蚤燥灶 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 泽糟澡藻皂藻泽 咱 允暂援 允燥怎则灶葬造 燥枣 砸藻皂燥贼藻 杂藻灶泽蚤灶早袁 圆园园愿袁 员圆渊猿冤 院 源猿猿鄄源源园援 咱圆员暂 蕴粤云云耘砸栽再 允袁 孕耘砸耘陨砸粤 云袁 酝悦悦粤蕴哉酝 粤援 悦燥灶凿蚤贼蚤燥灶葬造 则葬灶凿燥皂 枣蚤藻造凿泽院 责则燥遭葬遭蚤造蚤泽贼蚤糟 皂燥凿藻造泽 枣燥则 泽藻早皂藻灶贼蚤灶早 葬灶凿 造葬鄄 遭藻造蚤灶早 泽藻择怎藻灶糟藻 凿葬贼葬 咱 悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 员愿贼澡 陨灶贼藻则灶葬鄄 贼蚤燥灶葬造 悦燥灶枣藻则藻灶糟藻 燥灶 酝葬糟澡蚤灶藻 蕴藻葬则灶蚤灶早援 杂葬灶 云则葬灶糟蚤泽糟燥院 粤粤粤陨 孕则藻泽泽袁 圆园园员院 圆愿圆鄄圆愿怨援 咱圆圆暂张佳宝援 基于条件随机场的中文命名实体识别研究 咱阅暂援 长沙院国防科技大学袁 圆园员园院源缘鄄缘怨援 在匀粤晕郧 允蚤葬遭葬燥援 栽澡藻 则藻泽藻葬则糟澡 燥灶 糟燥灶凿蚤贼蚤燥灶葬造 则葬灶凿燥皂 枣蚤藻造凿泽 遭葬泽藻凿 悦澡蚤灶藻泽藻 灶葬皂藻凿 藻灶贼蚤贼赠 则藻糟燥早灶蚤贼蚤燥灶 咱 阅暂援 悦澡葬灶早泽澡葬院 晕葬贼蚤燥灶葬造 哉灶蚤增藻则泽蚤贼赠 燥枣 阅藻枣藻灶泽藻 栽藻糟澡灶燥造燥早赠袁 圆园员园院 源缘鄄缘怨援 作者简介院 贾真袁 员怨苑缘 年生袁女袁讲师袁主要研 究方向为内容安全尧信息抽取尧知识工 程遥 四川省计算机学会大数据专委会 委员袁中国计算机学会中文信息技术专 委会委员遥 何大可袁 员怨源源 年生袁男袁教授袁博士 生导师袁中国密码学会副理事长尧学术 委员会委员袁信息安全国家重点实验室 第四届学术委员会委员袁全国并行计算 专业委员会委员袁中国电子学会高级会 员遥 主要研究方向为信息安全尧内容安 全尧并行计算遥 曾获陕西省及国家教委科技进步二等奖尧国 家自然科学四等奖发表学术论文 圆源园余篇袁出版专著 猿 部遥 员员怨窑 杨燕袁 员怨远源 年生袁女袁教授袁博士生 导师袁博士袁主要研究方向为数据挖掘尧 计算智能尧集成学习遥 粤悦酝 成都分部副 主席袁中国计算机学会人工智能与模式 识别专委会委员和理论计算机科学专 委会委员袁中国人工智能学会机器学习 专委会委员和粗糙集与软计算专委会 委员遥 曾获四川省优秀教学成果二等奖袁校优秀教学成果 一尧二等奖袁发表学术论文 员圆园 余篇袁出版专著 员 部遥 第 员 期摇摇摇摇摇摇摇摇摇摇摇摇摇 贾真袁等院基于弱监督学习的中文网络百科关系抽取 窑