正在加载图片...
第10卷第1期 智能系统学报 Vol.10 No.1 2015年2月 CAAI Transactions on Intelligent Systems Feb.2015 D0I:10.10.3969/i.issn.1673-4785.201311017 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20150113.1130.008.html 基于弱监督学习的中文网络百科关系抽取 贾真,何大可,杨燕,杨宇飞,冶忠林 (西南交道大学信息科学与技术学院,四川成都610031) 摘要:实体关系抽取在信息检索、自动问答、本体学习等领域都具有重要作用。提出了基于弱监督学习的关系抽 取框架。首先利用知识库中已有结构化的关系三元组,从自然语言文本中自动获取训练语料:针对训练语料数量较 少导致特征不足的问题,采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法,从未标注数据中获取更多的 训练语料:然后利用条件随机场模型训练关系抽取器。实验结果表明所提方法的有效性,有现有方法相比,文中方 法获得较高的准确率。 关键词:知识获取;信息抽取:关系抽取:弱监督学习:自扩展:中文网络百科:条件随机场:朴素贝叶斯 中图分类号:TP391文献标志码:A文章编号:1673-4785(2015)01-0113-07 中文引用格式:贾真,何大可,杨燕,等.基于弱监督学习的中文网络百科关系抽取.智能系统学报,2015,10(1):113-119. 英文引用格式:JIA Zhen,HE Dake,YANG Yan,etal.Relation extraction from Chinese online encyclopedia based on weakly super- vised learnin[J].CAAI Transactions on Intelligent Systems,2015,1(6):113-119. Relation extraction from Chinese online encyclopedia based on weakly supervised learnin JIA Zhen,HE Dake,YANG Yan,YANG Yufei,YE Zhonglin School of Information and Science Technology,Southwest Jiaotong University,Chengdu 610031,China) Abstract:Entity relation extraction plays an important role in the fields of information retrieval,automatic question answering and ontology learning.An entity relation extraction frame based on weakly-supervised learning is proposed in the paper.First,training data are acquired automatically from natural language texts by using relation triples in structured knowledge base.To solve the problem that the number of training data is small and features are insuffi- cient,a bootstrapping method is used to train sentence classifiers based on naive Bayes model.This method can ac- quire more training data from unlabelled data.The relation extractors are trained by using conditional random fields (CRF)model.The experiment results showed that the method is feasible and effective.Compared with the existing methods state-of-the-art method,the proposed method achieves high accuracy. Keywords:knowledge acquisition;information extraction;relation extraction;weakly supervised learning;boot- strapping;Chinese online encyclopedia;conditional random fields;naive Bayes 实体关系抽取是自动构建知识库的基础,同时 定关系类型转向开放领域,数据源从标准语料库转 在自动问答、信息检索等多个领域具有重要的应用 向海量的网络数据,传统基于模式匹配和有监督统 价值。传统实体关系抽取方法主要有基于模式匹配 计机器学习的方法逐渐显示出局限性。由于开放领 或基于有监督的统计机器学习。随着关系抽取从限 域的关系类型数量巨大,不同关系的模式表现形式 多样,变化较大,在基于模式匹配的方法中,难以用 收稿日期:2013-11-07.网络出版日期:2015-01-13. 人工方式定义全部的模式。在基于有监督机器学习 基金项目:国家自然科学基金资助项目(61170111,61134002, 方法中,人工标注训练语料需要耗费大量的人力和 61202043.61262058) 通信作者:贾真.E-mail:zjia@home.swjtu.cdu.cm. 时间,面向海量的网络数据,人工标注几乎是不可能第 员园 卷第 员 期摇摇摇摇摇摇摇摇摇摇摇 摇摇摇 智 能 系 统 学 报摇摇摇摇摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 灾燥造援员园 翼援员 圆园员缘 年 圆 月摇摇摇摇摇摇摇摇摇摇摇 悦粤粤陨 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 摇 云藻遭援 圆园员缘 阅韵陨院员园援员园援猿怨远怨 辕 躁援蚤泽泽灶援员远苑猿鄄源苑愿缘援圆园员猿员员园员苑 网络出版地址院澡贼贼责院 辕 辕 憎憎憎援糟灶噪蚤援灶藻贼 辕 噪糟皂泽 辕 凿藻贼葬蚤造 辕 圆猿援员缘猿愿援栽孕援圆园员缘园员员猿援员员猿园援园园愿援澡贼皂造 基于弱监督学习的中文网络百科关系抽取 贾真袁何大可袁杨燕袁杨宇飞袁冶忠林 渊西南交通大学 信息科学与技术学院袁四川 成都 远员园园猿员冤 摘 要院实体关系抽取在信息检索尧自动问答尧本体学习等领域都具有重要作用遥 提出了基于弱监督学习的关系抽 取框架遥 首先利用知识库中已有结构化的关系三元组袁从自然语言文本中自动获取训练语料曰针对训练语料数量较 少导致特征不足的问题袁采用基于朴素贝叶斯的句子分类器和基于自扩展的训练方法袁从未标注数据中获取更多的 训练语料曰然后利用条件随机场模型训练关系抽取器遥 实验结果表明所提方法的有效性袁有现有方法相比袁文中方 法获得较高的准确率遥 关键词院知识获取曰信息抽取曰关系抽取曰弱监督学习曰自扩展曰中文网络百科曰条件随机场曰朴素贝叶斯 中图分类号院 栽孕猿怨员 摇 文献标志码院粤摇 文章编号院员远苑猿鄄源苑愿缘渊圆园员缘冤园员鄄园员员猿鄄园苑 中文引用格式院贾真袁何大可袁杨燕袁等援基于弱监督学习的中文网络百科关系抽取援 智能系统学报袁 圆园员缘袁 员园渊员冤 院 员员猿鄄员员怨援 英文引用格式院允陨粤 在澡藻灶袁匀耘 阅葬噪藻袁再粤晕郧 再葬灶袁藻贼 葬造援砸藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 枣则燥皂 悦澡蚤灶藻泽藻 燥灶造蚤灶藻 藻灶糟赠糟造燥责藻凿蚤葬 遭葬泽藻凿 燥灶 憎藻葬噪造赠 泽怎责藻则鄄 增蚤泽藻凿 造藻葬则灶蚤灶咱允暂援 悦粤粤陨 栽则葬灶泽葬糟贼蚤燥灶泽 燥灶 陨灶贼藻造造蚤早藻灶贼 杂赠泽贼藻皂泽袁 圆园员缘袁 员渊远冤 院 员员猿鄄员员怨援 砸藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 枣则燥皂 悦澡蚤灶藻泽藻 燥灶造蚤灶藻 藻灶糟赠糟造燥责藻凿蚤葬 遭葬泽藻凿 燥灶 憎藻葬噪造赠 泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶 允陨粤 在澡藻灶袁匀耘 阅葬噪藻袁再粤晕郧 再葬灶袁再粤晕郧 再怎枣藻蚤袁再耘 在澡燥灶早造蚤灶 渊 杂糟澡燥燥造 燥枣 陨灶枣燥则皂葬贼蚤燥灶 葬灶凿 杂糟蚤藻灶糟藻 栽藻糟澡灶燥造燥早赠袁 杂燥怎贼澡憎藻泽贼 允蚤葬燥贼燥灶早 哉灶蚤增藻则泽蚤贼赠袁 悦澡藻灶早凿怎 远员园园猿员袁 悦澡蚤灶葬冤 粤遭泽贼则葬糟贼院耘灶贼蚤贼赠 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 责造葬赠泽 葬灶 蚤皂责燥则贼葬灶贼 则燥造藻 蚤灶 贼澡藻 枣蚤藻造凿泽 燥枣 蚤灶枣燥则皂葬贼蚤燥灶 则藻贼则蚤藻增葬造袁 葬怎贼燥皂葬贼蚤糟 择怎藻泽贼蚤燥灶 葬灶泽憎藻则蚤灶早 葬灶凿 燥灶贼燥造燥早赠 造藻葬则灶蚤灶早援 粤灶 藻灶贼蚤贼赠 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 枣则葬皂藻 遭葬泽藻凿 燥灶 憎藻葬噪造赠鄄泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶早 蚤泽 责则燥责燥泽藻凿 蚤灶 贼澡藻 责葬责藻则援 云蚤则泽贼袁 贼则葬蚤灶蚤灶早 凿葬贼葬 葬则藻 葬糟择怎蚤则藻凿 葬怎贼燥皂葬贼蚤糟葬造造赠 枣则燥皂 灶葬贼怎则葬造 造葬灶早怎葬早藻 贼藻曾贼泽 遭赠 怎泽蚤灶早 则藻造葬贼蚤燥灶 贼则蚤责造藻泽 蚤灶 泽贼则怎糟贼怎则藻凿 噪灶燥憎造藻凿早藻 遭葬泽藻援 栽燥 泽燥造增藻 贼澡藻 责则燥遭造藻皂 贼澡葬贼 贼澡藻 灶怎皂遭藻则 燥枣 贼则葬蚤灶蚤灶早 凿葬贼葬 蚤泽 泽皂葬造造 葬灶凿 枣藻葬贼怎则藻泽 葬则藻 蚤灶泽怎枣枣蚤鄄 糟蚤藻灶贼袁 葬 遭燥燥贼泽贼则葬责责蚤灶早 皂藻贼澡燥凿 蚤泽 怎泽藻凿 贼燥 贼则葬蚤灶 泽藻灶贼藻灶糟藻 糟造葬泽泽蚤枣蚤藻则泽 遭葬泽藻凿 燥灶 灶葬蚤增藻 月葬赠藻泽 皂燥凿藻造援 栽澡蚤泽 皂藻贼澡燥凿 糟葬灶 葬糟鄄 择怎蚤则藻 皂燥则藻 贼则葬蚤灶蚤灶早 凿葬贼葬 枣则燥皂 怎灶造葬遭藻造造藻凿 凿葬贼葬援 栽澡藻 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼燥则泽 葬则藻 贼则葬蚤灶藻凿 遭赠 怎泽蚤灶早 糟燥灶凿蚤贼蚤燥灶葬造 则葬灶凿燥皂 枣蚤藻造凿泽 渊 悦砸云冤 皂燥凿藻造援 栽澡藻 藻曾责藻则蚤皂藻灶贼 则藻泽怎造贼泽 泽澡燥憎藻凿 贼澡葬贼 贼澡藻 皂藻贼澡燥凿 蚤泽 枣藻葬泽蚤遭造藻 葬灶凿 藻枣枣藻糟贼蚤增藻援 悦燥皂责葬则藻凿 憎蚤贼澡 贼澡藻 藻曾蚤泽贼蚤灶早 皂藻贼澡燥凿泽 泽贼葬贼藻鄄燥枣鄄贼澡藻鄄葬则贼 皂藻贼澡燥凿袁 贼澡藻 责则燥责燥泽藻凿 皂藻贼澡燥凿 葬糟澡蚤藻增藻泽 澡蚤早澡 葬糟糟怎则葬糟赠援 运藻赠憎燥则凿泽院噪灶燥憎造藻凿早藻 葬糟择怎蚤泽蚤贼蚤燥灶曰 蚤灶枣燥则皂葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶曰 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶曰 憎藻葬噪造赠 泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶早曰 遭燥燥贼鄄 泽贼则葬责责蚤灶早曰 悦澡蚤灶藻泽藻 燥灶造蚤灶藻 藻灶糟赠糟造燥责藻凿蚤葬曰 糟燥灶凿蚤贼蚤燥灶葬造 则葬灶凿燥皂 枣蚤藻造凿泽曰 灶葬蚤增藻 月葬赠藻泽 收稿日期院圆园员猿鄄员员鄄园苑援摇 网络出版日期院圆园员缘鄄园员鄄员猿援 基金 项 目院 国家自然科学基金资助项目 渊 远员员苑园员员员袁 远员员猿源园园圆袁 远员圆园圆园源猿袁 远员圆远圆园缘愿冤援 通信作者院贾真援耘鄄皂葬蚤造院扎躁蚤葬岳 澡燥皂藻援泽憎躁贼怎援藻凿怎援糟灶援 摇 摇 实体关系抽取是自动构建知识库的基础袁同时 在自动问答尧信息检索等多个领域具有重要的应用 价值遥 传统实体关系抽取方法主要有基于模式匹配 或基于有监督的统计机器学习遥 随着关系抽取从限 定关系类型转向开放领域袁数据源从标准语料库转 向海量的网络数据袁传统基于模式匹配和有监督统 计机器学习的方法逐渐显示出局限性遥 由于开放领 域的关系类型数量巨大袁不同关系的模式表现形式 多样袁变化较大袁在基于模式匹配的方法中袁难以用 人工方式定义全部的模式遥 在基于有监督机器学习 方法中袁人工标注训练语料需要耗费大量的人力和 时间袁面向海量的网络数据袁人工标注几乎是不可能
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有