正在加载图片...
·118 智能系统学报 第10卷 4种关系抽取中,创建时间关系的准确率和召回率 架,该方法从中文网络百科条目半结构化的信息盒 均较低,这是由于句子中的关系主体(类型为t)或 中提取关系三元组构建知识库,利用关系三元组对 关系客体(类型为t)不唯一,例如大学机构往往有 百科文本中进行回标,包含实体对和关系词语的句 子机构(如院系等),以子机构的创建时间作为关系 子成为关系抽取的训练语料,该方法有效解决了训 客体则会造成错误。 练语料自动构建的问题。针对训练语料较为稀疏从 表5与未优化训练语料的关系抽取方法对比 而导致特征不足的问题,提出了bootstrapping的训 Table 5 Performance comparison with the method of un- 练语料优化方法,该方法以已标注的训练语料为正 optimized training corpus o 例,以部分未标注数据为反例,训练贝叶斯分类器, 文中方法 未优化训练语料 然后从未标注数据中提取新的正例,补充训练语料 关系 准确率召回率F值 准确率召回率F值 的不足。对于分类器特征提取问题,论文提出一种 之 词和词性组合的n-am特征,从正例和反例的句子 创建时间 11.9 20.6 68 8.8 15.6 中分别提取词语和词性组合的1/2/3-gram作为特 国籍 84 84.6 84.3 98 72.1 83.1 征,训练分类器。实验结果表明优化训练语料能够 出生年月96 27.5 42.8 96 33.4 49.6 提升关系抽取的性能。利用关系词语对训练语料和 所属地区 98 95.3 96.6 98 77.3 86.4 测试语料进行约束,与仅利用实体对共现获取的训 现有弱监督学习的关系抽取框架是将关系抽取 练语料进行关系抽取相比,抽取准确率有了显著提 看做一个分类问题,首先利用实体对获取训练语料, 高。 然后训练分类器,从测试文本集的句子中提取实体 参考文献: 对,利用分类器对实体对进行关系预测。文中与文 献[13]的方法进行对比,对比结果如表6。 [1]RIEDEL S,YAO L,MCCALLUM A.Modeling relations 表6与其他弱监督学习的关系抽取方法对比 and their mentions without labeled text[J].Machine Learn- ing and Knowledge Discovery in Databases,2010,6323: Table 6 Performance comparison with other weakly super- 148-163 vised method 会 [2]ZHANG T,Regularized winnow methods J].Advance in 文中方法 文献[13]方法 Neural Information Processing Systems,2001(13):703- 关系 准确率召回率F值 准确率召回率F值 709. [3]KAMBHATLA N.Combining lexical,syntactic and semantic 创建时间 72 11.9 20.6 47 99 55.1 features with maximum entropy models for extracting rela- 国籍 84 84.6 84.3 0.02 99 0.03 tions[C]//Proceedings of the ACL,2004 on Interactive 27.542.866.670.2 Poster and Demonstration Sessions.Barcelona,Spain, 出生年月96 68.4 2004:178-181. 所属地区98 95.396.6 37.7 99 54.6 [4]TRATZ S,HOVY E.ISI:automatic classification of rela- 通过表6的实验结果可以看出,现有弱监督学 tions between nominals using a maximum entropy classifier 习的关系抽取系统获得较高的召回率,然而,关系预 [C]//Proceedings of the 5th International Workshop on Semantic Evaluation.Uppsala,Sweden,2010:222-225. 测的准确率非常低,这是由于没有关系词语的约束 [5]ZELENKO D,AONE C.RICHARDELLA A.Kernel meth- 会导致关系识别错误。尤其在“国籍”关系抽取中, ods for relation extraction [J].Machine Learning,2003 句子中人名和地名共现的情况非常多,而仅有较少 (3):1083-1106. 的句子表达国籍关系。文中方法的准确率普遍较 [6]GIULIANO C,LAVELLI A,PIGHIN D,et al.FBK-IRST: 高,而且“国籍”关系和“所属地区”关系抽取也取得 Kernel methods for semantic relation extraction[C]//Pro- ceedings of the 4th Interational Workshop on Semantic E. 了较高的召回率,总体抽取性能优于现有弱监督学 valuations (SemEval-2007).Prague,Czech,2007:141- 习的关系抽取方法。此外,对于简单句子的抽取效 144 果较好,复杂句子或长句子的抽取效果不好。分词、 [7]程显毅,朱倩.未定义类型的关系抽取的半监督学习框 词性标注、实体标注等自然语言预处理错误对于关 架研究[J].南京大学学报:自然科学版,2012,48(4): 系抽取性能也会产生影响。 466-474. CHENG Xianyi,ZHU Qian.A study of relation extraction of 结束语 undefined relation type based on semi-supervised leaming framework[]].Journal of Nanjing University:Natural Sci- 文中提出了一种弱监督学习的关系抽取方法框 ences,.2012,48(4):466-474.源 种关系抽取中袁创建时间关系的准确率和召回率 均较低袁这是由于句子中的关系主体渊类型为 灶贼冤或 关系客体渊类型为 贼冤不唯一袁例如大学机构往往有 子机构渊如院系等冤 袁以子机构的创建时间作为关系 客体则会造成错误遥 表 缘摇 与未优化训练语料的关系抽取方法对比 栽葬遭造藻 缘摇 孕藻则枣燥则皂葬灶糟藻 糟燥皂责葬则蚤泽燥灶 憎蚤贼澡 贼澡藻 皂藻贼澡燥凿 燥枣 怎灶鄄 燥责贼蚤皂蚤扎藻凿 贼则葬蚤灶蚤灶早 糟燥则责怎泽摇 豫 关系 文中方法 未优化训练语料 准确率 召回率 云 值 准确率 召回率 云 值 创建时间 苑圆 员员援怨 圆园援远 远愿 愿援愿 员缘援远 国籍 愿源 愿源援远 愿源援猿 怨愿 苑圆援员 愿猿援员 出生年月 怨远 圆苑援缘 源圆援愿 怨远 猿猿援源 源怨援远 所属地区 怨愿 怨缘援猿 怨远援远 怨愿 苑苑援猿 愿远援源 摇 摇 现有弱监督学习的关系抽取框架是将关系抽取 看做一个分类问题袁首先利用实体对获取训练语料袁 然后训练分类器袁从测试文本集的句子中提取实体 对袁利用分类器对实体对进行关系预测遥 文中与文 献咱员猿暂的方法进行对比袁对比结果如表 远遥 表 远摇 与其他弱监督学习的关系抽取方法对比 栽葬遭造藻 远摇 孕藻则枣燥则皂葬灶糟藻 糟燥皂责葬则蚤泽燥灶 憎蚤贼澡 燥贼澡藻则 憎藻葬噪造赠 泽怎责藻则鄄 增蚤泽藻凿 皂藻贼澡燥凿 豫 关系 文中方法 文献咱员猿暂方法 准确率 召回率 云 值 准确率 召回率 云 值 创建时间 苑圆 员员援怨 圆园援远 源苑 怨怨 缘缘援员 国籍 愿源 愿源援远 愿源援猿 园援园圆 怨怨 园援园猿 出生年月 怨远 圆苑援缘 源圆援愿 远远援远 苑园援圆 远愿援源 所属地区 怨愿 怨缘援猿 怨远援远 猿苑援苑 怨怨 缘源援远 摇 摇 通过表 远 的实验结果可以看出袁现有弱监督学 习的关系抽取系统获得较高的召回率袁然而袁关系预 测的准确率非常低袁这是由于没有关系词语的约束 会导致关系识别错误遥 尤其在野国籍冶关系抽取中袁 句子中人名和地名共现的情况非常多袁而仅有较少 的句子表达国籍关系遥 文中方法的准确率普遍较 高袁而且野国籍冶关系和野所属地区冶关系抽取也取得 了较高的召回率袁总体抽取性能优于现有弱监督学 习的关系抽取方法遥 此外袁对于简单句子的抽取效 果较好袁复杂句子或长句子的抽取效果不好遥 分词尧 词性标注尧实体标注等自然语言预处理错误对于关 系抽取性能也会产生影响遥 源摇 结束语 文中提出了一种弱监督学习的关系抽取方法框 架袁该方法从中文网络百科条目半结构化的信息盒 中提取关系三元组构建知识库袁利用关系三元组对 百科文本中进行回标袁包含实体对和关系词语的句 子成为关系抽取的训练语料袁该方法有效解决了训 练语料自动构建的问题遥 针对训练语料较为稀疏从 而导致特征不足的问题袁提出了 遭燥燥贼泽贼则葬责责蚤灶早 的训 练语料优化方法袁该方法以已标注的训练语料为正 例袁以部分未标注数据为反例袁训练贝叶斯分类器袁 然后从未标注数据中提取新的正例袁补充训练语料 的不足遥 对于分类器特征提取问题袁论文提出一种 词和词性组合的 灶 鄄早则葬皂 特征袁从正例和反例的句子 中分别提取词语和词性组合的 员 辕 圆 辕 猿鄄早则葬皂 作为特 征袁训练分类器遥 实验结果表明优化训练语料能够 提升关系抽取的性能遥 利用关系词语对训练语料和 测试语料进行约束袁与仅利用实体对共现获取的训 练语料进行关系抽取相比袁抽取准确率有了显著提 高遥 参考文献院 咱员暂 砸陨耘阅耘蕴 杂袁 再粤韵 蕴袁 酝悦悦粤蕴蕴哉酝 粤援 酝燥凿藻造蚤灶早 则藻造葬贼蚤燥灶泽 葬灶凿 贼澡藻蚤则 皂藻灶贼蚤燥灶泽 憎蚤贼澡燥怎贼 造葬遭藻造藻凿 贼藻曾贼咱 允暂援 酝葬糟澡蚤灶藻 蕴藻葬则灶鄄 蚤灶早 葬灶凿 运灶燥憎造藻凿早藻 阅蚤泽糟燥增藻则赠 蚤灶 阅葬贼葬遭葬泽藻泽袁 圆园员园袁 远猿圆猿院 员源愿鄄员远猿援 咱圆暂 在匀粤晕郧 栽袁 砸藻早怎造葬则蚤扎藻凿 憎蚤灶灶燥憎 皂藻贼澡燥凿泽 咱 允暂援 粤凿增葬灶糟藻 蚤灶 晕藻怎则葬造 陨灶枣燥则皂葬贼蚤燥灶 孕则燥糟藻泽泽蚤灶早 杂赠泽贼藻皂泽袁 圆园园员 渊 员猿 冤 院 苑园猿鄄 苑园怨援 咱猿暂运粤酝月匀粤栽蕴粤 晕援 悦燥皂遭蚤灶蚤灶早 造藻曾蚤糟葬造袁 泽赠灶贼葬糟贼蚤糟 葬灶凿 泽藻皂葬灶贼蚤糟 枣藻葬贼怎则藻泽 憎蚤贼澡 皂葬曾蚤皂怎皂 藻灶贼则燥责赠 皂燥凿藻造泽 枣燥则 藻曾贼则葬糟贼蚤灶早 则藻造葬鄄 贼蚤燥灶泽咱 悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 粤悦蕴袁 圆园园源 燥灶 陨灶贼藻则葬糟贼蚤增藻 孕燥泽贼藻则 葬灶凿 阅藻皂燥灶泽贼则葬贼蚤燥灶 杂藻泽泽蚤燥灶泽援 月葬则糟藻造燥灶葬袁 杂责葬蚤灶袁 圆园园源院 员苑愿鄄员愿员援 咱源暂 栽砸粤栽在 杂袁 匀韵灾再 耘援 陨杂陨院 葬怎贼燥皂葬贼蚤糟 糟造葬泽泽蚤枣蚤糟葬贼蚤燥灶 燥枣 则藻造葬鄄 贼蚤燥灶泽 遭藻贼憎藻藻灶 灶燥皂蚤灶葬造泽 怎泽蚤灶早 葬 皂葬曾蚤皂怎皂 藻灶贼则燥责赠 糟造葬泽泽蚤枣蚤藻则 咱悦暂 辕 辕 孕则燥糟藻藻凿蚤灶早泽 燥枣 贼澡藻 缘贼澡 陨灶贼藻则灶葬贼蚤燥灶葬造 宰燥则噪泽澡燥责 燥灶 杂藻皂葬灶贼蚤糟 耘增葬造怎葬贼蚤燥灶援 哉责责泽葬造葬袁 杂憎藻凿藻灶袁 圆园员园院 圆圆圆鄄圆圆缘援 咱缘暂在耘蕴耘晕运韵 阅袁 粤韵晕耘 悦袁 砸陨悦匀粤砸阅耘蕴蕴粤 粤援 运藻则灶藻造 皂藻贼澡鄄 燥凿泽 枣燥则 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 咱 允 暂援 酝葬糟澡蚤灶藻 蕴藻葬则灶蚤灶早袁 圆园园猿 渊猿冤 院员园愿猿鄄员员园远援 咱远暂郧陨哉蕴陨粤晕韵 悦袁 蕴粤灾耘蕴蕴陨 粤袁 孕陨郧匀陨晕 阅袁 藻贼 葬造援 云月运鄄陨砸杂栽院 运藻则灶藻造 皂藻贼澡燥凿泽 枣燥则 泽藻皂葬灶贼蚤糟 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶咱 悦暂 辕 辕 孕则燥鄄 糟藻藻凿蚤灶早泽 燥枣 贼澡藻 源贼澡 陨灶贼藻则灶葬贼蚤燥灶葬造 宰燥则噪泽澡燥责 燥灶 杂藻皂葬灶贼蚤糟 耘鄄 增葬造怎葬贼蚤燥灶泽 渊 杂藻皂耘增葬造鄄圆园园苑冤援 孕则葬早怎藻袁 悦扎藻糟澡袁 圆园园苑院 员源员鄄 员源源援 咱苑暂程显毅袁 朱倩援 未定义类型的关系抽取的半监督学习框 架研究咱允暂援 南京大学学报院自然科学版袁 圆园员圆袁 源愿渊 源冤 院 源远远鄄源苑源援 悦匀耘晕郧 载蚤葬灶赠蚤袁 在匀哉 匝蚤葬灶援 粤 泽贼怎凿赠 燥枣 则藻造葬贼蚤燥灶 藻曾贼则葬糟贼蚤燥灶 燥枣 怎灶凿藻枣蚤灶藻凿 则藻造葬贼蚤燥灶 贼赠责藻 遭葬泽藻凿 燥灶 泽藻皂蚤鄄泽怎责藻则增蚤泽藻凿 造藻葬则灶蚤灶早 枣则葬皂藻憎燥则噪咱 允暂援 允燥怎则灶葬造 燥枣 晕葬灶躁蚤灶早 哉灶蚤增藻则泽蚤贼赠院 晕葬贼怎则葬造 杂糟蚤鄄 藻灶糟藻泽袁 圆园员圆袁 源愿渊源冤 院 源远远鄄源苑源援 窑员员愿窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 员园 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有