正在加载图片...
·114 智能系统学报 第10卷 的。如何能够监督最小化,即不使用人工标注或减 9次评测,2008年ACE评测改名为文本分析会议 少人工标注,也能构建高性能的关系抽取系统是当 (text analysis conference,TAC),从20O8年至今已经 前的研究热点。由于基于弱监督学习(weakly st- 举行了6次评测。ACE评测中关系抽取任务包括7 pervised learning)的关系抽取方法能够在较少人工 个大类关系和若干个子关系。实体关系抽取方法主 干预下、自动获取训练语料而受到了广泛的关注。 要有模式匹配的方法和机器学习的方法。在模式匹 基于弱监督学习的关系抽取框架依赖于一个某领域 配的方法中,模式的自动获取技术是研究的关键。 的知识库,从知识库中可以获取关系三元组,同时需 机器学习方法根据是否需要人工标注训练语料分为 要大量的文本集。从文本集中寻找含有关系实体对 有监督机器学习、半监督机器学习和无监督机器学 的句子,用来建立训练集,然后用这个训练集训练抽 习。有监督学习方法有特征向量的方法2和核函 取器,从测试文本集中抽取关系实例。现有方法都 数的方法[s6)。半监督学习方法以少量的关系实例 是自动抽取含有关系实体对的句子作为训练语料, 为种子,采用不断迭代的方法从未标注语料中抽取 这种利用实体对共现得到的训练语料很不可靠,例 可靠性较高的关系实例[)。无监督关系抽取主要 如,从知识库中获取关系三元组,〈鲁迅,国籍, 使用聚类方法[89,并为聚类后的簇赋予关系名称。 中国〉,从文本集中获取含有实体对(鲁迅,中国〉的 弱监督学习的关系抽取最早由Craven和Kum- 句子:“鲁迅以小说创作起家。1918年在《新青年》 lien提出[ao),用于从学术文献的摘要中抽取蛋白质 杂志发表的《狂人日记》是中国现代白话小说的开 与基因之间的关系。Wū等[山利用维基百科信息盒 山之作,影响深远”。这句话并没有表达鲁迅国籍 中结构化的(属性,属性值〉二元组对维基百科条目 是中国的关系。Riedel等)在纽约时报文本集中进 文本的句子进行回标,自动获取属性关系抽取训练 行统计,发现含有国籍关系实体对的句子中38%的 语料,并使用CRF模型为每个属性训练抽取器。 句子没有表达国籍这个关系,含有出生地关系实体 Bunescu等[]分别将具有关系的实体对正例和反例 对的句子中有35%的句子没有表达出生地关系。 作为查询请求,从搜索引擎查询结果中提取包含实 利用有噪声的训练语料训练模型会影响准确率,降 体对的句子作为训练语料。Mintz等fa)从Freebase 低抽取性能。为了提高训练语料的准确率,文中利 www.freebase.com中获取具有关系的实体对,从维基 用关系词语对训练语料进行约束,即句子中不仅要 百科条目文本中获取关系抽取的训练数据。Mintz 有实体对,还要有表达关系的词语。由于知识库中 的方法基于以下假设:如果2个实体之间存在某种 的关系实例数量有限,导致训练语料可能较少,存在 关系,那么所有含有实体对的句子都描述了这个关 特征不足的问题,文中利用训练语料训练句子分类 系。Yao等对Mimt也等u]提出的方法进行了改 器,并基于bootstrapping方法迭代地从未标注数据 进,把关系抽取和实体的种类综合考虑,利用实体的 中获取新的训练语料。最后利用CRF模型训练关 类别来过滤掉部分错误的关系。Riedel等认为 系抽取器。文中的主要贡献有: Mintz的假设过于严格,含有关系实体对的句子并不 1)与利用实体对获取训练语料相比,利用关系 一定表达了该关系。Riedel将Mintz的假设放松为: 三元组获取训练语料的质量有了明显提升; 如果2个实体之间存在某种关系,那么含有实体对 2)引入了句子分类器从未标注语料中提取新 的句子中至少有一个句子描述了该关系。Surdeanu 的训练语料,缓解了训练语料不足问题; 等[)基于弱监督学习对TAC-KBP进行属性模板填 3)以互动百科信息盒中的关系实例作为知识 充,先将维基百科信息盒中的半结构化信息映射至 库,互动百科条目文本作为训练文本集和测试文本 KBP结构化的属性模板,再从语料中获取包含实例 集进行实验,验证了文中方法的有效性。 名和属性值二元组的句子作为训练语料。陈立玮和 相关工作 冯岩松等16从互动百科信息盒中获取实体对,从新 闻数据中获取训练语料,提出了bootstrapping思想 实体关系抽取研究始于信息理解会议(message 的协同训练方法来对弱监督关系抽取模型进行强 understanding conference,MUC)。I998年最后一次 化,并提出了将传统特征与n-gram特征相结合进行 MUC-7上首次提出了关系抽取任务。在MUC-7之 协同训练的方法。 后,MUC被自动内容抽取(automatic content extrac. 2 弱监督学习的关系抽取方法 tion,ACE)评测所取代。ACE由美国国家标准技术 研究院NIST组织,从1999年至2008年已经举办过 弱监督学习的关系抽取框架包括3个重要的因的遥 如何能够监督最小化袁即不使用人工标注或减 少人工标注袁也能构建高性能的关系抽取系统是当 前的研究热点遥 由于基于弱监督学习渊 憎藻葬噪造赠 泽怎鄄 责藻则增蚤泽藻凿 造藻葬则灶蚤灶早冤的关系抽取方法能够在较少人工 干预下尧自动获取训练语料而受到了广泛的关注遥 基于弱监督学习的关系抽取框架依赖于一个某领域 的知识库袁从知识库中可以获取关系三元组袁同时需 要大量的文本集遥 从文本集中寻找含有关系实体对 的句子袁用来建立训练集袁然后用这个训练集训练抽 取器袁从测试文本集中抽取关系实例遥 现有方法都 是自动抽取含有关系实体对的句子作为训练语料袁 这种利用实体对共现得到的训练语料很不可靠袁例 如袁从知识库中获取关系三元组袁 掖 鲁 迅袁 国 籍袁 中国业 袁从文本集中获取含有实体对掖鲁迅袁中国业的 句子院野鲁迅以小说创作起家遥 员怨员愿 年在叶新青年曳 杂志发表的叶狂人日记曳是中国现代白话小说的开 山之作袁影响深远冶 遥 这句话并没有表达鲁迅国籍 是中国的关系遥 砸蚤藻凿藻造 等咱员暂在纽约时报文本集中进 行统计袁发现含有国籍关系实体对的句子中 猿愿豫的 句子没有表达国籍这个关系袁含有出生地关系实体 对的句子中有 猿缘豫的句子没有表达出生地关系遥 利用有噪声的训练语料训练模型会影响准确率袁降 低抽取性能遥 为了提高训练语料的准确率袁文中利 用关系词语对训练语料进行约束袁即句子中不仅要 有实体对袁还要有表达关系的词语遥 由于知识库中 的关系实例数量有限袁导致训练语料可能较少袁存在 特征不足的问题袁文中利用训练语料训练句子分类 器袁并基于 遭燥燥贼泽贼则葬责责蚤灶早 方法迭代地从未标注数据 中获取新的训练语料遥 最后利用 悦砸云 模型训练关 系抽取器遥 文中的主要贡献有院 员冤 与利用实体对获取训练语料相比袁利用关系 三元组获取训练语料的质量有了明显提升曰 圆冤 引入了句子分类器从未标注语料中提取新 的训练语料袁缓解了训练语料不足问题曰 猿冤 以互动百科信息盒中的关系实例作为知识 库袁互动百科条目文本作为训练文本集和测试文本 集进行实验袁验证了文中方法的有效性遥 员摇 相关工作 实体关系抽取研究始于信息理解会议渊 皂藻泽泽葬早藻 怎灶凿藻则泽贼葬灶凿蚤灶早 糟燥灶枣藻则藻灶糟藻袁 酝哉悦冤 遥 员怨怨愿 年最后一次 酝哉悦鄄苑 上首次提出了关系抽取任务遥 在 酝哉悦鄄苑 之 后袁酝哉悦 被自动内容抽取渊 葬怎贼燥皂葬贼蚤糟 糟燥灶贼藻灶贼 藻曾贼则葬糟鄄 贼蚤燥灶袁 粤悦耘冤评测所取代遥 粤悦耘 由美国国家标准技术 研究院 晕陨杂栽 组织袁从 员怨怨怨 年至 圆园园愿 年已经举办过 怨 次评测袁圆园园愿 年 粤悦耘 评测改名为文本分析会议 渊贼藻曾贼 葬灶葬造赠泽蚤泽 糟燥灶枣藻则藻灶糟藻袁栽粤悦冤 袁从 圆园园愿 年至今已经 举行了 远 次评测遥 粤悦耘 评测中关系抽取任务包括 苑 个大类关系和若干个子关系遥 实体关系抽取方法主 要有模式匹配的方法和机器学习的方法遥 在模式匹 配的方法中袁模式的自动获取技术是研究的关键遥 机器学习方法根据是否需要人工标注训练语料分为 有监督机器学习尧半监督机器学习和无监督机器学 习遥 有监督学习方法有特征向量的方法咱圆鄄源暂 和核函 数的方法咱缘鄄远暂 遥 半监督学习方法以少量的关系实例 为种子袁采用不断迭代的方法从未标注语料中抽取 可靠性较高的关系实例咱苑暂 遥 无监督关系抽取主要 使用聚类方法咱愿鄄怨暂 袁并为聚类后的簇赋予关系名称遥 弱监督学习的关系抽取最早由 悦则葬增藻灶 和 运怎皂鄄 造蚤藻灶 提出咱员园暂 袁用于从学术文献的摘要中抽取蛋白质 与基因之间的关系遥 宰怎 等咱员员暂利用维基百科信息盒 中结构化的掖属性袁属性值业二元组对维基百科条目 文本的句子进行回标袁自动获取属性关系抽取训练 语料袁并使用 悦砸云 模型为每个属性训练抽取器遥 月怎灶藻泽糟怎 等咱员圆暂分别将具有关系的实体对正例和反例 作为查询请求袁从搜索引擎查询结果中提取包含实 体对的句子作为训练语料遥 酝蚤灶贼扎 等咱员猿暂 从 云则藻藻遭葬泽藻 憎憎憎援枣则藻藻遭葬泽藻援糟燥皂 中获取具有关系的实体对袁从维基 百科条目文本中获取关系抽取的训练数据遥 酝蚤灶贼扎 的方法基于以下假设院如果 圆 个实体之间存在某种 关系袁那么所有含有实体对的句子都描述了这个关 系遥 再葬燥 等咱员源暂 对 酝蚤灶贼扎 等咱员猿暂 提出的方法进行了改 进袁把关系抽取和实体的种类综合考虑袁利用实体的 类别来过滤掉部分错误的关系遥 砸蚤藻凿藻造 等咱员暂 认为 酝蚤灶贼扎 的假设过于严格袁含有关系实体对的句子并不 一定表达了该关系遥 砸蚤藻凿藻造 将 酝蚤灶贼扎 的假设放松为院 如果 圆 个实体之间存在某种关系袁那么含有实体对 的句子中至少有一个句子描述了该关系遥 杂怎则凿藻葬灶怎 等咱员缘暂基于弱监督学习对 栽粤悦鄄运月孕 进行属性模板填 充袁先将维基百科信息盒中的半结构化信息映射至 运月孕 结构化的属性模板袁再从语料中获取包含实例 名和属性值二元组的句子作为训练语料遥 陈立玮和 冯岩松等咱员远暂从互动百科信息盒中获取实体对袁从新 闻数据中获取训练语料袁提出了 遭燥燥贼泽贼则葬责责蚤灶早 思想 的协同训练方法来对弱监督关系抽取模型进行强 化袁并提出了将传统特征与 灶鄄 早则葬皂 特征相结合进行 协同训练的方法遥 圆摇 弱监督学习的关系抽取方法 弱监督学习的关系抽取框架包括 猿 个重要的因 窑员员源窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 员园 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有