正在加载图片...
.1256 工程科学学报.第42卷,第10期 Knowledge Other knowledge bases applications Intelligent search Structured data Knowledge Knowledge combination reasoning Intelligent recommendation Semi- Entity extraction Question structured Entity Quality answering data disambiguation evaluation Relation extraction Unstructured Entity alignment data Attribute extraction Knowledge extraction Knowledge fusion Knowledge Data sources graph 图1知识图谐的技术架构 Fig.I Architecture of the Knowledge Graph 通过实体抽取获取的实体之间往往是离散且 的结果.最近的工作通过强化学习来处理句子级 无关联的.通过关系抽取,可以建立起实体间的语 的去噪,这种学习将来自远程监督的标签视为事 义链接.关系抽取技术主要分为3种:(1)基于模 实.然而,很少有工作专注于直接校正噪声标签的 板的关系抽取.使用模板通过人工或者机器学习 标签级降噪.Sun等o提出了一种基于强化学习 的方法抽取实体关系,虽然准确率高且针对性强, 的标签去噪方法,用于远程监督关系提取.该模型 但是其也具有不适用于大规模数据集、低召回 由两个模块组成:抽取网络和策略网络.标签去噪 率、难以维护等缺点.(2)基于监督学习的关系抽 的核心是在策略网络中设计一个策略来获取潜在 取.将大量人工标注的数据送入模型中训练,刘克 标签,可以在其中选择使用远距离监督标签或从 彬等24根据本体知识库训练模型,在开放数据集 抽取网络预测标签的操作.实验结果表明,强化学 中对关系进行抽取,取得了极高的准确率.Sun与 习对于噪声标签的校正是有效的,并且所提出的 Han提出了名为FTK(Feature-enriched tree kernel) 方法可以胜过最新的关系抽取系统 的模型,利用设计好的有效特征训练,计算关系实 属性抽取的目标是补全实体信息,通过从样 例相似度并通过支持向量机对关系进行分类.(3) 本源中获取实体属性信息或属性值.实体属性可 基于半监督或无监督学习的关系抽取.基于少量 以看作是属性值与实体间的一种关系,因而可以 人工标注数据或者无标注数据,使用最大期望 通过关系抽取的解决思路来获得.Wu与weld (Expectation maximization)等算法的半监督关系抽 利用百科类网站的半结构化数据,训练抽取模型, 取方法进行关系抽取.Sun与Grishman2提出名 之后将抽取模型应用在非结构化数据中抽取属 为LGCo-Testing的主动学习系统,Fu与Grishman7 性.Chang等B提出了基于张量分解的关系抽取 则进一步优化了这个系统.Ji等提出基于句子 方法,这一方法也可以应用在属性抽取中,通过利 级注意力和实体描述的神经网络关系抽取模型 用关于实体种类相应的领域知识来更好地获得实 APCNNS.该模型实际采用了多示例学习的策略, 体所缺少的属性值 将同一关系的样例句子组成样例包,关系分类是 2知识融合 基于样例包的特征进行的.实验结果表明,该模型 可以有效地提高远程监督关系抽取的准确率.在 通过知识抽取与表示,初步获得了数量可观 采用多示例学习策略时,有可能出现整个样例包 的形式化知识.由于知识来源的不同,导致知识的 都包含大量噪声的情况.针对这一问题,Feng等9, 质量参差不齐,知识之间存在着冲突或者重叠.此 提出了基于强化学习的关系分类模型CNN-RL 时初步建立的知识图谱,知识的数量和质量都有 Convolutional neural networks and reinforcement 待提高.应用知识融合技术对多源知识进行处理, learning),该模型包括2个重要模块:样例选择器 一方面提升知识图谱的质量,另一方面丰富知识 和关系分类器.实验结果表明:该模型获得了比句 的存量.Zhao等B]对最新的知识融合进行了综 子级卷积神经网络和样例包级关系分类模型更好 述.早期的知识融合是通过传统的数据融合方法通过实体抽取获取的实体之间往往是离散且 无关联的. 通过关系抽取,可以建立起实体间的语 义链接. 关系抽取技术主要分为 3 种:(1)基于模 板的关系抽取. 使用模板通过人工或者机器学习 的方法抽取实体关系,虽然准确率高且针对性强, 但是其也具有不适用于大规模数据集、低召回 率、难以维护等缺点. (2)基于监督学习的关系抽 取. 将大量人工标注的数据送入模型中训练,刘克 彬等[24] 根据本体知识库训练模型,在开放数据集 中对关系进行抽取,取得了极高的准确率. Sun 与 Han[25] 提出了名为 FTK(Feature-enriched tree kernel) 的模型,利用设计好的有效特征训练,计算关系实 例相似度并通过支持向量机对关系进行分类. (3) 基于半监督或无监督学习的关系抽取. 基于少量 人工标注数据或者无标注数据,使用最大期望 (Expectation maximization)等算法的半监督关系抽 取方法进行关系抽取. Sun 与 Grishman[26] 提出名 为 LGCo-Testing 的主动学习系统,Fu 与 Grishman[27] 则进一步优化了这个系统. Ji 等[28] 提出基于句子 级注意力和实体描述的神经网络关系抽取模型 APCNNS. 该模型实际采用了多示例学习的策略, 将同一关系的样例句子组成样例包,关系分类是 基于样例包的特征进行的. 实验结果表明,该模型 可以有效地提高远程监督关系抽取的准确率. 在 采用多示例学习策略时,有可能出现整个样例包 都包含大量噪声的情况. 针对这一问题,Feng 等[29] 提出了基于强化学习的关系分类模型 CNN-RL ( Convolutional neural networks and reinforcement learning),该模型包括 2 个重要模块:样例选择器 和关系分类器. 实验结果表明:该模型获得了比句 子级卷积神经网络和样例包级关系分类模型更好 的结果. 最近的工作通过强化学习来处理句子级 的去噪,这种学习将来自远程监督的标签视为事 实. 然而,很少有工作专注于直接校正噪声标签的 标签级降噪. Sun 等[30] 提出了一种基于强化学习 的标签去噪方法,用于远程监督关系提取. 该模型 由两个模块组成:抽取网络和策略网络. 标签去噪 的核心是在策略网络中设计一个策略来获取潜在 标签,可以在其中选择使用远距离监督标签或从 抽取网络预测标签的操作. 实验结果表明,强化学 习对于噪声标签的校正是有效的,并且所提出的 方法可以胜过最新的关系抽取系统. 属性抽取的目标是补全实体信息,通过从样 本源中获取实体属性信息或属性值. 实体属性可 以看作是属性值与实体间的一种关系,因而可以 通过关系抽取的解决思路来获得. Wu 与 Weld[31] 利用百科类网站的半结构化数据,训练抽取模型, 之后将抽取模型应用在非结构化数据中抽取属 性. Chang 等[32] 提出了基于张量分解的关系抽取 方法,这一方法也可以应用在属性抽取中,通过利 用关于实体种类相应的领域知识来更好地获得实 体所缺少的属性值. 2    知识融合 通过知识抽取与表示,初步获得了数量可观 的形式化知识. 由于知识来源的不同,导致知识的 质量参差不齐,知识之间存在着冲突或者重叠. 此 时初步建立的知识图谱,知识的数量和质量都有 待提高. 应用知识融合技术对多源知识进行处理, 一方面提升知识图谱的质量,另一方面丰富知识 的存量. Zhao 等[33] 对最新的知识融合进行了综 述. 早期的知识融合是通过传统的数据融合方法 Other knowledge bases Entity disambiguation Entity alignment Knowledge fusion Knowledge combination Knowledge reasoning Entity extraction Relation extraction Attribute extraction Knowledge extraction Quality evaluation Knowledge graph Structured data Semi￾structured data Unstructured data Data sources Knowledge applications Intelligent search Intelligent recommendation Question answering …… 图 1 知识图谱的技术架构 Fig.1 Architecture of the Knowledge Graph · 1256 · 工程科学学报,第 42 卷,第 10 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有