HIT-SCIR 大纲 绪论 面向句子级的开放式实体关系抽取 面向互联网的开放式实体关系抽取 开放式实体关系类型体系自动构建 论 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 大纲 ◼ 绪论 ◼ 面向句子级的开放式实体关系抽取 ◼ 面向互联网的开放式实体关系抽取 ◼ 开放式实体关系类型体系自动构建 ◼ 结论
HIT-SCIR 绪论 问题的提出 。预先定义关系类恐局限 人工定义,类型入 。实体关系往往Open词描述 关系指示词 此次爱zm 女战士,就是华人女星李冰冰饰演的 艾达·王。 媒体试图联系徐妈妈求证,但电话一直处于人工秘书台状态,汪 小菲妈妈张兰也始终拒接电话。 三元组识别 a(李冰冰,饰演,艾达王) a(汪小菲,妈妈,张兰) 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 绪论 ◼ 问题的提出 ⚫ 预先定义关系类型局限性 ◼ 人工定义,类型少,限定域,移植性差 ⚫ 实体关系往往由上下文中的关系指示词描述 ◼ 关系指示词主要是动词和名词 ⚫ 此次爱丽丝的身边多了一位女战士,就是华人女星李冰冰饰演的 艾达·王。 ⚫ 媒体试图联系徐妈妈求证,但电话一直处于人工秘书台状态,汪 小菲妈妈张兰也始终拒接电话 。 ⚫ 三元组识别 ◼ (李冰冰,饰演,艾达·王) ◼ (汪小菲,妈妈,张兰) Open IE
HIT-SCIR 绪论 研究内容 句子 大规模网络文本 ↓ 第2章 第3章 面向句子的开放式中文实面向互联网的开放式中文实 关系三元 体关系抽取 体关系抽取 组 第5章 第4章 开放式关系抽取平台 关系类型体系自动构建 关系类型 体系 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 绪论 ◼ 研究内容 第2章 面向句子的开放式中文实 体关系抽取 第3章 面向互联网的开放式中文实 体关系抽取 第4章 关系类型体系自动构建 关系类型 体系 句子 大规模网络文本 关系三元 组 第5章 开放式关系抽取平台
HIT-SCIR 大纲 绪论 面向句子级的开放式实体关系抽取 面向互联网的开放式实体关系抽取 开放式实体关系类型体系自动构建 论 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 大纲 ◼ 绪论 ◼ 面向句子级的开放式实体关系抽取 ◼ 面向互联网的开放式实体关系抽取 ◼ 开放式实体关系类型体系自动构建 ◼ 结论
(R HIT-SCIR 面向句子级的开放式实体关系抽取 基于有指导的机器学习方法 。语料预处理 。语料分析 。先识别实体对的方法 先识别关系指示词的方法 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 面向句子级的开放式实体关系抽取 ◼ 基于有指导的机器学习方法 ⚫ 语料预处理 ⚫ 语料分析 ⚫ 先识别实体对的方法 ⚫ 先识别关系指示词的方法
HIT-SCIR 基于有指导的机器学习方法 语料以及预处理 。 Ontonotes40中选取1000篇文本 分词、命名实体、共指关系、实体关系 使用ltp工具对其进行词性标注 正例(包含关系的实体对)3656个,反例(不包含关系)95401个 。过滤反例 利用共指关系 。如果两个实体存在共指,那么这两个实体不存在实体关系 正例3656个,反例86323个 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(1) ◼ 语料以及预处理 ⚫ Ontonotes4.0中选取1000篇文本 ◼ 分词、命名实体、共指关系、实体关系 ◼ 使用ltp工具对其进行词性标注 ◼ 正例(包含关系的实体对)3656个,反例(不包含关系)95401个 ⚫ 过滤反例 ◼ 利用共指关系 ⚫ 如果两个实体存在共指,那么这两个实体不存在实体关系 ◼ 正例3656个,反例86323个
HIT-SCIR 基于有指导的机器学习方法(2) 语料分析 936%的关系实例存在关系指示词 使用三元组来描述一个关系实例是可行的 其中大部分关系指示词在两个实体中间或者右边 占有关系指示词实例的9594 哈尔滨工业大学RG校长nwo王树国p 梁朝伟P是刘嘉玲PR的老公 o 尝试了两种不同的方法 。先识别实体对的方法 。先识别关系指示词的方法 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(2) ◼ 语料分析 ⚫ 93.6%的关系实例存在关系指示词 ◼ 使用三元组来描述一个关系实例是可行的 ◼ 其中大部分关系指示词在两个实体中间或者右边 ⚫ 占有关系指示词实例的95.94% ⚫ 哈尔滨工业大学校长王树国。 ⚫ 梁朝伟是刘嘉玲的老公。 ◼ 尝试了两种不同的方法 ⚫ 先识别实体对的方法 ⚫ 先识别关系指示词的方法
(RMT.scin 基于有指导的机器学习方法(3) n先识别实体对的方法 最大熵模型判断实体之间是否有关系 特征 实体类型 PER LOC. ORG. TIME 实体的词序列(特征泛化) feature(哈尔滨工业大学)={哈尔滨,工业,大学} 。实体上下文的词性 。CRF模型识别关系指示词 如果实体对存在关系,使用该模型识别关系指示词 特征 词、词性、是否是实体 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(3) ◼ 先识别实体对的方法 ⚫ 最大熵模型判断实体之间是否有关系 ◼ 特征 ⚫ 实体类型 ◼ PER, LOC, ORG, TIME ⚫ 实体的词序列(特征泛化) ◼ Feature(哈尔滨工业大学) = {哈尔滨,工业,大学} ⚫ 实体上下文的词性 ⚫ CRF模型识别关系指示词 ◼ 如果实体对存在关系,使用该模型识别关系指示词 ◼ 特征 ⚫ 词、词性、是否是实体
( R HIT-SCIR 习近平 习近平 中华人民共和国中央军事委员会 中华人民共和国中央军事委员会 胡锦涛 胡锦涛 特征集合} 特征集 特征集合} 特征抽取 实体对过滤 习近平 中华人民共和国中央军事委员会 习近平当选为中华人民共和国中央率事委员会主席,与胡锦特征集合 实体识别 识别关系指 习近平 习近平当选为中华人民共和国中央军事委员生中华人民共和国中央军事委员会 主席 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。 习近平 胡锦涛 {特征集合} 中华人民共和国中央军事委员会 胡锦涛 {特征集合} 实体识别 特征抽取 实体对过滤 识别关系指 示词 习近平当选为中华人民共和国中央军事委员会主席,与胡锦涛亲切握手。 习近平 中华人民共和国中央军事委员会 {特征集合} 习近平 中华人民共和国中央军事委员会 主席 习近平 中华人民共和国中央军事委员会 {特征集合}
HIT-SCIR 基于有指导的机器学习方法(4) 先识别实体对方法的实验结果 最大熵模型判断实体之间是否有关系 类别准确率(%)召回率(%)F值(%) CR存在关系 21 31 两 不存在关系 98 评测标准准确率(%)召回率(%F值(%) 评测标准准确率(%)召回率(%)F值(%) 标注结果 47.10 15.32 哈工大社会计算与信息检索研究中心
哈工大社会计算与信息检索研究中心 基于有指导的机器学习方法(4) ◼ 先识别实体对方法的实验结果 ⚫ 最大熵模型判断实体之间是否有关系 ◼ 训练数据不平衡导致正例召回率低 ⚫ CRF模型识别关系指示词 ⚫ 两步级联后的实验结果 类别 准确率(%) 召回率(%) F值(%) 存在关系 62 21 31 不存在关系 96 99 98 评测标准 准确率(%) 召回率(%) F值(%) 标注结果 评测标准 准确率(75.98%) 召回率(72.96%) F值(74.44%) 标注结果 47.10 15.32 23.12