正在加载图片...
第1期 贾真,等:基于弱监督学习的中文网络百科关系抽取 ·115 素:知识库、训练语料和抽取模型。 分支层节点总数和分支间隔。为了避免语义漂移, 2.1知识库 文中仅计算第5层分支词语间的语义相似度。例 互动百科是目前最大的中文网络百科之一,互 如,“创建”的同义词为“创立、开创、创始、创建、创 动百科的部分条目中,存在人工创建的信息盒,信息 办”等,“时间”的同义词为“时间、时刻、时日、工夫、 盒中包含了大量半结构化的关系三元组。例如,从 日子、光阴”等。将扩展后的这些同义词组合成为 互动百科条目“西南交通大学”信息盒中能够获取 新的关系关键词,例如“创立时间、开创时刻”等。 关系三元组(西南交通大学,创建时间,1896年〉。 同义词词典的关系关键词获取受到词典规模的限 其中,“西南交通大学”是关系主体,“1896年”是关 制,无法对未登录词进行同义扩展。因此,在提取训 系客体,创建时间为关系词语。经统计发现,互动百 练语料时,若某一含有关系实体对的句子中某词语 科信息盒中的关系名称是统一定义的,具有较好的 与关系关键词的字面相似度[20]大于45%,该词语成 唯一性和标识性。文中利用互动百科信息盒获取关 为关系关键词,该句子成为训练数据。 系三元组,构造知识库。信息盒是半结构化信息,某 从知识库中提取关系三元组〈西南交通大学, 些关系有多个客体(如“知名校友”一栏中有多个人 创建时间,1896年〉,百科文本集中有一个包含西南 名),某些关系的客体不是实体词,而是1个句子 交通大学和1896年的句子,该句子同时包含关系关 (如“校训”),因此需要对其进行结构化处理。由于 键词“创建”,如图1所示。提取该句子作为“创建 实体关系抽取依赖于命名实体识别,因此只提取主 时间”关系的训练语料。 体和客体是命名实体的关系。对于1个关系具有多 西南交通大学 个客体的情况,例如“知名校友”信息盒中的内容 为:林同炎,刘大同,张维。分别组成3个关系三元 技信 西两风大 组:〈西南交通大学,知名校友,刘大同〉、〈西南交通 大学,知名校友,林同炎)和〈西南交通大学,知名校 西离交通大学创建于1©6年,时将山海关北心洋铁路 宫学堂,是我国的力最早的离等学府之一,也是中国 友,张维〉。 土木工程和文通工程高等教高的策源地。 2.2训练语料 图1从文本集中获取训练数据 2.2.1训练语料自动获取 Fig.1 Training data acquisition from texts 现有弱监督学习的关系抽取框架是利用关系实 2.2.2基于句子分类器的训练语料优化 体对从文本中获取训练语料的,然而,包含实体对的 与人工标注的可靠的训练语料不同,由于自然 句子有时并不是关系描述语句。基于实体对的共现 语言预处理错误或知识库中的关系客体在文本中不 自动建立起来的训练语料中有大量的噪声,正确的 存在,就会导致错误和遗漏的标注。特别是由于知 训练语料并不多。为了提高训练语料的准确率,假 识库中的关系实例数量较少时,自动获取的训练语 设关系描述语句中通常以某个特定的关系关键词为 料数量较少,许多测试数据中的特征在训练语料中 核心,例如,“所属地区”关系的表达可能为“位于 很少出现甚至不存在。文中将已标注的训练语料作 处于、属于”等。“创建时间”关系的表达可能为“创 为正例,从未标注数据中提取部分数据作为反例,采 立、创建、成立”等。知识库中的关系名称是统一 用bootstapping方法训练分类器,然后对未标注数据 的,然而语句中对关系的表达有多种方式。如果直 进行分类,标注为正例的数据作为新的训练数据。 接匹配关系词语,会导致过低的召回率,因此,需要 一个分类器性能的优劣往往取决于选择的特征 将关系关键词进行同义扩展。 是否能够最大程度地表达不同类别的差异,选择恰 首先采用西南交通大学中文分词]对关系词 当的特征有助于学习到性能较好的分类器,实现不 语进行细粒度分词。例如,“创建时间”细粒度分词 同类别的最优划分。句子分类常用的特征包括词法 后为“创建”和“时间”2个词。然后分别对这2个 特征、句法特征和n-gam特征。词法特征由句子中 词语进行同义扩展。文中采用基于同义词词林1) 的词序列和词性序列构成,而句子中的语言描述过 的语义相似度计算扩展关系词语。语义相似度计算 于具体,很难在其他的句子中再次出现,导致严重的 采用田久乐等[提出的方法。该方法是根据词语 数据稀疏性问题,也使得训练出的模型缺乏泛化能 的义项在同义词词林的位置和编码计算出词语的语 力。句法特征从句子的依存句法分析结果中获取。 义相似度。满足相似度阈值的词语都视为同义词。 句法特征也存在词法特征中的数据稀疏性问题,并 词语相似度的值受到3个因素的制约:分支层系数、 且句法特征依赖于句法分析的效果,然而现有中文素院知识库尧训练语料和抽取模型遥 圆援员摇 知识库 互动百科是目前最大的中文网络百科之一袁互 动百科的部分条目中袁存在人工创建的信息盒袁信息 盒中包含了大量半结构化的关系三元组遥 例如袁从 互动百科条目野西南交通大学冶信息盒中能够获取 关系三元组掖西南交通大学袁创建时间袁员愿怨远 年业 遥 其中袁野西南交通大学冶是关系主体袁野员愿怨远 年冶是关 系客体袁创建时间为关系词语遥 经统计发现袁互动百 科信息盒中的关系名称是统一定义的袁具有较好的 唯一性和标识性遥 文中利用互动百科信息盒获取关 系三元组袁构造知识库遥 信息盒是半结构化信息袁某 些关系有多个客体渊如野知名校友冶一栏中有多个人 名冤 袁某些关系的客体不是实体词袁而是 员 个句子 渊如野校训冶冤袁因此需要对其进行结构化处理遥 由于 实体关系抽取依赖于命名实体识别袁因此只提取主 体和客体是命名实体的关系遥 对于 员 个关系具有多 个客体的情况袁例如野知名校友冶 信息盒中的内容 为院林同炎袁刘大同袁张维遥 分别组成 猿 个关系三元 组院掖西南交通大学袁知名校友袁刘大同业尧掖西南交通 大学袁知名校友袁林同炎业和掖西南交通大学袁知名校 友袁张维业 遥 圆援圆摇 训练语料 圆援圆援员摇 训练语料自动获取 现有弱监督学习的关系抽取框架是利用关系实 体对从文本中获取训练语料的袁然而袁包含实体对的 句子有时并不是关系描述语句遥 基于实体对的共现 自动建立起来的训练语料中有大量的噪声袁正确的 训练语料并不多遥 为了提高训练语料的准确率袁假 设关系描述语句中通常以某个特定的关系关键词为 核心袁例如袁野所属地区冶 关系的表达可能为野位于尧 处于尧属于冶等遥 野创建时间冶关系的表达可能为野创 立尧创建尧成立冶 等遥 知识库中的关系名称是统一 的袁然而语句中对关系的表达有多种方式遥 如果直 接匹配关系词语袁会导致过低的召回率袁因此袁需要 将关系关键词进行同义扩展遥 首先采用西南交通大学中文分词咱员苑暂 对关系词 语进行细粒度分词遥 例如袁野创建时间冶细粒度分词 后为野创建冶和野时间冶 圆 个词遥 然后分别对这 圆 个 词语进行同义扩展遥 文中采用基于同义词词林咱员愿暂 的语义相似度计算扩展关系词语遥 语义相似度计算 采用田久乐等咱员怨暂 提出的方法遥 该方法是根据词语 的义项在同义词词林的位置和编码计算出词语的语 义相似度遥 满足相似度阈值的词语都视为同义词遥 词语相似度的值受到 猿 个因素的制约院分支层系数尧 分支层节点总数和分支间隔遥 为了避免语义漂移袁 文中仅计算第 缘 层分支词语间的语义相似度遥 例 如袁野创建冶的同义词为野创立尧开创尧创始尧创建尧创 办冶等袁野时间冶的同义词为野时间尧时刻尧时日尧工夫尧 日子尧光阴冶等遥 将扩展后的这些同义词组合成为 新的关系关键词袁例如野创立时间尧开创时刻冶 等遥 同义词词典的关系关键词获取受到词典规模的限 制袁无法对未登录词进行同义扩展遥 因此袁在提取训 练语料时袁若某一含有关系实体对的句子中某词语 与关系关键词的字面相似度咱圆园暂大于 源缘豫袁该词语成 为关系关键词袁该句子成为训练数据遥 从知识库中提取关系三元组掖西南交通大学袁 创建时间袁员愿怨远 年业 袁百科文本集中有一个包含西南 交通大学和 员愿怨远 年的句子袁该句子同时包含关系关 键词野创建冶 袁如图 员 所示遥 提取该句子作为野创建 时间冶关系的训练语料遥 图 员摇 从文本集中获取训练数据 云蚤早援员摇 栽则葬蚤灶蚤灶早 凿葬贼葬 葬糟择怎蚤泽蚤贼蚤燥灶 枣则燥皂 贼藻曾贼泽 圆援圆援圆摇 基于句子分类器的训练语料优化 与人工标注的可靠的训练语料不同袁由于自然 语言预处理错误或知识库中的关系客体在文本中不 存在袁就会导致错误和遗漏的标注遥 特别是由于知 识库中的关系实例数量较少时袁自动获取的训练语 料数量较少袁许多测试数据中的特征在训练语料中 很少出现甚至不存在遥 文中将已标注的训练语料作 为正例袁从未标注数据中提取部分数据作为反例袁采 用 遭燥燥贼泽贼葬责责蚤灶早 方法训练分类器袁然后对未标注数据 进行分类袁标注为正例的数据作为新的训练数据遥 一个分类器性能的优劣往往取决于选择的特征 是否能够最大程度地表达不同类别的差异袁选择恰 当的特征有助于学习到性能较好的分类器袁实现不 同类别的最优划分遥 句子分类常用的特征包括词法 特征尧句法特征和 灶 鄄早则葬皂 特征遥 词法特征由句子中 的词序列和词性序列构成袁而句子中的语言描述过 于具体袁很难在其他的句子中再次出现袁导致严重的 数据稀疏性问题袁也使得训练出的模型缺乏泛化能 力遥 句法特征从句子的依存句法分析结果中获取遥 句法特征也存在词法特征中的数据稀疏性问题袁并 且句法特征依赖于句法分析的效果袁然而现有中文 第 员 期摇摇摇摇摇摇摇摇摇摇摇摇摇 贾真袁等院基于弱监督学习的中文网络百科关系抽取 窑员员缘窑
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有