素院知识库尧训练语料和抽取模型遥圆援员摇知识库互动百科是目前最大的中

正在加载图片...

第1期贾真，等：基于弱监督学习的中文网络百科关系抽取 ·115 素：知识库、训练语料和抽取模型。分支层节点总数和分支间隔。为了避免语义漂移， 2.1知识库文中仅计算第5层分支词语间的语义相似度。例互动百科是目前最大的中文网络百科之一，互如，“创建”的同义词为“创立、开创、创始、创建、创动百科的部分条目中，存在人工创建的信息盒，信息办”等，“时间”的同义词为“时间、时刻、时日、工夫、盒中包含了大量半结构化的关系三元组。例如，从日子、光阴”等。将扩展后的这些同义词组合成为互动百科条目“西南交通大学”信息盒中能够获取新的关系关键词，例如“创立时间、开创时刻”等。关系三元组（西南交通大学，创建时间，1896年〉。同义词词典的关系关键词获取受到词典规模的限其中，“西南交通大学”是关系主体，“1896年”是关制，无法对未登录词进行同义扩展。因此，在提取训系客体，创建时间为关系词语。经统计发现，互动百练语料时，若某一含有关系实体对的句子中某词语科信息盒中的关系名称是统一定义的，具有较好的与关系关键词的字面相似度[20]大于45%，该词语成唯一性和标识性。文中利用互动百科信息盒获取关为关系关键词，该句子成为训练数据。系三元组，构造知识库。信息盒是半结构化信息，某从知识库中提取关系三元组〈西南交通大学，些关系有多个客体（如“知名校友”一栏中有多个人创建时间，1896年〉，百科文本集中有一个包含西南名)，某些关系的客体不是实体词，而是1个句子交通大学和1896年的句子，该句子同时包含关系关 (如“校训”)，因此需要对其进行结构化处理。由于键词“创建”，如图1所示。提取该句子作为“创建实体关系抽取依赖于命名实体识别，因此只提取主时间”关系的训练语料。体和客体是命名实体的关系。对于1个关系具有多西南交通大学个客体的情况，例如“知名校友”信息盒中的内容为：林同炎，刘大同，张维。分别组成3个关系三元技信西两风大组：〈西南交通大学，知名校友，刘大同〉、〈西南交通大学，知名校友，林同炎)和〈西南交通大学，知名校西离交通大学创建于1©6年，时将山海关北心洋铁路宫学堂，是我国的力最早的离等学府之一，也是中国友，张维〉。土木工程和文通工程高等教高的策源地。 2.2训练语料图1从文本集中获取训练数据 2.2.1训练语料自动获取 Fig.1 Training data acquisition from texts 现有弱监督学习的关系抽取框架是利用关系实 2.2.2基于句子分类器的训练语料优化体对从文本中获取训练语料的，然而，包含实体对的与人工标注的可靠的训练语料不同，由于自然句子有时并不是关系描述语句。基于实体对的共现语言预处理错误或知识库中的关系客体在文本中不自动建立起来的训练语料中有大量的噪声，正确的存在，就会导致错误和遗漏的标注。特别是由于知训练语料并不多。为了提高训练语料的准确率，假识库中的关系实例数量较少时，自动获取的训练语设关系描述语句中通常以某个特定的关系关键词为料数量较少，许多测试数据中的特征在训练语料中核心，例如，“所属地区”关系的表达可能为“位于很少出现甚至不存在。文中将已标注的训练语料作处于、属于”等。“创建时间”关系的表达可能为“创为正例，从未标注数据中提取部分数据作为反例，采立、创建、成立”等。知识库中的关系名称是统一用bootstapping方法训练分类器，然后对未标注数据的，然而语句中对关系的表达有多种方式。如果直进行分类，标注为正例的数据作为新的训练数据。接匹配关系词语，会导致过低的召回率，因此，需要一个分类器性能的优劣往往取决于选择的特征将关系关键词进行同义扩展。是否能够最大程度地表达不同类别的差异，选择恰首先采用西南交通大学中文分词]对关系词当的特征有助于学习到性能较好的分类器，实现不语进行细粒度分词。例如，“创建时间”细粒度分词同类别的最优划分。句子分类常用的特征包括词法后为“创建”和“时间”2个词。然后分别对这2个特征、句法特征和n-gam特征。词法特征由句子中词语进行同义扩展。文中采用基于同义词词林1) 的词序列和词性序列构成，而句子中的语言描述过的语义相似度计算扩展关系词语。语义相似度计算于具体，很难在其他的句子中再次出现，导致严重的采用田久乐等[提出的方法。该方法是根据词语数据稀疏性问题，也使得训练出的模型缺乏泛化能的义项在同义词词林的位置和编码计算出词语的语力。句法特征从句子的依存句法分析结果中获取。义相似度。满足相似度阈值的词语都视为同义词。句法特征也存在词法特征中的数据稀疏性问题，并词语相似度的值受到3个因素的制约：分支层系数、且句法特征依赖于句法分析的效果，然而现有中文素院知识库尧训练语料和抽取模型遥圆援员摇知识库互动百科是目前最大的中文网络百科之一袁互动百科的部分条目中袁存在人工创建的信息盒袁信息盒中包含了大量半结构化的关系三元组遥例如袁从互动百科条目野西南交通大学冶信息盒中能够获取关系三元组掖西南交通大学袁创建时间袁员愿怨远年业遥其中袁野西南交通大学冶是关系主体袁野员愿怨远年冶是关系客体袁创建时间为关系词语遥经统计发现袁互动百科信息盒中的关系名称是统一定义的袁具有较好的唯一性和标识性遥文中利用互动百科信息盒获取关系三元组袁构造知识库遥信息盒是半结构化信息袁某些关系有多个客体渊如野知名校友冶一栏中有多个人名冤袁某些关系的客体不是实体词袁而是员个句子渊如野校训冶冤袁因此需要对其进行结构化处理遥由于实体关系抽取依赖于命名实体识别袁因此只提取主体和客体是命名实体的关系遥对于员个关系具有多个客体的情况袁例如野知名校友冶信息盒中的内容为院林同炎袁刘大同袁张维遥分别组成猿个关系三元组院掖西南交通大学袁知名校友袁刘大同业尧掖西南交通大学袁知名校友袁林同炎业和掖西南交通大学袁知名校友袁张维业遥圆援圆摇训练语料圆援圆援员摇训练语料自动获取现有弱监督学习的关系抽取框架是利用关系实体对从文本中获取训练语料的袁然而袁包含实体对的句子有时并不是关系描述语句遥基于实体对的共现自动建立起来的训练语料中有大量的噪声袁正确的训练语料并不多遥为了提高训练语料的准确率袁假设关系描述语句中通常以某个特定的关系关键词为核心袁例如袁野所属地区冶关系的表达可能为野位于尧处于尧属于冶等遥野创建时间冶关系的表达可能为野创立尧创建尧成立冶等遥知识库中的关系名称是统一的袁然而语句中对关系的表达有多种方式遥如果直接匹配关系词语袁会导致过低的召回率袁因此袁需要将关系关键词进行同义扩展遥首先采用西南交通大学中文分词咱员苑暂对关系词语进行细粒度分词遥例如袁野创建时间冶细粒度分词后为野创建冶和野时间冶圆个词遥然后分别对这圆个词语进行同义扩展遥文中采用基于同义词词林咱员愿暂的语义相似度计算扩展关系词语遥语义相似度计算采用田久乐等咱员怨暂提出的方法遥该方法是根据词语的义项在同义词词林的位置和编码计算出词语的语义相似度遥满足相似度阈值的词语都视为同义词遥词语相似度的值受到猿个因素的制约院分支层系数尧分支层节点总数和分支间隔遥为了避免语义漂移袁文中仅计算第缘层分支词语间的语义相似度遥例如袁野创建冶的同义词为野创立尧开创尧创始尧创建尧创办冶等袁野时间冶的同义词为野时间尧时刻尧时日尧工夫尧日子尧光阴冶等遥将扩展后的这些同义词组合成为新的关系关键词袁例如野创立时间尧开创时刻冶等遥同义词词典的关系关键词获取受到词典规模的限制袁无法对未登录词进行同义扩展遥因此袁在提取训练语料时袁若某一含有关系实体对的句子中某词语与关系关键词的字面相似度咱圆园暂大于源缘豫袁该词语成为关系关键词袁该句子成为训练数据遥从知识库中提取关系三元组掖西南交通大学袁创建时间袁员愿怨远年业袁百科文本集中有一个包含西南交通大学和员愿怨远年的句子袁该句子同时包含关系关键词野创建冶袁如图员所示遥提取该句子作为野创建时间冶关系的训练语料遥图员摇从文本集中获取训练数据云蚤早援员摇栽则葬蚤灶蚤灶早凿葬贼葬葬糟择怎蚤泽蚤贼蚤燥灶枣则燥皂贼藻曾贼泽圆援圆援圆摇基于句子分类器的训练语料优化与人工标注的可靠的训练语料不同袁由于自然语言预处理错误或知识库中的关系客体在文本中不存在袁就会导致错误和遗漏的标注遥特别是由于知识库中的关系实例数量较少时袁自动获取的训练语料数量较少袁许多测试数据中的特征在训练语料中很少出现甚至不存在遥文中将已标注的训练语料作为正例袁从未标注数据中提取部分数据作为反例袁采用遭燥燥贼泽贼葬责责蚤灶早方法训练分类器袁然后对未标注数据进行分类袁标注为正例的数据作为新的训练数据遥一个分类器性能的优劣往往取决于选择的特征是否能够最大程度地表达不同类别的差异袁选择恰当的特征有助于学习到性能较好的分类器袁实现不同类别的最优划分遥句子分类常用的特征包括词法特征尧句法特征和灶鄄早则葬皂特征遥词法特征由句子中的词序列和词性序列构成袁而句子中的语言描述过于具体袁很难在其他的句子中再次出现袁导致严重的数据稀疏性问题袁也使得训练出的模型缺乏泛化能力遥句法特征从句子的依存句法分析结果中获取遥句法特征也存在词法特征中的数据稀疏性问题袁并且句法特征依赖于句法分析的效果袁然而现有中文第员期摇摇摇摇摇摇摇摇摇摇摇摇摇贾真袁等院基于弱监督学习的中文网络百科关系抽取窑员员缘窑

<<向上翻页向下翻页>>

点击下载：机器学习：基于弱监督学习的中文网络百科关系抽取