表圆摇特征模板栽葬遭造藻圆摇云藻葬贼怎则藻贼藻皂责造葬贼藻泽

正在加载图片...

第1期贾真，等：基于弱监督学习的中文网络百科关系抽取 .117. 表2特征模板 gam特征：词语序列特征、词性序列特征、以及词语 Table 2 Feature templates 和词性组合序列特征。这里分别测试了3种特征的模板形式模板含义分类器准确率(Pc),测试结果如表3所示。 W(0) 当前词表3不同特征下分类器性能比较 Table 3 Performance comparison among different feature % W(-1) 当前词左边第1个词创建时间国籍所属地区出生年月 W(-2) 特征当前词左边第2个词词语序列 72 94 98 96 W(1) 当前词右边第1个词词性序列 92 90 W(2) 当前词右边第2个词 70 专词语+词性序列 72 90 94 90 P(0) 当前词词性 P(-1) 当前词左边第1个词的词性通过表3看出，用词语序列作为特征的分类器准确率最好，其次是词语+词性序列特征。然而词 P(-2) 当前词左边第2个词的词性语序列作为特征的分类器获取的新正例数量较少， P(1) 当前词右边第1个词的词性用词语+词性序列特征和词性特征获取新正例的数 P(2) 当前词右边第2个词的词性量均较多。例如表4中，对于“创建时间”关系，用 W(0)P(0) 当前词和词性词语+词性序列获取的新正例数量为4174个，用词 W(-1)P(-1) 当前词左边第1个词和词性语序列获取的新正例仅为2697个：对于“出生年 W(-2)P(-2) 当前词左边第2个词和词性月”关系，用词语+词性获取的新正例数量为3491 W(1)P(1) 当前词右边第1个词和词性个，用词语序列获取的新正例仅有1795个。因此，采用词语+词性组合特征的分类器总体性能最好。 W(2)P(2) 当前词右边第2个词和词性表4不同特征下训练语料数量比较 3 实验与结果分析 Table 4 quantity comparison among different feature % 特征创建时间国籍所属地区出生年月弱监督关系抽取需要结构化知识库构建训练词语序列 2697 88 4234 1795 集。知识的表达形式为三元组，即（主体，关系，客词性序列 4174 136 6820 3491 体)的结构。选用互动百科信息盒构造结构化知识库并进行分词和实体识别预处理，关系三元组中的词语+词性序列4174 136 6820 3491 主体和客体必须为命名实体，从中选取“创建时在抽取器的评价中，文中采用关系的准确率间”、“国籍”、“出生年月”、“所属地区”等4种关系 (P)、召回率(R)、F值(F-Score)作为最终的评价标进行实验。文本集采用互动百科条目文章。这里以准，计算方法如式(2)~(4)所示。 “创建时间”关系为例对语料进行说明。关系主体 P= -×100% 类型为机构名（词性标注为t),客体类型为时间 (2) (词性标注为t)。从信息盒中抽取关系三元组共有 V 9257个，匹配句子有6876个，从其余未匹配的句 R= ×100% V (3) 子中提取含有实体二元组(t,t)的句子作为测试 F-Score 2×PXR ×100% 文本集，测试文本集中的句子数共114831个。 (4) P+R 实验结果的评价包括分类器的评价和抽取器的式中：V是抽取正确的关系个数：V,是抽取关系的总评价。分类器的性能用从测试文本集中得到的正例个数：V是语料中关系的个数。中正确标记的关系比率来评价，正确的比率越大说将本中方法与不采用分类器直接利用三元组获明分类器的性能越好。实验从测试文本集中得到正取的训练语料训练CRF抽取器的抽取结果进行对确的正例数量为T2,正例总数记为T,。准确率P。比，对比结果如表5所示。从表5可以看出，与未经计算公式如式(1)：过训练语料优化而直接采用CRF训练抽取器的方法相比，文中方法在保持了较高准确率的基础上，召 Pc=- ×100% T, (1) 回率也有了较大的提高。说明利用朴素贝叶斯分类由于从测试文本集中生成的正例总数较多，故器从反例中获取新正例来优化训练语料，在一定程采用随机抽样的评价方法。文中设计了3种n- 度上提高了训练语料的质量和抽取的性能。在以上表圆摇特征模板栽葬遭造藻圆摇云藻葬贼怎则藻贼藻皂责造葬贼藻泽模板形式模板含义宰渊园冤当前词宰渊原员冤当前词左边第员个词宰渊原圆冤当前词左边第圆个词宰渊员冤当前词右边第员个词宰渊圆冤当前词右边第圆个词孕渊园冤当前词词性孕渊原员冤当前词左边第员个词的词性孕渊原圆冤当前词左边第圆个词的词性孕渊员冤当前词右边第员个词的词性孕渊圆冤当前词右边第圆个词的词性宰渊园冤孕渊园冤当前词和词性宰渊原员冤孕渊原员冤当前词左边第员个词和词性宰渊原圆冤孕渊原圆冤当前词左边第圆个词和词性宰渊员冤孕渊员冤当前词右边第员个词和词性宰渊圆冤孕渊圆冤当前词右边第圆个词和词性猿摇实验与结果分析弱监督关系抽取需要结构化知识库构建训练集遥知识的表达形式为三元组袁即掖主体袁关系袁客体业的结构遥选用互动百科信息盒构造结构化知识库并进行分词和实体识别预处理袁关系三元组中的主体和客体必须为命名实体袁从中选取野创建时间冶尧野国籍冶尧野出生年月冶尧野所属地区冶等源种关系进行实验遥文本集采用互动百科条目文章遥这里以野创建时间冶关系为例对语料进行说明遥关系主体类型为机构名渊词性标注为灶贼冤袁客体类型为时间渊词性标注为贼冤遥从信息盒中抽取关系三元组共有怨圆缘苑个袁匹配句子有远愿苑远个袁从其余未匹配的句子中提取含有实体二元组掖灶贼袁贼业的句子作为测试文本集袁测试文本集中的句子数共员员源愿猿员个遥实验结果的评价包括分类器的评价和抽取器的评价遥分类器的性能用从测试文本集中得到的正例中正确标记的关系比率来评价袁正确的比率越大说明分类器的性能越好遥实验从测试文本集中得到正确的正例数量为栽圆袁正例总数记为栽员遥准确率孕悦计算公式如式渊员冤院孕悦越栽员栽圆伊员园园豫渊员冤摇摇由于从测试文本集中生成的正例总数较多袁故采用随机抽样的评价方法遥文中设计了猿种灶鄄早则葬皂特征院词语序列特征尧词性序列特征尧以及词语和词性组合序列特征遥这里分别测试了猿种特征的分类器准确率渊孕悦冤袁测试结果如表猿所示遥表猿摇不同特征下分类器性能比较栽葬遭造藻猿摇孕藻则枣燥则皂葬灶糟藻糟燥皂责葬则蚤泽燥灶葬皂燥灶早凿蚤枣枣藻则藻灶贼枣藻葬贼怎则藻摇豫特征创建时间国籍所属地区出生年月词语序列苑圆怨源怨愿怨远词性序列苑园愿源怨圆怨园词语垣词性序列苑圆怨园怨源怨园摇摇通过表猿看出袁用词语序列作为特征的分类器准确率最好袁其次是词语垣词性序列特征遥然而词语序列作为特征的分类器获取的新正例数量较少袁用词语垣词性序列特征和词性特征获取新正例的数量均较多遥例如表源中袁对于野创建时间冶关系袁用词语垣词性序列获取的新正例数量为源员苑源个袁用词语序列获取的新正例仅为圆远怨苑个曰对于野出生年月冶关系袁用词语垣词性获取的新正例数量为猿源怨员个袁用词语序列获取的新正例仅有员苑怨缘个遥因此袁采用词语垣词性组合特征的分类器总体性能最好遥表源摇不同特征下训练语料数量比较栽葬遭造藻源摇择怎葬灶贼蚤贼赠糟燥皂责葬则蚤泽燥灶葬皂燥灶早凿蚤枣枣藻则藻灶贼枣藻葬贼怎则藻豫特征创建时间国籍所属地区出生年月词语序列圆远怨苑愿愿源圆猿源员苑怨缘词性序列源员苑源员猿远远愿圆园猿源怨员词语垣词性序列源员苑源员猿远远愿圆园猿源怨员摇摇在抽取器的评价中袁文中采用关系的准确率渊孕冤尧召回率渊砸冤尧云值渊云鄄杂糟燥则藻冤作为最终的评价标准袁计算方法如式渊圆冤耀渊源冤所示遥孕越灾员灾圆伊员园园豫渊圆冤砸越灾员灾猿伊员园园豫渊猿冤云原杂糟燥则藻越圆伊孕伊砸孕垣砸伊员园园豫渊源冤式中院灾员是抽取正确的关系个数曰灾圆是抽取关系的总个数曰灾猿是语料中关系的个数遥将本中方法与不采用分类器直接利用三元组获取的训练语料训练悦砸云抽取器的抽取结果进行对比袁对比结果如表缘所示遥从表缘可以看出袁与未经过训练语料优化而直接采用悦砸云训练抽取器的方法相比袁文中方法在保持了较高准确率的基础上袁召回率也有了较大的提高遥说明利用朴素贝叶斯分类器从反例中获取新正例来优化训练语料袁在一定程度上提高了训练语料的质量和抽取的性能遥在以上第员期摇摇摇摇摇摇摇摇摇摇摇摇摇贾真袁等院基于弱监督学习的中文网络百科关系抽取窑员员苑窑

<<向上翻页向下翻页>>

点击下载：机器学习：基于弱监督学习的中文网络百科关系抽取