正在加载图片...
第1期 贾真,等:基于弱监督学习的中文网络百科关系抽取 .117. 表2特征模板 gam特征:词语序列特征、词性序列特征、以及词语 Table 2 Feature templates 和词性组合序列特征。这里分别测试了3种特征的 模板形式 模板含义 分类器准确率(Pc),测试结果如表3所示。 W(0) 当前词 表3不同特征下分类器性能比较 Table 3 Performance comparison among different feature % W(-1) 当前词左边第1个词 创建时间 国籍 所属地区出生年月 W(-2) 特征 当前词左边第2个词 词语序列 72 94 98 96 W(1) 当前词右边第1个词 词性序列 92 90 W(2) 当前词右边第2个词 70 专 词语+词性序列 72 90 94 90 P(0) 当前词词性 P(-1) 当前词左边第1个词的词性 通过表3看出,用词语序列作为特征的分类器 准确率最好,其次是词语+词性序列特征。然而词 P(-2) 当前词左边第2个词的词性 语序列作为特征的分类器获取的新正例数量较少, P(1) 当前词右边第1个词的词性 用词语+词性序列特征和词性特征获取新正例的数 P(2) 当前词右边第2个词的词性 量均较多。例如表4中,对于“创建时间”关系,用 W(0)P(0) 当前词和词性 词语+词性序列获取的新正例数量为4174个,用词 W(-1)P(-1) 当前词左边第1个词和词性 语序列获取的新正例仅为2697个:对于“出生年 W(-2)P(-2) 当前词左边第2个词和词性 月”关系,用词语+词性获取的新正例数量为3491 W(1)P(1) 当前词右边第1个词和词性 个,用词语序列获取的新正例仅有1795个。因此, 采用词语+词性组合特征的分类器总体性能最好。 W(2)P(2) 当前词右边第2个词和词性 表4不同特征下训练语料数量比较 3 实验与结果分析 Table 4 quantity comparison among different feature % 特征 创建时间 国籍 所属地区出生年月 弱监督关系抽取需要结构化知识库构建训练 词语序列 2697 88 4234 1795 集。知识的表达形式为三元组,即(主体,关系,客 词性序列 4174 136 6820 3491 体)的结构。选用互动百科信息盒构造结构化知识 库并进行分词和实体识别预处理,关系三元组中的 词语+词性序列4174 136 6820 3491 主体和客体必须为命名实体,从中选取“创建时 在抽取器的评价中,文中采用关系的准确率 间”、“国籍”、“出生年月”、“所属地区”等4种关系 (P)、召回率(R)、F值(F-Score)作为最终的评价标 进行实验。文本集采用互动百科条目文章。这里以 准,计算方法如式(2)~(4)所示。 “创建时间”关系为例对语料进行说明。关系主体 P= -×100% 类型为机构名(词性标注为t),客体类型为时间 (2) (词性标注为t)。从信息盒中抽取关系三元组共有 V 9257个,匹配句子有6876个,从其余未匹配的句 R= ×100% V (3) 子中提取含有实体二元组(t,t)的句子作为测试 F-Score 2×PXR ×100% 文本集,测试文本集中的句子数共114831个。 (4) P+R 实验结果的评价包括分类器的评价和抽取器的 式中:V是抽取正确的关系个数:V,是抽取关系的总 评价。分类器的性能用从测试文本集中得到的正例 个数:V是语料中关系的个数。 中正确标记的关系比率来评价,正确的比率越大说 将本中方法与不采用分类器直接利用三元组获 明分类器的性能越好。实验从测试文本集中得到正 取的训练语料训练CRF抽取器的抽取结果进行对 确的正例数量为T2,正例总数记为T,。准确率P。 比,对比结果如表5所示。从表5可以看出,与未经 计算公式如式(1): 过训练语料优化而直接采用CRF训练抽取器的方 法相比,文中方法在保持了较高准确率的基础上,召 Pc=- ×100% T, (1) 回率也有了较大的提高。说明利用朴素贝叶斯分类 由于从测试文本集中生成的正例总数较多,故 器从反例中获取新正例来优化训练语料,在一定程 采用随机抽样的评价方法。文中设计了3种n- 度上提高了训练语料的质量和抽取的性能。在以上表 圆摇 特征模板 栽葬遭造藻 圆摇 云藻葬贼怎则藻 贼藻皂责造葬贼藻泽 模板形式 模板含义 宰渊园冤 当前词 宰渊原员冤 当前词左边第 员 个词 宰渊原圆冤 当前词左边第 圆 个词 宰渊员冤 当前词右边第 员 个词 宰渊圆冤 当前词右边第 圆 个词 孕渊园冤 当前词词性 孕渊原员冤 当前词左边第 员 个词的词性 孕渊原圆冤 当前词左边第 圆 个词的词性 孕渊员冤 当前词右边第 员 个词的词性 孕渊圆冤 当前词右边第 圆 个词的词性 宰渊园冤孕渊园冤 当前词和词性 宰渊原员冤孕渊原员冤 当前词左边第 员 个词和词性 宰渊原圆冤孕渊原圆冤 当前词左边第 圆 个词和词性 宰渊员冤孕渊员冤 当前词右边第 员 个词和词性 宰渊圆冤孕渊圆冤 当前词右边第 圆 个词和词性 猿摇 实验与结果分析 弱监督关系抽取需要结构化知识库构建训练 集遥 知识的表达形式为三元组袁即掖主体袁关系袁客 体业的结构遥 选用互动百科信息盒构造结构化知识 库并进行分词和实体识别预处理袁关系三元组中的 主体和客体必须为命名实体袁从中选取野 创建时 间冶尧野国籍冶尧野出生年月冶尧野所属地区冶等 源 种关系 进行实验遥 文本集采用互动百科条目文章遥 这里以 野创建时间冶关系为例对语料进行说明遥 关系主体 类型为机构名渊词性标注为 灶贼冤袁客体类型为时间 渊词性标注为 贼冤遥 从信息盒中抽取关系三元组共有 怨 圆缘苑 个袁匹配句子有 远 愿苑远 个袁从其余未匹配的句 子中提取含有实体二元组掖 灶贼袁 贼业 的句子作为测试 文本集袁测试文本集中的句子数共 员员源 愿猿员 个遥 实验结果的评价包括分类器的评价和抽取器的 评价遥 分类器的性能用从测试文本集中得到的正例 中正确标记的关系比率来评价袁正确的比率越大说 明分类器的性能越好遥 实验从测试文本集中得到正 确的正例数量为 栽圆 袁正例总数记为 栽员 遥 准确率 孕悦 计算公式如式渊员冤院 孕悦 越 栽员 栽圆 伊 员园园豫 渊员冤 摇 摇 由于从测试文本集中生成的正例总数较多袁故 采用随机抽样的评价方法遥 文中设计了 猿 种 灶 鄄 早则葬皂 特征院词语序列特征尧词性序列特征尧以及词语 和词性组合序列特征遥 这里分别测试了 猿 种特征的 分类器准确率渊孕悦 冤 袁测试结果如表 猿 所示遥 表 猿摇 不同特征下分类器性能比较 栽葬遭造藻 猿摇 孕藻则枣燥则皂葬灶糟藻 糟燥皂责葬则蚤泽燥灶 葬皂燥灶早 凿蚤枣枣藻则藻灶贼 枣藻葬贼怎则藻摇 豫 特征 创建时间 国籍 所属地区 出生年月 词语序列 苑圆 怨源 怨愿 怨远 词性序列 苑园 愿源 怨圆 怨园 词语垣词性序列 苑圆 怨园 怨源 怨园 摇 摇 通过表 猿 看出袁用词语序列作为特征的分类器 准确率最好袁其次是词语垣词性序列特征遥 然而词 语序列作为特征的分类器获取的新正例数量较少袁 用词语垣词性序列特征和词性特征获取新正例的数 量均较多遥 例如表 源 中袁对于野创建时间冶关系袁用 词语垣词性序列获取的新正例数量为 源 员苑源 个袁用词 语序列获取的新正例仅为 圆 远怨苑 个曰对于野出生年 月冶关系袁用词语垣词性获取的新正例数量为 猿 源怨员 个袁用词语序列获取的新正例仅有 员 苑怨缘 个遥 因此袁 采用词语垣词性组合特征的分类器总体性能最好遥 表 源摇 不同特征下训练语料数量比较 栽葬遭造藻 源摇 择怎葬灶贼蚤贼赠 糟燥皂责葬则蚤泽燥灶 葬皂燥灶早 凿蚤枣枣藻则藻灶贼 枣藻葬贼怎则藻 豫 特征 创建时间 国籍 所属地区 出生年月 词语序列 圆远怨苑 愿愿 源圆猿源 员苑怨缘 词性序列 源员苑源 员猿远 远愿圆园 猿源怨员 词语垣词性序列 源员苑源 员猿远 远愿圆园 猿源怨员 摇 摇 在抽取器的评价中袁文中采用关系的准确率 渊孕冤 尧召回率渊砸冤 尧云 值渊云鄄杂糟燥则藻冤作为最终的评价标 准袁计算方法如式渊圆冤 耀 渊源冤所示遥 孕 越 灾员 灾圆 伊 员园园豫 渊圆冤 砸 越 灾员 灾猿 伊 员园园豫 渊猿冤 云 原 杂糟燥则藻 越 圆 伊 孕 伊 砸 孕 垣 砸 伊 员园园豫 渊源冤 式中院灾员是抽取正确的关系个数曰灾圆是抽取关系的总 个数曰灾猿是语料中关系的个数遥 将本中方法与不采用分类器直接利用三元组获 取的训练语料训练 悦砸云 抽取器的抽取结果进行对 比袁对比结果如表 缘 所示遥 从表 缘 可以看出袁与未经 过训练语料优化而直接采用 悦砸云 训练抽取器的方 法相比袁文中方法在保持了较高准确率的基础上袁召 回率也有了较大的提高遥 说明利用朴素贝叶斯分类 器从反例中获取新正例来优化训练语料袁在一定程 度上提高了训练语料的质量和抽取的性能遥 在以上 第 员 期摇摇摇摇摇摇摇摇摇摇摇摇摇 贾真袁等院基于弱监督学习的中文网络百科关系抽取 窑员员苑窑
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有