正在加载图片...
·116 智能系统学报 第10卷 句法分析工具的准确率都不是很理想,导致句法特 目标信息的序列标注问题。 征不可靠。n-gram特征通常是文本中n个连续词组 为了进行CRF的训练,文中在训练语料中引人 成的序列,可以捕捉到局部范围内连续词语之间的 标注集对训练语料进行转换。文中使用的是BES0 序列关系,体现语法习惯,n-gam只包含3~4个词, 序列标注集,其中B代表关系关键词的开始:I代表 因而不会像传统词法特征那样过于具体,导致特征 关系关键词的内部:E代表关系关键词的结尾:S代 稀疏,几乎不可能再现。除了传统词语序列的 表独立的实体:0代表了当前词既不是实体,也不是 gram特征,文献[16]把连续词语的词性标注组织成 关系关键词。 词性序列n-gam特征;以及把词语和它的词性序列 例如对训练语句“滨海大学/ntu是/vshi一所/ 组成n-gram特征,并使用tri-gram,即n=3。 mq综合性/n国立大学/nis,/w成立/i于/p1991 文中采用由词语和它的词性组成的n-gram特 年/”进行序列标注如图2。 征,并令n=1,2,3。 @⊙⊙⊙⊙⊙@(@@ 1-gram:l个词语+词性(word,/pos,)(wordi) 2-gam:2个连续词语+词性(word,/pos:,wor e0思⊙@①@ d:+1/pos:+1) 图2序列标注示例 3-gram:3个连续词语+词性(word,/pos:,wor Fig.2 Sequence labeling example di+/posi+,wordi+/posi+2) 从句子中2个实体词之间的文本中提取1/2/3 图2中,S-SUB表示关系主体,S-0BJ表示关系 客体,B-REL表示关系关键词的开始,E-REL表示 gram作为特征值。1/2/3-gram表示既取1-gram,又 取2-gram、3-gram。例如句子“英国威尔士大学/ntu 关系关键词结尾。将该训练语句转换为序列标注的 圣三一学院/t成立/y于/p1848年/”中提取了多 形式如表1。 表1 训练语句序列标注 个1-gam“圣三一学院/nt”、“成立/v”、“于/p” Table 1 Sequence labeling of training sentenc 等,以及多个2-gram“圣三一学院/nt,成立/v”、 “成立/v,于/p”等。 特征1 特征2 标注 文中利用朴素贝叶斯分类(naive Bayes classifi- 滨海大学 ntu S-SUB cation,NBC)模型训练句子分类器。训练数据作为 是 shi 0 正例,从未标注数据中提取部分数据(未标注数据 一所 mq 0 中也含有实体对)作为反例,首先提取正例特征和 综合性 0 反例特征训练分类器,然后对未标注数据进行分类, 对新正例进行标注,并将新正例加入到训练语料中。 国立大学 nis 0 对新正例进行标注的方法是根据实体类别分别标注 w 0 关系主体和关系客体,将出现概率最大n-gam标注 成立 B-REL 为关系关键词。例如,1-gram“成立”出现概率最大, 于 P E-BEP 那么“成立”就是关系关键词,若句子中有多个关系 1991年 S-OBJ 主体或客体,则标注最先出现的实体对作为关系主 体和客体。 在CRF建立抽取模型过程中,特征选取与特征 2.3抽取模型 模板的制定是一项重要任务。特征选取时CRF模 条件随机场(conditional random field,CRF)是 型不仅能够综合使用字、词、词性、词形等上下文信 由Lafferty等2于2001年首先提出,是目前优秀的 息,还能利用各种外部信息,如词典等。文中选取词 机器学习模型之一。已被广泛用于中文分词、实体 本身、词性、上下文信息(定义活动的窗口)作为特 识别、词性标注和信息提取等自然语言处理领域。 征。“上下文信息”指的是包括当前词在内的及其 CRF是一个判别式模型,其最简单的形式是线性的 前后若干个词所组成的观察窗口[2】。窗口过大,选 CRF,即模型中各个节点之间构成线性结构。一个 择的特征会急剧增加,影响运行效率:窗口过小,选 线性的CRF对应于一个有限状态机,它非常适合于 择的特征较少,影响抽取器的性能。根据分析,选择 进行线性数据序列的标注,在信息提取任务中,基于 长度为3的窗口,即观察包含当前词在内以及其前 CRF用于序列标注的优势,将信息提取问题转换成 后各2个词。特征模板如表2所示。句法分析工具的准确率都不是很理想袁导致句法特 征不可靠遥 灶鄄早则葬皂 特征通常是文本中 灶 个连续词组 成的序列袁可以捕捉到局部范围内连续词语之间的 序列关系袁体现语法习惯袁灶鄄早则葬皂 只包含 猿耀源 个词袁 因而不会像传统词法特征那样过于具体袁导致特征 稀疏袁几乎不可能再现遥 除了传统词语序列的 灶鄄 早则葬皂 特征袁文献咱员远暂把连续词语的词性标注组织成 词性序列 灶 鄄早则葬皂 特征曰以及把词语和它的词性序列 组成 灶鄄早则葬皂 特征袁并使用 贼则蚤鄄早则葬皂袁即灶 越 猿遥 文中采用由词语和它的词性组成的 灶鄄早则葬皂 特 征袁并令 灶 越 员袁圆袁猿遥 员鄄早则葬皂院员 个词语垣词性 渊憎燥则凿蚤 辕 责燥泽蚤冤 渊憎燥则凿蚤冤 圆鄄早则葬皂院圆 个连续词语垣词性渊 憎燥则凿蚤 辕 责燥泽蚤袁 憎燥则鄄 凿蚤 垣员 辕 责燥泽蚤 垣员 冤 猿鄄早则葬皂院猿 个连续词语垣词性渊 憎燥则凿蚤 辕 责燥泽蚤袁 憎燥则鄄 凿蚤 垣员 辕 责燥泽蚤 垣员 袁 憎燥则凿蚤 垣圆 辕 责燥泽蚤 垣圆 冤 从句子中 圆 个实体词之间的文本中提取 员 辕 圆 辕 猿鄄 早则葬皂 作为特征值遥 员 辕 圆 辕 猿鄄早则葬皂 表示既取 员鄄早则葬皂袁又 取 圆鄄早则葬皂尧猿鄄早则葬皂遥 例如句子野英国威尔士大学辕 灶贼怎 圣三一学院辕 灶贼 成立辕 增 于辕 责 员愿源愿 年辕 贼冶中提取了多 个 员鄄早则葬皂 野圣三一学院 辕 灶贼冶 尧野成立 辕 增冶尧野于 辕 责冶 等袁以及多个 圆鄄早则葬皂野圣三一学院 辕 灶贼 袁 成立 辕 增冶尧 野成立 辕 增袁 于 辕 责冶等遥 文中利用朴素贝叶斯分类渊 灶葬觙增藻 月葬赠藻泽 糟造葬泽泽蚤枣蚤鄄 糟葬贼蚤燥灶袁晕月悦冤模型训练句子分类器遥 训练数据作为 正例袁从未标注数据中提取部分数据渊未标注数据 中也含有实体对冤 作为反例袁首先提取正例特征和 反例特征训练分类器袁然后对未标注数据进行分类袁 对新正例进行标注袁并将新正例加入到训练语料中遥 对新正例进行标注的方法是根据实体类别分别标注 关系主体和关系客体袁将出现概率最大 灶 鄄早则葬皂 标注 为关系关键词遥 例如袁员鄄早则葬皂野成立冶出现概率最大袁 那么野成立冶就是关系关键词袁若句子中有多个关系 主体或客体袁则标注最先出现的实体对作为关系主 体和客体遥 圆援猿摇 抽取模型 条件随机场渊 糟燥灶凿蚤贼蚤燥灶葬造 则葬灶凿燥皂 枣蚤藻造凿袁 悦砸云冤 是 由 蕴葬枣枣藻则贼赠 等咱圆员暂于 圆园园员 年首先提出袁是目前优秀的 机器学习模型之一遥 已被广泛用于中文分词尧实体 识别尧词性标注和信息提取等自然语言处理领域遥 悦砸云 是一个判别式模型袁其最简单的形式是线性的 悦砸云袁即模型中各个节点之间构成线性结构遥 一个 线性的 悦砸云 对应于一个有限状态机袁它非常适合于 进行线性数据序列的标注袁在信息提取任务中袁基于 悦砸云 用于序列标注的优势袁将信息提取问题转换成 目标信息的序列标注问题遥 为了进行 悦砸云 的训练袁文中在训练语料中引入 标注集对训练语料进行转换遥 文中使用的是 月陨耘杂韵 序列标注集袁其中 月 代表关系关键词的开始曰陨 代表 关系关键词的内部曰耘 代表关系关键词的结尾曰杂 代 表独立的实体曰韵 代表了当前词既不是实体袁也不是 关系关键词遥 例如对训练语句野滨海大学辕 灶贼怎 是辕 增泽澡蚤 一所辕 皂择 综合性辕 灶 国立大学辕 灶蚤泽 袁 辕 憎 成立辕 增蚤 于辕 责 员怨怨员 年辕 贼冶进行序列标注如图 圆遥 图 圆摇 序列标注示例 云蚤早援圆摇 杂藻择怎藻灶糟藻 造葬遭藻造蚤灶早 藻曾葬皂责造藻 图 圆 中袁杂鄄杂哉月 表示关系主体袁杂鄄韵月允 表示关系 客体袁月鄄砸耘蕴 表示关系关键词的开始袁耘鄄砸耘蕴 表示 关系关键词结尾遥 将该训练语句转换为序列标注的 形式如表 员遥 表 员摇 训练语句序列标注 栽葬遭造藻 员摇 杂藻择怎藻灶糟藻 造葬遭藻造蚤灶早 燥枣 贼则葬蚤灶蚤灶早 泽藻灶贼藻灶糟 特征 员 特征 圆 标注 滨海大学 灶贼怎 杂鄄杂哉月 是 泽澡蚤 韵 一所 皂择 韵 综合性 灶 韵 国立大学 灶蚤泽 韵 袁 憎韵 成立 增 月鄄砸耘蕴 于 责 耘鄄月耘孕 员怨怨员 年 贼 杂鄄韵月允 摇 摇 在 悦砸云 建立抽取模型过程中袁特征选取与特征 模板的制定是一项重要任务遥 特征选取时 悦砸云 模 型不仅能够综合使用字尧词尧词性尧词形等上下文信 息袁还能利用各种外部信息袁如词典等遥 文中选取词 本身尧词性尧上下文信息渊定义活动的窗口冤作为特 征遥 野上下文信息冶指的是包括当前词在内的及其 前后若干个词所组成的观察窗口咱圆圆暂 遥 窗口过大袁选 择的特征会急剧增加袁影响运行效率曰窗口过小袁选 择的特征较少袁影响抽取器的性能遥 根据分析袁选择 长度为 猿 的窗口袁即观察包含当前词在内以及其前 后各 圆 个词遥 特征模板如表 圆 所示遥 窑员员远窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 员园 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有