正在加载图片...
第6期 王定桥,等:从用户需求语句建立问题可拓模型的研究 ·867- 上述第2类信息的抽取是一个分类的过程。对 2.1预处理 于用户提供的不够具体的量值,首先确定其描述的 预处理的主要目的是为了简化后续处理。这一 内容属于什么属性,然后可以按2种方式处理。 阶段完成工作包括:过滤、替换、数据格式调整、分 种是为抽象描述提供预设值,例如为租金构造离散 词。过滤主要是过滤客气词(例如“请问”)、语气词 函数,根据值域分为便宜、一般、高价3个等级,这样 (例如“急求”)、询问相关词(例如“有没有”)。替 用户提供的抽象值也可以量化。另一种是利用抽取 换包括错别字替换(例如“500一下”替换为“500以 的抽象值,指导后续的人机交互过程。 下”)和同义词替换(例如“旁边”、“周围”等替换为 上述第3类和第4类信息,主要是在确定了 “附近”)。数据格式调整,包括数值都使用数字表 属性和量值后,在这个量值所在的上下文环境 示,数值范围调整为统一格式。分词时保留原句中 中,通过有限状态机实现。构造一个包含表达优 的逗号等分隔符,将长语句分割为短语句,得到多个 先级、反义这类信息的关键词的词典,通过有限 短语句的分词序列。 状态机中状态之间转移来实现。例如量词短语 2.2组块分析 “1000元”所在上下文为“租金超过1000元的 组块是一种语法结构,是符合一定语法功能的 就不要了”,首先获取的量值1000元,通过输入 非递归短语14)。组块分析包括组块的划分和识 单词“超过”和“不要”,量值转换为最终的区间 别,也就是识别出语句中像动词短语、形容词短语这 值[0,1000]。 类短语的过程。本文借助Stanford Parser来完成组 1.3问题解决思路 块分析。Stanford Parser中文解析器是基于Chinese 在处理具体问题的用户需求语句时,时间、货 Treebank的,具体的组块标记可参考文献[l5]。 币、日期等实体占据很大比例,其识别比较简单, 在实验的过程中,发现组块切分的粒度,对于抽 可以在分类后采用模式匹配方式实现:而其他实 取的信息数量有较大影响,尤其是当用户语句中量 体类数量比较少,识别比较困难。针对这一情 值信息密度较大时。 况,本文决定采用混合的方法,即分类和规则匹 例52个800块以内的单间。 配结合的方法来完成属性和量值的抽取。文献 预处理后形成的语义树,如图2所示。在此片 [13]中采用混合的方法提高了命名实体识别的 段中,需要抽取包括房间数量(两间),租金(800块 准确率和召回率。受到此方法的启示,本文从用 以内)以及房子样式(单间)在内的3个属性和量 户需求语句中提取信息时,先对用户语句进行组 值。如果仅切分为一个NP短语,那么后续阶段处 块分析获取短语序列:然后对短语序列进行分 理时可能漏掉属性;而切分为QP、DNP和NP,借助 类,通过对分类后的短语使用规则匹配获取属性 上下文信息,则能很好地捕获3个属性信息。 和量值:最后,使用这些属性和量值并结合数据 ROOT 库技术建立问题的可拓模型。 P 2建立可拓模型的步骤 VP NP 建立可拓模型的处理流程如图1所示。 OP DNP NP 用户问句 CD CLP LCP NN 预处理 词序列 两 M QP LC 单间 组块分析 个 CD CLP 以内 短语序列 分类 800 M 分类后的短语序列 块 量值提取 图2例5对应的语法树 属性字典 Fig.2 The parse tree of the fifth example 模型填充 可拓模型 Chinese Treebank提供了17个短语标记,其中 图1建立可拓模型的流程图 CP,P和UCP粒度过大,需要处理其内部节点: Fig.1 Steps to build extension model PRN、LST和DP一般不出现在用户需求语句中,不 予处理:CLP类型需要处理其上级QP短语,VP、上述第 2 类信息的抽取是一个分类的过程。 对 于用户提供的不够具体的量值,首先确定其描述的 内容属于什么属性,然后可以按 2 种方式处理。 一 种是为抽象描述提供预设值,例如为租金构造离散 函数,根据值域分为便宜、一般、高价 3 个等级,这样 用户提供的抽象值也可以量化。 另一种是利用抽取 的抽象值,指导后续的人机交互过程。 上述第 3 类和第 4 类信息,主要是在确定了 属性和量值后,在这个量值所在的 上 下 文 环 境 中,通过有限状态机实现。 构造一个包含表达优 先级、反义这类信息的关键词的词典,通过有限 状态机中状态之间转移来实现。 例如量词短语 “ 1 000 元” 所在上下文为“ 租金超过 1 000 元的 就不要了” ,首先获取的量值 1 000 元,通过输入 单词“超过” 和“ 不要” ,量值转换为最终的区间 值[ 0,1 000] 。 1.3 问题解决思路 在处理具体问题的用户需求语句时,时间、货 币、日期等实体占据很大比例,其识别比较简单, 可以在分类后采用模式匹配方式实现;而其他实 体类数量 比 较 少, 识 别 比 较 困 难。 针 对 这 一 情 况,本文决定采用混合的方法,即分类和规则匹 配结合的方法来完成属性和量值的抽取。 文献 [ 13]中采用混合的方法提高了命名实体识别的 准确率和召回率。 受到此方法的启示,本文从用 户需求语句中提取信息时,先对用户语句进行组 块分析获取短语序列;然后对短语 序 列 进 行 分 类,通过对分类后的短语使用规则匹配获取属性 和量值;最后,使用这些属性和量值并结合数据 库技术建立问题的可拓模型。 2 建立可拓模型的步骤 建立可拓模型的处理流程如图 1 所示。 图 1 建立可拓模型的流程图 Fig.1 Steps to build extension model 2.1 预处理 预处理的主要目的是为了简化后续处理。 这一 阶段完成工作包括:过滤、替换、数据格式调整、分 词。 过滤主要是过滤客气词(例如“请问”)、语气词 (例如“急求”)、询问相关词(例如“有没有”)。 替 换包括错别字替换(例如“500 一下”替换为“500 以 下”)和同义词替换(例如“旁边”、“周围”等替换为 “附近”)。 数据格式调整,包括数值都使用数字表 示,数值范围调整为统一格式。 分词时保留原句中 的逗号等分隔符,将长语句分割为短语句,得到多个 短语句的分词序列。 2.2 组块分析 组块是一种语法结构,是符合一定语法功能的 非递归短语[1 4 ] 。 组块分析包括组块的划分和识 别,也就是识别出语句中像动词短语、形容词短语这 类短语的过程。 本文借助 Stanford Parser 来完成组 块分析。 Stanford Parser 中文解析器是基于 Chinese Treebank 的,具体的组块标记可参考文献[15]。 在实验的过程中,发现组块切分的粒度,对于抽 取的信息数量有较大影响,尤其是当用户语句中量 值信息密度较大时。 例 5 2 个 800 块以内的单间。 预处理后形成的语义树,如图 2 所示。 在此片 段中,需要抽取包括房间数量(两间),租金(800 块 以内)以及房子样式(单间) 在内的 3 个属性和量 值。 如果仅切分为一个 NP 短语,那么后续阶段处 理时可能漏掉属性;而切分为 QP、DNP 和 NP,借助 上下文信息,则能很好地捕获 3 个属性信息。 图 2 例 5 对应的语法树 Fig.2 The parse tree of the fifth example Chinese Treebank 提供了 17 个短语标记,其中 CP、IP 和 UCP 粒度过大,需要处理其内部节点; PRN、LST 和 DP 一般不出现在用户需求语句中,不 予处理;CLP 类型需要处理其上级 QP 短语,VP、 第 6 期 王定桥,等: 从用户需求语句建立问题可拓模型的研究 ·867·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有