正在加载图片...
4 智能系统学报 第1卷 传统语音识别的方法无论是基于统计的模型还 响类别含义的词语 是基于规则的模型,主要是针对音节信号进行处理 那么人机对话过程中的语用信息是什么?从信 和识别,对识别的内容并不进行正确性分析.如用户 息服务提供和信息获取的角度看,人机对话的目的 输入“叫辆出租车”,结果显示却可能出现“较量出租 是为用户提供方便的信息和服务,这种服务通常是 车”,由于“叫辆”和“较量”在发音上有一定的相似 面向某些特定领域的,因此语用信息要具体分析到 性,采用语音识别的方法很难做出正确的判断,但是 所提供信息服务的领域内容,详细考察应用领域的 如果换一种处理思路,采用自然语言理解的方法分 特点,用户使用这些信息服务的需求是如何表达的, 析结果内容,则很容易判断出“较量出租车”不符合 用户使用服务时的环境如何等,而这些都是与语法 人们的用法,是一个错误的结果.这个例子显示了人信息和语义信息密不可分的.前面提到的语用信息 们对人机对话系统认识的一个误区,人们常常认为, 分析方法中,效用度空间方法比较抽象,效用规则方 系统的关键技术是语音识别、语音合成、机器翻译 法难以处理多变的语音识别错误,而文本分类方法 等,但通过例子不难看出,问题的难度最终不在语音 线条比较粗,不能很好的满足需要.为此,本文的语 表层结构的识别-合成,而在它的核心·明确语用 用分析算法是以语义类作为基础目标进行的,主要 的自然语言理解 考察在某种应用目的下,当前语句中一个词语与周 文中在语音识别引擎以后引入一个自然语言理 围环境的协调适应能力.事实上,心理学研究已经证 解模块,综合语法、语义和语用信息对语音识别结果 实上下文对句子理解有重大作用山.作为知识库,本 进行分析、检错和纠错.语法信息方面,主要分析了 文面向特定领域的应用场景,建立了常识标准下的 功能性词语(如祈使性词语、疑问词语等)在语句中 语用描述库,主要考虑以下情况: 的习惯性位置以及不同发音的词语和词语组合在语 1)一个语句范围内,核心词与核心词之间的协 音识别过程中的稳定程度.语义信息方面,根据 调能力 “City Guide”系统功能把语句含义分成了9类:饭馆 2)一个语句范围内,核心词与必要的普通词之 就餐、购买衣服、讨价还价、旅馆住宿、问路、修理、打 间的协调能力. 车、就医、寻人/物.并且为每一类语句建立了一个初 一期课题从最简单的二维环境入手,采用统计 始的核心词列表.所谓核心词,是指某一类语句中出 方法考察2个词语的协调能力(定义如下),更高维 现的能够揭示其含义的关键词.与其相对应的普通 数的环境还可以基于二维环境来扩展 词则是指在各个类别的语句中都可能出现,不太影 Harmoney (word word)Goal=-occurence(Gaal wordword co occurence (word.,wordi) co-occurence (word wordi) occurence (word)occurence (wordi)-co -occurence (word:,wordj) co-occurence Goalk wordword accurence (word)occurence (word)-co-occurence(word.,wordj) 其中分开写的2个因子中,第2个因子考察2 基础上才能分析和表达.语用知识库可由统计方法 个词语出现在同一语句中的频度,第一个因子考察 自动获得,需要收集训练语料.在一期课题的语料基 2个词语都出现且共同揭示某个语义类的能力, 础上,还可以借助公用搜索擎的帮助,自动获得更 word,、word表示不同的2个词语,Goal表示某语 多典型语料库 义目标,co-occurence(word,word表示两词语同 语句的检错纠错算法就是综合语法、语义和语 时出现的所有语句数目,co-ccurence(Goalk,wor 用信息对各个词语进行可信度评估,如式)所示: d,word)表示两词语同时出现、并且揭示该语义目 Reliability (word)Syntactic(wordi)+ 标的语句数目,occurence(word)和occurence(wor Semantic(wordi)+Pragmatic(word).(1) d)分别表示单个词语出现的语句数目」 式中:word,是语句中第i个词语,该语句中共有 可见,语用信息必须在语法信息和语义信息的 个词语,Reliability(word)是第i个词语的可信 1994-2008 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net传统语音识别的方法无论是基于统计的模型还 是基于规则的模型 ,主要是针对音节信号进行处理 和识别 ,对识别的内容并不进行正确性分析. 如用户 输入“叫辆出租车”,结果显示却可能出现“较量出租 车”,由于“叫辆”和“较量”在发音上有一定的相似 性 ,采用语音识别的方法很难做出正确的判断 ,但是 如果换一种处理思路 ,采用自然语言理解的方法分 析结果内容 ,则很容易判断出“较量出租车”不符合 人们的用法 ,是一个错误的结果. 这个例子显示了人 们对人机对话系统认识的一个误区 ,人们常常认为 , 系统的关键技术是语音识别、语音合成、机器翻译 等 ,但通过例子不难看出 ,问题的难度最终不在语音 表层结构的识别 - 合成 ,而在它的核心 - 明确语用 的自然语言理解. 文中在语音识别引擎以后引入一个自然语言理 解模块 ,综合语法、语义和语用信息对语音识别结果 进行分析、检错和纠错. 语法信息方面 ,主要分析了 功能性词语(如祈使性词语、疑问词语等) 在语句中 的习惯性位置以及不同发音的词语和词语组合在语 音识别过程中的稳定程度. 语义信息方面 ,根据 “City Guide”系统功能把语句含义分成了 9 类 :饭馆 就餐、购买衣服、讨价还价、旅馆住宿、问路、修理、打 车、就医、寻人/ 物. 并且为每一类语句建立了一个初 始的核心词列表. 所谓核心词 ,是指某一类语句中出 现的能够揭示其含义的关键词. 与其相对应的普通 词则是指在各个类别的语句中都可能出现 ,不太影 响类别含义的词语. 那么人机对话过程中的语用信息是什么 ? 从信 息服务提供和信息获取的角度看 ,人机对话的目的 是为用户提供方便的信息和服务 ,这种服务通常是 面向某些特定领域的 ,因此语用信息要具体分析到 所提供信息服务的领域内容 ,详细考察应用领域的 特点 ,用户使用这些信息服务的需求是如何表达的 , 用户使用服务时的环境如何等 ,而这些都是与语法 信息和语义信息密不可分的. 前面提到的语用信息 分析方法中 ,效用度空间方法比较抽象 ,效用规则方 法难以处理多变的语音识别错误 ,而文本分类方法 线条比较粗 ,不能很好的满足需要. 为此 ,本文的语 用分析算法是以语义类作为基础目标进行的 ,主要 考察在某种应用目的下 ,当前语句中一个词语与周 围环境的协调适应能力. 事实上 ,心理学研究已经证 实上下文对句子理解有重大作用[1 ] . 作为知识库 ,本 文面向特定领域的应用场景 ,建立了常识标准下的 语用描述库 ,主要考虑以下情况 : 1) 一个语句范围内 ,核心词与核心词之间的协 调能力. 2) 一个语句范围内 ,核心词与必要的普通词之 间的协调能力. 一期课题从最简单的二维环境入手 ,采用统计 方法考察 2 个词语的协调能力 (定义如下) ,更高维 数的环境还可以基于二维环境来扩展. Harmoney ( word i , word j) | Goal k = co - occurence ( Goal k , word i , word j) co - occurence ( word i , word j) × co - occurence ( word i , word j) occurence ( word i) + occurence ( word j) - co - occurence ( word i , word j) = co - occurence ( Goal k , word i , word j) occurence ( word i) + occurence ( word j) - co - occurence ( word i , word j) . 其中分开写的 2 个因子中 ,第 2 个因子考察 2 个词语出现在同一语句中的频度 ,第一个因子考察 2 个词语都出现且共同揭示某个语义类的能力 , wordi 、wordj 表示不同的 2 个词语 , Goalk 表示某语 义目标 , co - occurence( wordi , wordj 表示两词语同 时出现的所有语句数目 , co - occurence ( Goalk , wor2 di , wordj) 表示两词语同时出现、并且揭示该语义目 标的语句数目 , occurence( wordi) 和 occurence ( wor2 di) 分别表示单个词语出现的语句数目. 可见 ,语用信息必须在语法信息和语义信息的 基础上才能分析和表达. 语用知识库可由统计方法 自动获得 ,需要收集训练语料. 在一期课题的语料基 础上 ,还可以借助公用搜索引擎的帮助 ,自动获得更 多典型语料库. 语句的检错纠错算法就是综合语法、语义和语 用信息对各个词语进行可信度评估 ,如式(1) 所示 : Reli abilit y ( word i) = S y ntactic ( word i) + Sem antic ( word i) + Pr agmatic ( word i) . (1) 式中 :wordi 是语句中第 i 个词语 ,该语句中共有| s| 个词语 , Reli abilit y ( wordi ) 是第 i 个词语的可信 ·4 · 智 能 系 统 学 报 第 1 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有