正在加载图片...
·306· 能系统学报 第8卷 神经分析系统由2部分组成:脑-计算机接口 是多少,一直以来是语言习得理论所涉及的一个重 (BCI)和语音合成系统DIVA(directions into veloci- 要问题从先天论和生态学的观点来看,这个问题一 ties of articulators).在BCI中,脑电信号的产生方式 方面表明了人类语言能力有些是与生俱来的,例如 是一种无线神经电极2],用于长期植入患者的大 婴儿能够从所获取的少量语音信息里归纳出语法或 脑皮层,而检测到的神经信号则被用于驱动语音合 句法规则的能力9;另一方面,也可以解释为人类 成器的连续“运动”,为患者提供实时语音输出:DL- 语言的胜任能力是信息处理原则的结果.也就是说, VA模型则是一种具有生物学意义的关于语音生成 当最初只能获得有限输入时,系统只是学习输入信 和获取的神经网络[3),主要依据有关语音生成及 息的基本结构,而不是记住每个输入的具体内容,这 感知心理物理学实验的行为数据、FMRI(functional 样的处理原则非常重要[20)] magnetic resonance imaging)PET(positron emission 可以将婴儿学习语言的能力比喻成一个有着有 computed tomography)实验的神经成像数据以及对 限存储容量,但需要处理大量信息的神经计算系统, 动物所做的运动控制实验的神经生理学数据等而建 为了模拟信息处理过程、学习信息处理的根本原则, 立,目的是为了生成音素串而学习控制模拟声道的 必须要知道学习内容以及学习这些内容所需要的必 运动,主要特征是反映神经解剖学与大脑相关区域 要条件.也就是说,研究人类语音生成与获取的发展 的关联性 过程,需要一个类似婴儿生理能力和生态背景的系 自1994年Guenther教授首次提出DVA模型 统.系统的学习过程应该是自组织和自适应的,能够 以来[),模型经历了不断的完善和更新.根据早期 通过与瞬时环境的直接作用形成自己的认知行为技 DIVA模型存在的一些问题[o,Ghosh、Tourville、 巧,即能通过与周围环境的相互影响来学习发音意 Max、Civier、Golfinopoulos、Castanon等研究人员以及 义的表示及其语法结构2) Guenther提出了一系列修订版本或思想[7.).特别是 婴儿在咿呀学语阶段,许多非语音因素以及发 Guenther201l年提出的DIVA模型,对模型组件 音动作在频繁发声之前就已经存在.与这个事实类 与大脑皮层的对应关系在MNI(montreal neurological 似,DIVA模型中的咿呀学语过程发生在以下2个阶 institute)标准框架上进行了具体描述,并对大脑皮 段:1)体觉-发音映射阶段,此阶段中的体觉映射过 层以及小脑中包括预运动(premotor)、运动、听觉、 程是在缺乏语音背景的情况下进行学习的:2)对每 体觉的几个区域所涉及的成分作了精确的定义.笔 个语音体觉目标进行学习的阶段,学习的目标是语 者近年来对DIVA模型的研究也进行了跟踪,并在 音-体觉映射的权值编码. 一些局部方案的改进和完善方面取得了初步进展和 咿呀学语之后,模型能够使用英语音素集中的 成果[1417] 29个音素组合生成任意音素串.纵规DVA模型对 但正如R.Smit山所指出的那样1],尽管有了诸 每个语音体觉目标的学习过程,可以看到其基本假 定如下:在婴儿正确可靠地生成给定语音之前,他能 多方面的改进,模型仍然存在一个非常严重的不足, 够正确可靠地感知这个语音,并假定模型具有感知 即对类似婴儿语言获取能力的模拟,也就是婴儿对 所有即将生成语音的能力.然而,这与婴儿咿呀学语 语音的“感知能力要比其语音生成技巧发育得更快 的过程并不完全相符,因为婴儿在感知其他语音之 一些”这样的事实一直没有予以考虑,因而影响到 前就已经能够很准确地发出一些与给定语音相关的 模型自身的自组织、自适应能力 声音了.而且这些声音与瞬时环境密切相关,是一种 本文的主要目的是在DVA模型的基础上,提 多感觉输入(听觉、视觉、触觉等)的融合体.在将这 出一种使系统能自动获取语音-映射单元的方法, 些融合体信息映射到大脑皮层语音区域的过程中, 这种方法与婴儿咿呀学语的过程基本一致,符合感 逐步形成了听觉过程渐近式的反应机制.因此,音素 知能力与生成技巧发育平衡的自然现象.通过此方 表征这种形式就可以被看作是能将若干输入候选词 法的应用,DVA模型在语音生成和获取过程中将 相互区分开来,最终形成婴儿早期语言获取过程中 更具自然特性,从而使研究者能更好地研究语音生 的一种具有自组织、自适应能力的表征机制.DIVA 成和获取的过程, 模型没能有效地表征这种机制,因而没有充分实现 语言习得(language acquisition)与 感知语音的自组织、自适应过程.因此,从这一点来 DIVA模型 看,DIVA模型还不完全具备神经生理学意义上的 控制功能,对其进行完善或重构,使其具有语音感知 关于人类语言能力在遗传基因中所占比重到底 的自组织和自适应能力是非常重要且非常有意义的神经分析系统由 2 部分组成:脑-计算机接口 (BCI)和语音合成系统 DIVA( directions into veloci⁃ ties of articulators).在 BCI 中,脑电信号的产生方式 是一种无线神经电极[1⁃2] ,用于长期植入患者的大 脑皮层,而检测到的神经信号则被用于驱动语音合 成器的连续“运动”,为患者提供实时语音输出;DI⁃ VA 模型则是一种具有生物学意义的关于语音生成 和获取的神经网络[3⁃4] ,主要依据有关语音生成及 感知心理物理学实验的行为数据、FMRI( functional magnetic resonance imaging)和 PET(positron emission computed tomography) 实验的神经成像数据以及对 动物所做的运动控制实验的神经生理学数据等而建 立,目的是为了生成音素串而学习控制模拟声道的 运动,主要特征是反映神经解剖学与大脑相关区域 的关联性. 自 1994 年 Guenther 教授首次提出 DIVA 模型 以来[5] ,模型经历了不断的完善和更新.根据早期 DIVA 模 型 存 在 的 一 些 问 题[6] , Ghosh、 Tourville、 Max、Civier、Golfinopoulos、Castanon 等研究人员以及 Guenther 提出了一系列修订版本或思想[7⁃13] .特别是 Guenther 2011 年提出的 DIVA 模型[4] ,对模型组件 与大脑皮层的对应关系在 MNI(montreal neurological institute)标准框架上进行了具体描述,并对大脑皮 层以及小脑中包括预运动( premotor)、运动、听觉、 体觉的几个区域所涉及的成分作了精确的定义.笔 者近年来对 DIVA 模型的研究也进行了跟踪,并在 一些局部方案的改进和完善方面取得了初步进展和 成果[14⁃17] . 但正如 R.Smith 所指出的那样[18] ,尽管有了诸 多方面的改进,模型仍然存在一个非常严重的不足, 即对类似婴儿语言获取能力的模拟,也就是婴儿对 语音的“感知能力要比其语音生成技巧发育得更快 一些”这样的事实一直没有予以考虑,因而影响到 模型自身的自组织、自适应能力. 本文的主要目的是在 DIVA 模型的基础上,提 出一种使系统能自动获取语音-映射单元的方法, 这种方法与婴儿咿呀学语的过程基本一致,符合感 知能力与生成技巧发育平衡的自然现象.通过此方 法的应用,DIVA 模型在语音生成和获取过程中将 更具自然特性,从而使研究者能更好地研究语音生 成和获取的过程. 1 语言习得( language acquisition) 与 DIVA 模型 关于人类语言能力在遗传基因中所占比重到底 是多少,一直以来是语言习得理论所涉及的一个重 要问题.从先天论和生态学的观点来看,这个问题一 方面表明了人类语言能力有些是与生俱来的,例如 婴儿能够从所获取的少量语音信息里归纳出语法或 句法规则的能力[19] ;另一方面,也可以解释为人类 语言的胜任能力是信息处理原则的结果.也就是说, 当最初只能获得有限输入时,系统只是学习输入信 息的基本结构,而不是记住每个输入的具体内容,这 样的处理原则非常重要[20] . 可以将婴儿学习语言的能力比喻成一个有着有 限存储容量,但需要处理大量信息的神经计算系统. 为了模拟信息处理过程、学习信息处理的根本原则, 必须要知道学习内容以及学习这些内容所需要的必 要条件.也就是说,研究人类语音生成与获取的发展 过程,需要一个类似婴儿生理能力和生态背景的系 统.系统的学习过程应该是自组织和自适应的,能够 通过与瞬时环境的直接作用形成自己的认知行为技 巧,即能通过与周围环境的相互影响来学习发音意 义的表示及其语法结构[21] . 婴儿在咿呀学语阶段,许多非语音因素以及发 音动作在频繁发声之前就已经存在.与这个事实类 似,DIVA 模型中的咿呀学语过程发生在以下 2 个阶 段:1)体觉-发音映射阶段,此阶段中的体觉映射过 程是在缺乏语音背景的情况下进行学习的;2)对每 个语音体觉目标进行学习的阶段,学习的目标是语 音-体觉映射的权值编码. 咿呀学语之后,模型能够使用英语音素集中的 29 个音素组合生成任意音素串.纵观 DIVA 模型对 每个语音体觉目标的学习过程,可以看到其基本假 定如下:在婴儿正确可靠地生成给定语音之前,他能 够正确可靠地感知这个语音,并假定模型具有感知 所有即将生成语音的能力.然而,这与婴儿咿呀学语 的过程并不完全相符,因为婴儿在感知其他语音之 前就已经能够很准确地发出一些与给定语音相关的 声音了.而且这些声音与瞬时环境密切相关,是一种 多感觉输入(听觉、视觉、触觉等)的融合体.在将这 些融合体信息映射到大脑皮层语音区域的过程中, 逐步形成了听觉过程渐近式的反应机制.因此,音素 表征这种形式就可以被看作是能将若干输入候选词 相互区分开来,最终形成婴儿早期语言获取过程中 的一种具有自组织、自适应能力的表征机制.DIVA 模型没能有效地表征这种机制,因而没有充分实现 感知语音的自组织、自适应过程.因此,从这一点来 看,DIVA 模型还不完全具备神经生理学意义上的 控制功能,对其进行完善或重构,使其具有语音感知 的自组织和自适应能力是非常重要且非常有意义的 ·306· 智 能 系 统 学 报 第 8 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有