第8卷第4期 智能系统学报 Vol.8 No.4 2013年8月 CAAI Transactions on Intelligent Systems Aug.2013 D0I:10.3969/i.issn.1673-4785.201304049 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20130621.1541.002.html 基于DIVA模型的语音-映射单元自动获取 张少白,刘欣 (南京邮电大学计算机学院,江苏南京210046) 摘要:针对DIVA模型中存在的“感知能力与语音生成技巧发育不平衡”问题,提出了一种自动获取语音-映射单 元的方法该方法将人耳模拟为一个具有不同带宽的并联带通滤波器组,分别与模型中21维度的听觉存储空间相关 联,对不同听觉的不同反应,分别考虑其频带的屏蔽效应、听觉响度与频率的关系在读取语音输入信号的过程中,模 型能较好地获得初始听觉表示,其方式与婴儿咿呀学语的过程基本一致仿真实验表明,通过边界定义、相似性比较 以及搜索更新等步骤,此方法能很好地进行初始输入模式的自组织匹配,并最终使DVA模型更具语音获取的自然 特性。 关键词:DIVA模型:音素:语音-映射单元:语音生成与获取 中图分类号:TP31 文献标志码:A文章编号:1673-4785(2013)04-0305-07 中文引用格式:张少白,刘欣.基于DVA模型的语音-映射单元自动获取[J].智能系统学报,2013,8(4):305-311. 英文引用格式:ZHANG Shaobai,LIU Xin.Automatic acquisition of speech sound-target cells based on DIVA model[J].CAAI Transactions on Intelligent Systems,2013,8(4):305-311. Automatic acquisition of speech sound-target cells based on DIVA model ZHANG Shaobai,LIU Xin (College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210046,China) Abstract:Contraposing the shortage of Directions Into Velocities of Articulators (DIVA)model about"infants per- ceptual abilities do develop faster at first than their speech production skills",the paper presents an automatic ac- quisition method of speech sound-target cells.The method simulates the human ear as a parallel band-pass filter group with different bandwidth and associates respectively;the filter with the 21-dimensional storage space of audi- tory sense in DIVA model.This method was done in order for different auditory reactions,the shielding effect of fre- quency band,sound loudness,and frequency relation could be considered respectively for this study.In the process of reading the input signal of speech,the model can acquire good initial hearing and the process is consistent with baby's babble.The simulation results show that through boundary definition,similarity comparison,searching and updates and so on,the method has nicer self-organized pattern matching effect for initial input,which makes the DIVA model a more natural characteristic regarding speech acquisition. Keywords:DIVA model;phoneme;speech sound-target cells;speech acquisition and production 在神经解剖学和神经心理学层次上,仿真和描述的成果.其中,波斯顿大学语音实验室F.H.Guenther 大脑中涉及语音生成和理解区域的相关功能,这是近 教授带领的研究小组所做的工作最具代表性和开创 来人工语音合成系统所追求的主要思想围绕这样的 性.他们研制成功了一种称之为“神经分析系统(neu- 主题思想,多年来许多学者在语音生成和获取计算模 ralynx system)”的仪器,让使用者只需简单想一想自 型的研究和探讨方面做出了巨大努力,并获得了丰硕 己所希望表达的语言,语音合成系统就能将其内容直 接转换成语音.通过与“脑-计算机”系统(brain-com- 收稿日期:2013-04-16.网络出版日期:2013-06-21 puter interface,BCI)相结合,使用者可以直接控制声 基金项目:国家自然科学基金资助项目(61073115,61271334, 音的输出,其反应速度比著名科学家霍金目前正在使 61373065). 通信作者:张少白.E-mail:adzsb@163.com 用的打字处理方式快了许多
第 8 卷第 4 期 智 能 系 统 学 报 Vol.8 №.4 2013 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2013 DOI:10.3969 / j.issn.1673⁃4785.201304049 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20130621.1541.002.html 基于 DIVA 模型的语音-映射单元自动获取 张少白,刘欣 (南京邮电大学 计算机学院,江苏 南京 210046) 摘 要:针对 DIVA 模型中存在的“感知能力与语音生成技巧发育不平衡”问题,提出了一种自动获取语音-映射单 元的方法.该方法将人耳模拟为一个具有不同带宽的并联带通滤波器组,分别与模型中 21 维度的听觉存储空间相关 联,对不同听觉的不同反应,分别考虑其频带的屏蔽效应、听觉响度与频率的关系.在读取语音输入信号的过程中,模 型能较好地获得初始听觉表示,其方式与婴儿咿呀学语的过程基本一致.仿真实验表明,通过边界定义、相似性比较 以及搜索更新等步骤,此方法能很好地进行初始输入模式的自组织匹配,并最终使 DIVA 模型更具语音获取的自然 特性. 关键词:DIVA 模型;音素;语音-映射单元;语音生成与获取 中图分类号:TP31 文献标志码:A 文章编号:1673⁃4785(2013)04⁃0305⁃07 中文引用格式:张少白,刘欣.基于 DIVA 模型的语音-映射单元自动获取[J]. 智能系统学报, 2013, 8(4): 305⁃311. 英文引用格式:ZHANG Shaobai,LIU Xin. Automatic acquisition of speech sound⁃target cells based on DIVA model[ J]. CAAI Transactions on Intelligent Systems, 2013, 8(4): 305⁃311. Automatic acquisition of speech sound⁃target cells based on DIVA model ZHANG Shaobai, LIU Xin (College of Computer, Nanjing University of Posts and Telecommunications, Nanjing 210046, China) Abstract: Contraposing the shortage of Directions Into Velocities of Articulators (DIVA) model about “infants per⁃ ceptual abilities do develop faster at first than their speech production skills”, the paper presents an automatic ac⁃ quisition method of speech sound⁃target cells. The method simulates the human ear as a parallel band⁃pass filter group with different bandwidth and associates respectively; the filter with the 21⁃dimensional storage space of audi⁃ tory sense in DIVA model. This method was done in order for different auditory reactions, the shielding effect of fre⁃ quency band, sound loudness, and frequency relation could be considered respectively for this study. In the process of reading the input signal of speech, the model can acquire good initial hearing and the process is consistent with baby's babble. The simulation results show that through boundary definition, similarity comparison, searching and updates and so on, the method has nicer self⁃organized pattern matching effect for initial input, which makes the DIVA model a more natural characteristic regarding speech acquisition. Keywords:DIVA model; phoneme; speech sound⁃target cells; speech acquisition and production 收稿日期:2013⁃04⁃16. 网络出版日期:2013⁃06⁃21. 基金 项 目: 国 家 自 然 科 学 基 金 资 助 项 目 ( 61073115, 61271334, 61373065). 通信作者:张少白. E⁃mail:adzsb@ 163.com. 在神经解剖学和神经心理学层次上,仿真和描述 大脑中涉及语音生成和理解区域的相关功能,这是近 来人工语音合成系统所追求的主要思想.围绕这样的 主题思想,多年来许多学者在语音生成和获取计算模 型的研究和探讨方面做出了巨大努力,并获得了丰硕 的成果.其中,波斯顿大学语音实验室 F.H.Guenther 教授带领的研究小组所做的工作最具代表性和开创 性.他们研制成功了一种称之为“神经分析系统(neu⁃ ralynx system)”的仪器,让使用者只需简单想一想自 己所希望表达的语言,语音合成系统就能将其内容直 接转换成语音.通过与“脑-计算机”系统 (brain⁃com⁃ puter interface,BCI)相结合,使用者可以直接控制声 音的输出,其反应速度比著名科学家霍金目前正在使 用的打字处理方式快了许多.
·306· 能系统学报 第8卷 神经分析系统由2部分组成:脑-计算机接口 是多少,一直以来是语言习得理论所涉及的一个重 (BCI)和语音合成系统DIVA(directions into veloci- 要问题从先天论和生态学的观点来看,这个问题一 ties of articulators).在BCI中,脑电信号的产生方式 方面表明了人类语言能力有些是与生俱来的,例如 是一种无线神经电极2],用于长期植入患者的大 婴儿能够从所获取的少量语音信息里归纳出语法或 脑皮层,而检测到的神经信号则被用于驱动语音合 句法规则的能力9;另一方面,也可以解释为人类 成器的连续“运动”,为患者提供实时语音输出:DL- 语言的胜任能力是信息处理原则的结果.也就是说, VA模型则是一种具有生物学意义的关于语音生成 当最初只能获得有限输入时,系统只是学习输入信 和获取的神经网络[3),主要依据有关语音生成及 息的基本结构,而不是记住每个输入的具体内容,这 感知心理物理学实验的行为数据、FMRI(functional 样的处理原则非常重要[20)] magnetic resonance imaging)PET(positron emission 可以将婴儿学习语言的能力比喻成一个有着有 computed tomography)实验的神经成像数据以及对 限存储容量,但需要处理大量信息的神经计算系统, 动物所做的运动控制实验的神经生理学数据等而建 为了模拟信息处理过程、学习信息处理的根本原则, 立,目的是为了生成音素串而学习控制模拟声道的 必须要知道学习内容以及学习这些内容所需要的必 运动,主要特征是反映神经解剖学与大脑相关区域 要条件.也就是说,研究人类语音生成与获取的发展 的关联性 过程,需要一个类似婴儿生理能力和生态背景的系 自1994年Guenther教授首次提出DVA模型 统.系统的学习过程应该是自组织和自适应的,能够 以来[),模型经历了不断的完善和更新.根据早期 通过与瞬时环境的直接作用形成自己的认知行为技 DIVA模型存在的一些问题[o,Ghosh、Tourville、 巧,即能通过与周围环境的相互影响来学习发音意 Max、Civier、Golfinopoulos、Castanon等研究人员以及 义的表示及其语法结构2) Guenther提出了一系列修订版本或思想[7.).特别是 婴儿在咿呀学语阶段,许多非语音因素以及发 Guenther201l年提出的DIVA模型,对模型组件 音动作在频繁发声之前就已经存在.与这个事实类 与大脑皮层的对应关系在MNI(montreal neurological 似,DIVA模型中的咿呀学语过程发生在以下2个阶 institute)标准框架上进行了具体描述,并对大脑皮 段:1)体觉-发音映射阶段,此阶段中的体觉映射过 层以及小脑中包括预运动(premotor)、运动、听觉、 程是在缺乏语音背景的情况下进行学习的:2)对每 体觉的几个区域所涉及的成分作了精确的定义.笔 个语音体觉目标进行学习的阶段,学习的目标是语 者近年来对DIVA模型的研究也进行了跟踪,并在 音-体觉映射的权值编码. 一些局部方案的改进和完善方面取得了初步进展和 咿呀学语之后,模型能够使用英语音素集中的 成果[1417] 29个音素组合生成任意音素串.纵规DVA模型对 但正如R.Smit山所指出的那样1],尽管有了诸 每个语音体觉目标的学习过程,可以看到其基本假 定如下:在婴儿正确可靠地生成给定语音之前,他能 多方面的改进,模型仍然存在一个非常严重的不足, 够正确可靠地感知这个语音,并假定模型具有感知 即对类似婴儿语言获取能力的模拟,也就是婴儿对 所有即将生成语音的能力.然而,这与婴儿咿呀学语 语音的“感知能力要比其语音生成技巧发育得更快 的过程并不完全相符,因为婴儿在感知其他语音之 一些”这样的事实一直没有予以考虑,因而影响到 前就已经能够很准确地发出一些与给定语音相关的 模型自身的自组织、自适应能力 声音了.而且这些声音与瞬时环境密切相关,是一种 本文的主要目的是在DVA模型的基础上,提 多感觉输入(听觉、视觉、触觉等)的融合体.在将这 出一种使系统能自动获取语音-映射单元的方法, 些融合体信息映射到大脑皮层语音区域的过程中, 这种方法与婴儿咿呀学语的过程基本一致,符合感 逐步形成了听觉过程渐近式的反应机制.因此,音素 知能力与生成技巧发育平衡的自然现象.通过此方 表征这种形式就可以被看作是能将若干输入候选词 法的应用,DVA模型在语音生成和获取过程中将 相互区分开来,最终形成婴儿早期语言获取过程中 更具自然特性,从而使研究者能更好地研究语音生 的一种具有自组织、自适应能力的表征机制.DIVA 成和获取的过程, 模型没能有效地表征这种机制,因而没有充分实现 语言习得(language acquisition)与 感知语音的自组织、自适应过程.因此,从这一点来 DIVA模型 看,DIVA模型还不完全具备神经生理学意义上的 控制功能,对其进行完善或重构,使其具有语音感知 关于人类语言能力在遗传基因中所占比重到底 的自组织和自适应能力是非常重要且非常有意义的
神经分析系统由 2 部分组成:脑-计算机接口 (BCI)和语音合成系统 DIVA( directions into veloci⁃ ties of articulators).在 BCI 中,脑电信号的产生方式 是一种无线神经电极[1⁃2] ,用于长期植入患者的大 脑皮层,而检测到的神经信号则被用于驱动语音合 成器的连续“运动”,为患者提供实时语音输出;DI⁃ VA 模型则是一种具有生物学意义的关于语音生成 和获取的神经网络[3⁃4] ,主要依据有关语音生成及 感知心理物理学实验的行为数据、FMRI( functional magnetic resonance imaging)和 PET(positron emission computed tomography) 实验的神经成像数据以及对 动物所做的运动控制实验的神经生理学数据等而建 立,目的是为了生成音素串而学习控制模拟声道的 运动,主要特征是反映神经解剖学与大脑相关区域 的关联性. 自 1994 年 Guenther 教授首次提出 DIVA 模型 以来[5] ,模型经历了不断的完善和更新.根据早期 DIVA 模 型 存 在 的 一 些 问 题[6] , Ghosh、 Tourville、 Max、Civier、Golfinopoulos、Castanon 等研究人员以及 Guenther 提出了一系列修订版本或思想[7⁃13] .特别是 Guenther 2011 年提出的 DIVA 模型[4] ,对模型组件 与大脑皮层的对应关系在 MNI(montreal neurological institute)标准框架上进行了具体描述,并对大脑皮 层以及小脑中包括预运动( premotor)、运动、听觉、 体觉的几个区域所涉及的成分作了精确的定义.笔 者近年来对 DIVA 模型的研究也进行了跟踪,并在 一些局部方案的改进和完善方面取得了初步进展和 成果[14⁃17] . 但正如 R.Smith 所指出的那样[18] ,尽管有了诸 多方面的改进,模型仍然存在一个非常严重的不足, 即对类似婴儿语言获取能力的模拟,也就是婴儿对 语音的“感知能力要比其语音生成技巧发育得更快 一些”这样的事实一直没有予以考虑,因而影响到 模型自身的自组织、自适应能力. 本文的主要目的是在 DIVA 模型的基础上,提 出一种使系统能自动获取语音-映射单元的方法, 这种方法与婴儿咿呀学语的过程基本一致,符合感 知能力与生成技巧发育平衡的自然现象.通过此方 法的应用,DIVA 模型在语音生成和获取过程中将 更具自然特性,从而使研究者能更好地研究语音生 成和获取的过程. 1 语言习得( language acquisition) 与 DIVA 模型 关于人类语言能力在遗传基因中所占比重到底 是多少,一直以来是语言习得理论所涉及的一个重 要问题.从先天论和生态学的观点来看,这个问题一 方面表明了人类语言能力有些是与生俱来的,例如 婴儿能够从所获取的少量语音信息里归纳出语法或 句法规则的能力[19] ;另一方面,也可以解释为人类 语言的胜任能力是信息处理原则的结果.也就是说, 当最初只能获得有限输入时,系统只是学习输入信 息的基本结构,而不是记住每个输入的具体内容,这 样的处理原则非常重要[20] . 可以将婴儿学习语言的能力比喻成一个有着有 限存储容量,但需要处理大量信息的神经计算系统. 为了模拟信息处理过程、学习信息处理的根本原则, 必须要知道学习内容以及学习这些内容所需要的必 要条件.也就是说,研究人类语音生成与获取的发展 过程,需要一个类似婴儿生理能力和生态背景的系 统.系统的学习过程应该是自组织和自适应的,能够 通过与瞬时环境的直接作用形成自己的认知行为技 巧,即能通过与周围环境的相互影响来学习发音意 义的表示及其语法结构[21] . 婴儿在咿呀学语阶段,许多非语音因素以及发 音动作在频繁发声之前就已经存在.与这个事实类 似,DIVA 模型中的咿呀学语过程发生在以下 2 个阶 段:1)体觉-发音映射阶段,此阶段中的体觉映射过 程是在缺乏语音背景的情况下进行学习的;2)对每 个语音体觉目标进行学习的阶段,学习的目标是语 音-体觉映射的权值编码. 咿呀学语之后,模型能够使用英语音素集中的 29 个音素组合生成任意音素串.纵观 DIVA 模型对 每个语音体觉目标的学习过程,可以看到其基本假 定如下:在婴儿正确可靠地生成给定语音之前,他能 够正确可靠地感知这个语音,并假定模型具有感知 所有即将生成语音的能力.然而,这与婴儿咿呀学语 的过程并不完全相符,因为婴儿在感知其他语音之 前就已经能够很准确地发出一些与给定语音相关的 声音了.而且这些声音与瞬时环境密切相关,是一种 多感觉输入(听觉、视觉、触觉等)的融合体.在将这 些融合体信息映射到大脑皮层语音区域的过程中, 逐步形成了听觉过程渐近式的反应机制.因此,音素 表征这种形式就可以被看作是能将若干输入候选词 相互区分开来,最终形成婴儿早期语言获取过程中 的一种具有自组织、自适应能力的表征机制.DIVA 模型没能有效地表征这种机制,因而没有充分实现 感知语音的自组织、自适应过程.因此,从这一点来 看,DIVA 模型还不完全具备神经生理学意义上的 控制功能,对其进行完善或重构,使其具有语音感知 的自组织和自适应能力是非常重要且非常有意义的 ·306· 智 能 系 统 学 报 第 8 卷
第4期 张少白,等:基于DVA模型的语音-映射单元自动获取 ·307. 一项工作 层区域:箭头则表示一种神经元表述到另一种表述 2DIVA模型概述 之间的转换,且这种转换被假定是某一集合中细胞 活度(activation)的筛选通过突触映射到另一集合的 如图1所示】,模型由前馈控制子系统、反馈 过程突触权值则是在模型中2个阶段之一的咿呀 控制子系统以及前田(maeda)模拟声道所组成.训练 学语阶段(另一阶段为执行阶段)所获得的.发音器 中,模型通过某种规则在以语音作为输入的同时,产 官的随机运动提供触觉、本体感受(proprioceptive) 生一个发音速度以及器官位置变化的时变序列,应 以及听觉反馈信号,并通过这些信号学习不同神经 用这个序列,系统就可以得到所需要的理想发音. 元表述之间的相互关系.咿呀学语后的执行阶段,模 图1中,每个方框代表构成某一神经表述的神 型可以快速地利用音频采样学习产生新的发音. 经元集合方框中黑体字代表集合所对应的大脑皮 前馈控制系统 反馈控制系统 语音映射集 反馈控制映射集 L 体觉目标映射集 听觉日标映射集 初始化映射集 L 体觉误差映射集 听觉误差映射集 发音器官速率和 体觉状态映射集 位置映射集 听觉状态映射集 通过皮质下核 传递到发音器 听觉反馈通过皮质下核传递 官肌肉组织 中●补物4 体觉反馈通过皮质下核传递 图1DVA语音模型抽象图 Fig.1 DIVA model 模型中的语音映射集合(speech sound map)由 了模拟语音获取的初始阶段,需要首先考虑模型获 一系列语音-映射单元(speech sound-target cells)组 取语音的2个方面,即来自自然语言环境的听觉输 成,每个单元对应一个特定音素模型在咿呀学语仿 入和自身语音的听觉反馈.听觉输入一开始就被建 真阶段,语音信号与语音-映射单元之间的距离可 立;而听觉反馈则是通过不断调整相关参数来产生 以通过计算获取.如果发音匹配理想,某个语音-映 和目标声音一致的语音的.这样,对于听觉输入和目 射单元就会被激活,同时系统会将此发音的声道配 标声音的初始化过程如下 置信息添加到该语音-映射单元里.下一次模型产生 3.1输入语音信号的临界频带(critical band)过滤 与已经定义的语音-映射单元里的信息非常相近的 及语音组块(sound chunks)的边界定义 声音时,就会再次将当前声道配置信息加入此单元, 将人耳模拟为一个并联带通滤波器组,由具有 使得单元里的语音信息不断被扩大.通过这样的方 不同带宽的滤波器组成,分别对听觉做出不同反应, 式不断地生成各种各样的语音,模型就能够学习各 因而可以分别考虑各频带的屏蔽效应、听觉响度与 种语音的不同表达方式。 频率关系.在读取输入语音信号的过程中,考虑到 3初始化过程与实现步骤 DVA模型中听觉存储空间的维度是21,所以用21 个宽度为1巴克(bark)的带通滤波器将其关联起 DIVA模型中的语音-映射单元由任意音素或 来,用于处理传入的语音信号,从而获得最初的听觉 音节组成.如果直接人为设置语音-映射单元里的初 表示.输入信号的强度用dBSPL表示.在每个bark 始值,就会和语音获取先天论所表述的一样,使得模 频段内,通过从初始强度减去听阈(hearing thresh- 型必须被事先决定应用适当单元里的相关定义来表 olds)的方法,将dBSPL转换成听觉强度(dBHL). 示语音的典型发音,这显然与实际发音过程不符.为 临界频带分析分2步进行.首先是频域到巴克
一项工作. 2 DIVA 模型概述 如图 1 所示[3] ,模型由前馈控制子系统、反馈 控制子系统以及前田(maeda)模拟声道所组成.训练 中,模型通过某种规则在以语音作为输入的同时,产 生一个发音速度以及器官位置变化的时变序列,应 用这个序列,系统就可以得到所需要的理想发音. 图 1 中,每个方框代表构成某一神经表述的神 经元集合.方框中黑体字代表集合所对应的大脑皮 层区域;箭头则表示一种神经元表述到另一种表述 之间的转换,且这种转换被假定是某一集合中细胞 活度(activation)的筛选通过突触映射到另一集合的 过程.突触权值则是在模型中 2 个阶段之一的咿呀 学语阶段(另一阶段为执行阶段)所获得的.发音器 官的随机运动提供触觉、本体感受( proprioceptive) 以及听觉反馈信号,并通过这些信号学习不同神经 元表述之间的相互关系.咿呀学语后的执行阶段,模 型可以快速地利用音频采样学习产生新的发音. 图 1 DIVA 语音模型抽象图 Fig.1 DIVA model 模型中的语音映射集合(speech sound map)由 一系列语音-映射单元(speech sound⁃target cells)组 成,每个单元对应一个特定音素.模型在咿呀学语仿 真阶段,语音信号与语音-映射单元之间的距离可 以通过计算获取.如果发音匹配理想,某个语音-映 射单元就会被激活,同时系统会将此发音的声道配 置信息添加到该语音-映射单元里.下一次模型产生 与已经定义的语音-映射单元里的信息非常相近的 声音时,就会再次将当前声道配置信息加入此单元, 使得单元里的语音信息不断被扩大.通过这样的方 式不断地生成各种各样的语音,模型就能够学习各 种语音的不同表达方式. 3 初始化过程与实现步骤 DIVA 模型中的语音-映射单元由任意音素或 音节组成.如果直接人为设置语音-映射单元里的初 始值,就会和语音获取先天论所表述的一样,使得模 型必须被事先决定应用适当单元里的相关定义来表 示语音的典型发音,这显然与实际发音过程不符.为 了模拟语音获取的初始阶段,需要首先考虑模型获 取语音的 2 个方面,即来自自然语言环境的听觉输 入和自身语音的听觉反馈.听觉输入一开始就被建 立;而听觉反馈则是通过不断调整相关参数来产生 和目标声音一致的语音的.这样,对于听觉输入和目 标声音的初始化过程如下. 3.1 输入语音信号的临界频带(critical band )过滤 及语音组块(sound chunks )的边界定义 将人耳模拟为一个并联带通滤波器组,由具有 不同带宽的滤波器组成,分别对听觉做出不同反应, 因而可以分别考虑各频带的屏蔽效应、听觉响度与 频率关系.在读取输入语音信号的过程中,考虑到 DIVA 模型中听觉存储空间的维度是 21,所以用 21 个宽度为 1 巴克( bark) 的带通滤波器将其关联起 来,用于处理传入的语音信号,从而获得最初的听觉 表示.输入信号的强度用 dBSPL 表示.在每个 bark 频段内,通过从初始强度减去听阈( hearing thresh⁃ olds)的方法,将 dBSPL 转换成听觉强度(dBHL). 临界频带分析分 2 步进行.首先是频域到巴克 第 4 期 张少白,等:基于 DIVA 模型的语音-映射单元自动获取 ·307·
·308. 智能系统学报 第8卷 域的转换,即 数衰减函数为 b=6log( 5+()+1). 0,t25 dBHL)及时间间隔(<0.15s)这样的方式,来解决定 四2agP@)-r9o1: 义相关语音组块的问题 2)这是一个非对称测度,在此基础上可以定义 DIVA模型中,语音组块被保存在通用缓冲存 对称测度如下: 储区中输入信号经21维听觉存储空间的某条路径 被连续表征,各输入信号间不同部分的相似性也通 d,(亚,,)=2(d(亚,,)d(亚) 过与这条路径几乎重叠的方式(距离差距极小)被 3)实际计算时,可以利用蒙特卡罗方法从任意 反映出来这种相似性表示之间的距离应用一种称 一个模型中求得X,当k足够大时就可以获得足 之为“city-block”的度量标准来计算.所谓“city- 够准确的结果 block”,是指所有每2个与听觉表示有关的向量之 通过以上3个步骤,就可以完成此方法的设计. 间绝对距离的总和,其定义为 可以想象,每当一个存储在缓冲区中的信号与输入 信号形成匹配,就会将那些具有相同意义的组块结 合在一起这样的组块可以由一个整句组成,例如: 然后通过指数衰减函数进行信号的记忆衰减 look at the nice cats.如果随后有另一个输入信号 此过程能使无用或者作用很小的功能单元慢慢消 look at the nice dogs,系统就可以得到语音模式look 失,而具有相近坐标、时常被激活的那些单元则彼此 at the nice、cats和dogs.如果还有一个输入信号look 扩展且逐渐聚集在内存缓冲区中.本文拟采用的指 at the cute cat,.系统就有语音模式look at the、cute
域的转换,即 b = 6log( f 600 + ( f 600 ) 2 + 1 ). 式中:f 为频率,Hz; b 为单位的巴克域频率,B. 然后借助滤波器函数将语音频谱进行“平滑” 处理.临界频带滤波器组定义如下: Ck(ω) = 10 1.0(b-bk +0.5) ,b ≤ bk - 0.5; 1,bk - 0.5 < b < bk + 0.5; 10 -2.5(b-bk -0.5) ,b ≥ bk + 0.5. ì î í ï ï ï ï 式中:bk 为 bark 中心频率,滤波器组在 bark 域内等 间距配置. 根据人耳对不同频率的音响激励具有不同响应 灵敏度的特点,还要对由临界频带分析所获得的谱 进行等响度级变换.其预处理曲线为 E(ω) = 1.151 (ω 2 + 144 × 10 4 )ω 2 (ω 2 + 16 × 10 4 )(ω 2 + 961 × 10 4 ) . 此时,第 k 个滤波器输出为 Fk = E(ωk)∫ π 0 Ck(ω)P(ω)dω. 经以上处理后,得到的频谱为响度级谱,即强度 谱.要获得主观听觉感知上的响度,还要进行响度级 谱与响度之间的转换.转换公式为 L(k) = (Fk) 1/ 3 . 通过这样的方法将输入信号转换为听觉信号 后,再从中找出静音区间(silence),这样就形成了语 音组块. 3.2 听觉相似性比较 为了在没有任何输入假设的前提下模拟语音获 取的实际步骤,通过修改所有语音序列的强度( >25 dBHL)及时间间隔( <0.15 s)这样的方式,来解决定 义相关语音组块的问题. DIVA 模型中,语音组块被保存在通用缓冲存 储区中.输入信号经 21 维听觉存储空间的某条路径 被连续表征,各输入信号间不同部分的相似性也通 过与这条路径几乎重叠的方式(距离差距极小) 被 反映出来.这种相似性表示之间的距离应用一种称 之为 “ city⁃block” 的度量标准来计算. 所谓 “ city⁃ block”,是指所有每 2 个与听觉表示有关的向量之 间绝对距离的总和,其定义为 dij = ∑ N k = 1 xik - xjk . 然后通过指数衰减函数进行信号的记忆衰减. 此过程能使无用或者作用很小的功能单元慢慢消 失,而具有相近坐标、时常被激活的那些单元则彼此 扩展且逐渐聚集在内存缓冲区中.本文拟采用的指 数衰减函数为 f(t) = 0,t < 0; e -βt ,t ≥ 0. { 其傅里叶变换为 F(ω) = ∫ +¥ -¥ f(t)e -jωt dt = ∫ +¥ 0 e -(β+jω)t dt = 1 / β + jω. 通过以上方法就可以实现语言的相似性比较和 记忆衰减了. 3.3 语音的搜索和更新 语音识别算法的主要思路是在候选词串中搜索 使声学模型和语言模型的概率乘积最大的词串.由 候选词串构成的搜索空间受语言模型和声学模型的 约束.声学模型是识别系统的底层模型,其目标是通 过模型度量,寻找语音特征向量序列对应的语音.当 前常用的声学模型是隐马尔可夫模型(hidden Mark⁃ ov model, HMM),也可应用 HMM 来进行相似度比 较、搜索和更新. 系统中要对同一类样本建立多个 HMM.为增加 系统的统计可靠性,需要将相似的 HMM 合并,以增 加参与训练的语音样本个数.聚类过程中,基于概率 测度的模型间相似度计算方法如下: 1) 假设 Φ1 产生了 K 个特征矢量序列 X (k) ,k = 1,2,…,K .2 个模型产生这 K 个序列的概率分别为 P(X (k) | Φ1 ) 和 P(X (k) | Φ2 ),则2 个模型间的相似 度 d(Φ1 ,Φ2 ) 可按式(1) 计算: d(Φ1 ,Φ2 ) = lim k→¥ 1 k ∑ k k = 1 lgP(X (k) Φ1) - lgP(X (k) [ Φ2)] . (1) 2)这是一个非对称测度,在此基础上可以定义 对称测度如下: ds(Φ1 ,Φ2 ) = 1 2 (d(Φ1 ,Φ2 )d(Φ2 ,Φ1 )). 3)实际计算时,可以利用蒙特卡罗方法从任意 一个模型中求得 X (k) ,当 k 足够大时就可以获得足 够准确的结果. 通过以上 3 个步骤,就可以完成此方法的设计. 可以想象,每当一个存储在缓冲区中的信号与输入 信号形成匹配,就会将那些具有相同意义的组块结 合在一起.这样的组块可以由一个整句组成,例如: look at the nice cats. 如果随后有另一个输入信号 look at the nice dogs,系统就可以得到语音模式 look at the nice 、cats 和 dogs.如果还有一个输入信号 look at the cute cat,系统就有语音模式 look at the、cute、 ·308· 智 能 系 统 学 报 第 8 卷
第4期 张少白,等:基于DIVA模型的语音-映射单元自动获取 ·309. cat,nice和s等.在这种情况下,系统工作起来就能 0.03 aal(22 052 x I real.Fs=1) 区分诸如cat和cats之类的对比功能部件.这是一个 巡0.01 简单的有关提取语音和句子结构的例子,这些语音 g0.01 和句子的结构是在不按照任何事先预定好的规则 -0.03 0.5 1.0 1.5 2.0 下,从粗略的听觉信号中提取出来的.语法和句法规 则也以同样的方式,根据输入信号的结构而逐渐形 (b)音素“a” 成这些语音组块通过长期存储,以及与输入信号不 0.2 uu(38591×1real.Fs=1) 同组合的逐一对比,就会慢慢变得有序起来,且阵容 不断扩大、内容不断增加但需要强调的是,以这样 的方式建立的模型,并不足以描述语音获取的全部 0.2 0 03101店2025304010 过程,只是一种相对粗糙但能在任何语音信号中寻 t/s 找统计规则的模型. (c)音素“u” 图33个音素过滤后的波形图 4仿真实验 Fig.3 The oscillogram of three phonemes after filtration 仿真实验以i、a、u3个元音为例,用MATLAB 0.3ě10 实现. 0.5 首先,将3个元音的录音分别保存为i.wav、 0.7 a.wav、u.wav文件,音频格式为PCM编码,量化等级 0.9 为16,单声道,接着分别将其转化为文件名为i.mat、 a.mat、u.mat的MATLAB数据文件,如图2~4. 0.1 0.2 0.3 0.40.5 7Hz sig1(159877 x I real.Fs=1) (a)音素“ ×10 0.3 ×10 10 15 20 ti 0.5 (a)音素“i" 0.7 a1(22052×1real.Fs=1) 0.2 0.9 0 -0.2 0. 10 0.1 0.20.3 0.40.5 0.5 1.01.5 2.0 2.5 fHz tis (b)音素“a” (b)音素“a” 0.2r×10 u(38591×1real.Fs=1) 0.2 延 0.6 0.2 0.66 0.51.01.5 g乃0方4810 1.0p (c)音素“u” 14 图23个音素的波形 0. 0.2 0.3 0.40.5 fHz Fig.2 The oscillogram of three phonemes (c音素“u” sig2(159877×1real.Fs=1) 图43个音素的频谱 [4 Fig.4 The spectrogram of three phonemes 从频谱图中可以清楚地看到3个音素的共振峰 1 表征形式.所谓共振峰,是一种用来描述声学共振现 象的概念.应用这种概念,不仅可以确定音素的音 (a)音素“i" 质,了解语音信息的直接来源,也可以反映DVA模
cat、nice 和 s 等.在这种情况下,系统工作起来就能 区分诸如 cat 和 cats 之类的对比功能部件.这是一个 简单的有关提取语音和句子结构的例子,这些语音 和句子的结构是在不按照任何事先预定好的规则 下,从粗略的听觉信号中提取出来的.语法和句法规 则也以同样的方式,根据输入信号的结构而逐渐形 成.这些语音组块通过长期存储,以及与输入信号不 同组合的逐一对比,就会慢慢变得有序起来,且阵容 不断扩大、内容不断增加.但需要强调的是,以这样 的方式建立的模型,并不足以描述语音获取的全部 过程,只是一种相对粗糙但能在任何语音信号中寻 找统计规则的模型. 4 仿真实验 仿真实验以 i、a、u 3 个元音为例,用 MATLAB 实现. 首先,将 3 个元音的录音分别保存为 i. wav、 a.wav、u.wav 文件,音频格式为 PCM 编码,量化等级 为 16,单声道,接着分别将其转化为文件名为 i.mat、 a.mat、u.mat 的 MATLAB 数据文件,如图 2~4. (a)音素“i” (b) 音素“a” (c)音素“u” 图 2 3 个音素的波形 Fig.2 The oscillogram of three phonemes (a)音素“i” (b)音素“a” (c)音素“u” 图 3 3 个音素过滤后的波形图 Fig.3 The oscillogram of three phonemes after filtration 图 4 3 个音素的频谱 Fig.4 The spectrogram of three phonemes 从频谱图中可以清楚地看到 3 个音素的共振峰 表征形式.所谓共振峰,是一种用来描述声学共振现 象的概念.应用这种概念,不仅可以确定音素的音 质,了解语音信息的直接来源,也可以反映 DIVA 模 第 4 期 张少白,等:基于 DIVA 模型的语音-映射单元自动获取 ·309·
·310. 智能系统学报 第8卷 型中前田声道(Maeda vocal)谐振腔的一系列重要 个标准模型,但它对于进一步研究这些过程却是一 特征. 个非常好的平台.在机器人系统中执行DIVA模型, 共振峰的最低频率为F,其次为F2,F,…,依 可以将语音生成与获取的很多基本过程清楚地显示 此类推绝大多数情况下,应用前2个共振峰F,和 出来希望通过语音科技和认知科学的合作,能够对 F,就足以将不同元音区分开来,并可以对元音的 ASR(automatic speech recognition)系统和语音合成 前/后、开/闭等不同状态加以描述 系统的设计进行改进,从而有助于形成更科学、更具 源自初始模式匹配过程(单词学习过程)的可 有生物学意义的语音生成与获取模型. 对比语音单元,大致可以用一个三维空间来说明,即 2个共振峰频率轴和1个神经元活度(activity level) 参考文献: 轴.每个新的功能单元的输入表示方法中,当与输入 [1]GUENTHER F H,BRUMBERG J S,WRIGHT E J,et al. 刺激强度相一致的高斯曲面在F,-F2坐标轴中具 Wireless brain-machine interface for real-time speech syn- 有最大值时,就会在感知存储空间中被生成.模拟的 thesis[J].PLoS0NE,2009,4(12):8218. 记忆衰减过程会使与当前语音不相关的那些功能单 [2]BRUMBERG J S,NIETO-CASTANON A,KENNEDY P R, et al.Brain-computer interfaces for speech communication 元逐渐消失,而坐标位置靠得很近且活跃度很高的 [J].Speech Communication,2010,52(4):367-379. 那些单元就会相互扩展,最终聚集在感知存储空间 [3]TOURVILLE J T,GUENTHER F H.The DIVA model:a 中随着输入量的不断增加,已建立起来的语音-映 neural theory of speech acquisition and production[J].Lan- 射单元因为比对结果的长期一致,慢慢地就逐步成 guage and Cognitive Processes,2011,25(7):952-981. 为了输入语言候选音素的当选者. [4]GUENTHER F H,VLADUSICH T.A neural theory of 实验应用这种方法,从自然发声语音中提取 speech acquisition and production[].Journal of Neurolin- 100个已知音素(i、a、u)的样本,并将其在坐标轴中 guistics,2012,25(5):408-422. 的F,-F,值一一标注出来.与此同时,将这些样本与 [5]GUENTHER F H.A neural network model of speech acqui- 另外给出的具有随机F,-F,坐标值的310个数据放 sition and motor equivalent speech production[J].Biological Cybernetics,1994.72(1):43-53. 置在一起.系统经过第3节所述3个步骤的运行,最 [6]GHOSH S S.Understanding cortical contributions to speech 后,3个已知音素根据它们的坐标值很明显地聚集 production through modeling and functional imaging[D]. 在一起.当然,这个过程也会掺杂一些具有其他随机 Boston,USA:Boston University,2005:1-36. 坐标值的音素,但通过记忆衰减,这些随机坐标值的 [7]GUENTHER F H,GHOSH SS.A neural model of speech 影响慢慢地就会越来越小,直至消失.以上过程如图 production[C]//Proceedings of the 6th International Semi- 5所示. nar on Speech Production.Sydney,Australia,2003:85-90. 10 [8]TOURVILLE J A,REILLY K J.Neural mechanisms under- 0 lying auditory feedback control of speech[].Neurolmage, 2008,39(3):1429-1443. [9]MAX L,GHOSH SS.Unstable or insufficiently activated internal models and feedback-biased motor control as sources of dysfluency:a theoretical model of stuttering[J]. Contemporary Issues in Communication Science and Disor- ders,2004.31:105-122. 10 210 F. [10]CIVIER O,GUENTHER F H.Simulations of feedback and 图5F,-F,坐标轴样本二维空间聚类示意 feedforward control in stuttering[C]//Proceedings of the 7th Oxford Dysfluency Conference.Oxford,UK,2005:1-7. Fig.5 The two-dimensional diagram of F-F2 [11]NIETO-CASTANON A,PERKELL J S,CURTIN H D.A 5结束语 modeling investigation of articulatory variability and acous- tic stability during American English /r/production[J. 针对现有DIVA模型中存在的问题,提出了一 Journal of the Acoustical Society of America,2005,117 种自动获取语音-映射单元的方法.应用此方法,能 (5):3196-3212. 使DIVA模型更具自然特性,从而使研究者能应用 [12]GUENTHER F H.Cortical interactions underlying the pro- 模型更好地研究语音生成与获取的过程.一般说来, duction of speech sounds J].Journal of Communication Disorders,2006,39(5):350-365. DVA模型对于语音生成和听觉反馈而言还不是一 [13]GUENTHER F H,GHOSH SS,TOURVILLE J A.Neural
型中前田声道(Maeda vocal) 谐振腔的一系列重要 特征. 共振峰的最低频率为 F1 ,其次为 F2 ,F3 ,…,依 此类推.绝大多数情况下,应用前 2 个共振峰 F1 和 F2 就足以将不同元音区分开来,并可以对元音的 前/ 后、开/ 闭等不同状态加以描述. 源自初始模式匹配过程(单词学习过程) 的可 对比语音单元,大致可以用一个三维空间来说明,即 2 个共振峰频率轴和 1 个神经元活度(activity level) 轴.每个新的功能单元的输入表示方法中,当与输入 刺激强度相一致的高斯曲面在 F1 -F2 坐标轴中具 有最大值时,就会在感知存储空间中被生成.模拟的 记忆衰减过程会使与当前语音不相关的那些功能单 元逐渐消失,而坐标位置靠得很近且活跃度很高的 那些单元就会相互扩展,最终聚集在感知存储空间 中.随着输入量的不断增加,已建立起来的语音-映 射单元因为比对结果的长期一致,慢慢地就逐步成 为了输入语言候选音素的当选者. 实验应用这种方法,从自然发声语音中提取 100 个已知音素(i、a、u)的样本,并将其在坐标轴中 的 F1 -F2 值一一标注出来.与此同时,将这些样本与 另外给出的具有随机 F1 -F2 坐标值的 310 个数据放 置在一起.系统经过第 3 节所述 3 个步骤的运行,最 后,3 个已知音素根据它们的坐标值很明显地聚集 在一起.当然,这个过程也会掺杂一些具有其他随机 坐标值的音素,但通过记忆衰减,这些随机坐标值的 影响慢慢地就会越来越小,直至消失.以上过程如图 5 所示. 图 5 F1 - F2 坐标轴样本二维空间聚类示意 Fig.5 The two⁃dimensional diagram of F1 - F2 5 结束语 针对现有 DIVA 模型中存在的问题,提出了一 种自动获取语音-映射单元的方法.应用此方法,能 使 DIVA 模型更具自然特性,从而使研究者能应用 模型更好地研究语音生成与获取的过程.一般说来, DIVA 模型对于语音生成和听觉反馈而言还不是一 个标准模型,但它对于进一步研究这些过程却是一 个非常好的平台.在机器人系统中执行 DIVA 模型, 可以将语音生成与获取的很多基本过程清楚地显示 出来.希望通过语音科技和认知科学的合作,能够对 ASR( automatic speech recognition) 系统和语音合成 系统的设计进行改进,从而有助于形成更科学、更具 有生物学意义的语音生成与获取模型. 参考文献: [1]GUENTHER F H, BRUMBERG J S, WRIGHT E J, et al. Wireless brain⁃machine interface for real⁃time speech syn⁃ thesis[J]. PLoS ONE, 2009, 4 (12): 8218. [2]BRUMBERG J S, NIETO⁃CASTANON A, KENNEDY P R, et al. Brain⁃computer interfaces for speech communication [J]. Speech Communication, 2010, 52 (4): 367⁃379. [3] TOURVILLE J T, GUENTHER F H. The DIVA model: a neural theory of speech acquisition and production[J]. Lan⁃ guage and Cognitive Processes, 2011, 25(7): 952⁃981. [4] GUENTHER F H, VLADUSICH T. A neural theory of speech acquisition and production[J]. Journal of Neurolin⁃ guistics, 2012, 25(5): 408⁃422. [5]GUENTHER F H. A neural network model of speech acqui⁃ sition and motor equivalent speech production[J]. Biological Cybernetics, 1994, 72(1): 43⁃53. [6]GHOSH S S. Understanding cortical contributions to speech production through modeling and functional imaging [ D]. Boston, USA: Boston University, 2005: 1⁃36. [7]GUENTHER F H, GHOSH S S. A neural model of speech production[C] / / Proceedings of the 6th International Semi⁃ nar on Speech Production. Sydney, Australia, 2003: 85⁃90. [8]TOURVILLE J A, REILLY K J. Neural mechanisms under⁃ lying auditory feedback control of speech[ J]. NeuroImage, 2008, 39 (3): 1429⁃1443. [9] MAX L, GHOSH S S. Unstable or insufficiently activated internal models and feedback⁃biased motor control as sources of dysfluency: a theoretical model of stuttering[ J]. Contemporary Issues in Communication Science and Disor⁃ ders, 2004, 31: 105⁃122. [10]CIVIER O, GUENTHER F H. Simulations of feedback and feedforward control in stuttering [ C] / / Proceedings of the 7th Oxford Dysfluency Conference. Oxford, UK, 2005: 1⁃7. [11]NIETO⁃CASTANON A, PERKELL J S, CURTIN H D. A modeling investigation of articulatory variability and acous⁃ tic stability during American English / r/ production [ J]. Journal of the Acoustical Society of America, 2005, 117 (5): 3196⁃3212. [12]GUENTHER F H. Cortical interactions underlying the pro⁃ duction of speech sounds [ J]. Journal of Communication Disorders, 2006, 39(5): 350⁃365. [13]GUENTHER F H, GHOSH S S, TOURVILLE J A. Neural ·310· 智 能 系 统 学 报 第 8 卷
第4期 张少白,等:基于DVA模型的语音-映射单元自动获取 ·311 modeling and imaging of the cortical interactions underlying systems'efficiency[C]//Proceedings from Fonetik 2005. syllable production[J].Brain and Language,2006,96 Gothenburg,Sweden,2005:83-86. (3):280-301. [20]CHEN Y,WENG J.Developmental learning:a case study [14]ZHANG Shaobai,XU Lei,CHENG Xiefeng.Research on in understanding "object permanence"[C]//Proceedings classification method of speech signal based on DIVA mod- of Fourth International Workshop on Epigenetic Robotics: el[J].International Review on Computers and Software, Modeling Cognitive Development in Robotic Systems. 2012,7(6):108-113. Lund,Sweden,2004:35-42. [15]ZHANG Shaobai,HUANG Dandan.Electroencephalo- [21]KUHL P K,WILLIAMS K A,LACERDA F,et al.Lin- graphy feature extraction using high time frequency reso- guistic experience alters phonetic perception in infants by 6 lution analysis[J].Indonesian Journal of Electrical Engi- months of age[J].Science,1992(255):606-608. neering,2012,10(6):1415-1421. 作者简介: [16]ZHANG Shaobai,HAN Yanbin,LI Jinping,et al.Research 张少白,男,1953年生,主要研究方 on improved mean shift algorithm based on local distribu- 向为智能系统与模式识别.主持国家级 tion in EEG signal classification[J].Journal of Artificial 项目多项.发表学术论文多篇 Intelligence Research,2012,3(3):117-122 [17]ZHANG Shaobai,CHENG Weiqing.An application of cer- ebellar control model for prehension movements[J].Neural Computing and Application,DOI:10.1007/s 00521-012- 1335-1. 刘欣,男,1987年生,主要研究方向 [18]SMITH R.Speech production2:models of speech produc- 为模式识别与智能系统。 tion,foundations of speech communication EB/OL]. [2013-02-24].htp:/www.ling.cam.ac.uk/1i9/L4_0910_ SpeechProduction2.pdf. [19]LACERDA F,KLINTFORS E,GUSTAVSSON L.Multi- sensory information as an improvement for communication 2013年第13届英国计算智能研讨会 2013 13th UK Workshop on Computational Intelligence (UKCI) The 13th Annual Workshop on Computational Intelligence will be hosted by the University of Surrey,from September 9- 11,2013.UKCI is the premier UK and Ireland event for presenting leading research on all aspects of computational intelli- gence. The workshop aims to provide a forum for academic researchers to share research progresses and discuss emerging topics and future directions in the field of computational intelligence.Equally important,this workshop intends to demonstrate successful case studies,identify challenges and bridge the gap between theory and practice in applying computational in- telligence to solving real-world problems.The workshop will consist of regular sessions,special sessions and keynote talks from leading researchers in the field of computational intelligence. Topics The authors are invited to submit their original work in all areas of computational intelligence and nature-inspired compu- ting including,but not limited to the following:neural networks,computational and cognitive neuroscience,learning sys- tems,machine learning;fuzzy logic,fuzzy systems,type-2 fuzzy systems,approximate reasoning;evolutionary compu- ting,evolutionary algorithms,differential evolution,swarm intelligence,ant colony optimisation,artificial immune sys- tems,memetic computing;multi-agent systems,games,data mining,web intelligence,intelligent control,intelligent sig- nal processing,morphogenetic self-organisation and evolutionary developmental robotics.Applications of computational in- telligence techniques to bioinformatics and computational biology,brain-machine interface,digital eco-systems,healthcare and medical engineering,multi-media security and cyber security,robotics,design and manufacturing,energy and envi- ronment are particularly welcome. Website:http://ukci2013.cs.surrey.ac.uk/
modeling and imaging of the cortical interactions underlying syllable production [ J]. Brain and Language, 2006, 96 (3): 280⁃301. [14]ZHANG Shaobai, XU Lei, CHENG Xiefeng. Research on classification method of speech signal based on DIVA mod⁃ el[ J]. International Review on Computers and Software, 2012, 7 (6): 108⁃113. [ 15 ] ZHANG Shaobai, HUANG Dandan. Electroencephalo⁃ graphy feature extraction using high time frequency reso⁃ lution analysis[J]. Indonesian Journal of Electrical Engi⁃ neering, 2012, 10(6): 1415⁃1421. [16]ZHANG Shaobai,HAN Yanbin,LI Jinping,et al. Research on improved mean shift algorithm based on local distribu⁃ tion in EEG signal classification[ J]. Journal of Artificial Intelligence Research, 2012, 3(3): 117⁃122. [17]ZHANG Shaobai, CHENG Weiqing. An application of cer⁃ ebellar control model for prehension movements[J]. Neural Computing and Application, DOI:10. 1007 / s 00521⁃012⁃ 1335⁃1. [18]SMITH R. Speech production2: models of speech produc⁃ tion, foundations of speech communication [ EB/ OL ]. [2013⁃02⁃24]. http: / / www.ling.cam.ac.uk / li9 / L4_0910_ SpeechProduction2.pdf. [19] LACERDA F, KLINTFORS E, GUSTAVSSON L. Multi⁃ sensory information as an improvement for communication systems’ efficiency[C] / / Proceedings from Fonetik 2005. Gothenburg, Sweden, 2005: 83⁃86. [20]CHEN Y, WENG J. Developmental learning: a case study in understanding “ object permanence” [C] / / Proceedings of Fourth International Workshop on Epigenetic Robotics: Modeling Cognitive Development in Robotic Systems. Lund, Sweden, 2004: 35⁃42. [21]KUHL P K, WILLIAMS K A, LACERDA F, et al. Lin⁃ guistic experience alters phonetic perception in infants by 6 months of age[J]. Science, 1992(255): 606⁃608. 作者简介: 张少白,男,1953 年生,主要研究方 向为智能系统与模式识别.主持国家级 项目多项.发表学术论文多篇. 刘欣,男,1987 年生,主要研究方向 为模式识别与智能系统. 2013 年第 13 届英国计算智能研讨会 2013 13th UK Workshop on Computational Intelligence (UKCI) The 13th Annual Workshop on Computational Intelligence will be hosted by the University of Surrey, from September 9⁃ 11, 2013. UKCI is the premier UK and Ireland event for presenting leading research on all aspects of computational intelli⁃ gence. The workshop aims to provide a forum for academic researchers to share research progresses and discuss emerging topics and future directions in the field of computational intelligence. Equally important, this workshop intends to demonstrate successful case studies, identify challenges and bridge the gap between theory and practice in applying computational in⁃ telligence to solving real⁃world problems. The workshop will consist of regular sessions, special sessions and keynote talks from leading researchers in the field of computational intelligence. Topics The authors are invited to submit their original work in all areas of computational intelligence and nature⁃inspired compu⁃ ting including, but not limited to the following: neural networks, computational and cognitive neuroscience, learning sys⁃ tems, machine learning; fuzzy logic, fuzzy systems, type⁃2 fuzzy systems, approximate reasoning; evolutionary compu⁃ ting, evolutionary algorithms, differential evolution, swarm intelligence, ant colony optimisation, artificial immune sys⁃ tems, memetic computing; multi⁃agent systems, games, data mining, web intelligence, intelligent control, intelligent sig⁃ nal processing, morphogenetic self⁃organisation and evolutionary developmental robotics. Applications of computational in⁃ telligence techniques to bioinformatics and computational biology, brain⁃machine interface, digital eco⁃systems, healthcare and medical engineering, multi⁃media security and cyber security, robotics, design and manufacturing, energy and envi⁃ ronment are particularly welcome. Website:http: / / ukci2013.cs.surrey.ac.uk / 第 4 期 张少白,等:基于 DIVA 模型的语音-映射单元自动获取 ·311·