机器感知与模式识别：基于DIVA模型的语音-映射单元自动获取

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：1.11MB

第8卷第4期智能系统学报 Vol.8 No.4 2013年8月 CAAI Transactions on Intelligent Systems Aug.2013 D0I:10.3969/i.issn.1673-4785.201304049 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20130621.1541.002.html 基于DIVA模型的语音-映射单元自动获取张少白，刘欣 (南京邮电大学计算机学院，江苏南京210046) 摘要：针对DIVA模型中存在的“感知能力与语音生成技巧发育不平衡”问题，提出了一种自动获取语音-映射单元的方法该方法将人耳模拟为一个具有不同带宽的并联带通滤波器组，分别与模型中21维度的听觉存储空间相关联，对不同听觉的不同反应，分别考虑其频带的屏蔽效应、听觉响度与频率的关系在读取语音输入信号的过程中，模型能较好地获得初始听觉表示，其方式与婴儿咿呀学语的过程基本一致仿真实验表明，通过边界定义、相似性比较以及搜索更新等步骤，此方法能很好地进行初始输入模式的自组织匹配，并最终使DVA模型更具语音获取的自然特性。关键词：DIVA模型：音素：语音-映射单元：语音生成与获取中图分类号：TP31 文献标志码：A文章编号：1673-4785(2013)04-0305-07 中文引用格式：张少白，刘欣.基于DVA模型的语音-映射单元自动获取[J].智能系统学报，2013,8(4)：305-311. 英文引用格式：ZHANG Shaobai,LIU Xin.Automatic acquisition of speech sound-target cells based on DIVA model[J].CAAI Transactions on Intelligent Systems,2013,8(4):305-311. Automatic acquisition of speech sound-target cells based on DIVA model ZHANG Shaobai,LIU Xin (College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210046,China) Abstract:Contraposing the shortage of Directions Into Velocities of Articulators (DIVA)model about"infants per- ceptual abilities do develop faster at first than their speech production skills",the paper presents an automatic ac- quisition method of speech sound-target cells.The method simulates the human ear as a parallel band-pass filter group with different bandwidth and associates respectively;the filter with the 21-dimensional storage space of audi- tory sense in DIVA model.This method was done in order for different auditory reactions,the shielding effect of fre- quency band,sound loudness,and frequency relation could be considered respectively for this study.In the process of reading the input signal of speech,the model can acquire good initial hearing and the process is consistent with baby's babble.The simulation results show that through boundary definition,similarity comparison,searching and updates and so on,the method has nicer self-organized pattern matching effect for initial input,which makes the DIVA model a more natural characteristic regarding speech acquisition. Keywords:DIVA model;phoneme;speech sound-target cells;speech acquisition and production 在神经解剖学和神经心理学层次上，仿真和描述的成果.其中，波斯顿大学语音实验室F.H.Guenther 大脑中涉及语音生成和理解区域的相关功能，这是近教授带领的研究小组所做的工作最具代表性和开创来人工语音合成系统所追求的主要思想围绕这样的性.他们研制成功了一种称之为“神经分析系统(neu- 主题思想，多年来许多学者在语音生成和获取计算模 ralynx system)”的仪器，让使用者只需简单想一想自型的研究和探讨方面做出了巨大努力，并获得了丰硕己所希望表达的语言，语音合成系统就能将其内容直接转换成语音.通过与“脑-计算机”系统(brain-com- 收稿日期：2013-04-16.网络出版日期：2013-06-21 puter interface,BCI)相结合，使用者可以直接控制声基金项目：国家自然科学基金资助项目(61073115,61271334，音的输出，其反应速度比著名科学家霍金目前正在使 61373065). 通信作者：张少白.E-mail:adzsb@163.com 用的打字处理方式快了许多

第８卷第４期智能系统学报Ｖｏｌ．８ №．４２０１３年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１３ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０４０４９网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１３０６２１．１５４１．００２．ｈｔｍｌ基于ＤＩＶＡ模型的语音－映射单元自动获取张少白，刘欣（南京邮电大学计算机学院，江苏南京２１００４６）摘要：针对ＤＩＶＡ模型中存在的“感知能力与语音生成技巧发育不平衡”问题，提出了一种自动获取语音－映射单元的方法．该方法将人耳模拟为一个具有不同带宽的并联带通滤波器组，分别与模型中２１维度的听觉存储空间相关联，对不同听觉的不同反应，分别考虑其频带的屏蔽效应、听觉响度与频率的关系．在读取语音输入信号的过程中，模型能较好地获得初始听觉表示，其方式与婴儿咿呀学语的过程基本一致．仿真实验表明，通过边界定义、相似性比较以及搜索更新等步骤，此方法能很好地进行初始输入模式的自组织匹配，并最终使ＤＩＶＡ模型更具语音获取的自然特性．关键词：ＤＩＶＡ模型；音素；语音－映射单元；语音生成与获取中图分类号：ＴＰ３１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１３）０４⁃０３０５⁃０７中文引用格式：张少白，刘欣．基于ＤＩＶＡ模型的语音－映射单元自动获取［Ｊ］．智能系统学报，２０１３，８（４）：３０５⁃３１１．英文引用格式：ＺＨＡＮＧＳｈａｏｂａｉ，ＬＩＵＸｉｎ．Ａｕｔｏｍａｔｉｃａｃｑｕｉｓｉｔｉｏｎｏｆｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓｂａｓｅｄｏｎＤＩＶＡｍｏｄｅｌ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１３，８（４）：３０５⁃３１１．Ａｕｔｏｍａｔｉｃａｃｑｕｉｓｉｔｉｏｎｏｆｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓｂａｓｅｄｏｎＤＩＶＡｍｏｄｅｌＺＨＡＮＧＳｈａｏｂａｉ，ＬＩＵＸｉｎ（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｎａｎｊｉｎｇ２１００４６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＣｏｎｔｒａｐｏｓｉｎｇｔｈｅｓｈｏｒｔａｇｅｏｆＤｉｒｅｃｔｉｏｎｓＩｎｔｏＶｅｌｏｃｉｔｉｅｓｏｆＡｒｔｉｃｕｌａｔｏｒｓ（ＤＩＶＡ）ｍｏｄｅｌａｂｏｕｔ “ｉｎｆａｎｔｓｐｅｒ⁃ ｃｅｐｔｕａｌａｂｉｌｉｔｉｅｓｄｏｄｅｖｅｌｏｐｆａｓｔｅｒａｔｆｉｒｓｔｔｈａｎｔｈｅｉｒｓｐｅｅｃｈｐｒｏｄｕｃｔｉｏｎｓｋｉｌｌｓ”，ｔｈｅｐａｐｅｒｐｒｅｓｅｎｔｓａｎａｕｔｏｍａｔｉｃａｃ⁃ ｑｕｉｓｉｔｉｏｎｍｅｔｈｏｄｏｆｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓ．Ｔｈｅｍｅｔｈｏｄｓｉｍｕｌａｔｅｓｔｈｅｈｕｍａｎｅａｒａｓａｐａｒａｌｌｅｌｂａｎｄ⁃ｐａｓｓｆｉｌｔｅｒｇｒｏｕｐｗｉｔｈｄｉｆｆｅｒｅｎｔｂａｎｄｗｉｄｔｈａｎｄａｓｓｏｃｉａｔｅｓｒｅｓｐｅｃｔｉｖｅｌｙ；ｔｈｅｆｉｌｔｅｒｗｉｔｈｔｈｅ２１⁃ｄｉｍｅｎｓｉｏｎａｌｓｔｏｒａｇｅｓｐａｃｅｏｆａｕｄｉ⁃ ｔｏｒｙｓｅｎｓｅｉｎＤＩＶＡｍｏｄｅｌ．Ｔｈｉｓｍｅｔｈｏｄｗａｓｄｏｎｅｉｎｏｒｄｅｒｆｏｒｄｉｆｆｅｒｅｎｔａｕｄｉｔｏｒｙｒｅａｃｔｉｏｎｓ，ｔｈｅｓｈｉｅｌｄｉｎｇｅｆｆｅｃｔｏｆｆｒｅ⁃ ｑｕｅｎｃｙｂａｎｄ，ｓｏｕｎｄｌｏｕｄｎｅｓｓ，ａｎｄｆｒｅｑｕｅｎｃｙｒｅｌａｔｉｏｎｃｏｕｌｄｂｅｃｏｎｓｉｄｅｒｅｄｒｅｓｐｅｃｔｉｖｅｌｙｆｏｒｔｈｉｓｓｔｕｄｙ．Ｉｎｔｈｅｐｒｏｃｅｓｓｏｆｒｅａｄｉｎｇｔｈｅｉｎｐｕｔｓｉｇｎａｌｏｆｓｐｅｅｃｈ，ｔｈｅｍｏｄｅｌｃａｎａｃｑｕｉｒｅｇｏｏｄｉｎｉｔｉａｌｈｅａｒｉｎｇａｎｄｔｈｅｐｒｏｃｅｓｓｉｓｃｏｎｓｉｓｔｅｎｔｗｉｔｈｂａｂｙ＇ｓｂａｂｂｌｅ．Ｔｈｅｓｉｍｕｌａｔｉｏｎｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｒｏｕｇｈｂｏｕｎｄａｒｙｄｅｆｉｎｉｔｉｏｎ，ｓｉｍｉｌａｒｉｔｙｃｏｍｐａｒｉｓｏｎ，ｓｅａｒｃｈｉｎｇａｎｄｕｐｄａｔｅｓａｎｄｓｏｏｎ，ｔｈｅｍｅｔｈｏｄｈａｓｎｉｃｅｒｓｅｌｆ⁃ｏｒｇａｎｉｚｅｄｐａｔｔｅｒｎｍａｔｃｈｉｎｇｅｆｆｅｃｔｆｏｒｉｎｉｔｉａｌｉｎｐｕｔ，ｗｈｉｃｈｍａｋｅｓｔｈｅＤＩＶＡｍｏｄｅｌａｍｏｒｅｎａｔｕｒａｌｃｈａｒａｃｔｅｒｉｓｔｉｃｒｅｇａｒｄｉｎｇｓｐｅｅｃｈａｃｑｕｉｓｉｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ＤＩＶＡｍｏｄｅｌ；ｐｈｏｎｅｍｅ；ｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓ；ｓｐｅｅｃｈａｃｑｕｉｓｉｔｉｏｎａｎｄｐｒｏｄｕｃｔｉｏｎ收稿日期：２０１３⁃０４⁃１６．网络出版日期：２０１３⁃０６⁃２１．基金项目：国家自然科学基金资助项目（６１０７３１１５，６１２７１３３４，６１３７３０６５）．通信作者：张少白．Ｅ⁃ｍａｉｌ：ａｄｚｓｂ＠１６３．ｃｏｍ．在神经解剖学和神经心理学层次上，仿真和描述大脑中涉及语音生成和理解区域的相关功能，这是近来人工语音合成系统所追求的主要思想．围绕这样的主题思想，多年来许多学者在语音生成和获取计算模型的研究和探讨方面做出了巨大努力，并获得了丰硕的成果．其中，波斯顿大学语音实验室Ｆ．Ｈ．Ｇｕｅｎｔｈｅｒ教授带领的研究小组所做的工作最具代表性和开创性．他们研制成功了一种称之为“神经分析系统（ｎｅｕ⁃ ｒａｌｙｎｘｓｙｓｔｅｍ）”的仪器，让使用者只需简单想一想自己所希望表达的语言，语音合成系统就能将其内容直接转换成语音．通过与“脑－计算机”系统（ｂｒａｉｎ⁃ｃｏｍ⁃ ｐｕｔｅｒｉｎｔｅｒｆａｃｅ，ＢＣＩ）相结合，使用者可以直接控制声音的输出，其反应速度比著名科学家霍金目前正在使用的打字处理方式快了许多．

·306· 能系统学报第8卷神经分析系统由2部分组成：脑-计算机接口是多少，一直以来是语言习得理论所涉及的一个重 (BCI)和语音合成系统DIVA(directions into veloci- 要问题从先天论和生态学的观点来看，这个问题一 ties of articulators).在BCI中，脑电信号的产生方式方面表明了人类语言能力有些是与生俱来的，例如是一种无线神经电极2]，用于长期植入患者的大婴儿能够从所获取的少量语音信息里归纳出语法或脑皮层，而检测到的神经信号则被用于驱动语音合句法规则的能力9；另一方面，也可以解释为人类成器的连续“运动”，为患者提供实时语音输出：DL- 语言的胜任能力是信息处理原则的结果.也就是说， VA模型则是一种具有生物学意义的关于语音生成当最初只能获得有限输入时，系统只是学习输入信和获取的神经网络[3)，主要依据有关语音生成及息的基本结构，而不是记住每个输入的具体内容，这感知心理物理学实验的行为数据、FMRI(functional 样的处理原则非常重要[20)] magnetic resonance imaging)PET(positron emission 可以将婴儿学习语言的能力比喻成一个有着有 computed tomography)实验的神经成像数据以及对限存储容量，但需要处理大量信息的神经计算系统，动物所做的运动控制实验的神经生理学数据等而建为了模拟信息处理过程、学习信息处理的根本原则，立，目的是为了生成音素串而学习控制模拟声道的必须要知道学习内容以及学习这些内容所需要的必运动，主要特征是反映神经解剖学与大脑相关区域要条件.也就是说，研究人类语音生成与获取的发展的关联性过程，需要一个类似婴儿生理能力和生态背景的系自1994年Guenther教授首次提出DVA模型统.系统的学习过程应该是自组织和自适应的，能够以来[)，模型经历了不断的完善和更新.根据早期通过与瞬时环境的直接作用形成自己的认知行为技 DIVA模型存在的一些问题[o,Ghosh、Tourville、巧，即能通过与周围环境的相互影响来学习发音意 Max、Civier、Golfinopoulos、Castanon等研究人员以及义的表示及其语法结构2) Guenther提出了一系列修订版本或思想[7.).特别是婴儿在咿呀学语阶段，许多非语音因素以及发 Guenther201l年提出的DIVA模型，对模型组件音动作在频繁发声之前就已经存在.与这个事实类与大脑皮层的对应关系在MNI(montreal neurological 似，DIVA模型中的咿呀学语过程发生在以下2个阶 institute)标准框架上进行了具体描述，并对大脑皮段：1)体觉-发音映射阶段，此阶段中的体觉映射过层以及小脑中包括预运动(premotor)、运动、听觉、程是在缺乏语音背景的情况下进行学习的：2)对每体觉的几个区域所涉及的成分作了精确的定义.笔个语音体觉目标进行学习的阶段，学习的目标是语者近年来对DIVA模型的研究也进行了跟踪，并在音-体觉映射的权值编码. 一些局部方案的改进和完善方面取得了初步进展和咿呀学语之后，模型能够使用英语音素集中的成果[1417] 29个音素组合生成任意音素串.纵规DVA模型对但正如R.Smit山所指出的那样1]，尽管有了诸每个语音体觉目标的学习过程，可以看到其基本假定如下：在婴儿正确可靠地生成给定语音之前，他能多方面的改进，模型仍然存在一个非常严重的不足，够正确可靠地感知这个语音，并假定模型具有感知即对类似婴儿语言获取能力的模拟，也就是婴儿对所有即将生成语音的能力.然而，这与婴儿咿呀学语语音的“感知能力要比其语音生成技巧发育得更快的过程并不完全相符，因为婴儿在感知其他语音之一些”这样的事实一直没有予以考虑，因而影响到前就已经能够很准确地发出一些与给定语音相关的模型自身的自组织、自适应能力声音了.而且这些声音与瞬时环境密切相关，是一种本文的主要目的是在DVA模型的基础上，提多感觉输入（听觉、视觉、触觉等）的融合体.在将这出一种使系统能自动获取语音-映射单元的方法，些融合体信息映射到大脑皮层语音区域的过程中，这种方法与婴儿咿呀学语的过程基本一致，符合感逐步形成了听觉过程渐近式的反应机制.因此，音素知能力与生成技巧发育平衡的自然现象.通过此方表征这种形式就可以被看作是能将若干输入候选词法的应用，DVA模型在语音生成和获取过程中将相互区分开来，最终形成婴儿早期语言获取过程中更具自然特性，从而使研究者能更好地研究语音生的一种具有自组织、自适应能力的表征机制.DIVA 成和获取的过程，模型没能有效地表征这种机制，因而没有充分实现语言习得(language acquisition）与感知语音的自组织、自适应过程.因此，从这一点来 DIVA模型看，DIVA模型还不完全具备神经生理学意义上的控制功能，对其进行完善或重构，使其具有语音感知关于人类语言能力在遗传基因中所占比重到底的自组织和自适应能力是非常重要且非常有意义的

神经分析系统由２部分组成：脑－计算机接口（ＢＣＩ）和语音合成系统ＤＩＶＡ（ｄｉｒｅｃｔｉｏｎｓｉｎｔｏｖｅｌｏｃｉ⁃ ｔｉｅｓｏｆａｒｔｉｃｕｌａｔｏｒｓ）．在ＢＣＩ中，脑电信号的产生方式是一种无线神经电极［１⁃２］，用于长期植入患者的大脑皮层，而检测到的神经信号则被用于驱动语音合成器的连续“运动”，为患者提供实时语音输出；ＤＩ⁃ ＶＡ模型则是一种具有生物学意义的关于语音生成和获取的神经网络［３⁃４］，主要依据有关语音生成及感知心理物理学实验的行为数据、ＦＭＲＩ（ｆｕｎｃｔｉｏｎａｌｍａｇｎｅｔｉｃｒｅｓｏｎａｎｃｅｉｍａｇｉｎｇ）和ＰＥＴ（ｐｏｓｉｔｒｏｎｅｍｉｓｓｉｏｎｃｏｍｐｕｔｅｄｔｏｍｏｇｒａｐｈｙ）实验的神经成像数据以及对动物所做的运动控制实验的神经生理学数据等而建立，目的是为了生成音素串而学习控制模拟声道的运动，主要特征是反映神经解剖学与大脑相关区域的关联性．自１９９４年Ｇｕｅｎｔｈｅｒ教授首次提出ＤＩＶＡ模型以来［５］，模型经历了不断的完善和更新．根据早期ＤＩＶＡ模型存在的一些问题［６］，Ｇｈｏｓｈ、Ｔｏｕｒｖｉｌｌｅ、Ｍａｘ、Ｃｉｖｉｅｒ、Ｇｏｌｆｉｎｏｐｏｕｌｏｓ、Ｃａｓｔａｎｏｎ等研究人员以及Ｇｕｅｎｔｈｅｒ提出了一系列修订版本或思想［７⁃１３］．特别是Ｇｕｅｎｔｈｅｒ２０１１年提出的ＤＩＶＡ模型［４］，对模型组件与大脑皮层的对应关系在ＭＮＩ（ｍｏｎｔｒｅａｌｎｅｕｒｏｌｏｇｉｃａｌｉｎｓｔｉｔｕｔｅ）标准框架上进行了具体描述，并对大脑皮层以及小脑中包括预运动（ｐｒｅｍｏｔｏｒ）、运动、听觉、体觉的几个区域所涉及的成分作了精确的定义．笔者近年来对ＤＩＶＡ模型的研究也进行了跟踪，并在一些局部方案的改进和完善方面取得了初步进展和成果［１４⁃１７］．但正如Ｒ．Ｓｍｉｔｈ所指出的那样［１８］，尽管有了诸多方面的改进，模型仍然存在一个非常严重的不足，即对类似婴儿语言获取能力的模拟，也就是婴儿对语音的“感知能力要比其语音生成技巧发育得更快一些”这样的事实一直没有予以考虑，因而影响到模型自身的自组织、自适应能力．本文的主要目的是在ＤＩＶＡ模型的基础上，提出一种使系统能自动获取语音－映射单元的方法，这种方法与婴儿咿呀学语的过程基本一致，符合感知能力与生成技巧发育平衡的自然现象．通过此方法的应用，ＤＩＶＡ模型在语音生成和获取过程中将更具自然特性，从而使研究者能更好地研究语音生成和获取的过程．１语言习得（ｌａｎｇｕａｇｅａｃｑｕｉｓｉｔｉｏｎ）与ＤＩＶＡ模型关于人类语言能力在遗传基因中所占比重到底是多少，一直以来是语言习得理论所涉及的一个重要问题．从先天论和生态学的观点来看，这个问题一方面表明了人类语言能力有些是与生俱来的，例如婴儿能够从所获取的少量语音信息里归纳出语法或句法规则的能力［１９］；另一方面，也可以解释为人类语言的胜任能力是信息处理原则的结果．也就是说，当最初只能获得有限输入时，系统只是学习输入信息的基本结构，而不是记住每个输入的具体内容，这样的处理原则非常重要［２０］．可以将婴儿学习语言的能力比喻成一个有着有限存储容量，但需要处理大量信息的神经计算系统．为了模拟信息处理过程、学习信息处理的根本原则，必须要知道学习内容以及学习这些内容所需要的必要条件．也就是说，研究人类语音生成与获取的发展过程，需要一个类似婴儿生理能力和生态背景的系统．系统的学习过程应该是自组织和自适应的，能够通过与瞬时环境的直接作用形成自己的认知行为技巧，即能通过与周围环境的相互影响来学习发音意义的表示及其语法结构［２１］．婴儿在咿呀学语阶段，许多非语音因素以及发音动作在频繁发声之前就已经存在．与这个事实类似，ＤＩＶＡ模型中的咿呀学语过程发生在以下２个阶段：１）体觉－发音映射阶段，此阶段中的体觉映射过程是在缺乏语音背景的情况下进行学习的；２）对每个语音体觉目标进行学习的阶段，学习的目标是语音－体觉映射的权值编码．咿呀学语之后，模型能够使用英语音素集中的２９个音素组合生成任意音素串．纵观ＤＩＶＡ模型对每个语音体觉目标的学习过程，可以看到其基本假定如下：在婴儿正确可靠地生成给定语音之前，他能够正确可靠地感知这个语音，并假定模型具有感知所有即将生成语音的能力．然而，这与婴儿咿呀学语的过程并不完全相符，因为婴儿在感知其他语音之前就已经能够很准确地发出一些与给定语音相关的声音了．而且这些声音与瞬时环境密切相关，是一种多感觉输入（听觉、视觉、触觉等）的融合体．在将这些融合体信息映射到大脑皮层语音区域的过程中，逐步形成了听觉过程渐近式的反应机制．因此，音素表征这种形式就可以被看作是能将若干输入候选词相互区分开来，最终形成婴儿早期语言获取过程中的一种具有自组织、自适应能力的表征机制．ＤＩＶＡ模型没能有效地表征这种机制，因而没有充分实现感知语音的自组织、自适应过程．因此，从这一点来看，ＤＩＶＡ模型还不完全具备神经生理学意义上的控制功能，对其进行完善或重构，使其具有语音感知的自组织和自适应能力是非常重要且非常有意义的 ·３０６· 智能系统学报第８卷

第4期张少白，等：基于DVA模型的语音-映射单元自动获取 ·307. 一项工作层区域：箭头则表示一种神经元表述到另一种表述 2DIVA模型概述之间的转换，且这种转换被假定是某一集合中细胞活度(activation)的筛选通过突触映射到另一集合的如图1所示】，模型由前馈控制子系统、反馈过程突触权值则是在模型中2个阶段之一的咿呀控制子系统以及前田(maeda)模拟声道所组成.训练学语阶段（另一阶段为执行阶段）所获得的.发音器中，模型通过某种规则在以语音作为输入的同时，产官的随机运动提供触觉、本体感受(proprioceptive) 生一个发音速度以及器官位置变化的时变序列，应以及听觉反馈信号，并通过这些信号学习不同神经用这个序列，系统就可以得到所需要的理想发音. 元表述之间的相互关系.咿呀学语后的执行阶段，模图1中，每个方框代表构成某一神经表述的神型可以快速地利用音频采样学习产生新的发音. 经元集合方框中黑体字代表集合所对应的大脑皮前馈控制系统反馈控制系统语音映射集反馈控制映射集 L 体觉目标映射集听觉日标映射集初始化映射集 L 体觉误差映射集听觉误差映射集发音器官速率和体觉状态映射集位置映射集听觉状态映射集通过皮质下核传递到发音器听觉反馈通过皮质下核传递官肌肉组织中●补物4 体觉反馈通过皮质下核传递图1DVA语音模型抽象图 Fig.1 DIVA model 模型中的语音映射集合(speech sound map)由了模拟语音获取的初始阶段，需要首先考虑模型获一系列语音-映射单元(speech sound-target cells)组取语音的2个方面，即来自自然语言环境的听觉输成，每个单元对应一个特定音素模型在咿呀学语仿入和自身语音的听觉反馈.听觉输入一开始就被建真阶段，语音信号与语音-映射单元之间的距离可立；而听觉反馈则是通过不断调整相关参数来产生以通过计算获取.如果发音匹配理想，某个语音-映和目标声音一致的语音的.这样，对于听觉输入和目射单元就会被激活，同时系统会将此发音的声道配标声音的初始化过程如下置信息添加到该语音-映射单元里.下一次模型产生 3.1输入语音信号的临界频带(critical band)过滤与已经定义的语音-映射单元里的信息非常相近的及语音组块(sound chunks)的边界定义声音时，就会再次将当前声道配置信息加入此单元，将人耳模拟为一个并联带通滤波器组，由具有使得单元里的语音信息不断被扩大.通过这样的方不同带宽的滤波器组成，分别对听觉做出不同反应，式不断地生成各种各样的语音，模型就能够学习各因而可以分别考虑各频带的屏蔽效应、听觉响度与种语音的不同表达方式。频率关系.在读取输入语音信号的过程中，考虑到 3初始化过程与实现步骤 DVA模型中听觉存储空间的维度是21，所以用21 个宽度为1巴克(bark)的带通滤波器将其关联起 DIVA模型中的语音-映射单元由任意音素或来，用于处理传入的语音信号，从而获得最初的听觉音节组成.如果直接人为设置语音-映射单元里的初表示.输入信号的强度用dBSPL表示.在每个bark 始值，就会和语音获取先天论所表述的一样，使得模频段内，通过从初始强度减去听阈(hearing thresh- 型必须被事先决定应用适当单元里的相关定义来表 olds)的方法，将dBSPL转换成听觉强度(dBHL). 示语音的典型发音，这显然与实际发音过程不符.为临界频带分析分2步进行.首先是频域到巴克

一项工作．２ＤＩＶＡ模型概述如图１所示［３］，模型由前馈控制子系统、反馈控制子系统以及前田（ｍａｅｄａ）模拟声道所组成．训练中，模型通过某种规则在以语音作为输入的同时，产生一个发音速度以及器官位置变化的时变序列，应用这个序列，系统就可以得到所需要的理想发音．图１中，每个方框代表构成某一神经表述的神经元集合．方框中黑体字代表集合所对应的大脑皮层区域；箭头则表示一种神经元表述到另一种表述之间的转换，且这种转换被假定是某一集合中细胞活度（ａｃｔｉｖａｔｉｏｎ）的筛选通过突触映射到另一集合的过程．突触权值则是在模型中２个阶段之一的咿呀学语阶段（另一阶段为执行阶段）所获得的．发音器官的随机运动提供触觉、本体感受（ｐｒｏｐｒｉｏｃｅｐｔｉｖｅ）以及听觉反馈信号，并通过这些信号学习不同神经元表述之间的相互关系．咿呀学语后的执行阶段，模型可以快速地利用音频采样学习产生新的发音．图１ＤＩＶＡ语音模型抽象图Ｆｉｇ．１ＤＩＶＡｍｏｄｅｌ模型中的语音映射集合（ｓｐｅｅｃｈｓｏｕｎｄｍａｐ）由一系列语音－映射单元（ｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓ）组成，每个单元对应一个特定音素．模型在咿呀学语仿真阶段，语音信号与语音－映射单元之间的距离可以通过计算获取．如果发音匹配理想，某个语音－映射单元就会被激活，同时系统会将此发音的声道配置信息添加到该语音－映射单元里．下一次模型产生与已经定义的语音－映射单元里的信息非常相近的声音时，就会再次将当前声道配置信息加入此单元，使得单元里的语音信息不断被扩大．通过这样的方式不断地生成各种各样的语音，模型就能够学习各种语音的不同表达方式．３初始化过程与实现步骤ＤＩＶＡ模型中的语音－映射单元由任意音素或音节组成．如果直接人为设置语音－映射单元里的初始值，就会和语音获取先天论所表述的一样，使得模型必须被事先决定应用适当单元里的相关定义来表示语音的典型发音，这显然与实际发音过程不符．为了模拟语音获取的初始阶段，需要首先考虑模型获取语音的２个方面，即来自自然语言环境的听觉输入和自身语音的听觉反馈．听觉输入一开始就被建立；而听觉反馈则是通过不断调整相关参数来产生和目标声音一致的语音的．这样，对于听觉输入和目标声音的初始化过程如下．３．１输入语音信号的临界频带（ｃｒｉｔｉｃａｌｂａｎｄ）过滤及语音组块（ｓｏｕｎｄｃｈｕｎｋｓ）的边界定义将人耳模拟为一个并联带通滤波器组，由具有不同带宽的滤波器组成，分别对听觉做出不同反应，因而可以分别考虑各频带的屏蔽效应、听觉响度与频率关系．在读取输入语音信号的过程中，考虑到ＤＩＶＡ模型中听觉存储空间的维度是２１，所以用２１个宽度为１巴克（ｂａｒｋ）的带通滤波器将其关联起来，用于处理传入的语音信号，从而获得最初的听觉表示．输入信号的强度用ｄＢＳＰＬ表示．在每个ｂａｒｋ频段内，通过从初始强度减去听阈（ｈｅａｒｉｎｇｔｈｒｅｓｈ⁃ ｏｌｄｓ）的方法，将ｄＢＳＰＬ转换成听觉强度（ｄＢＨＬ）．临界频带分析分２步进行．首先是频域到巴克第４期张少白，等：基于ＤＩＶＡ模型的语音－映射单元自动获取 ·３０７·

域的转换，即ｂ＝６ｌｏｇ（ｆ６００＋（ｆ６００）２＋１）．式中：ｆ为频率，Ｈｚ；ｂ为单位的巴克域频率，Ｂ．然后借助滤波器函数将语音频谱进行“平滑” 处理．临界频带滤波器组定义如下：Ｃｋ（ω）＝１０１．０（ｂ－ｂｋ＋０．５），ｂ ≤ ｂｋ－０．５；１，ｂｋ－０．５＜ｂ＜ｂｋ＋０．５；１０－２．５（ｂ－ｂｋ－０．５），ｂ ≥ ｂｋ＋０．５． ì î í ï ï ï ï 式中：ｂｋ为ｂａｒｋ中心频率，滤波器组在ｂａｒｋ域内等间距配置．根据人耳对不同频率的音响激励具有不同响应灵敏度的特点，还要对由临界频带分析所获得的谱进行等响度级变换．其预处理曲线为Ｅ（ω）＝１．１５１（ω ２＋１４４ × １０４）ω ２（ω ２＋１６ × １０４）（ω ２＋９６１ × １０４）．此时，第ｋ个滤波器输出为Ｆｋ＝Ｅ（ωｋ）∫ π ０Ｃｋ（ω）Ｐ（ω）ｄω．经以上处理后，得到的频谱为响度级谱，即强度谱．要获得主观听觉感知上的响度，还要进行响度级谱与响度之间的转换．转换公式为Ｌ（ｋ）＝（Ｆｋ）１／３．通过这样的方法将输入信号转换为听觉信号后，再从中找出静音区间（ｓｉｌｅｎｃｅ），这样就形成了语音组块．３．２听觉相似性比较为了在没有任何输入假设的前提下模拟语音获取的实际步骤，通过修改所有语音序列的强度（＞２５ｄＢＨＬ）及时间间隔（＜０．１５ｓ）这样的方式，来解决定义相关语音组块的问题．ＤＩＶＡ模型中，语音组块被保存在通用缓冲存储区中．输入信号经２１维听觉存储空间的某条路径被连续表征，各输入信号间不同部分的相似性也通过与这条路径几乎重叠的方式（距离差距极小）被反映出来．这种相似性表示之间的距离应用一种称之为 “ ｃｉｔｙ⁃ｂｌｏｃｋ” 的度量标准来计算．所谓 “ ｃｉｔｙ⁃ ｂｌｏｃｋ”，是指所有每２个与听觉表示有关的向量之间绝对距离的总和，其定义为ｄｉｊ＝ ∑ Ｎｋ＝１ｘｉｋ－ｘｊｋ．然后通过指数衰减函数进行信号的记忆衰减．此过程能使无用或者作用很小的功能单元慢慢消失，而具有相近坐标、时常被激活的那些单元则彼此扩展且逐渐聚集在内存缓冲区中．本文拟采用的指数衰减函数为ｆ（ｔ）＝０，ｔ＜０；ｅ－βｔ，ｔ ≥ ０． { 其傅里叶变换为Ｆ（ω）＝ ∫ ＋¥ －¥ ｆ（ｔ）ｅ－ｊωｔｄｔ＝ ∫ ＋¥ ０ｅ－（β＋ｊω）ｔｄｔ＝１／ β ＋ｊω．通过以上方法就可以实现语言的相似性比较和记忆衰减了．３．３语音的搜索和更新语音识别算法的主要思路是在候选词串中搜索使声学模型和语言模型的概率乘积最大的词串．由候选词串构成的搜索空间受语言模型和声学模型的约束．声学模型是识别系统的底层模型，其目标是通过模型度量，寻找语音特征向量序列对应的语音．当前常用的声学模型是隐马尔可夫模型（ｈｉｄｄｅｎＭａｒｋ⁃ ｏｖｍｏｄｅｌ，ＨＭＭ），也可应用ＨＭＭ来进行相似度比较、搜索和更新．系统中要对同一类样本建立多个ＨＭＭ．为增加系统的统计可靠性，需要将相似的ＨＭＭ合并，以增加参与训练的语音样本个数．聚类过程中，基于概率测度的模型间相似度计算方法如下：１）假设 Φ１产生了Ｋ个特征矢量序列Ｘ（ｋ），ｋ＝１，２，…，Ｋ．２个模型产生这Ｋ个序列的概率分别为Ｐ（Ｘ（ｋ）｜ Φ１）和Ｐ（Ｘ（ｋ）｜ Φ２），则２个模型间的相似度ｄ（Φ１，Φ２）可按式（１）计算：ｄ（Φ１，Φ２）＝ｌｉｍｋ→¥ １ｋ ∑ ｋｋ＝１ｌｇＰ（Ｘ（ｋ） Φ１）－ｌｇＰ（Ｘ（ｋ） [ Φ２）] ．（１）２）这是一个非对称测度，在此基础上可以定义对称测度如下：ｄｓ（Φ１，Φ２）＝１２（ｄ（Φ１，Φ２）ｄ（Φ２，Φ１））．３）实际计算时，可以利用蒙特卡罗方法从任意一个模型中求得Ｘ（ｋ），当ｋ足够大时就可以获得足够准确的结果．通过以上３个步骤，就可以完成此方法的设计．可以想象，每当一个存储在缓冲区中的信号与输入信号形成匹配，就会将那些具有相同意义的组块结合在一起．这样的组块可以由一个整句组成，例如：ｌｏｏｋａｔｔｈｅｎｉｃｅｃａｔｓ．如果随后有另一个输入信号ｌｏｏｋａｔｔｈｅｎｉｃｅｄｏｇｓ，系统就可以得到语音模式ｌｏｏｋａｔｔｈｅｎｉｃｅ、ｃａｔｓ和ｄｏｇｓ．如果还有一个输入信号ｌｏｏｋａｔｔｈｅｃｕｔｅｃａｔ，系统就有语音模式ｌｏｏｋａｔｔｈｅ、ｃｕｔｅ、 ·３０８· 智能系统学报第８卷

第4期张少白，等：基于DIVA模型的语音-映射单元自动获取 ·309. cat,nice和s等.在这种情况下，系统工作起来就能 0.03 aal(22 052 x I real.Fs=1) 区分诸如cat和cats之类的对比功能部件.这是一个巡0.01 简单的有关提取语音和句子结构的例子，这些语音 g0.01 和句子的结构是在不按照任何事先预定好的规则 -0.03 0.5 1.0 1.5 2.0 下，从粗略的听觉信号中提取出来的.语法和句法规则也以同样的方式，根据输入信号的结构而逐渐形 (b)音素“a” 成这些语音组块通过长期存储，以及与输入信号不 0.2 uu(38591×1real.Fs=1) 同组合的逐一对比，就会慢慢变得有序起来，且阵容不断扩大、内容不断增加但需要强调的是，以这样的方式建立的模型，并不足以描述语音获取的全部 0.2 0 03101店2025304010 过程，只是一种相对粗糙但能在任何语音信号中寻 t/s 找统计规则的模型. (c)音素“u” 图33个音素过滤后的波形图 4仿真实验 Fig.3 The oscillogram of three phonemes after filtration 仿真实验以i、a、u3个元音为例，用MATLAB 0.3ě10 实现. 0.5 首先，将3个元音的录音分别保存为i.wav、 0.7 a.wav、u.wav文件，音频格式为PCM编码，量化等级 0.9 为16，单声道，接着分别将其转化为文件名为i.mat、 a.mat、u.mat的MATLAB数据文件，如图2~4. 0.1 0.2 0.3 0.40.5 7Hz sig1(159877 x I real.Fs=1) (a)音素“ ×10 0.3 ×10 10 15 20 ti 0.5 (a)音素“i" 0.7 a1(22052×1real.Fs=1) 0.2 0.9 0 -0.2 0. 10 0.1 0.20.3 0.40.5 0.5 1.01.5 2.0 2.5 fHz tis (b)音素“a” (b)音素“a” 0.2r×10 u(38591×1real.Fs=1) 0.2 延 0.6 0.2 0.66 0.51.01.5 g乃0方4810 1.0p (c)音素“u” 14 图23个音素的波形 0. 0.2 0.3 0.40.5 fHz Fig.2 The oscillogram of three phonemes (c音素“u” sig2(159877×1real.Fs=1) 图43个音素的频谱 [4 Fig.4 The spectrogram of three phonemes 从频谱图中可以清楚地看到3个音素的共振峰 1 表征形式.所谓共振峰，是一种用来描述声学共振现象的概念.应用这种概念，不仅可以确定音素的音 (a)音素“i" 质，了解语音信息的直接来源，也可以反映DVA模

ｃａｔ、ｎｉｃｅ和ｓ等．在这种情况下，系统工作起来就能区分诸如ｃａｔ和ｃａｔｓ之类的对比功能部件．这是一个简单的有关提取语音和句子结构的例子，这些语音和句子的结构是在不按照任何事先预定好的规则下，从粗略的听觉信号中提取出来的．语法和句法规则也以同样的方式，根据输入信号的结构而逐渐形成．这些语音组块通过长期存储，以及与输入信号不同组合的逐一对比，就会慢慢变得有序起来，且阵容不断扩大、内容不断增加．但需要强调的是，以这样的方式建立的模型，并不足以描述语音获取的全部过程，只是一种相对粗糙但能在任何语音信号中寻找统计规则的模型．４仿真实验仿真实验以ｉ、ａ、ｕ３个元音为例，用ＭＡＴＬＡＢ实现．首先，将３个元音的录音分别保存为ｉ．ｗａｖ、ａ．ｗａｖ、ｕ．ｗａｖ文件，音频格式为ＰＣＭ编码，量化等级为１６，单声道，接着分别将其转化为文件名为ｉ．ｍａｔ、ａ．ｍａｔ、ｕ．ｍａｔ的ＭＡＴＬＡＢ数据文件，如图２～４．（ａ）音素“ｉ” （ｂ）音素“ａ” （ｃ）音素“ｕ” 图２３个音素的波形Ｆｉｇ．２Ｔｈｅｏｓｃｉｌｌｏｇｒａｍｏｆｔｈｒｅｅｐｈｏｎｅｍｅｓ（ａ）音素“ｉ” （ｂ）音素“ａ” （ｃ）音素“ｕ” 图３３个音素过滤后的波形图Ｆｉｇ．３Ｔｈｅｏｓｃｉｌｌｏｇｒａｍｏｆｔｈｒｅｅｐｈｏｎｅｍｅｓａｆｔｅｒｆｉｌｔｒａｔｉｏｎ图４３个音素的频谱Ｆｉｇ．４Ｔｈｅｓｐｅｃｔｒｏｇｒａｍｏｆｔｈｒｅｅｐｈｏｎｅｍｅｓ从频谱图中可以清楚地看到３个音素的共振峰表征形式．所谓共振峰，是一种用来描述声学共振现象的概念．应用这种概念，不仅可以确定音素的音质，了解语音信息的直接来源，也可以反映ＤＩＶＡ模第４期张少白，等：基于ＤＩＶＡ模型的语音－映射单元自动获取 ·３０９·

·310. 智能系统学报第8卷型中前田声道(Maeda vocal)谐振腔的一系列重要个标准模型，但它对于进一步研究这些过程却是一特征. 个非常好的平台.在机器人系统中执行DIVA模型，共振峰的最低频率为F,其次为F2,F,…,依可以将语音生成与获取的很多基本过程清楚地显示此类推绝大多数情况下，应用前2个共振峰F,和出来希望通过语音科技和认知科学的合作，能够对 F,就足以将不同元音区分开来，并可以对元音的 ASR(automatic speech recognition)系统和语音合成前/后、开/闭等不同状态加以描述系统的设计进行改进，从而有助于形成更科学、更具源自初始模式匹配过程（单词学习过程）的可有生物学意义的语音生成与获取模型. 对比语音单元，大致可以用一个三维空间来说明，即 2个共振峰频率轴和1个神经元活度(activity level) 参考文献：轴.每个新的功能单元的输入表示方法中，当与输入 [1]GUENTHER F H,BRUMBERG J S,WRIGHT E J,et al. 刺激强度相一致的高斯曲面在F,-F2坐标轴中具 Wireless brain-machine interface for real-time speech syn- 有最大值时，就会在感知存储空间中被生成.模拟的 thesis[J].PLoS0NE,2009,4(12):8218. 记忆衰减过程会使与当前语音不相关的那些功能单 [2]BRUMBERG J S,NIETO-CASTANON A,KENNEDY P R, et al.Brain-computer interfaces for speech communication 元逐渐消失，而坐标位置靠得很近且活跃度很高的 [J].Speech Communication,2010,52(4):367-379. 那些单元就会相互扩展，最终聚集在感知存储空间 [3]TOURVILLE J T,GUENTHER F H.The DIVA model:a 中随着输入量的不断增加，已建立起来的语音-映 neural theory of speech acquisition and production[J].Lan- 射单元因为比对结果的长期一致，慢慢地就逐步成 guage and Cognitive Processes,2011,25(7):952-981. 为了输入语言候选音素的当选者. [4]GUENTHER F H,VLADUSICH T.A neural theory of 实验应用这种方法，从自然发声语音中提取 speech acquisition and production[].Journal of Neurolin- 100个已知音素(i、a、u)的样本，并将其在坐标轴中 guistics,2012,25(5):408-422. 的F,-F,值一一标注出来.与此同时，将这些样本与 [5]GUENTHER F H.A neural network model of speech acqui- 另外给出的具有随机F,-F,坐标值的310个数据放 sition and motor equivalent speech production[J].Biological Cybernetics,1994.72(1):43-53. 置在一起.系统经过第3节所述3个步骤的运行，最 [6]GHOSH S S.Understanding cortical contributions to speech 后，3个已知音素根据它们的坐标值很明显地聚集 production through modeling and functional imaging[D]. 在一起.当然，这个过程也会掺杂一些具有其他随机 Boston,USA:Boston University,2005:1-36. 坐标值的音素，但通过记忆衰减，这些随机坐标值的 [7]GUENTHER F H,GHOSH SS.A neural model of speech 影响慢慢地就会越来越小，直至消失.以上过程如图 production[C]//Proceedings of the 6th International Semi- 5所示. nar on Speech Production.Sydney,Australia,2003:85-90. 10 [8]TOURVILLE J A,REILLY K J.Neural mechanisms under- 0 lying auditory feedback control of speech[].Neurolmage, 2008,39(3):1429-1443. [9]MAX L,GHOSH SS.Unstable or insufficiently activated internal models and feedback-biased motor control as sources of dysfluency:a theoretical model of stuttering[J]. Contemporary Issues in Communication Science and Disor- ders,2004.31:105-122. 10 210 F. [10]CIVIER O,GUENTHER F H.Simulations of feedback and 图5F,-F,坐标轴样本二维空间聚类示意 feedforward control in stuttering[C]//Proceedings of the 7th Oxford Dysfluency Conference.Oxford,UK,2005:1-7. Fig.5 The two-dimensional diagram of F-F2 [11]NIETO-CASTANON A,PERKELL J S,CURTIN H D.A 5结束语 modeling investigation of articulatory variability and acous- tic stability during American English /r/production[J. 针对现有DIVA模型中存在的问题，提出了一 Journal of the Acoustical Society of America,2005,117 种自动获取语音-映射单元的方法.应用此方法，能 (5):3196-3212. 使DIVA模型更具自然特性，从而使研究者能应用 [12]GUENTHER F H.Cortical interactions underlying the pro- 模型更好地研究语音生成与获取的过程.一般说来， duction of speech sounds J].Journal of Communication Disorders,2006,39(5):350-365. DVA模型对于语音生成和听觉反馈而言还不是一 [13]GUENTHER F H,GHOSH SS,TOURVILLE J A.Neural

型中前田声道（Ｍａｅｄａｖｏｃａｌ）谐振腔的一系列重要特征．共振峰的最低频率为Ｆ１，其次为Ｆ２，Ｆ３，…，依此类推．绝大多数情况下，应用前２个共振峰Ｆ１和Ｆ２就足以将不同元音区分开来，并可以对元音的前／后、开／闭等不同状态加以描述．源自初始模式匹配过程（单词学习过程）的可对比语音单元，大致可以用一个三维空间来说明，即２个共振峰频率轴和１个神经元活度（ａｃｔｉｖｉｔｙｌｅｖｅｌ）轴．每个新的功能单元的输入表示方法中，当与输入刺激强度相一致的高斯曲面在Ｆ１－Ｆ２坐标轴中具有最大值时，就会在感知存储空间中被生成．模拟的记忆衰减过程会使与当前语音不相关的那些功能单元逐渐消失，而坐标位置靠得很近且活跃度很高的那些单元就会相互扩展，最终聚集在感知存储空间中．随着输入量的不断增加，已建立起来的语音－映射单元因为比对结果的长期一致，慢慢地就逐步成为了输入语言候选音素的当选者．实验应用这种方法，从自然发声语音中提取１００个已知音素（ｉ、ａ、ｕ）的样本，并将其在坐标轴中的Ｆ１－Ｆ２值一一标注出来．与此同时，将这些样本与另外给出的具有随机Ｆ１－Ｆ２坐标值的３１０个数据放置在一起．系统经过第３节所述３个步骤的运行，最后，３个已知音素根据它们的坐标值很明显地聚集在一起．当然，这个过程也会掺杂一些具有其他随机坐标值的音素，但通过记忆衰减，这些随机坐标值的影响慢慢地就会越来越小，直至消失．以上过程如图５所示．图５Ｆ１－Ｆ２坐标轴样本二维空间聚类示意Ｆｉｇ．５Ｔｈｅｔｗｏ⁃ｄｉｍｅｎｓｉｏｎａｌｄｉａｇｒａｍｏｆＦ１－Ｆ２５结束语针对现有ＤＩＶＡ模型中存在的问题，提出了一种自动获取语音－映射单元的方法．应用此方法，能使ＤＩＶＡ模型更具自然特性，从而使研究者能应用模型更好地研究语音生成与获取的过程．一般说来，ＤＩＶＡ模型对于语音生成和听觉反馈而言还不是一个标准模型，但它对于进一步研究这些过程却是一个非常好的平台．在机器人系统中执行ＤＩＶＡ模型，可以将语音生成与获取的很多基本过程清楚地显示出来．希望通过语音科技和认知科学的合作，能够对ＡＳＲ（ａｕｔｏｍａｔｉｃｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）系统和语音合成系统的设计进行改进，从而有助于形成更科学、更具有生物学意义的语音生成与获取模型．参考文献：［１］ＧＵＥＮＴＨＥＲＦＨ，ＢＲＵＭＢＥＲＧＪＳ，ＷＲＩＧＨＴＥＪ，ｅｔａｌ．Ｗｉｒｅｌｅｓｓｂｒａｉｎ⁃ｍａｃｈｉｎｅｉｎｔｅｒｆａｃｅｆｏｒｒｅａｌ⁃ｔｉｍｅｓｐｅｅｃｈｓｙｎ⁃ ｔｈｅｓｉｓ［Ｊ］．ＰＬｏＳＯＮＥ，２００９，４（１２）：８２１８．［２］ＢＲＵＭＢＥＲＧＪＳ，ＮＩＥＴＯ⁃ＣＡＳＴＡＮＯＮＡ，ＫＥＮＮＥＤＹＰＲ，ｅｔａｌ．Ｂｒａｉｎ⁃ｃｏｍｐｕｔｅｒｉｎｔｅｒｆａｃｅｓｆｏｒｓｐｅｅｃｈｃｏｍｍｕｎｉｃａｔｉｏｎ［Ｊ］．ＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎ，２０１０，５２（４）：３６７⁃３７９．［３］ＴＯＵＲＶＩＬＬＥＪＴ，ＧＵＥＮＴＨＥＲＦＨ．ＴｈｅＤＩＶＡｍｏｄｅｌ：ａｎｅｕｒａｌｔｈｅｏｒｙｏｆｓｐｅｅｃｈａｃｑｕｉｓｉｔｉｏｎａｎｄｐｒｏｄｕｃｔｉｏｎ［Ｊ］．Ｌａｎ⁃ ｇｕａｇｅａｎｄＣｏｇｎｉｔｉｖｅＰｒｏｃｅｓｓｅｓ，２０１１，２５（７）：９５２⁃９８１．［４］ＧＵＥＮＴＨＥＲＦＨ，ＶＬＡＤＵＳＩＣＨＴ．Ａｎｅｕｒａｌｔｈｅｏｒｙｏｆｓｐｅｅｃｈａｃｑｕｉｓｉｔｉｏｎａｎｄｐｒｏｄｕｃｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＮｅｕｒｏｌｉｎ⁃ ｇｕｉｓｔｉｃｓ，２０１２，２５（５）：４０８⁃４２２．［５］ＧＵＥＮＴＨＥＲＦＨ．Ａｎｅｕｒａｌｎｅｔｗｏｒｋｍｏｄｅｌｏｆｓｐｅｅｃｈａｃｑｕｉ⁃ ｓｉｔｉｏｎａｎｄｍｏｔｏｒｅｑｕｉｖａｌｅｎｔｓｐｅｅｃｈｐｒｏｄｕｃｔｉｏｎ［Ｊ］．ＢｉｏｌｏｇｉｃａｌＣｙｂｅｒｎｅｔｉｃｓ，１９９４，７２（１）：４３⁃５３．［６］ＧＨＯＳＨＳＳ．Ｕｎｄｅｒｓｔａｎｄｉｎｇｃｏｒｔｉｃａｌｃｏｎｔｒｉｂｕｔｉｏｎｓｔｏｓｐｅｅｃｈｐｒｏｄｕｃｔｉｏｎｔｈｒｏｕｇｈｍｏｄｅｌｉｎｇａｎｄｆｕｎｃｔｉｏｎａｌｉｍａｇｉｎｇ［Ｄ］．Ｂｏｓｔｏｎ，ＵＳＡ：ＢｏｓｔｏｎＵｎｉｖｅｒｓｉｔｙ，２００５：１⁃３６．［７］ＧＵＥＮＴＨＥＲＦＨ，ＧＨＯＳＨＳＳ．Ａｎｅｕｒａｌｍｏｄｅｌｏｆｓｐｅｅｃｈｐｒｏｄｕｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｅｍｉ⁃ ｎａｒｏｎＳｐｅｅｃｈＰｒｏｄｕｃｔｉｏｎ．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，２００３：８５⁃９０．［８］ＴＯＵＲＶＩＬＬＥＪＡ，ＲＥＩＬＬＹＫＪ．Ｎｅｕｒａｌｍｅｃｈａｎｉｓｍｓｕｎｄｅｒ⁃ ｌｙｉｎｇａｕｄｉｔｏｒｙｆｅｅｄｂａｃｋｃｏｎｔｒｏｌｏｆｓｐｅｅｃｈ［Ｊ］．ＮｅｕｒｏＩｍａｇｅ，２００８，３９（３）：１４２９⁃１４４３．［９］ＭＡＸＬ，ＧＨＯＳＨＳＳ．Ｕｎｓｔａｂｌｅｏｒｉｎｓｕｆｆｉｃｉｅｎｔｌｙａｃｔｉｖａｔｅｄｉｎｔｅｒｎａｌｍｏｄｅｌｓａｎｄｆｅｅｄｂａｃｋ⁃ｂｉａｓｅｄｍｏｔｏｒｃｏｎｔｒｏｌａｓｓｏｕｒｃｅｓｏｆｄｙｓｆｌｕｅｎｃｙ：ａｔｈｅｏｒｅｔｉｃａｌｍｏｄｅｌｏｆｓｔｕｔｔｅｒｉｎｇ［Ｊ］．ＣｏｎｔｅｍｐｏｒａｒｙＩｓｓｕｅｓｉｎＣｏｍｍｕｎｉｃａｔｉｏｎＳｃｉｅｎｃｅａｎｄＤｉｓｏｒ⁃ ｄｅｒｓ，２００４，３１：１０５⁃１２２．［１０］ＣＩＶＩＥＲＯ，ＧＵＥＮＴＨＥＲＦＨ．Ｓｉｍｕｌａｔｉｏｎｓｏｆｆｅｅｄｂａｃｋａｎｄｆｅｅｄｆｏｒｗａｒｄｃｏｎｔｒｏｌｉｎｓｔｕｔｔｅｒｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＯｘｆｏｒｄＤｙｓｆｌｕｅｎｃｙＣｏｎｆｅｒｅｎｃｅ．Ｏｘｆｏｒｄ，ＵＫ，２００５：１⁃７．［１１］ＮＩＥＴＯ⁃ＣＡＳＴＡＮＯＮＡ，ＰＥＲＫＥＬＬＪＳ，ＣＵＲＴＩＮＨＤ．Ａｍｏｄｅｌｉｎｇｉｎｖｅｓｔｉｇａｔｉｏｎｏｆａｒｔｉｃｕｌａｔｏｒｙｖａｒｉａｂｉｌｉｔｙａｎｄａｃｏｕｓ⁃ ｔｉｃｓｔａｂｉｌｉｔｙｄｕｒｉｎｇＡｍｅｒｉｃａｎＥｎｇｌｉｓｈ／ｒ／ｐｒｏｄｕｃｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆｔｈｅＡｃｏｕｓｔｉｃａｌＳｏｃｉｅｔｙｏｆＡｍｅｒｉｃａ，２００５，１１７（５）：３１９６⁃３２１２．［１２］ＧＵＥＮＴＨＥＲＦＨ．Ｃｏｒｔｉｃａｌｉｎｔｅｒａｃｔｉｏｎｓｕｎｄｅｒｌｙｉｎｇｔｈｅｐｒｏ⁃ ｄｕｃｔｉｏｎｏｆｓｐｅｅｃｈｓｏｕｎｄｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｍｕｎｉｃａｔｉｏｎＤｉｓｏｒｄｅｒｓ，２００６，３９（５）：３５０⁃３６５．［１３］ＧＵＥＮＴＨＥＲＦＨ，ＧＨＯＳＨＳＳ，ＴＯＵＲＶＩＬＬＥＪＡ．Ｎｅｕｒａｌ ·３１０· 智能系统学报第８卷

第4期张少白，等：基于DVA模型的语音-映射单元自动获取 ·311 modeling and imaging of the cortical interactions underlying systems'efficiency[C]//Proceedings from Fonetik 2005. syllable production[J].Brain and Language,2006,96 Gothenburg,Sweden,2005:83-86. (3):280-301. [20]CHEN Y,WENG J.Developmental learning:a case study [14]ZHANG Shaobai,XU Lei,CHENG Xiefeng.Research on in understanding "object permanence"[C]//Proceedings classification method of speech signal based on DIVA mod- of Fourth International Workshop on Epigenetic Robotics: el[J].International Review on Computers and Software, Modeling Cognitive Development in Robotic Systems. 2012,7(6):108-113. Lund,Sweden,2004:35-42. [15]ZHANG Shaobai,HUANG Dandan.Electroencephalo- [21]KUHL P K,WILLIAMS K A,LACERDA F,et al.Lin- graphy feature extraction using high time frequency reso- guistic experience alters phonetic perception in infants by 6 lution analysis[J].Indonesian Journal of Electrical Engi- months of age[J].Science,1992(255):606-608. neering,2012,10(6):1415-1421. 作者简介： [16]ZHANG Shaobai,HAN Yanbin,LI Jinping,et al.Research 张少白，男，1953年生，主要研究方 on improved mean shift algorithm based on local distribu- 向为智能系统与模式识别.主持国家级 tion in EEG signal classification[J].Journal of Artificial 项目多项.发表学术论文多篇 Intelligence Research,2012,3(3):117-122 [17]ZHANG Shaobai,CHENG Weiqing.An application of cer- ebellar control model for prehension movements[J].Neural Computing and Application,DOI:10.1007/s 00521-012- 1335-1. 刘欣，男，1987年生，主要研究方向 [18]SMITH R.Speech production2:models of speech produc- 为模式识别与智能系统。 tion,foundations of speech communication EB/OL]. [2013-02-24].htp:/www.ling.cam.ac.uk/1i9/L4_0910_ SpeechProduction2.pdf. [19]LACERDA F,KLINTFORS E,GUSTAVSSON L.Multi- sensory information as an improvement for communication 2013年第13届英国计算智能研讨会 2013 13th UK Workshop on Computational Intelligence (UKCI) The 13th Annual Workshop on Computational Intelligence will be hosted by the University of Surrey,from September 9- 11,2013.UKCI is the premier UK and Ireland event for presenting leading research on all aspects of computational intelli- gence. The workshop aims to provide a forum for academic researchers to share research progresses and discuss emerging topics and future directions in the field of computational intelligence.Equally important,this workshop intends to demonstrate successful case studies,identify challenges and bridge the gap between theory and practice in applying computational in- telligence to solving real-world problems.The workshop will consist of regular sessions,special sessions and keynote talks from leading researchers in the field of computational intelligence. Topics The authors are invited to submit their original work in all areas of computational intelligence and nature-inspired compu- ting including,but not limited to the following:neural networks,computational and cognitive neuroscience,learning sys- tems,machine learning;fuzzy logic,fuzzy systems,type-2 fuzzy systems,approximate reasoning;evolutionary compu- ting,evolutionary algorithms,differential evolution,swarm intelligence,ant colony optimisation,artificial immune sys- tems,memetic computing;multi-agent systems,games,data mining,web intelligence,intelligent control,intelligent sig- nal processing,morphogenetic self-organisation and evolutionary developmental robotics.Applications of computational in- telligence techniques to bioinformatics and computational biology,brain-machine interface,digital eco-systems,healthcare and medical engineering,multi-media security and cyber security,robotics,design and manufacturing,energy and envi- ronment are particularly welcome. Website:http://ukci2013.cs.surrey.ac.uk/

ｍｏｄｅｌｉｎｇａｎｄｉｍａｇｉｎｇｏｆｔｈｅｃｏｒｔｉｃａｌｉｎｔｅｒａｃｔｉｏｎｓｕｎｄｅｒｌｙｉｎｇｓｙｌｌａｂｌｅｐｒｏｄｕｃｔｉｏｎ［Ｊ］．ＢｒａｉｎａｎｄＬａｎｇｕａｇｅ，２００６，９６（３）：２８０⁃３０１．［１４］ＺＨＡＮＧＳｈａｏｂａｉ，ＸＵＬｅｉ，ＣＨＥＮＧＸｉｅｆｅｎｇ．ＲｅｓｅａｒｃｈｏｎｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｏｆｓｐｅｅｃｈｓｉｇｎａｌｂａｓｅｄｏｎＤＩＶＡｍｏｄ⁃ ｅｌ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＲｅｖｉｅｗｏｎＣｏｍｐｕｔｅｒｓａｎｄＳｏｆｔｗａｒｅ，２０１２，７（６）：１０８⁃１１３．［１５］ＺＨＡＮＧＳｈａｏｂａｉ，ＨＵＡＮＧＤａｎｄａｎ．Ｅｌｅｃｔｒｏｅｎｃｅｐｈａｌｏ⁃ ｇｒａｐｈｙｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｕｓｉｎｇｈｉｇｈｔｉｍｅｆｒｅｑｕｅｎｃｙｒｅｓｏ⁃ ｌｕｔｉｏｎａｎａｌｙｓｉｓ［Ｊ］．ＩｎｄｏｎｅｓｉａｎＪｏｕｒｎａｌｏｆＥｌｅｃｔｒｉｃａｌＥｎｇｉ⁃ ｎｅｅｒｉｎｇ，２０１２，１０（６）：１４１５⁃１４２１．［１６］ＺＨＡＮＧＳｈａｏｂａｉ，ＨＡＮＹａｎｂｉｎ，ＬＩＪｉｎｐｉｎｇ，ｅｔａｌ．Ｒｅｓｅａｒｃｈｏｎｉｍｐｒｏｖｅｄｍｅａｎｓｈｉｆｔａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｌｏｃａｌｄｉｓｔｒｉｂｕ⁃ ｔｉｏｎｉｎＥＥＧｓｉｇｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＪｏｕｒｎａｌｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＲｅｓｅａｒｃｈ，２０１２，３（３）：１１７⁃１２２．［１７］ＺＨＡＮＧＳｈａｏｂａｉ，ＣＨＥＮＧＷｅｉｑｉｎｇ．Ａｎａｐｐｌｉｃａｔｉｏｎｏｆｃｅｒ⁃ ｅｂｅｌｌａｒｃｏｎｔｒｏｌｍｏｄｅｌｆｏｒｐｒｅｈｅｎｓｉｏｎｍｏｖｅｍｅｎｔｓ［Ｊ］．ＮｅｕｒａｌＣｏｍｐｕｔｉｎｇａｎｄＡｐｐｌｉｃａｔｉｏｎ，ＤＯＩ：１０．１００７／ｓ００５２１⁃０１２⁃ １３３５⁃１．［１８］ＳＭＩＴＨＲ．Ｓｐｅｅｃｈｐｒｏｄｕｃｔｉｏｎ２：ｍｏｄｅｌｓｏｆｓｐｅｅｃｈｐｒｏｄｕｃ⁃ ｔｉｏｎ，ｆｏｕｎｄａｔｉｏｎｓｏｆｓｐｅｅｃｈｃｏｍｍｕｎｉｃａｔｉｏｎ［ＥＢ／ＯＬ］．［２０１３⁃０２⁃２４］．ｈｔｔｐ：／／ｗｗｗ．ｌｉｎｇ．ｃａｍ．ａｃ．ｕｋ／ｌｉ９／Ｌ４＿０９１０＿ＳｐｅｅｃｈＰｒｏｄｕｃｔｉｏｎ２．ｐｄｆ．［１９］ＬＡＣＥＲＤＡＦ，ＫＬＩＮＴＦＯＲＳＥ，ＧＵＳＴＡＶＳＳＯＮＬ．Ｍｕｌｔｉ⁃ ｓｅｎｓｏｒｙｉｎｆｏｒｍａｔｉｏｎａｓａｎｉｍｐｒｏｖｅｍｅｎｔｆｏｒｃｏｍｍｕｎｉｃａｔｉｏｎｓｙｓｔｅｍｓ’ ｅｆｆｉｃｉｅｎｃｙ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｆｒｏｍＦｏｎｅｔｉｋ２００５．Ｇｏｔｈｅｎｂｕｒｇ，Ｓｗｅｄｅｎ，２００５：８３⁃８６．［２０］ＣＨＥＮＹ，ＷＥＮＧＪ．Ｄｅｖｅｌｏｐｍｅｎｔａｌｌｅａｒｎｉｎｇ：ａｃａｓｅｓｔｕｄｙｉｎｕｎｄｅｒｓｔａｎｄｉｎｇ “ ｏｂｊｅｃｔｐｅｒｍａｎｅｎｃｅ” ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＦｏｕｒｔｈＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＥｐｉｇｅｎｅｔｉｃＲｏｂｏｔｉｃｓ：ＭｏｄｅｌｉｎｇＣｏｇｎｉｔｉｖｅＤｅｖｅｌｏｐｍｅｎｔｉｎＲｏｂｏｔｉｃＳｙｓｔｅｍｓ．Ｌｕｎｄ，Ｓｗｅｄｅｎ，２００４：３５⁃４２．［２１］ＫＵＨＬＰＫ，ＷＩＬＬＩＡＭＳＫＡ，ＬＡＣＥＲＤＡＦ，ｅｔａｌ．Ｌｉｎ⁃ ｇｕｉｓｔｉｃｅｘｐｅｒｉｅｎｃｅａｌｔｅｒｓｐｈｏｎｅｔｉｃｐｅｒｃｅｐｔｉｏｎｉｎｉｎｆａｎｔｓｂｙ６ｍｏｎｔｈｓｏｆａｇｅ［Ｊ］．Ｓｃｉｅｎｃｅ，１９９２（２５５）：６０６⁃６０８．作者简介：张少白，男，１９５３年生，主要研究方向为智能系统与模式识别．主持国家级项目多项．发表学术论文多篇．刘欣，男，１９８７年生，主要研究方向为模式识别与智能系统．２０１３年第１３届英国计算智能研讨会２０１３１３ｔｈＵＫＷｏｒｋｓｈｏｐｏｎＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ＵＫＣＩ）Ｔｈｅ１３ｔｈＡｎｎｕａｌＷｏｒｋｓｈｏｐｏｎＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅｗｉｌｌｂｅｈｏｓｔｅｄｂｙｔｈｅＵｎｉｖｅｒｓｉｔｙｏｆＳｕｒｒｅｙ，ｆｒｏｍＳｅｐｔｅｍｂｅｒ９⁃ １１，２０１３．ＵＫＣＩｉｓｔｈｅｐｒｅｍｉｅｒＵＫａｎｄＩｒｅｌａｎｄｅｖｅｎｔｆｏｒｐｒｅｓｅｎｔｉｎｇｌｅａｄｉｎｇｒｅｓｅａｒｃｈｏｎａｌｌａｓｐｅｃｔｓｏｆｃｏｍｐｕｔａｔｉｏｎａｌｉｎｔｅｌｌｉ⁃ ｇｅｎｃｅ．Ｔｈｅｗｏｒｋｓｈｏｐａｉｍｓｔｏｐｒｏｖｉｄｅａｆｏｒｕｍｆｏｒａｃａｄｅｍｉｃｒｅｓｅａｒｃｈｅｒｓｔｏｓｈａｒｅｒｅｓｅａｒｃｈｐｒｏｇｒｅｓｓｅｓａｎｄｄｉｓｃｕｓｓｅｍｅｒｇｉｎｇｔｏｐｉｃｓａｎｄｆｕｔｕｒｅｄｉｒｅｃｔｉｏｎｓｉｎｔｈｅｆｉｅｌｄｏｆｃｏｍｐｕｔａｔｉｏｎａｌｉｎｔｅｌｌｉｇｅｎｃｅ．Ｅｑｕａｌｌｙｉｍｐｏｒｔａｎｔ，ｔｈｉｓｗｏｒｋｓｈｏｐｉｎｔｅｎｄｓｔｏｄｅｍｏｎｓｔｒａｔｅｓｕｃｃｅｓｓｆｕｌｃａｓｅｓｔｕｄｉｅｓ，ｉｄｅｎｔｉｆｙｃｈａｌｌｅｎｇｅｓａｎｄｂｒｉｄｇｅｔｈｅｇａｐｂｅｔｗｅｅｎｔｈｅｏｒｙａｎｄｐｒａｃｔｉｃｅｉｎａｐｐｌｙｉｎｇｃｏｍｐｕｔａｔｉｏｎａｌｉｎ⁃ ｔｅｌｌｉｇｅｎｃｅｔｏｓｏｌｖｉｎｇｒｅａｌ⁃ｗｏｒｌｄｐｒｏｂｌｅｍｓ．Ｔｈｅｗｏｒｋｓｈｏｐｗｉｌｌｃｏｎｓｉｓｔｏｆｒｅｇｕｌａｒｓｅｓｓｉｏｎｓ，ｓｐｅｃｉａｌｓｅｓｓｉｏｎｓａｎｄｋｅｙｎｏｔｅｔａｌｋｓｆｒｏｍｌｅａｄｉｎｇｒｅｓｅａｒｃｈｅｒｓｉｎｔｈｅｆｉｅｌｄｏｆｃｏｍｐｕｔａｔｉｏｎａｌｉｎｔｅｌｌｉｇｅｎｃｅ．ＴｏｐｉｃｓＴｈｅａｕｔｈｏｒｓａｒｅｉｎｖｉｔｅｄｔｏｓｕｂｍｉｔｔｈｅｉｒｏｒｉｇｉｎａｌｗｏｒｋｉｎａｌｌａｒｅａｓｏｆｃｏｍｐｕｔａｔｉｏｎａｌｉｎｔｅｌｌｉｇｅｎｃｅａｎｄｎａｔｕｒｅ⁃ｉｎｓｐｉｒｅｄｃｏｍｐｕ⁃ ｔｉｎｇｉｎｃｌｕｄｉｎｇ，ｂｕｔｎｏｔｌｉｍｉｔｅｄｔｏｔｈｅｆｏｌｌｏｗｉｎｇ：ｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ｃｏｍｐｕｔａｔｉｏｎａｌａｎｄｃｏｇｎｉｔｉｖｅｎｅｕｒｏｓｃｉｅｎｃｅ，ｌｅａｒｎｉｎｇｓｙｓ⁃ ｔｅｍｓ，ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；ｆｕｚｚｙｌｏｇｉｃ，ｆｕｚｚｙｓｙｓｔｅｍｓ，ｔｙｐｅ⁃２ｆｕｚｚｙｓｙｓｔｅｍｓ，ａｐｐｒｏｘｉｍａｔｅｒｅａｓｏｎｉｎｇ；ｅｖｏｌｕｔｉｏｎａｒｙｃｏｍｐｕ⁃ ｔｉｎｇ，ｅｖｏｌｕｔｉｏｎａｒｙａｌｇｏｒｉｔｈｍｓ，ｄｉｆｆｅｒｅｎｔｉａｌｅｖｏｌｕｔｉｏｎ，ｓｗａｒｍｉｎｔｅｌｌｉｇｅｎｃｅ，ａｎｔｃｏｌｏｎｙｏｐｔｉｍｉｓａｔｉｏｎ，ａｒｔｉｆｉｃｉａｌｉｍｍｕｎｅｓｙｓ⁃ ｔｅｍｓ，ｍｅｍｅｔｉｃｃｏｍｐｕｔｉｎｇ；ｍｕｌｔｉ⁃ａｇｅｎｔｓｙｓｔｅｍｓ，ｇａｍｅｓ，ｄａｔａｍｉｎｉｎｇ，ｗｅｂｉｎｔｅｌｌｉｇｅｎｃｅ，ｉｎｔｅｌｌｉｇｅｎｔｃｏｎｔｒｏｌ，ｉｎｔｅｌｌｉｇｅｎｔｓｉｇ⁃ ｎａｌｐｒｏｃｅｓｓｉｎｇ，ｍｏｒｐｈｏｇｅｎｅｔｉｃｓｅｌｆ⁃ｏｒｇａｎｉｓａｔｉｏｎａｎｄｅｖｏｌｕｔｉｏｎａｒｙｄｅｖｅｌｏｐｍｅｎｔａｌｒｏｂｏｔｉｃｓ．Ａｐｐｌｉｃａｔｉｏｎｓｏｆｃｏｍｐｕｔａｔｉｏｎａｌｉｎ⁃ ｔｅｌｌｉｇｅｎｃｅｔｅｃｈｎｉｑｕｅｓｔｏｂｉｏｉｎｆｏｒｍａｔｉｃｓａｎｄｃｏｍｐｕｔａｔｉｏｎａｌｂｉｏｌｏｇｙ，ｂｒａｉｎ⁃ｍａｃｈｉｎｅｉｎｔｅｒｆａｃｅ，ｄｉｇｉｔａｌｅｃｏ⁃ｓｙｓｔｅｍｓ，ｈｅａｌｔｈｃａｒｅａｎｄｍｅｄｉｃａｌｅｎｇｉｎｅｅｒｉｎｇ，ｍｕｌｔｉ⁃ｍｅｄｉａｓｅｃｕｒｉｔｙａｎｄｃｙｂｅｒｓｅｃｕｒｉｔｙ，ｒｏｂｏｔｉｃｓ，ｄｅｓｉｇｎａｎｄｍａｎｕｆａｃｔｕｒｉｎｇ，ｅｎｅｒｇｙａｎｄｅｎｖｉ⁃ ｒｏｎｍｅｎｔａｒｅｐａｒｔｉｃｕｌａｒｌｙｗｅｌｃｏｍｅ．Ｗｅｂｓｉｔｅ：ｈｔｔｐ：／／ｕｋｃｉ２０１３．ｃｓ．ｓｕｒｒｅｙ．ａｃ．ｕｋ／第４期张少白，等：基于ＤＩＶＡ模型的语音－映射单元自动获取 ·３１１·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录