第８卷第４期智能系统学报Ｖｏｌ．８ №．４２０１３

正在加载图片...

第8卷第4期智能系统学报 Vol.8 No.4 2013年8月 CAAI Transactions on Intelligent Systems Aug.2013 D0I:10.3969/i.issn.1673-4785.201304049 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20130621.1541.002.html 基于DIVA模型的语音-映射单元自动获取张少白，刘欣 (南京邮电大学计算机学院，江苏南京210046) 摘要：针对DIVA模型中存在的“感知能力与语音生成技巧发育不平衡”问题，提出了一种自动获取语音-映射单元的方法该方法将人耳模拟为一个具有不同带宽的并联带通滤波器组，分别与模型中21维度的听觉存储空间相关联，对不同听觉的不同反应，分别考虑其频带的屏蔽效应、听觉响度与频率的关系在读取语音输入信号的过程中，模型能较好地获得初始听觉表示，其方式与婴儿咿呀学语的过程基本一致仿真实验表明，通过边界定义、相似性比较以及搜索更新等步骤，此方法能很好地进行初始输入模式的自组织匹配，并最终使DVA模型更具语音获取的自然特性。关键词：DIVA模型：音素：语音-映射单元：语音生成与获取中图分类号：TP31 文献标志码：A文章编号：1673-4785(2013)04-0305-07 中文引用格式：张少白，刘欣.基于DVA模型的语音-映射单元自动获取[J].智能系统学报，2013,8(4)：305-311. 英文引用格式：ZHANG Shaobai,LIU Xin.Automatic acquisition of speech sound-target cells based on DIVA model[J].CAAI Transactions on Intelligent Systems,2013,8(4):305-311. Automatic acquisition of speech sound-target cells based on DIVA model ZHANG Shaobai,LIU Xin (College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210046,China) Abstract:Contraposing the shortage of Directions Into Velocities of Articulators (DIVA)model about"infants per- ceptual abilities do develop faster at first than their speech production skills",the paper presents an automatic ac- quisition method of speech sound-target cells.The method simulates the human ear as a parallel band-pass filter group with different bandwidth and associates respectively;the filter with the 21-dimensional storage space of audi- tory sense in DIVA model.This method was done in order for different auditory reactions,the shielding effect of fre- quency band,sound loudness,and frequency relation could be considered respectively for this study.In the process of reading the input signal of speech,the model can acquire good initial hearing and the process is consistent with baby's babble.The simulation results show that through boundary definition,similarity comparison,searching and updates and so on,the method has nicer self-organized pattern matching effect for initial input,which makes the DIVA model a more natural characteristic regarding speech acquisition. Keywords:DIVA model;phoneme;speech sound-target cells;speech acquisition and production 在神经解剖学和神经心理学层次上，仿真和描述的成果.其中，波斯顿大学语音实验室F.H.Guenther 大脑中涉及语音生成和理解区域的相关功能，这是近教授带领的研究小组所做的工作最具代表性和开创来人工语音合成系统所追求的主要思想围绕这样的性.他们研制成功了一种称之为“神经分析系统(neu- 主题思想，多年来许多学者在语音生成和获取计算模 ralynx system)”的仪器，让使用者只需简单想一想自型的研究和探讨方面做出了巨大努力，并获得了丰硕己所希望表达的语言，语音合成系统就能将其内容直接转换成语音.通过与“脑-计算机”系统(brain-com- 收稿日期：2013-04-16.网络出版日期：2013-06-21 puter interface,BCI)相结合，使用者可以直接控制声基金项目：国家自然科学基金资助项目(61073115,61271334，音的输出，其反应速度比著名科学家霍金目前正在使 61373065). 通信作者：张少白.E-mail:adzsb@163.com 用的打字处理方式快了许多.第８卷第４期智能系统学报Ｖｏｌ．８ №．４２０１３年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１３ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０４０４９网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１３０６２１．１５４１．００２．ｈｔｍｌ基于ＤＩＶＡ模型的语音－映射单元自动获取张少白，刘欣（南京邮电大学计算机学院，江苏南京２１００４６）摘要：针对ＤＩＶＡ模型中存在的“感知能力与语音生成技巧发育不平衡”问题，提出了一种自动获取语音－映射单元的方法．该方法将人耳模拟为一个具有不同带宽的并联带通滤波器组，分别与模型中２１维度的听觉存储空间相关联，对不同听觉的不同反应，分别考虑其频带的屏蔽效应、听觉响度与频率的关系．在读取语音输入信号的过程中，模型能较好地获得初始听觉表示，其方式与婴儿咿呀学语的过程基本一致．仿真实验表明，通过边界定义、相似性比较以及搜索更新等步骤，此方法能很好地进行初始输入模式的自组织匹配，并最终使ＤＩＶＡ模型更具语音获取的自然特性．关键词：ＤＩＶＡ模型；音素；语音－映射单元；语音生成与获取中图分类号：ＴＰ３１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１３）０４⁃０３０５⁃０７中文引用格式：张少白，刘欣．基于ＤＩＶＡ模型的语音－映射单元自动获取［Ｊ］．智能系统学报，２０１３，８（４）：３０５⁃３１１．英文引用格式：ＺＨＡＮＧＳｈａｏｂａｉ，ＬＩＵＸｉｎ．Ａｕｔｏｍａｔｉｃａｃｑｕｉｓｉｔｉｏｎｏｆｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓｂａｓｅｄｏｎＤＩＶＡｍｏｄｅｌ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１３，８（４）：３０５⁃３１１．Ａｕｔｏｍａｔｉｃａｃｑｕｉｓｉｔｉｏｎｏｆｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓｂａｓｅｄｏｎＤＩＶＡｍｏｄｅｌＺＨＡＮＧＳｈａｏｂａｉ，ＬＩＵＸｉｎ（ＣｏｌｌｅｇｅｏｆＣｏｍｐｕｔｅｒ，ＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｎａｎｊｉｎｇ２１００４６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＣｏｎｔｒａｐｏｓｉｎｇｔｈｅｓｈｏｒｔａｇｅｏｆＤｉｒｅｃｔｉｏｎｓＩｎｔｏＶｅｌｏｃｉｔｉｅｓｏｆＡｒｔｉｃｕｌａｔｏｒｓ（ＤＩＶＡ）ｍｏｄｅｌａｂｏｕｔ “ｉｎｆａｎｔｓｐｅｒ⁃ ｃｅｐｔｕａｌａｂｉｌｉｔｉｅｓｄｏｄｅｖｅｌｏｐｆａｓｔｅｒａｔｆｉｒｓｔｔｈａｎｔｈｅｉｒｓｐｅｅｃｈｐｒｏｄｕｃｔｉｏｎｓｋｉｌｌｓ”，ｔｈｅｐａｐｅｒｐｒｅｓｅｎｔｓａｎａｕｔｏｍａｔｉｃａｃ⁃ ｑｕｉｓｉｔｉｏｎｍｅｔｈｏｄｏｆｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓ．Ｔｈｅｍｅｔｈｏｄｓｉｍｕｌａｔｅｓｔｈｅｈｕｍａｎｅａｒａｓａｐａｒａｌｌｅｌｂａｎｄ⁃ｐａｓｓｆｉｌｔｅｒｇｒｏｕｐｗｉｔｈｄｉｆｆｅｒｅｎｔｂａｎｄｗｉｄｔｈａｎｄａｓｓｏｃｉａｔｅｓｒｅｓｐｅｃｔｉｖｅｌｙ；ｔｈｅｆｉｌｔｅｒｗｉｔｈｔｈｅ２１⁃ｄｉｍｅｎｓｉｏｎａｌｓｔｏｒａｇｅｓｐａｃｅｏｆａｕｄｉ⁃ ｔｏｒｙｓｅｎｓｅｉｎＤＩＶＡｍｏｄｅｌ．Ｔｈｉｓｍｅｔｈｏｄｗａｓｄｏｎｅｉｎｏｒｄｅｒｆｏｒｄｉｆｆｅｒｅｎｔａｕｄｉｔｏｒｙｒｅａｃｔｉｏｎｓ，ｔｈｅｓｈｉｅｌｄｉｎｇｅｆｆｅｃｔｏｆｆｒｅ⁃ ｑｕｅｎｃｙｂａｎｄ，ｓｏｕｎｄｌｏｕｄｎｅｓｓ，ａｎｄｆｒｅｑｕｅｎｃｙｒｅｌａｔｉｏｎｃｏｕｌｄｂｅｃｏｎｓｉｄｅｒｅｄｒｅｓｐｅｃｔｉｖｅｌｙｆｏｒｔｈｉｓｓｔｕｄｙ．Ｉｎｔｈｅｐｒｏｃｅｓｓｏｆｒｅａｄｉｎｇｔｈｅｉｎｐｕｔｓｉｇｎａｌｏｆｓｐｅｅｃｈ，ｔｈｅｍｏｄｅｌｃａｎａｃｑｕｉｒｅｇｏｏｄｉｎｉｔｉａｌｈｅａｒｉｎｇａｎｄｔｈｅｐｒｏｃｅｓｓｉｓｃｏｎｓｉｓｔｅｎｔｗｉｔｈｂａｂｙ＇ｓｂａｂｂｌｅ．Ｔｈｅｓｉｍｕｌａｔｉｏｎｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｒｏｕｇｈｂｏｕｎｄａｒｙｄｅｆｉｎｉｔｉｏｎ，ｓｉｍｉｌａｒｉｔｙｃｏｍｐａｒｉｓｏｎ，ｓｅａｒｃｈｉｎｇａｎｄｕｐｄａｔｅｓａｎｄｓｏｏｎ，ｔｈｅｍｅｔｈｏｄｈａｓｎｉｃｅｒｓｅｌｆ⁃ｏｒｇａｎｉｚｅｄｐａｔｔｅｒｎｍａｔｃｈｉｎｇｅｆｆｅｃｔｆｏｒｉｎｉｔｉａｌｉｎｐｕｔ，ｗｈｉｃｈｍａｋｅｓｔｈｅＤＩＶＡｍｏｄｅｌａｍｏｒｅｎａｔｕｒａｌｃｈａｒａｃｔｅｒｉｓｔｉｃｒｅｇａｒｄｉｎｇｓｐｅｅｃｈａｃｑｕｉｓｉｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ＤＩＶＡｍｏｄｅｌ；ｐｈｏｎｅｍｅ；ｓｐｅｅｃｈｓｏｕｎｄ⁃ｔａｒｇｅｔｃｅｌｌｓ；ｓｐｅｅｃｈａｃｑｕｉｓｉｔｉｏｎａｎｄｐｒｏｄｕｃｔｉｏｎ收稿日期：２０１３⁃０４⁃１６．网络出版日期：２０１３⁃０６⁃２１．基金项目：国家自然科学基金资助项目（６１０７３１１５，６１２７１３３４，６１３７３０６５）．通信作者：张少白．Ｅ⁃ｍａｉｌ：ａｄｚｓｂ＠１６３．ｃｏｍ．在神经解剖学和神经心理学层次上，仿真和描述大脑中涉及语音生成和理解区域的相关功能，这是近来人工语音合成系统所追求的主要思想．围绕这样的主题思想，多年来许多学者在语音生成和获取计算模型的研究和探讨方面做出了巨大努力，并获得了丰硕的成果．其中，波斯顿大学语音实验室Ｆ．Ｈ．Ｇｕｅｎｔｈｅｒ教授带领的研究小组所做的工作最具代表性和开创性．他们研制成功了一种称之为“神经分析系统（ｎｅｕ⁃ ｒａｌｙｎｘｓｙｓｔｅｍ）”的仪器，让使用者只需简单想一想自己所希望表达的语言，语音合成系统就能将其内容直接转换成语音．通过与“脑－计算机”系统（ｂｒａｉｎ⁃ｃｏｍ⁃ ｐｕｔｅｒｉｎｔｅｒｆａｃｅ，ＢＣＩ）相结合，使用者可以直接控制声音的输出，其反应速度比著名科学家霍金目前正在使用的打字处理方式快了许多．

向下翻页>>

点击下载：机器感知与模式识别：基于DIVA模型的语音-映射单元自动获取