【机器感知与模式识别】运用核聚类和偏最小二乘回归的歌唱声音转换编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：0.98MB

第11卷第1期智能系统学报 Vol.11 No.1 2016年2月 CAAI Transactions on Intelligent Systems Feh.2016 D0I:10.11992/is.201506022 网络出版地址：htp://www.cmki.net/kcms/detail/23.1538.TP.20151229.0837.010.html 运用核聚类和偏最小二乘回归的歌唱声音转换方鹏12,3，李贤13，汪增福12,3 (1.中国科学技术大学信息科学技术学院，安徽合肥230027：2.中国科学院合肥智能机械研究所，安徽合肥 230031:3.语音及语言信息处理国家工程实验室，安徽合肥230027) 摘要：语音转换是计算机听觉领域的热点问题之一，将歌声运用于语音转换是一种新的研究方向，同时拓宽了语音转换的应用范围。经典的高斯混合模型的方法在少量训练数据时会出现过拟合的现象，而且在转换时并未有效利用音乐信息。为此提出一种歌唱声音转换方法以实现少量训练数据时的音色转换，并且利用歌曲的基频信息提高转换歌声的声音质量。该方法使用核聚类和偏最小二乘回归进行训练得到转换函数，采用梅尔对数频谱近似 (MLSA)滤波器对源歌唱声音的波形直接进行滤波来获得转换后的歌唱声音，以此提高转换歌声的声音质量。实验结果表明，在少量训练数据时，该方法在相似度和音质方面都有更好的效果，说明在少量训练数据时该方法优于传统的高斯混合模型的方法。关键词：计算机视觉：语音转换；歌唱声音：核聚类：偏最小二乘回归：高斯混合模型：MLSA 中图分类号：TN912:TP37文献标志码：A文章编号：1673-4785(2016)01-0055-06 中文引用格式：方鹏，李贤，汪增福.运用核聚类和偏最小二乘回归的歌唱声音转换[J].智能系统学报，2016,11(1)：55-60. 英文引用格式：FANG Peng,LI Xian,WANG Zengfu..Conversion of singing voice based on kernel clustering and partial least squares regression[J].CAAI Transactions on Intelligent Systems,2016,11(1):55-60. Conversion of singing voice based on kernel clustering and partial least squares regression FANG Peng'2.3,LI Xian'3,WANG Zengfu'.2.3 (1.Department of Automation,University of Science and Technology of China,Hefei 230027,China;2.Institute of Intelligent Ma- chines,Chinese Academy of Sciences,Hefei 230031,China;3.National Engineering Laboratory of Speech and Language Information Processing,Hefei 230027,China) Abstract:Voice conversion is a popular topic in the field of computer hearing,and the application of singing voices to voice conversion is a relatively new research direction,which widens the application scope of voice conversion. When a training dataset is small,the conventional Gaussian mixture model (GMM)method may cause overfitting and insufficient utilization of music information.In this study,we propose a method for converting the voice timbre of a source singer into that of a target singer and employ fundamental frequency to improve the converted singing voice quality.We use kernel clustering and partial least squares regression to train the dataset,thereby obtaining the conversion function.To improve the converted singing voice quality,we applied the Mel log spectrum approxi- mation (MLSA)filter,which synthesizes the converted singing voice by filtering the source singing waveform. Based on our experiment results,the proposed method demonstrates better voice similarity and quality,and there- fore is a better choice than the GMM-based method when the training dataset is small. Keywords:computer vision;voice conversion;singing voice;kernel clustering;partial least squares regression; Gaussian mixture model;Mel log spectrum approximation 语音转换是一项非常热门的技术，在近20年间不改变语义信息的情况下，使其声音听起来像是另开始涌现，它可以通过修饰一个源说话者的声音，在一个特定的人所说的。由于每个人生理特征的限制，使得我们在发音的时候不能自由的转换音色，只收稿日期：2015-06-11.网络出版日期：2015-12-29. 基金项目：国家自然科学基金资助项目(61472393,613031350). 能在某种程度上轻微地改变自己的音色，但是当说通信作者：汪增福.E-mail:zfwang(@ustc.cdu.cm

第１１卷第１期智能系统学报Ｖｏｌ．１１ №．１２０１６年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０６０２２网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１５１２２９．０８３７．０１０．ｈｔｍｌ运用核聚类和偏最小二乘回归的歌唱声音转换方鹏１，２，３，李贤１，３，汪增福１，２，３（１．中国科学技术大学信息科学技术学院，安徽合肥２３００２７；２．中国科学院合肥智能机械研究所，安徽合肥２３００３１；３．语音及语言信息处理国家工程实验室，安徽合肥２３００２７）摘要：语音转换是计算机听觉领域的热点问题之一，将歌声运用于语音转换是一种新的研究方向，同时拓宽了语音转换的应用范围。经典的高斯混合模型的方法在少量训练数据时会出现过拟合的现象，而且在转换时并未有效利用音乐信息。为此提出一种歌唱声音转换方法以实现少量训练数据时的音色转换，并且利用歌曲的基频信息提高转换歌声的声音质量。该方法使用核聚类和偏最小二乘回归进行训练得到转换函数，采用梅尔对数频谱近似（ＭＬＳＡ）滤波器对源歌唱声音的波形直接进行滤波来获得转换后的歌唱声音，以此提高转换歌声的声音质量。实验结果表明，在少量训练数据时，该方法在相似度和音质方面都有更好的效果，说明在少量训练数据时该方法优于传统的高斯混合模型的方法。关键词：计算机视觉；语音转换；歌唱声音；核聚类；偏最小二乘回归；高斯混合模型；ＭＬＳＡ中图分类号：ＴＮ９１２；ＴＰ３７文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０１⁃００５５⁃０６中文引用格式：方鹏，李贤，汪增福．运用核聚类和偏最小二乘回归的歌唱声音转换［Ｊ］．智能系统学报，２０１６，１１（１）：５５⁃６０．英文引用格式：ＦＡＮＧＰｅｎｇ，ＬＩＸｉａｎ，ＷＡＮＧＺｅｎｇｆｕ．Ｃｏｎｖｅｒｓｉｏｎｏｆｓｉｎｇｉｎｇｖｏｉｃｅｂａｓｅｄｏｎｋｅｒｎｅｌｃｌｕｓｔｅｒｉｎｇａｎｄｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（１）：５５⁃６０．ＣｏｎｖｅｒｓｉｏｎｏｆｓｉｎｇｉｎｇｖｏｉｃｅｂａｓｅｄｏｎｋｅｒｎｅｌｃｌｕｓｔｅｒｉｎｇａｎｄｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎＦＡＮＧＰｅｎｇ１，２，３，ＬＩＸｉａｎ１，３，ＷＡＮＧＺｅｎｇｆｕ１，２，３（１．ＤｅｐａｒｔｍｅｎｔｏｆＡｕｔｏｍａｔｉｏｎ，ＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙｏｆＣｈｉｎａ，Ｈｅｆｅｉ２３００２７，Ｃｈｉｎａ；２．ＩｎｓｔｉｔｕｔｅｏｆＩｎｔｅｌｌｉｇｅｎｔＭａ⁃ ｃｈｉｎｅｓ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｈｅｆｅｉ２３００３１，Ｃｈｉｎａ；３．ＮａｔｉｏｎａｌＥｎｇｉｎｅｅｒｉｎｇＬａｂｏｒａｔｏｒｙｏｆＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇ，Ｈｅｆｅｉ２３００２７，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｉｓａｐｏｐｕｌａｒｔｏｐｉｃｉｎｔｈｅｆｉｅｌｄｏｆｃｏｍｐｕｔｅｒｈｅａｒｉｎｇ，ａｎｄｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｓｉｎｇｉｎｇｖｏｉｃｅｓｔｏｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｉｓａｒｅｌａｔｉｖｅｌｙｎｅｗｒｅｓｅａｒｃｈｄｉｒｅｃｔｉｏｎ，ｗｈｉｃｈｗｉｄｅｎｓｔｈｅａｐｐｌｉｃａｔｉｏｎｓｃｏｐｅｏｆｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ．Ｗｈｅｎａｔｒａｉｎｉｎｇｄａｔａｓｅｔｉｓｓｍａｌｌ，ｔｈｅｃｏｎｖｅｎｔｉｏｎａｌＧａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ（ＧＭＭ）ｍｅｔｈｏｄｍａｙｃａｕｓｅｏｖｅｒｆｉｔｔｉｎｇａｎｄｉｎｓｕｆｆｉｃｉｅｎｔｕｔｉｌｉｚａｔｉｏｎｏｆｍｕｓｉｃｉｎｆｏｒｍａｔｉｏｎ．Ｉｎｔｈｉｓｓｔｕｄｙ，ｗｅｐｒｏｐｏｓｅａｍｅｔｈｏｄｆｏｒｃｏｎｖｅｒｔｉｎｇｔｈｅｖｏｉｃｅｔｉｍｂｒｅｏｆａｓｏｕｒｃｅｓｉｎｇｅｒｉｎｔｏｔｈａｔｏｆａｔａｒｇｅｔｓｉｎｇｅｒａｎｄｅｍｐｌｏｙｆｕｎｄａｍｅｎｔａｌｆｒｅｑｕｅｎｃｙｔｏｉｍｐｒｏｖｅｔｈｅｃｏｎｖｅｒｔｅｄｓｉｎｇｉｎｇｖｏｉｃｅｑｕａｌｉｔｙ．Ｗｅｕｓｅｋｅｒｎｅｌｃｌｕｓｔｅｒｉｎｇａｎｄｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎｔｏｔｒａｉｎｔｈｅｄａｔａｓｅｔ，ｔｈｅｒｅｂｙｏｂｔａｉｎｉｎｇｔｈｅｃｏｎｖｅｒｓｉｏｎｆｕｎｃｔｉｏｎ．Ｔｏｉｍｐｒｏｖｅｔｈｅｃｏｎｖｅｒｔｅｄｓｉｎｇｉｎｇｖｏｉｃｅｑｕａｌｉｔｙ，ｗｅａｐｐｌｉｅｄｔｈｅＭｅｌｌｏｇｓｐｅｃｔｒｕｍａｐｐｒｏｘｉ⁃ ｍａｔｉｏｎ（ＭＬＳＡ）ｆｉｌｔｅｒ，ｗｈｉｃｈｓｙｎｔｈｅｓｉｚｅｓｔｈｅｃｏｎｖｅｒｔｅｄｓｉｎｇｉｎｇｖｏｉｃｅｂｙｆｉｌｔｅｒｉｎｇｔｈｅｓｏｕｒｃｅｓｉｎｇｉｎｇｗａｖｅｆｏｒｍ．Ｂａｓｅｄｏｎｏｕｒｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓ，ｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｄｅｍｏｎｓｔｒａｔｅｓｂｅｔｔｅｒｖｏｉｃｅｓｉｍｉｌａｒｉｔｙａｎｄｑｕａｌｉｔｙ，ａｎｄｔｈｅｒｅ⁃ ｆｏｒｅｉｓａｂｅｔｔｅｒｃｈｏｉｃｅｔｈａｎｔｈｅＧＭＭ⁃ｂａｓｅｄｍｅｔｈｏｄｗｈｅｎｔｈｅｔｒａｉｎｉｎｇｄａｔａｓｅｔｉｓｓｍａｌｌ．Ｋｅｙｗｏｒｄｓ：ｃｏｍｐｕｔｅｒｖｉｓｉｏｎ；ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ；ｓｉｎｇｉｎｇｖｏｉｃｅ；ｋｅｒｎｅｌｃｌｕｓｔｅｒｉｎｇ；ｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎ；Ｇａｕｓｓｉａｎｍｉｘｔｕｒｅｍｏｄｅｌ；Ｍｅｌｌｏｇｓｐｅｃｔｒｕｍａｐｐｒｏｘｉｍａｔｉｏｎ收稿日期：２０１５⁃０６⁃１１．网络出版日期：２０１５⁃１２⁃２９．基金项目：国家自然科学基金资助项目（６１４７２３９３，６１３０３１３５０）．通信作者：汪增福．Ｅ⁃ｍａｉｌ：ｚｆｗａｎｇ＠ｕｓｔｃ．ｅｄｕ．ｃｎ．语音转换是一项非常热门的技术，在近２０年间开始涌现，它可以通过修饰一个源说话者的声音，在不改变语义信息的情况下，使其声音听起来像是另一个特定的人所说的。由于每个人生理特征的限制，使得我们在发音的时候不能自由的转换音色，只能在某种程度上轻微地改变自己的音色，但是当说

·56. 智能系统学报第11卷话者想要使其声音变成另一个人的音色时存在很大训练数据的时将会得到比基于GMM方法具有更高的难度。然而语音转换技术可以突破这一限制，实的精确性。现任意人之间的音色转换。在语音转换方面，科研这两年随着神经网络的迅速崛起，也有一些工作者已经做了大量的工作，因此很多人开始寻找人开始使用神经网络相关方法来做语音转换[9。新的研究方向，将歌唱声音运用到语音转换中将会尽管这些方法都取得了比较好的成果，但是与To 成为一门热门课题，而且这也是和音乐相关技术运 da的方法相比并未有显著的提升，而且都较为复用的一种创新)。本文针对歌唱声音提出了一种杂，效率偏低。在歌唱声音转换的实际应用中，由转换的方法，以实现不同歌唱者音色之间的转换。于歌唱声音的数据相比普通语音数据会少很多到目前为止，已经有了很多种语音转换的方法， (有时候只有一首歌)，在很多情况下不能获得大其中一个非常经典的方法就是码本匹配[)】，它通过量的歌唱声音数据，因此针对歌唱声音转换的实对源声音特征的码本中心进行线性加权来实现转际应用，本文采用偏最小二乘法来计算转换函数。换。可是由于码本中心的数量限制，这样转换得到另一方面为了提高数据统计的精度，采用核模糊的声音特征被限制在一定范围内，使得转换后的声聚类来对歌唱声音特征进行聚类，以此来获得高音特征缺少多样性。针对这一问题，很多人都提出精度的聚类结果。了解决方法，其中基于高斯混合模型(GMM)的统计当语音的频谱被转换完成之后，下一步要进行方法[3]是最为经典的方法，也是目前最前沿的方的是对语音进行合成。传统的合成方法是使用一个法。此方法通过使用GMM来对声音特征进行统计声码器对转换后的频谱和基频进行合成，以此来合建模，并使用多个局部回归函数的线性组合来作为成转换后的声音。可是相对于普通的语音来说，歌转换函数。不过这种方法存在2个问题：帧间的不唱声音的音质是一个更为重要的指标，因此需要采连续和过平滑，这是由于在这个模型中未对帧间的用一些新的方法来提高歌唱声音的声音质量。为了关联性进行建模，从而导致在转换时出现帧与帧之减小合成的误差，提高歌唱声音的音质，本文使用差间的不连续：另外由于统计模型经常会忽略频谱的分频谱的方法进行歌唱合成0！，但不同于文献[10] 细节信息，细节信息的缺失就自然导致了过平滑的中的方法，我们不使用差分频谱来进行训练，因为这出现。为了解决高斯混合模型中出现的2个问题，样可能会带来误差，本文将直接使用源声音频谱特 Todats)提出了频谱参数轨迹的最大似然估计法。一征进行训练。方面，通过增加帧间的动态变量来描述帧间的相关 1 歌唱声音转换框架性，动态变量的引入成功地解决了帧间不连续的问题：另一方面通过构建频谱包络的全局变量来缓和图1给出了本文歌唱声音转换的框架图。我们过平滑问题。采用SPTK以及STRAIGHT[]作为语音信号处理尽管基于GMM方法的帧间不连续以及过平滑工具。由于歌唱声音的音色体现在频谱包络上，故问题在某种程度上被解决了，但是此转换方法依然在歌唱声音转换中采用频谱包络作为声音特征进行存在过拟合的问题。过拟合的出现是由于系统过于训练以及转换。复杂而训练数据不足所导致的，在基于GMM的方歌唱声音转换通常分为两部分：训练和转换。法中过拟合是在计算协方差矩阵时被引入的。为了在训练阶段，首先采用核模糊k-均值聚类算法[2] 在训练数据过少时避免过拟合问题，可以采用对角对输入的源声音特征进行聚类，得到的聚类结果为阵来计算协方差矩阵。可是对角阵的使用又使得输一个隶属度矩阵。对隶属度矩阵和目标歌唱声音特入矢量的各维之间相互独立，从而导致了语音质量征向量使用偏最小二乘回归算法经行训练，从而得的下降。为了克服对角阵导致的变量独立性和过拟到转换函数。在转换阶段，对于输入源歌唱声音特合问题，E.Helander提出了使用偏最小二乘回归征，计算其隶属度矩阵，将隶属度矩阵代入求得的转 (PLS)[来计算转换函数的方法，这一方法在少量换函数中，从而计算出目标歌唱声音特征

话者想要使其声音变成另一个人的音色时存在很大的难度。然而语音转换技术可以突破这一限制，实现任意人之间的音色转换。在语音转换方面，科研工作者已经做了大量的工作，因此很多人开始寻找新的研究方向，将歌唱声音运用到语音转换中将会成为一门热门课题，而且这也是和音乐相关技术运用的一种创新［１］。本文针对歌唱声音提出了一种转换的方法，以实现不同歌唱者音色之间的转换。到目前为止，已经有了很多种语音转换的方法，其中一个非常经典的方法就是码本匹配［２］，它通过对源声音特征的码本中心进行线性加权来实现转换。可是由于码本中心的数量限制，这样转换得到的声音特征被限制在一定范围内，使得转换后的声音特征缺少多样性。针对这一问题，很多人都提出了解决方法，其中基于高斯混合模型（ＧＭＭ）的统计方法［３⁃４］是最为经典的方法，也是目前最前沿的方法。此方法通过使用ＧＭＭ来对声音特征进行统计建模，并使用多个局部回归函数的线性组合来作为转换函数。不过这种方法存在２个问题：帧间的不连续和过平滑，这是由于在这个模型中未对帧间的关联性进行建模，从而导致在转换时出现帧与帧之间的不连续；另外由于统计模型经常会忽略频谱的细节信息，细节信息的缺失就自然导致了过平滑的出现。为了解决高斯混合模型中出现的２个问题，Ｔｏｄａ［５］提出了频谱参数轨迹的最大似然估计法。一方面，通过增加帧间的动态变量来描述帧间的相关性，动态变量的引入成功地解决了帧间不连续的问题；另一方面通过构建频谱包络的全局变量来缓和过平滑问题。尽管基于ＧＭＭ方法的帧间不连续以及过平滑问题在某种程度上被解决了，但是此转换方法依然存在过拟合的问题。过拟合的出现是由于系统过于复杂而训练数据不足所导致的，在基于ＧＭＭ的方法中过拟合是在计算协方差矩阵时被引入的。为了在训练数据过少时避免过拟合问题，可以采用对角阵来计算协方差矩阵。可是对角阵的使用又使得输入矢量的各维之间相互独立，从而导致了语音质量的下降。为了克服对角阵导致的变量独立性和过拟合问题，Ｅ．Ｈｅｌａｎｄｅｒ提出了使用偏最小二乘回归（ＰＬＳ）［６］来计算转换函数的方法，这一方法在少量训练数据的时将会得到比基于ＧＭＭ方法具有更高的精确性。这两年随着神经网络的迅速崛起，也有一些人开始使用神经网络相关方法来做语音转换［７⁃９］。尽管这些方法都取得了比较好的成果，但是与Ｔｏ⁃ ｄａ的方法相比并未有显著的提升，而且都较为复杂，效率偏低。在歌唱声音转换的实际应用中，由于歌唱声音的数据相比普通语音数据会少很多（有时候只有一首歌），在很多情况下不能获得大量的歌唱声音数据，因此针对歌唱声音转换的实际应用，本文采用偏最小二乘法来计算转换函数。另一方面为了提高数据统计的精度，采用核模糊聚类来对歌唱声音特征进行聚类，以此来获得高精度的聚类结果。当语音的频谱被转换完成之后，下一步要进行的是对语音进行合成。传统的合成方法是使用一个声码器对转换后的频谱和基频进行合成，以此来合成转换后的声音。可是相对于普通的语音来说，歌唱声音的音质是一个更为重要的指标，因此需要采用一些新的方法来提高歌唱声音的声音质量。为了减小合成的误差，提高歌唱声音的音质，本文使用差分频谱的方法进行歌唱合成［１０］，但不同于文献［１０］中的方法，我们不使用差分频谱来进行训练，因为这样可能会带来误差，本文将直接使用源声音频谱特征进行训练。１歌唱声音转换框架图１给出了本文歌唱声音转换的框架图。我们采用ＳＰＴＫ以及ＳＴＲＡＩＧＨＴ［１１］作为语音信号处理工具。由于歌唱声音的音色体现在频谱包络上，故在歌唱声音转换中采用频谱包络作为声音特征进行训练以及转换。歌唱声音转换通常分为两部分：训练和转换。在训练阶段，首先采用核模糊ｋ⁃均值聚类算法［１２⁃１３］对输入的源声音特征进行聚类，得到的聚类结果为一个隶属度矩阵。对隶属度矩阵和目标歌唱声音特征向量使用偏最小二乘回归算法经行训练，从而得到转换函数。在转换阶段，对于输入源歌唱声音特征，计算其隶属度矩阵，将隶属度矩阵代入求得的转换函数中，从而计算出目标歌唱声音特征。 ·５６· 智能系统学报第１１卷

图１歌唱声音转换框架Ｆｉｇ．１Ｓｉｎｇｉｎｇｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｆｒａｍｅｗｏｒｋ２核模糊ｋ⁃均值聚类核模糊ｋ⁃均值算法通过将输入空间的数据非线性映射到高维空间中，使得输入数据的可分辨性增大，模式类之间的差异更明显，增大了输入数据的可分概率，经过验证核模糊聚类拥有更准确的聚类结果。对于输入的歌唱声音特征ｘｎ，ｎ＝１，２，…，Ｎ，假设已被映射到高维的特征空间 Φ（ｘｎ），ｎ＝１，２，…，Ｎ，在该空间中Ｅｕｃｌｉｄｅａｎ距离则表示为ｄ(Φ(ｘ) ，Φ(ｙ) ) ＝ ‖Φ(ｘ) － Φ(ｙ) ‖２＝ Φ(ｘ) Φ(ｘ) －２Φ(ｘ) Φ(ｙ) ＋ Φ(ｙ) Φ(ｙ) （１）在高维空间中，输入数据的点积形式表示为 Φ(ｘ)·Φ(ｙ) ＝Ｋ（ｘ，ｙ）（２）式中：Ｋ（ｘ，ｙ）表示核函数，核函数有多项式核函数、高斯核函数、ｓｉｇｍｏｉｄ核函数等，在此我们采用高斯核函数：Ｋ（ｘ，ｙ）＝ｅｘｐ（－ σ‖ｘ－ｙ‖２）（３）因此有ｄ(Φ(ｘ) ，Φ(ｙ) ) ＝Ｋ（ｘ，ｘ）－２Ｋ（ｘ，ｙ）＋Ｋ（ｙ，ｙ）（４）聚类的准则是最小化目标函数从而得到聚类结果，目标函数如下：Ｊ＝ ∑ Ｃｊ＝１ ∑ Ｎｎ＝１ μ ｍｊｎｄ２ Φ ｘｎ ( ) ，Φ ｖｊ ( ( ) ) （５）式中：Ｃ代表类别数，ｍ是模糊加权指数（人为设定），μｊｎ代表声音特征隶属于类别ｊ的程度，且 ∑ Ｃｊ＝１ μｊｎ＝１，ｖｊ表示高维空间中的聚类中心在输入空间中的原象。令ｄ′（ｘ，ｙ）＝１／ｄ２ (Φ(ｘ) ，Φ(ｙ) ) ，则隶属度的求解如下： μｊｎ＝ｄ′ ｘｎ，ｖｊ ( ) １／（ｍ－１）／∑ Ｃｊ＝１ｄｘｎ，ｖｊ ( ) １／（ｍ－１）（６）在高维空间中新的聚类中心为 Φ（ｖｊ）＝ ∑ Ｎｎ＝１ μ ｍｊｎΦ（ｘｎ）／∑ Ｎｎ＝１ μ ｍｊｎ（７）则有Ｋ（ｘｎ，ｖｊ）＝ ∑ Ｎｉ＝１ μ ｍｊｉＫ（ｘｉ，ｘｎ）／∑ Ｎｉ＝１ μ ｍｊｉ（８）Ｋ（ｖｊ，ｖｊ）＝ ∑ Ｎｉ＝１ ∑ Ｎｎ＝１ μ ｍｊｉ μ ｍｊｎＫ（ｘｉ，ｘｎ）／（∑ Ｎｉ＝１ μ ｍｊｉ）２（９）第１期方鹏，等：运用核聚类和偏最小二乘回归的歌唱声音转换 ·５７·

·58 智能系统学报第11卷更新隶属度： [k。kk+]T。那么根据偏最小二乘法有 y=Bk +e 通过对训练数据的训练则可以得到回归矩阵 (10) 循环迭代，直到maxl4n严nI<e或者迭代次数 B,对于任一输入歌唱声音特征，进行了核模糊k-均值聚类后都可以通过B矩阵求得目标歌唱声音等于预先设置的迭代次数。聚类结束后得到一个隶特征。属度矩阵K如下： K=[k:k2…kx] (11) 4 实验式中：第n个列向量表示第n帧歌唱声音特征相对 4.1 客观实验于C类的隶属度，即k=[h.he]T。对于求对于客观实验的结果，我们使用转换后的Mcep 得的隶属度矩阵将要使用偏最小二乘法进行训练，可是偏最小二乘法要求训练的对象是零均值的矩 (Mel-cepstral)系数与目标的Mcep系数的误差来描述，具体计算公式如下所示：阵，那么对于隶属度矩阵要进行零均值处理。对K的每一行求均值，矩阵的每一行都减去该 10 24 S= 行的均值，这些行的均值保存在列向量”中。对于 n10 (c-c)2 (15) 每一列也进行相同的操作，但是不保存每一列的式中：n表示任一帧，c。表示第n帧经转换得到的第均值。 i个Mcep,对应的ci表示目标的第i个Mcep。 3偏最小二乘回归(PLS) 在这个实验中我们对比的是基于GMM模型的方法，本文方法简称为KCPLS。对于GMM的方法 PLS(partial least squares regression)是一种结合我们选择32个GMM,在KCPLS的方法中我们采用了主成分分析和多元线性回归的技术，它非常适用了具有400类的核聚类，核函数的σ参数值设为于高维的数据，并且能够解决数据本身带来的共线 0.1。客观实验结果如表1所示。性问题4。PLS有一个假设，源矢量x。是由一个表1频谱平均误差维度更低的矢量表示，并且这个矢量也可以生成目 Fig.1 The distortion of Mcep 标矢量y.。这个假设在歌唱声音转换中可以理解 dB 为：输入的源歌唱声音特征和输出的目标歌唱声音方法 GMM KCPLS 特征可以由一个和说话者无关的歌唱声音特征所表示。这个原理可以表示如下：频谱误差 5.23 5.04 xn=Qr。+e (12) 如上表所示，基于KCPLS的方法相对于传统的 y=Pr +er (13) GMM方法能获得更准确的转换频谱，从而使得误差式中：x。和y。分别表示源和目标的歌唱声音特征，更小，转换的音色更相像。 ”.表示和说话者无关的向量，Q和P表示特定说话 4.2主观实验人的转换矩阵，e和e表示残差项。由(12)、(13) 主观实验主要包括转换的相似度的主观实验和可以看出，通过Q和P这两个矩阵可以得出x。和转换合成后的歌唱声音质量的主观实验。由于传统 yn之间的一个关系式：方法在声音合成上存在较大的误差，误差主要来自 y =Bx +e (14) 基频的提取、频谱的建模以及激励的合成，尤其是在式中：B表示回归矩阵，是根据Q和P这两个矩阵声音质量上可能会带来更大的误差。歌唱转换并不求得的，en表示回归残差。同于普通的语音转换，普通的语音转换要求在转换由于单纯的线性回归转换的歌唱声音的相似性频谱包络的同时也要转换基频，但是在歌唱声音的以及质量都会下降，所以采用隶属度矩阵作为偏最转换中却不需要，也不应该转换基频，这是由于每首小二乘法的源数据特征，目标特征直接使用频谱特歌都有其特定音高，而音高在某种程度上和基频有征，从而间接建立了一个非线性转换，大大提高了转着特定的关系，因此不建议转换基频。基频在提取换的准确性。在歌唱声音转换中有一个很重要的一以及用于合成声音时，会引起误差的存在，利用歌唱项就是构建动态特征，我们通过拼接当前帧的前一声音不需要转换基频的特性，用一种新的合成方法帧和后一帧的隶属度来形成新的特征矢量k= 来提高歌唱声音的质量，即使用转换后的Mcep系

更新隶属度：ｕｊｎ＝ｄ′ ｘｎ，ｖｊ ( ) ）１／（ｍ－１）／∑ Ｃｊ＝１ｄ′ ｘｎ，ｖｊ ( ) １／（ｍ－１）（１０）循环迭代，直到ｍａｘｊ，ｎ｜ μｊｎ－μｊｎ｜＜ε 或者迭代次数等于预先设置的迭代次数。聚类结束后得到一个隶属度矩阵Ｋ如下：Ｋ＝ｋ１ｋ２ … ｋ [ Ｎ ] （１１）式中：第ｎ个列向量表示第ｎ帧歌唱声音特征相对于Ｃ类的隶属度，即ｋｎ＝［μ１ｎ μ２ｎ… μＣｎ］ Τ 。对于求得的隶属度矩阵将要使用偏最小二乘法进行训练，可是偏最小二乘法要求训练的对象是零均值的矩阵，那么对于隶属度矩阵要进行零均值处理。对Ｋ的每一行求均值，矩阵的每一行都减去该行的均值，这些行的均值保存在列向量 ν 中。对于每一列也进行相同的操作，但是不保存每一列的均值。３偏最小二乘回归（ＰＬＳ）ＰＬＳ（ｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎ）是一种结合了主成分分析和多元线性回归的技术，它非常适用于高维的数据，并且能够解决数据本身带来的共线性问题［１４］。ＰＬＳ有一个假设，源矢量ｘｎ是由一个维度更低的矢量表示，并且这个矢量也可以生成目标矢量ｙｎ。这个假设在歌唱声音转换中可以理解为：输入的源歌唱声音特征和输出的目标歌唱声音特征可以由一个和说话者无关的歌唱声音特征所表示。这个原理可以表示如下：ｘｎ＝Ｑｒｎ＋ｅｘｎ（１２）ｙｎ＝Ｐｒｎ＋ｅｙｎ（１３）式中：ｘｎ和ｙｎ分别表示源和目标的歌唱声音特征，ｒｎ表示和说话者无关的向量，Ｑ和Ｐ表示特定说话人的转换矩阵，ｅｘｎ和ｅｙｎ表示残差项。由（１２）、（１３）可以看出，通过Ｑ和Ｐ这两个矩阵可以得出ｘｎ和ｙｎ之间的一个关系式：ｙｎ＝ βｘｎ＋ｅｎ（１４）式中：β 表示回归矩阵，是根据Ｑ和Ｐ这两个矩阵求得的，ｅｎ表示回归残差。由于单纯的线性回归转换的歌唱声音的相似性以及质量都会下降，所以采用隶属度矩阵作为偏最小二乘法的源数据特征，目标特征直接使用频谱特征，从而间接建立了一个非线性转换，大大提高了转换的准确性。在歌唱声音转换中有一个很重要的一项就是构建动态特征，我们通过拼接当前帧的前一帧和后一帧的隶属度来形成新的特征矢量ｋｎ＝［ｋｎ－ｋｎｋｎ＋］ Τ 。那么根据偏最小二乘法有ｙｎ＝ β ｋｎ＋ｅｎ通过对训练数据的训练则可以得到回归矩阵 β，对于任一输入歌唱声音特征，进行了核模糊ｋ－均值聚类后都可以通过 β 矩阵求得目标歌唱声音特征。４实验４．１客观实验对于客观实验的结果，我们使用转换后的Ｍｃｅｐ（Ｍｅｌ⁃ｃｅｐｓｔｒａｌ）系数与目标的Ｍｃｅｐ系数的误差来描述，具体计算公式如下所示：Ｓ＝１０ｌｎ１０２∑ ２４ｉ＝１（ｃｉｎ－ｃ～ｉｎ）２（１５）式中：ｎ表示任一帧，ｃ～ｉｎ表示第ｎ帧经转换得到的第ｉ个Ｍｃｅｐ，对应的ｃｉｎ表示目标的第ｉ个Ｍｃｅｐ。在这个实验中我们对比的是基于ＧＭＭ模型的方法，本文方法简称为ＫＣＰＬＳ。对于ＧＭＭ的方法我们选择３２个ＧＭＭ，在ＫＣＰＬＳ的方法中我们采用了具有４００类的核聚类，核函数的 σ 参数值设为０．１。客观实验结果如表１所示。表１频谱平均误差Ｆｉｇ．１ＴｈｅｄｉｓｔｏｒｔｉｏｎｏｆＭｃｅｐｄＢ方法ＧＭＭＫＣＰＬＳ频谱误差５．２３５．０４如上表所示，基于ＫＣＰＬＳ的方法相对于传统的ＧＭＭ方法能获得更准确的转换频谱，从而使得误差更小，转换的音色更相像。４．２主观实验主观实验主要包括转换的相似度的主观实验和转换合成后的歌唱声音质量的主观实验。由于传统方法在声音合成上存在较大的误差，误差主要来自基频的提取、频谱的建模以及激励的合成，尤其是在声音质量上可能会带来更大的误差。歌唱转换并不同于普通的语音转换，普通的语音转换要求在转换频谱包络的同时也要转换基频，但是在歌唱声音的转换中却不需要，也不应该转换基频，这是由于每首歌都有其特定音高，而音高在某种程度上和基频有着特定的关系，因此不建议转换基频。基频在提取以及用于合成声音时，会引起误差的存在，利用歌唱声音不需要转换基频的特性，用一种新的合成方法来提高歌唱声音的质量，即使用转换后的Ｍｃｅｐ系 ·５８· 智能系统学报第１１卷

第1期方鹏，等：运用核聚类和偏最小二乘回归的歌唱声音转换 ·59 数与源Mcep系数的差值构建一个梅尔对数频谱斯混合模型的方法中，由于协方差矩阵的使用，在训 (Mel log spectrum approximation)滤波器[]，并且使练数据不足的情况下，会出现过拟合的现象，严重影用这个滤波器直接对源歌唱声音信号进行滤波，从响声音的相似度和声音的质量，而偏最小二乘法却而得到质量更高的歌唱声音。没有这个缺点，客观实验的结果很大程度上说明了主观实验要求实验人员听力等方面正常，无听这个问题。力相关方面的疾病，且对音乐有一定的鉴赏能力。测试数据为10句中文歌唱声音，我们采用平均意见 5结束语分(mean opinion score)为我们的统计指标，实验人本文提出了一种基于核模糊k-均值聚类和偏最员对歌曲进行打分，分数为1~5分，1分最差，5分小二乘的歌唱声音转换方法。该方法避免了传统基最好。所有打分结束后，对每种方法的分数进行统于高斯混合模型方法的过拟合问题。同时，基于差计，求均值及95%的置信区间。所得结果如图2 值的MLSA滤波器，大大提高了合成的歌唱声音质所示。量。实验采用中文歌唱声音进行转换，结果表明，新 5.0 方法在相似度以及声音质量上都要优于传统的基于 45 GWM 高斯混合模型的方法。尽管该方法目前取得了不错 4.0 KCPLS 的效果，但未来还会对该方法进行完善，下一步工作 3.0 是研究如何用完整的频谱包络代替梅尔倒谱系数进 2.5 行歌唱声音转换，期望未来能够取得更好的结果。 2.0 15 参考文献： 1.0 0.5 [1]VILLAVICENCIO F,BONADA J.Applying voice conver- 0 相似度声音质量 sion to concatenative singing-voice synthesis[C//Proceed- ings of Interspeech.Chiba,Japan,2010:2162-2165. 图2相似度和声音质量的平均意见分及95%置信区间 [2]ABE M,NAKAMURA S.SHIKANO K,et al.Voice con- Fig.2 MOS(95%CIs)for similarity and quality version through vector quantization[].Journal of the acous- tical society japan (E),1990,11(2):71-76. 从图2的主观实验可以看出，在主观的相似度 [3]KAIN A,MACON M W.Spectral voice conversion for text- 实验方面，基于核模糊k-均值聚类和偏最小二乘法 to-speech synthesis[C]//Proceedings of the 1998 IEEE In- 的实验结果在听觉上获得了更高的相似度，MOS得 ternational Conference on Acoustics,Speech and Signal Pro- 分高了1.8分。在声音质量的主观实验上，基于频 cessing.Seattle,WA,USA.1998.1:285-288. 谱差值构建MLSA滤波器的方法能够合成质量更高 [4]STYLIANOU Y,CAPPE,O,MOULINES E.Continuous 的歌唱声音，MOS得分高出了1分。 probabilistic transform for voice conversion[J].IEEE trans- 4.3实验结果分析 actions on speech and audio processing,1998.6(2):131- 142. 客观实验和主观实验表明，相对于传统的基于 [5]TODA T,BLACK A W,TOKUDA K.Voice conversion 高斯混合模型的转换方法，基于核聚类和偏最小二 based on maximum-likelihood estimation of spectral parame- 乘法对歌唱声音的转换能够取得更高的准确度，实 ter trajectory[].IEEE transactions on audio,speech,and 验也证明了基于频谱差值构建MLSA滤波器的方 language processing,2007,15(8):2222-2235. 法，在提高合成的歌唱声音质量上有明显的优势。 [6]HELANDER E,VIRTANEN T,NURMINEN J,et al. 此外，相对于普通的语音来说，歌唱声音对声音的要 Voice conversion using partial least squares regression[J]. 求更高，而且某种程度上歌唱声音质量可能也会影 IEEE transactions on audio,speech,and language process- 响听者对于转换相似度的分辨。 ing,2010,18(5):912-921. 基于核模糊k-均值聚类和偏最小二乘回归的方 [7LIU Lijuan,CHEN Linghui,LING Zhenhua,et al.Using 法，通过使用核模糊k-均值聚类的方式引入了概率 bidirectional associative memories for joint spectral envelope modeling in voice conversion[C]//Proceedings of IEEE In- 隶属度矩阵，使得非线性转换在某种程度上以线性 ternational Conference on Acoustics,Speech and Signal Pro- 转换的形式实现，提高声音转换的准确性。在整个 cessing (ICASSP).Florence,Italy,2014:7884-7888. 算法的介绍中明显看出算法相比于传统的GMM模 [8]CHEN Linghui,LING Zhenhua,LIU Lijuan,et al.Voice 型复杂度低，以线性的形式实现非线性的形式。高 conversion using deep neural networks with layer-wise gener-

数与源Ｍｃｅｐ系数的差值构建一个梅尔对数频谱（Ｍｅｌｌｏｇｓｐｅｃｔｒｕｍａｐｐｒｏｘｉｍａｔｉｏｎ）滤波器［１５］，并且使用这个滤波器直接对源歌唱声音信号进行滤波，从而得到质量更高的歌唱声音。主观实验要求实验人员听力等方面正常，无听力相关方面的疾病，且对音乐有一定的鉴赏能力。测试数据为１０句中文歌唱声音，我们采用平均意见分（ｍｅａｎｏｐｉｎｉｏｎｓｃｏｒｅ）为我们的统计指标，实验人员对歌曲进行打分，分数为１～５分，１分最差，５分最好。所有打分结束后，对每种方法的分数进行统计，求均值及９５％的置信区间。所得结果如图２所示。图２相似度和声音质量的平均意见分及９５％置信区间Ｆｉｇ．２ＭＯＳ（９５％ＣＩｓ）ｆｏｒｓｉｍｉｌａｒｉｔｙａｎｄｑｕａｌｉｔｙ从图２的主观实验可以看出，在主观的相似度实验方面，基于核模糊ｋ⁃均值聚类和偏最小二乘法的实验结果在听觉上获得了更高的相似度，ＭＯＳ得分高了１．８分。在声音质量的主观实验上，基于频谱差值构建ＭＬＳＡ滤波器的方法能够合成质量更高的歌唱声音，ＭＯＳ得分高出了１分。４．３实验结果分析客观实验和主观实验表明，相对于传统的基于高斯混合模型的转换方法，基于核聚类和偏最小二乘法对歌唱声音的转换能够取得更高的准确度，实验也证明了基于频谱差值构建ＭＬＳＡ滤波器的方法，在提高合成的歌唱声音质量上有明显的优势。此外，相对于普通的语音来说，歌唱声音对声音的要求更高，而且某种程度上歌唱声音质量可能也会影响听者对于转换相似度的分辨。基于核模糊ｋ⁃均值聚类和偏最小二乘回归的方法，通过使用核模糊ｋ⁃均值聚类的方式引入了概率隶属度矩阵，使得非线性转换在某种程度上以线性转换的形式实现，提高声音转换的准确性。在整个算法的介绍中明显看出算法相比于传统的ＧＭＭ模型复杂度低，以线性的形式实现非线性的形式。高斯混合模型的方法中，由于协方差矩阵的使用，在训练数据不足的情况下，会出现过拟合的现象，严重影响声音的相似度和声音的质量，而偏最小二乘法却没有这个缺点，客观实验的结果很大程度上说明了这个问题。５结束语本文提出了一种基于核模糊ｋ⁃均值聚类和偏最小二乘的歌唱声音转换方法。该方法避免了传统基于高斯混合模型方法的过拟合问题。同时，基于差值的ＭＬＳＡ滤波器，大大提高了合成的歌唱声音质量。实验采用中文歌唱声音进行转换，结果表明，新方法在相似度以及声音质量上都要优于传统的基于高斯混合模型的方法。尽管该方法目前取得了不错的效果，但未来还会对该方法进行完善，下一步工作是研究如何用完整的频谱包络代替梅尔倒谱系数进行歌唱声音转换，期望未来能够取得更好的结果。参考文献：［１］ＶＩＬＬＡＶＩＣＥＮＣＩＯＦ，ＢＯＮＡＤＡＪ．Ａｐｐｌｙｉｎｇｖｏｉｃｅｃｏｎｖｅｒ⁃ ｓｉｏｎｔｏｃｏｎｃａｔｅｎａｔｉｖｅｓｉｎｇｉｎｇ⁃ｖｏｉｃｅｓｙｎｔｈｅｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆＩｎｔｅｒｓｐｅｅｃｈ．Ｃｈｉｂａ，Ｊａｐａｎ，２０１０：２１６２⁃２１６５．［２］ＡＢＥＭ，ＮＡＫＡＭＵＲＡＳ，ＳＨＩＫＡＮＯＫ，ｅｔａｌ．Ｖｏｉｃｅｃｏｎ⁃ ｖｅｒｓｉｏｎｔｈｒｏｕｇｈｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｔｈｅａｃｏｕｓ⁃ ｔｉｃａｌｓｏｃｉｅｔｙｊａｐａｎ（Ｅ），１９９０，１１（２）：７１⁃７６．［３］ＫＡＩＮＡ，ＭＡＣＯＮＭＷ．Ｓｐｅｃｔｒａｌｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｆｏｒｔｅｘｔ⁃ ｔｏ⁃ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９８ＩＥＥＥＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ．Ｓｅａｔｔｌｅ，ＷＡ，ＵＳＡ，１９９８，１：２８５⁃２８８．［４］ＳＴＹＬＩＡＮＯＵＹ，ＣＡＰＰＥ，Ｏ，ＭＯＵＬＩＮＥＳＥ．Ｃｏｎｔｉｎｕｏｕｓｐｒｏｂａｂｉｌｉｓｔｉｃｔｒａｎｓｆｏｒｍｆｏｒｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎｓｐｅｅｃｈａｎｄａｕｄｉｏｐｒｏｃｅｓｓｉｎｇ，１９９８，６（２）：１３１⁃ １４２．［５］ＴＯＤＡＴ，ＢＬＡＣＫＡＷ，ＴＯＫＵＤＡＫ．Ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｂａｓｅｄｏｎｍａｘｉｍｕｍ⁃ｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎｏｆｓｐｅｃｔｒａｌｐａｒａｍｅ⁃ ｔｅｒｔｒａｊｅｃｔｏｒｙ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，２００７，１５（８）：２２２２⁃２２３５．［６］ＨＥＬＡＮＤＥＲＥ，ＶＩＲＴＡＮＥＮＴ，ＮＵＲＭＩＮＥＮＪ，ｅｔａｌ．Ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｕｓｉｎｇｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓ⁃ ｉｎｇ，２０１０，１８（５）：９１２⁃９２１．［７］ＬＩＵＬｉｊｕａｎ，ＣＨＥＮＬｉｎｇｈｕｉ，ＬＩＮＧＺｈｅｎｈｕａ，ｅｔａｌ．Ｕｓｉｎｇｂｉｄｉｒｅｃｔｉｏｎａｌａｓｓｏｃｉａｔｉｖｅｍｅｍｏｒｉｅｓｆｏｒｊｏｉｎｔｓｐｅｃｔｒａｌｅｎｖｅｌｏｐｅｍｏｄｅｌｉｎｇｉｎｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｆｌｏｒｅｎｃｅ，Ｉｔａｌｙ，２０１４：７８８４⁃７８８８．［８］ＣＨＥＮＬｉｎｇｈｕｉ，ＬＩＮＧＺｈｅｎｈｕａ，ＬＩＵＬｉｊｕａｎ，ｅｔａｌ．Ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｕｓｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｗｉｔｈｌａｙｅｒ⁃ｗｉｓｅｇｅｎｅｒ⁃ 第１期方鹏，等：运用核聚类和偏最小二乘回归的歌唱声音转换 ·５９·

·60 智能系统学报第11卷 ative training [J ]IEEE/ACM Transactions on audio, [15]IMAI S,SUMITA K,FURUICHI C.Mel log spectrum ap- speech,and language processing,2014,22(12):1859- proximation (MISA)filter for speech synthesis[J].Elec- 1872. tronics and communications in Japan (Part I:Communica- [9]DESAI S,BLACK A W,YEGNANARAYANA B,et al. tions),1983,66(2):10-18 Spectral mapping using artificial neural networks for voice 作者简介： conversion[J].IEEE transactions on audio,speech,and 方鹏，男，1990年生，硕士研究生 language processing,2010,18(5):954-964. 主要研究方向为歌唱声音转换。 [10]KOBAYASHI K,TODA T,NEUBIG G,et al.Statistical singing voice conversion with direct waveform modification based on the spectrum differential[C]//Proceedings of In- terspeech.Singapore,2014. [11]KAWAHARA H,MORISE M,TAKAHASHI T,et al. Tandem-STRAIGHT:A temporally stable power spectral representation for periodic signals and applications to in- 李贤，男，1988年生，博士研究生， terference-free spectrum,F0,and aperiodicity estimation 主要研究方向为情感语音、语音转换、 [C]//Proceedings of IEEE International Conference on 歌唱合成等。 Acoustics,Speech and Signal Processing,ICASSP.Las Vegas,.NV,USA,2008:3933-3936. [12]WU Zhongdong,XIE Weixin,YU Jianping.Fuzzy C- means clustering algorithm based on kernel method[C]/ Proceedings of the 5"International Conference on Compu- tational Intelligence and Multimedia Applications.ICCI- 汪增福，男，1960年生，教授、博士 MA.Xi'an,China,2003:49-54. 生导师，现任《模式识别与人工智能》编 [13]GRAVES D,PEDRYCZ W.Kernel-based fuzzy clustering 委、International Journal of Information and fuzzy clustering:a comparative experimental study[J]. Acquisition副主编。获ACM Multimedia Fuzzy Sets Systems,2010,161(4):522-543. 2009最佳论文奖。主要研究方向为计 [14]DE JONG S.SIMPLS:An alternative approach to partial 算机视觉、计算机听觉、人机交互和智 least squares regression[J].Chemometrics and intelligent 能机器人等，发表学术论文180余篇。 laboratory systems,1993,18(3):251-263

ａｔｉｖｅｔｒａｉｎｉｎｇ［Ｊ］．ＩＥＥＥ／ＡＣＭＴｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，２０１４，２２（１２）：１８５９⁃ １８７２．［９］ＤＥＳＡＩＳ，ＢＬＡＣＫＡＷ，ＹＥＧＮＡＮＡＲＡＹＡＮＡＢ，ｅｔａｌ．Ｓｐｅｃｔｒａｌｍａｐｐｉｎｇｕｓｉｎｇａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓｆｏｒｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，２０１０，１８（５）：９５４⁃９６４．［１０］ＫＯＢＡＹＡＳＨＩＫ，ＴＯＤＡＴ，ＮＥＵＢＩＧＧ，ｅｔａｌ．Ｓｔａｔｉｓｔｉｃａｌｓｉｎｇｉｎｇｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｗｉｔｈｄｉｒｅｃｔｗａｖｅｆｏｒｍｍｏｄｉｆｉｃａｔｉｏｎｂａｓｅｄｏｎｔｈｅｓｐｅｃｔｒｕｍｄｉｆｆｅｒｅｎｔｉａｌ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎ⁃ ｔｅｒｓｐｅｅｃｈ．Ｓｉｎｇａｐｏｒｅ，２０１４．［１１］ＫＡＷＡＨＡＲＡＨ，ＭＯＲＩＳＥＭ，ＴＡＫＡＨＡＳＨＩＴ，ｅｔａｌ．Ｔａｎｄｅｍ⁃ＳＴＲＡＩＧＨＴ：Ａｔｅｍｐｏｒａｌｌｙｓｔａｂｌｅｐｏｗｅｒｓｐｅｃｔｒａｌｒｅｐｒｅｓｅｎｔａｔｉｏｎｆｏｒｐｅｒｉｏｄｉｃｓｉｇｎａｌｓａｎｄａｐｐｌｉｃａｔｉｏｎｓｔｏｉｎ⁃ ｔｅｒｆｅｒｅｎｃｅ⁃ｆｒｅｅｓｐｅｃｔｒｕｍ，Ｆ０，ａｎｄａｐｅｒｉｏｄｉｃｉｔｙｅｓｔｉｍａｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏｃｅｓｓｉｎｇ，ＩＣＡＳＳＰ．ＬａｓＶｅｇａｓ，ＮＶ，ＵＳＡ，２００８：３９３３⁃３９３６．［１２］ＷＵＺｈｏｎｇｄｏｎｇ，ＸＩＥＷｅｉｘｉｎ，ＹＵＪｉａｎｐｉｎｇ．ＦｕｚｚｙＣ－ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｋｅｒｎｅｌｍｅｔｈｏｄ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕ⁃ ｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＭｕｌｔｉｍｅｄｉａＡｐｐｌｉｃａｔｉｏｎｓ．ＩＣＣＩ⁃ ＭＡ．Ｘｉ􀆳ａｎ，Ｃｈｉｎａ，２００３：４９⁃５４．［１３］ＧＲＡＶＥＳＤ，ＰＥＤＲＹＣＺＷ．Ｋｅｒｎｅｌ⁃ｂａｓｅｄｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇａｎｄｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ：ａｃｏｍｐａｒａｔｉｖｅｅｘｐｅｒｉｍｅｎｔａｌｓｔｕｄｙ［Ｊ］．ＦｕｚｚｙＳｅｔｓＳｙｓｔｅｍｓ，２０１０，１６１（４）：５２２⁃５４３．［１４］ＤＥＪＯＮＧＳ．ＳＩＭＰＬＳ：Ａｎａｌｔｅｒｎａｔｉｖｅａｐｐｒｏａｃｈｔｏｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎ［Ｊ］．Ｃｈｅｍｏｍｅｔｒｉｃｓａｎｄｉｎｔｅｌｌｉｇｅｎｔｌａｂｏｒａｔｏｒｙｓｙｓｔｅｍｓ，１９９３，１８（３）：２５１⁃２６３．［１５］ＩＭＡＩＳ，ＳＵＭＩＴＡＫ，ＦＵＲＵＩＣＨＩＣ．Ｍｅｌｌｏｇｓｐｅｃｔｒｕｍａｐ⁃ ｐｒｏｘｉｍａｔｉｏｎ（ＭＬＳＡ）ｆｉｌｔｅｒｆｏｒｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ［Ｊ］．Ｅｌｅｃ⁃ ｔｒｏｎｉｃｓａｎｄｃｏｍｍｕｎｉｃａｔｉｏｎｓｉｎＪａｐａｎ（ＰａｒｔＩ：Ｃｏｍｍｕｎｉｃａ⁃ ｔｉｏｎｓ），１９８３，６６（２）：１０⁃１８．作者简介：方鹏，男，１９９０年生，硕士研究生，主要研究方向为歌唱声音转换。李贤，男，１９８８年生，博士研究生，主要研究方向为情感语音、语音转换、歌唱合成等。汪增福，男，１９６０年生，教授、博士生导师，现任《模式识别与人工智能》编委、ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＩｎｆｏｒｍａｔｉｏｎＡｃｑｕｉｓｉｔｉｏｎ副主编。获ＡＣＭＭｕｌｔｉｍｅｄｉａ２００９最佳论文奖。主要研究方向为计算机视觉、计算机听觉、人机交互和智能机器人等，发表学术论文１８０余篇。 ·６０· 智能系统学报第１１卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录