数与源Ｍｃｅｐ系数的差值构建一个梅尔对数频谱（Ｍｅｌｌｏｇｓｐｅ

正在加载图片...

第1期方鹏，等：运用核聚类和偏最小二乘回归的歌唱声音转换 ·59 数与源Mcep系数的差值构建一个梅尔对数频谱斯混合模型的方法中，由于协方差矩阵的使用，在训 (Mel log spectrum approximation)滤波器[]，并且使练数据不足的情况下，会出现过拟合的现象，严重影用这个滤波器直接对源歌唱声音信号进行滤波，从响声音的相似度和声音的质量，而偏最小二乘法却而得到质量更高的歌唱声音。没有这个缺点，客观实验的结果很大程度上说明了主观实验要求实验人员听力等方面正常，无听这个问题。力相关方面的疾病，且对音乐有一定的鉴赏能力。测试数据为10句中文歌唱声音，我们采用平均意见 5结束语分(mean opinion score)为我们的统计指标，实验人本文提出了一种基于核模糊k-均值聚类和偏最员对歌曲进行打分，分数为1~5分，1分最差，5分小二乘的歌唱声音转换方法。该方法避免了传统基最好。所有打分结束后，对每种方法的分数进行统于高斯混合模型方法的过拟合问题。同时，基于差计，求均值及95%的置信区间。所得结果如图2 值的MLSA滤波器，大大提高了合成的歌唱声音质所示。量。实验采用中文歌唱声音进行转换，结果表明，新 5.0 方法在相似度以及声音质量上都要优于传统的基于 45 GWM 高斯混合模型的方法。尽管该方法目前取得了不错 4.0 KCPLS 的效果，但未来还会对该方法进行完善，下一步工作 3.0 是研究如何用完整的频谱包络代替梅尔倒谱系数进 2.5 行歌唱声音转换，期望未来能够取得更好的结果。 2.0 15 参考文献： 1.0 0.5 [1]VILLAVICENCIO F,BONADA J.Applying voice conver- 0 相似度声音质量 sion to concatenative singing-voice synthesis[C//Proceed- ings of Interspeech.Chiba,Japan,2010:2162-2165. 图2相似度和声音质量的平均意见分及95%置信区间 [2]ABE M,NAKAMURA S.SHIKANO K,et al.Voice con- Fig.2 MOS(95%CIs)for similarity and quality version through vector quantization[].Journal of the acous- tical society japan (E),1990,11(2):71-76. 从图2的主观实验可以看出，在主观的相似度 [3]KAIN A,MACON M W.Spectral voice conversion for text- 实验方面，基于核模糊k-均值聚类和偏最小二乘法 to-speech synthesis[C]//Proceedings of the 1998 IEEE In- 的实验结果在听觉上获得了更高的相似度，MOS得 ternational Conference on Acoustics,Speech and Signal Pro- 分高了1.8分。在声音质量的主观实验上，基于频 cessing.Seattle,WA,USA.1998.1:285-288. 谱差值构建MLSA滤波器的方法能够合成质量更高 [4]STYLIANOU Y,CAPPE,O,MOULINES E.Continuous 的歌唱声音，MOS得分高出了1分。 probabilistic transform for voice conversion[J].IEEE trans- 4.3实验结果分析 actions on speech and audio processing,1998.6(2):131- 142. 客观实验和主观实验表明，相对于传统的基于 [5]TODA T,BLACK A W,TOKUDA K.Voice conversion 高斯混合模型的转换方法，基于核聚类和偏最小二 based on maximum-likelihood estimation of spectral parame- 乘法对歌唱声音的转换能够取得更高的准确度，实 ter trajectory[].IEEE transactions on audio,speech,and 验也证明了基于频谱差值构建MLSA滤波器的方 language processing,2007,15(8):2222-2235. 法，在提高合成的歌唱声音质量上有明显的优势。 [6]HELANDER E,VIRTANEN T,NURMINEN J,et al. 此外，相对于普通的语音来说，歌唱声音对声音的要 Voice conversion using partial least squares regression[J]. 求更高，而且某种程度上歌唱声音质量可能也会影 IEEE transactions on audio,speech,and language process- 响听者对于转换相似度的分辨。 ing,2010,18(5):912-921. 基于核模糊k-均值聚类和偏最小二乘回归的方 [7LIU Lijuan,CHEN Linghui,LING Zhenhua,et al.Using 法，通过使用核模糊k-均值聚类的方式引入了概率 bidirectional associative memories for joint spectral envelope modeling in voice conversion[C]//Proceedings of IEEE In- 隶属度矩阵，使得非线性转换在某种程度上以线性 ternational Conference on Acoustics,Speech and Signal Pro- 转换的形式实现，提高声音转换的准确性。在整个 cessing (ICASSP).Florence,Italy,2014:7884-7888. 算法的介绍中明显看出算法相比于传统的GMM模 [8]CHEN Linghui,LING Zhenhua,LIU Lijuan,et al.Voice 型复杂度低，以线性的形式实现非线性的形式。高 conversion using deep neural networks with layer-wise gener-数与源Ｍｃｅｐ系数的差值构建一个梅尔对数频谱（Ｍｅｌｌｏｇｓｐｅｃｔｒｕｍａｐｐｒｏｘｉｍａｔｉｏｎ）滤波器［１５］，并且使用这个滤波器直接对源歌唱声音信号进行滤波，从而得到质量更高的歌唱声音。主观实验要求实验人员听力等方面正常，无听力相关方面的疾病，且对音乐有一定的鉴赏能力。测试数据为１０句中文歌唱声音，我们采用平均意见分（ｍｅａｎｏｐｉｎｉｏｎｓｃｏｒｅ）为我们的统计指标，实验人员对歌曲进行打分，分数为１～５分，１分最差，５分最好。所有打分结束后，对每种方法的分数进行统计，求均值及９５％的置信区间。所得结果如图２所示。图２相似度和声音质量的平均意见分及９５％置信区间Ｆｉｇ．２ＭＯＳ（９５％ＣＩｓ）ｆｏｒｓｉｍｉｌａｒｉｔｙａｎｄｑｕａｌｉｔｙ从图２的主观实验可以看出，在主观的相似度实验方面，基于核模糊ｋ⁃均值聚类和偏最小二乘法的实验结果在听觉上获得了更高的相似度，ＭＯＳ得分高了１．８分。在声音质量的主观实验上，基于频谱差值构建ＭＬＳＡ滤波器的方法能够合成质量更高的歌唱声音，ＭＯＳ得分高出了１分。４．３实验结果分析客观实验和主观实验表明，相对于传统的基于高斯混合模型的转换方法，基于核聚类和偏最小二乘法对歌唱声音的转换能够取得更高的准确度，实验也证明了基于频谱差值构建ＭＬＳＡ滤波器的方法，在提高合成的歌唱声音质量上有明显的优势。此外，相对于普通的语音来说，歌唱声音对声音的要求更高，而且某种程度上歌唱声音质量可能也会影响听者对于转换相似度的分辨。基于核模糊ｋ⁃均值聚类和偏最小二乘回归的方法，通过使用核模糊ｋ⁃均值聚类的方式引入了概率隶属度矩阵，使得非线性转换在某种程度上以线性转换的形式实现，提高声音转换的准确性。在整个算法的介绍中明显看出算法相比于传统的ＧＭＭ模型复杂度低，以线性的形式实现非线性的形式。高斯混合模型的方法中，由于协方差矩阵的使用，在训练数据不足的情况下，会出现过拟合的现象，严重影响声音的相似度和声音的质量，而偏最小二乘法却没有这个缺点，客观实验的结果很大程度上说明了这个问题。５结束语本文提出了一种基于核模糊ｋ⁃均值聚类和偏最小二乘的歌唱声音转换方法。该方法避免了传统基于高斯混合模型方法的过拟合问题。同时，基于差值的ＭＬＳＡ滤波器，大大提高了合成的歌唱声音质量。实验采用中文歌唱声音进行转换，结果表明，新方法在相似度以及声音质量上都要优于传统的基于高斯混合模型的方法。尽管该方法目前取得了不错的效果，但未来还会对该方法进行完善，下一步工作是研究如何用完整的频谱包络代替梅尔倒谱系数进行歌唱声音转换，期望未来能够取得更好的结果。参考文献：［１］ＶＩＬＬＡＶＩＣＥＮＣＩＯＦ，ＢＯＮＡＤＡＪ．Ａｐｐｌｙｉｎｇｖｏｉｃｅｃｏｎｖｅｒ⁃ ｓｉｏｎｔｏｃｏｎｃａｔｅｎａｔｉｖｅｓｉｎｇｉｎｇ⁃ｖｏｉｃｅｓｙｎｔｈｅｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆＩｎｔｅｒｓｐｅｅｃｈ．Ｃｈｉｂａ，Ｊａｐａｎ，２０１０：２１６２⁃２１６５．［２］ＡＢＥＭ，ＮＡＫＡＭＵＲＡＳ，ＳＨＩＫＡＮＯＫ，ｅｔａｌ．Ｖｏｉｃｅｃｏｎ⁃ ｖｅｒｓｉｏｎｔｈｒｏｕｇｈｖｅｃｔｏｒｑｕａｎｔｉｚａｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｔｈｅａｃｏｕｓ⁃ ｔｉｃａｌｓｏｃｉｅｔｙｊａｐａｎ（Ｅ），１９９０，１１（２）：７１⁃７６．［３］ＫＡＩＮＡ，ＭＡＣＯＮＭＷ．Ｓｐｅｃｔｒａｌｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｆｏｒｔｅｘｔ⁃ ｔｏ⁃ｓｐｅｅｃｈｓｙｎｔｈｅｓｉｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９８ＩＥＥＥＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ．Ｓｅａｔｔｌｅ，ＷＡ，ＵＳＡ，１９９８，１：２８５⁃２８８．［４］ＳＴＹＬＩＡＮＯＵＹ，ＣＡＰＰＥ，Ｏ，ＭＯＵＬＩＮＥＳＥ．Ｃｏｎｔｉｎｕｏｕｓｐｒｏｂａｂｉｌｉｓｔｉｃｔｒａｎｓｆｏｒｍｆｏｒｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎｓｐｅｅｃｈａｎｄａｕｄｉｏｐｒｏｃｅｓｓｉｎｇ，１９９８，６（２）：１３１⁃ １４２．［５］ＴＯＤＡＴ，ＢＬＡＣＫＡＷ，ＴＯＫＵＤＡＫ．Ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｂａｓｅｄｏｎｍａｘｉｍｕｍ⁃ｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎｏｆｓｐｅｃｔｒａｌｐａｒａｍｅ⁃ ｔｅｒｔｒａｊｅｃｔｏｒｙ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ，２００７，１５（８）：２２２２⁃２２３５．［６］ＨＥＬＡＮＤＥＲＥ，ＶＩＲＴＡＮＥＮＴ，ＮＵＲＭＩＮＥＮＪ，ｅｔａｌ．Ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｕｓｉｎｇｐａｒｔｉａｌｌｅａｓｔｓｑｕａｒｅｓｒｅｇｒｅｓｓｉｏｎ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎａｕｄｉｏ，ｓｐｅｅｃｈ，ａｎｄｌａｎｇｕａｇｅｐｒｏｃｅｓｓ⁃ ｉｎｇ，２０１０，１８（５）：９１２⁃９２１．［７］ＬＩＵＬｉｊｕａｎ，ＣＨＥＮＬｉｎｇｈｕｉ，ＬＩＮＧＺｈｅｎｈｕａ，ｅｔａｌ．Ｕｓｉｎｇｂｉｄｉｒｅｃｔｉｏｎａｌａｓｓｏｃｉａｔｉｖｅｍｅｍｏｒｉｅｓｆｏｒｊｏｉｎｔｓｐｅｃｔｒａｌｅｎｖｅｌｏｐｅｍｏｄｅｌｉｎｇｉｎｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｃｏｕｓｔｉｃｓ，ＳｐｅｅｃｈａｎｄＳｉｇｎａｌＰｒｏ⁃ ｃｅｓｓｉｎｇ（ＩＣＡＳＳＰ）．Ｆｌｏｒｅｎｃｅ，Ｉｔａｌｙ，２０１４：７８８４⁃７８８８．［８］ＣＨＥＮＬｉｎｇｈｕｉ，ＬＩＮＧＺｈｅｎｈｕａ，ＬＩＵＬｉｊｕａｎ，ｅｔａｌ．Ｖｏｉｃｅｃｏｎｖｅｒｓｉｏｎｕｓｉｎｇｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓｗｉｔｈｌａｙｅｒ⁃ｗｉｓｅｇｅｎｅｒ⁃ 第１期方鹏，等：运用核聚类和偏最小二乘回归的歌唱声音转换 ·５９·

<<向上翻页向下翻页>>

点击下载：【机器感知与模式识别】运用核聚类和偏最小二乘回归的歌唱声音转换编辑部