正在加载图片...
第1期 方鹏,等:运用核聚类和偏最小二乘回归的歌唱声音转换 ·57. 源歌唱声音 语音信号处理工具 目标歌唱声音 源歌唱颜谱包络 目标歌唱频谱包络 训练阶段 核聚类 隶属度矩阵 偏最小二乘回归 转换函数 转换阶段 隶属度矩阵 转换频谱包络 源歌唱特征 源歌唱声音 语音信号处理工具 转换歌唱声音 图1歌唱声音转换框架 Fig.1 Singing voice conversion framework 2核模糊k-均值聚类 d(④(x),Φy))=√K(x,x)-2K(x,y)+K(y,y) (4) 核模糊k-均值算法通过将输入空间的数据非线 聚类的准则是最小化目标函数从而得到聚类结 性映射到高维空间中,使得输入数据的可分辨性增 果,目标函数如下: 大,模式类之间的差异更明显,增大了输入数据的可 分概率,经过验证核模糊聚类拥有更准确的聚类 J=∑∑dP((x),(eg)) (5) =1 结果。 式中:C代表类别数,m是模糊加权指数(人为设 对于输入的歌唱声音特征x。,n=1,2,…,N,假 定),4n代表声音特征隶属于类别j的程度,且 设已被映射到高维的特征空间中(x),n=1,2,…, N,在该空间中Euclidean距离则表示为 三A,=1,表示高维空间中的聚类中心在输人空 间中的原象。令d'(x,y)=1/((x),(y)),则 d((x),心y))=√‖(x)-Dy)2= 隶属度的求解如下: √Φ(x)Φ(x)-2Φ(x)DGy)+DGy)Φy) (1) 4,=6.)-y2dkg)w(6 j=1 在高维空间中,输入数据的点积形式表示为 在高维空间中新的聚类中心为 (x)·Φ(y)=K(x,y) (2) 式中:K(x,y)表示核函数,核函数有多项式核函数、 (G)=立4(K,)/立 (7) 高斯核函数、sigmoid核函数等,在此我们采用高斯 则有 核函数: (8) K(x,y)=exp(-olx-yll2) (3) K)=25/g 因此有 K写》-言立AK(宫(9)图 1 歌唱声音转换框架 Fig.1 Singing voice conversion framework 2 核模糊 k⁃均值聚类 核模糊 k⁃均值算法通过将输入空间的数据非线 性映射到高维空间中,使得输入数据的可分辨性增 大,模式类之间的差异更明显,增大了输入数据的可 分概率,经过验证核模糊聚类拥有更准确的聚类 结果。 对于输入的歌唱声音特征 xn ,n = 1,2,…,N,假 设已被映射到高维的特征空间 Φ( xn ),n = 1,2,…, N,在该空间中 Euclidean 距离则表示为 d(Φ(x) ,Φ(y) ) = ‖Φ(x) - Φ(y) ‖2 = Φ(x) Φ(x) - 2Φ(x) Φ(y) + Φ(y) Φ(y) (1) 在高维空间中,输入数据的点积形式表示为 Φ(x)·Φ(y) = K(x,y) (2) 式中:K(x,y)表示核函数,核函数有多项式核函数、 高斯核函数、sigmoid 核函数等,在此我们采用高斯 核函数: K(x,y) = exp( - σ‖x - y‖2 ) (3) 因此有 d(Φ(x) ,Φ(y) ) = K(x,x) - 2K(x,y) + K(y,y) (4) 聚类的准则是最小化目标函数从而得到聚类结 果,目标函数如下: J = ∑ C j = 1 ∑ N n = 1 μ m jn d 2 Φ xn ( ) ,Φ vj ( ( ) ) (5) 式中:C 代表类别数,m 是模糊加权指数(人为设 定),μjn 代表声音特征 隶 属 于 类 别 j 的 程 度, 且 ∑ C j = 1 μjn = 1,vj 表示高维空间中的聚类中心在输入空 间中的原象。 令 d′( x,y) = 1 / d 2 (Φ(x) ,Φ(y) ) ,则 隶属度的求解如下: μjn = d′ xn ,vj ( ) 1/ (m-1) /∑ C j = 1 d xn ,vj ( ) 1/ (m-1) (6) 在高维空间中新的聚类中心为 Φ(vj) = ∑ N n = 1 μ m jnΦ(xn ) /∑ N n = 1 μ m jn (7) 则有 K(xn ,vj) = ∑ N i = 1 μ m ji K(xi,xn ) /∑ N i = 1 μ m ji (8) K(vj,vj) = ∑ N i = 1 ∑ N n = 1 μ m ji μ m jnK(xi,xn ) / (∑ N i = 1 μ m ji ) 2 (9) 第 1 期 方鹏,等:运用核聚类和偏最小二乘回归的歌唱声音转换 ·57·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有