层将域分类器生成的梯度在传播回共享层时乘以负值，使训练集和测试集的特征收

正在加载图片...

第1期高庆吉，等：语音情感识别研究综述 ·5· 层将域分类器生成的梯度在传播回共享层时乘以目前Praat6和OpenSMILE两种工具使用负值，使训练集和测试集的特征收敛，提升泛化最广泛。Praat是一款语音学专业软件，其GUI界能力。同时使用t-SNE数据可视化技术s,通过面简洁且指导手册持续更新，便于学习。可对语创建不同层的特征分布2D投影，直观检查模型音文件进行特征提取、标注等工作，结果可导学习特征表示的全过程。出。OpenSMILE使用命令行和GUI结合的方式此外，说话者无关训练(speaker-invariant train- 进行使用。常用配置文件config/1S09/10/11/12/13 ing,SIT,模型的学习结果与说话者自身无关，即 paraling.conf,分别提取384、1582、4368、6125 要求模型有较强的泛化能力)60通过对抗性学习和6373维特征。此外，在Tensorflow框架中，可减少声学建模过程中说话者差异的影响，再联合以调用Librosa工具包提取频谱图、MFCC等特 DNN,来提取与说话者无关且辨别力强的深度特征。征，便于后续识别。表3整理了更多的提取工具 4)常用特征提取工具可供学习。表3常用语音特征提取工具统计表侧 Table 3 Statistical table of common speech feature extraction tools 工具箱平台提取特征 Praat C++ 信号能量、FFT频谱、倒频谱、语音质量、LPC、共振峰等 OpenSMILE C++ 波形、信号能量、FFT光谱、语音质量、Mel/Bark光谱、共振峰等 HTK 0 信号能量、Mel/Bark光谱、LPC、波形等 Voicebox MATLAB 信号能量、FO、LPC、倒谱、Mel/Bark光谱等 COLEA MATLAB F0、共振峰、频谱、信号能量等 SPEFT MATLAB 波形、信号能量、语音质量、共振峰、倒谱、Mel/Bark频谱等 SPAC MATLAB FO、共振峰、语音质量、LPCC、MFCC、信号能量、语速、小波等 3.3特征降维情感类别，常使用支持向量机(support vector ma- 上述特征提取方法得到的语音情感特征一般 chines,SVM)、隐马尔可夫模型(hidden Markov 维数较高，直接处理易导致维度灾难。为保障识 model,HMM)和DCNN。别准确率和效率，采用主成分分析(principle com- SVMs在求解非线性、小样本和高维模式 ponent analysis,PCA)s、Fisher准则B、线性判别识别等问题具有优越性，且泛化能力强，在情感分析(linear discriminate analysis,.LDA)6s1和分类中广泛使用3劉。半定规划多核SVM2来提 FCBF(fast correlation-.based filter solution)Is等方法高分类算法的鲁棒性。进行特征降维。如BP神经网络67可进行特征选 Zheng等采用DCNN对通过PCA白化处择，检测冗余的同时，通过节点信号变化的敏感理的光谱图学习处理并进行情感分类，结果表明度挑选对网络贡献度大的特征得到组合特征。该方法优于SVM。进一步，Shahin等级联高斯声学特征因提取算法和提取工具丰富，使用混合模型和深度神经网络(gaussian mixture model- 广泛；深度学习框架环境日益发展，被更多研究 deep neural network,GMM-DNN)构建混合分类者用于提取情感特征。此外，声学和语义是语音器，其分类性能优于SVM、MLP(multi--layer per- 信号的两个主要部分。随着文本情感研究深入， ception)、GMM和DNN,并且在嘈杂谈话背景下，从语义中提取的语言特征将会成为混合特征中的情感分类效果良好。重要组成部分。故如何有效利用句子含义与转折 Sagha等以OpenSMILE提取384个特征为词，精简语言特征并提升特征的有效性，将成为基于核典型相关分析的域自适应方法的输入，在研究热点。 EMODB、SAVEE、EMOVO和Polish等4个不同 4情感分类与回归语言的语音数据库上实现跨语料库迁移学习，学习速度快且有效克服过拟合，明显降低陷人局部根据情感表征方式不同，将目前主流识别算最小值的风险。法分为情感分类算法和情感回归算法两类。以上算法均针对语音信号来提升情感分类准 4.1情感分类算法确性。此外，融合其他模态的特征，如面部表情感分类算法将测试集样本归类为不同离散情)、姿态和生理信号四，可提升情感分类的鲁棒层将域分类器生成的梯度在传播回共享层时乘以负值，使训练集和测试集的特征收敛，提升泛化能力。同时使用 t-SNE 数据可视化技术[59] ，通过创建不同层的特征分布 2D 投影，直观检查模型学习特征表示的全过程。此外，说话者无关训练 (speaker-invariant training，SIT，模型的学习结果与说话者自身无关，即要求模型有较强的泛化能力) [60] 通过对抗性学习减少声学建模过程中说话者差异的影响，再联合 DNN，来提取与说话者无关且辨别力强的深度特征。 4) 常用特征提取工具目前 Praat[61] 和 OpenSMILE[62] 两种工具使用最广泛。Praat 是一款语音学专业软件，其 GUI 界面简洁且指导手册持续更新，便于学习。可对语音文件进行特征提取、标注等工作，结果可导出。OpenSMILE 使用命令行和 GUI 结合的方式进行使用。常用配置文件 config/IS09/10/11/12/13 paraling. conf，分别提取 384、1 582、4 368、6 125 和 6 373 维特征。此外，在 Tensorflow 框架中，可以调用 Librosa 工具包提取频谱图、MFCC 等特征，便于后续识别。表 3 整理了更多的提取工具可供学习。表 3 常用语音特征提取工具统计表[63] Table 3 Statistical table of common speech feature extraction tools 工具箱平台提取特征 Praat C++ 信号能量、FFT频谱、倒频谱、语音质量、LPC、共振峰等 OpenSMILE C++ 波形、信号能量、FFT光谱、语音质量、Mel/Bark光谱、共振峰等 HTK C 信号能量、Mel/Bark光谱、LPC、波形等 Voicebox MATLAB 信号能量、F0、LPC、倒谱、Mel/Bark光谱等 COLEA MATLAB F0、共振峰、频谱、信号能量等 SPEFT MATLAB 波形、信号能量、语音质量、共振峰、倒谱、Mel/Bark频谱等 SPAC MATLAB F0、共振峰、语音质量、LPCC、MFCC、信号能量、语速、小波等 3.3 特征降维上述特征提取方法得到的语音情感特征一般维数较高，直接处理易导致维度灾难。为保障识别准确率和效率，采用主成分分析 (principle component analysis, PCA)[64] 、Fisher 准则[38] 、线性判别分析 (linear discriminate analysis, LDA)[ 6 5 ] 和 FCBF(fast correlation-based filter solution) [66] 等方法进行特征降维。如 BP 神经网络[67] 可进行特征选择，检测冗余的同时，通过节点信号变化的敏感度挑选对网络贡献度大的特征得到组合特征。声学特征因提取算法和提取工具丰富，使用广泛；深度学习框架环境日益发展，被更多研究者用于提取情感特征。此外，声学和语义是语音信号的两个主要部分。随着文本情感研究深入，从语义中提取的语言特征将会成为混合特征中的重要组成部分。故如何有效利用句子含义与转折词，精简语言特征并提升特征的有效性，将成为研究热点。 4 情感分类与回归根据情感表征方式不同，将目前主流识别算法分为情感分类算法和情感回归算法两类。 4.1 情感分类算法情感分类算法将测试集样本归类为不同离散情感类别，常使用支持向量机 (support vector machines, SVM)、隐马尔可夫模型 (hidden Markov model, HMM) 和 DCNN。 SVM[68-71] 在求解非线性、小样本和高维模式识别等问题具有优越性，且泛化能力强，在情感分类中广泛使用[38]。半定规划多核 SVM[72] 来提高分类算法的鲁棒性。 Zheng 等 [73] 采用 DCNN 对通过 PCA 白化处理的光谱图学习处理并进行情感分类，结果表明该方法优于 SVM。进一步，Shahin 等 [74] 级联高斯混合模型和深度神经网络 (gaussian mixture modeldeep neural network, GMM-DNN) 构建混合分类器，其分类性能优于 SVM、MLP(multi-layer perception)、GMM 和 DNN，并且在嘈杂谈话背景下，情感分类效果良好。 Sagha 等 [75] 以 OpenSMILE 提取 384 个特征为基于核典型相关分析的域自适应方法的输入，在 EMODB、SAVEE、EMOVO 和 Polish 等 4 个不同语言的语音数据库上实现跨语料库迁移学习，学习速度快且有效克服过拟合，明显降低陷入局部最小值的风险。以上算法均针对语音信号来提升情感分类准确性。此外，融合其他模态的特征，如面部表情 [2] 、姿态和生理信号[1] ，可提升情感分类的鲁棒第 1 期高庆吉，等：语音情感识别研究综述 ·5·

<<向上翻页向下翻页>>

点击下载：语音情感识别研究综述（中国民航大学：高庆吉、赵志华、徐达、邢志伟）