正在加载图片...
第1期 高庆吉,等:语音情感识别研究综述 ·5· 层将域分类器生成的梯度在传播回共享层时乘以 目前Praat6和OpenSMILE两种工具使用 负值,使训练集和测试集的特征收敛,提升泛化 最广泛。Praat是一款语音学专业软件,其GUI界 能力。同时使用t-SNE数据可视化技术s,通过 面简洁且指导手册持续更新,便于学习。可对语 创建不同层的特征分布2D投影,直观检查模型 音文件进行特征提取、标注等工作,结果可导 学习特征表示的全过程。 出。OpenSMILE使用命令行和GUI结合的方式 此外,说话者无关训练(speaker-invariant train- 进行使用。常用配置文件config/1S09/10/11/12/13 ing,SIT,模型的学习结果与说话者自身无关,即 paraling.conf,分别提取384、1582、4368、6125 要求模型有较强的泛化能力)60通过对抗性学习 和6373维特征。此外,在Tensorflow框架中,可 减少声学建模过程中说话者差异的影响,再联合 以调用Librosa工具包提取频谱图、MFCC等特 DNN,来提取与说话者无关且辨别力强的深度特征。 征,便于后续识别。表3整理了更多的提取工具 4)常用特征提取工具 可供学习。 表3常用语音特征提取工具统计表侧 Table 3 Statistical table of common speech feature extraction tools 工具箱 平台 提取特征 Praat C++ 信号能量、FFT频谱、倒频谱、语音质量、LPC、共振峰等 OpenSMILE C++ 波形、信号能量、FFT光谱、语音质量、Mel/Bark光谱、共振峰等 HTK 0 信号能量、Mel/Bark光谱、LPC、波形等 Voicebox MATLAB 信号能量、FO、LPC、倒谱、Mel/Bark光谱等 COLEA MATLAB F0、共振峰、频谱、信号能量等 SPEFT MATLAB 波形、信号能量、语音质量、共振峰、倒谱、Mel/Bark频谱等 SPAC MATLAB FO、共振峰、语音质量、LPCC、MFCC、信号能量、语速、小波等 3.3特征降维 情感类别,常使用支持向量机(support vector ma- 上述特征提取方法得到的语音情感特征一般 chines,SVM)、隐马尔可夫模型(hidden Markov 维数较高,直接处理易导致维度灾难。为保障识 model,HMM)和DCNN。 别准确率和效率,采用主成分分析(principle com- SVMs在求解非线性、小样本和高维模式 ponent analysis,PCA)s、Fisher准则B、线性判别 识别等问题具有优越性,且泛化能力强,在情感 分析(linear discriminate analysis,.LDA)6s1和 分类中广泛使用3劉。半定规划多核SVM2来提 FCBF(fast correlation-.based filter solution)Is等方法 高分类算法的鲁棒性。 进行特征降维。如BP神经网络67可进行特征选 Zheng等采用DCNN对通过PCA白化处 择,检测冗余的同时,通过节点信号变化的敏感 理的光谱图学习处理并进行情感分类,结果表明 度挑选对网络贡献度大的特征得到组合特征。 该方法优于SVM。进一步,Shahin等级联高斯 声学特征因提取算法和提取工具丰富,使用 混合模型和深度神经网络(gaussian mixture model- 广泛;深度学习框架环境日益发展,被更多研究 deep neural network,GMM-DNN)构建混合分类 者用于提取情感特征。此外,声学和语义是语音 器,其分类性能优于SVM、MLP(multi--layer per- 信号的两个主要部分。随着文本情感研究深入, ception)、GMM和DNN,并且在嘈杂谈话背景下, 从语义中提取的语言特征将会成为混合特征中的 情感分类效果良好。 重要组成部分。故如何有效利用句子含义与转折 Sagha等以OpenSMILE提取384个特征为 词,精简语言特征并提升特征的有效性,将成为 基于核典型相关分析的域自适应方法的输入,在 研究热点。 EMODB、SAVEE、EMOVO和Polish等4个不同 4情感分类与回归 语言的语音数据库上实现跨语料库迁移学习,学 习速度快且有效克服过拟合,明显降低陷人局部 根据情感表征方式不同,将目前主流识别算 最小值的风险。 法分为情感分类算法和情感回归算法两类。 以上算法均针对语音信号来提升情感分类准 4.1情感分类算法 确性。此外,融合其他模态的特征,如面部表 情感分类算法将测试集样本归类为不同离散 情)、姿态和生理信号四,可提升情感分类的鲁棒层将域分类器生成的梯度在传播回共享层时乘以 负值,使训练集和测试集的特征收敛,提升泛化 能力。同时使用 t-SNE 数据可视化技术[59] ,通过 创建不同层的特征分布 2D 投影,直观检查模型 学习特征表示的全过程。 此外,说话者无关训练 (speaker-invariant train￾ing,SIT,模型的学习结果与说话者自身无关,即 要求模型有较强的泛化能力) [60] 通过对抗性学习 减少声学建模过程中说话者差异的影响,再联合 DNN,来提取与说话者无关且辨别力强的深度特征。 4) 常用特征提取工具 目前 Praat[61] 和 OpenSMILE[62] 两种工具使用 最广泛。Praat 是一款语音学专业软件,其 GUI 界 面简洁且指导手册持续更新,便于学习。可对语 音文件进行特征提取、标注等工作,结果可导 出。OpenSMILE 使用命令行和 GUI 结合的方式 进行使用。常用配置文件 config/IS09/10/11/12/13 paraling. conf,分别提取 384、1 582、4 368、6 125 和 6 373 维特征。此外,在 Tensorflow 框架中,可 以调用 Librosa 工具包提取频谱图、MFCC 等特 征,便于后续识别。表 3 整理了更多的提取工具 可供学习。 表 3 常用语音特征提取工具统计表[63] Table 3 Statistical table of common speech feature extraction tools 工具箱 平台 提取特征 Praat C++ 信号能量、FFT频谱、倒频谱、语音质量、LPC、共振峰等 OpenSMILE C++ 波形、信号能量、FFT光谱、语音质量、Mel/Bark光谱、共振峰等 HTK C 信号能量、Mel/Bark光谱、LPC、波形等 Voicebox MATLAB 信号能量、F0、LPC、倒谱、Mel/Bark光谱等 COLEA MATLAB F0、共振峰、频谱、信号能量等 SPEFT MATLAB 波形、信号能量、语音质量、共振峰、倒谱、Mel/Bark频谱等 SPAC MATLAB F0、共振峰、语音质量、LPCC、MFCC、信号能量、语速、小波等 3.3 特征降维 上述特征提取方法得到的语音情感特征一般 维数较高,直接处理易导致维度灾难。为保障识 别准确率和效率,采用主成分分析 (principle com￾ponent analysis, PCA)[64] 、Fisher 准则[38] 、线性判别 分析 (linear discriminate analysis, LDA)[ 6 5 ] 和 FCBF(fast correlation-based filter solution) [66] 等方法 进行特征降维。如 BP 神经网络[67] 可进行特征选 择,检测冗余的同时,通过节点信号变化的敏感 度挑选对网络贡献度大的特征得到组合特征。 声学特征因提取算法和提取工具丰富,使用 广泛;深度学习框架环境日益发展,被更多研究 者用于提取情感特征。此外,声学和语义是语音 信号的两个主要部分。随着文本情感研究深入, 从语义中提取的语言特征将会成为混合特征中的 重要组成部分。故如何有效利用句子含义与转折 词,精简语言特征并提升特征的有效性,将成为 研究热点。 4 情感分类与回归 根据情感表征方式不同,将目前主流识别算 法分为情感分类算法和情感回归算法两类。 4.1 情感分类算法 情感分类算法将测试集样本归类为不同离散 情感类别,常使用支持向量机 (support vector ma￾chines, SVM)、隐马尔可夫模型 (hidden Markov model, HMM) 和 DCNN。 SVM[68-71] 在求解非线性、小样本和高维模式 识别等问题具有优越性,且泛化能力强,在情感 分类中广泛使用[38]。半定规划多核 SVM[72] 来提 高分类算法的鲁棒性。 Zheng 等 [73] 采用 DCNN 对通过 PCA 白化处 理的光谱图学习处理并进行情感分类,结果表明 该方法优于 SVM。进一步,Shahin 等 [74] 级联高斯 混合模型和深度神经网络 (gaussian mixture model￾deep neural network, GMM-DNN) 构建混合分类 器,其分类性能优于 SVM、MLP(multi-layer per￾ception)、GMM 和 DNN,并且在嘈杂谈话背景下, 情感分类效果良好。 Sagha 等 [75] 以 OpenSMILE 提取 384 个特征为 基于核典型相关分析的域自适应方法的输入,在 EMODB、SAVEE、EMOVO 和 Polish 等 4 个不同 语言的语音数据库上实现跨语料库迁移学习,学 习速度快且有效克服过拟合,明显降低陷入局部 最小值的风险。 以上算法均针对语音信号来提升情感分类准 确性。此外,融合其他模态的特征,如面部表 情 [2] 、姿态和生理信号[1] ,可提升情感分类的鲁棒 第 1 期 高庆吉,等:语音情感识别研究综述 ·5·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有