正在加载图片...
第1期 高庆吉,等:语音情感识别研究综述 表5语音情感识别过程总结统计表 Table 5 Summary statistical table of speech emotion recognition's whole process 语音情感 情感类别 文献(时间) 特征提取 降维和融合 数据库 识别算法 特征 离散情感维度情感 [37(2015) 声学特征 常规 MFCCG-PCA C1 6 SVM [38](2019) 声学特征 Fisher准则 C1、E1 6/7 决策树SVM [40](2018) 深度特征 DCNN DTPM El、R、e、B 6/7 SVM [41]2018) 声学特征 PCNN、常规 C1、E1、S1 P、A、D SVR [42](2019) 声学特征 VMD+MF、常规 E1、R2 5 ELM [43](2019) 声学特征 CNN、常规 多核学习方法 EI、CI 6/7 SVM [44(2018) 深度特征 LSTM+CNN e、Rl、Al 6 CNN [45](2018) 声学特征 Praat、GF、HOG GLCM和WD El、e、S1 6/7 SVM [47刀(2018) 声学特征 Praat、Pysound V、A2 V、A HSC+SVR 声学特征 [49(2015) 语言特征 OpenSMILE、BoW 4 SVM [56](2019) 深度特征 CNN+LSTM EI、I 6/7 CNN+LSTM [57](2019) 深度特征 DBN CI 6 ELM [58](2018) 声学特征 OpenSMILE DANN I、M1、M2 V、A、D DANN [64](2015) 声学特征 OpenSMILE PCA C1、S1 6 IC-D、IC-S [66(2016)声学特征 Praat PCA、FCBF S1 7 FAMNN 声学特征」 CC、GP、重标 [68](2015) 非线性特征 极差法等 El SVM [69](2018) 声学特征 子空间学习、特 OpenSMILE 征选择、MMD E1、E2 5 SVM thSD、thMN、 SVM、MLP [71](2019) 声学特征 openSMILE thMED、thCV E1、e、E4、S1 6/7 KNN 双输入对称相 半定规划多核 [72](2015) 声学特征 Voicebox 关算法 El SVM [73](2015) 深度特征 DCNN PCA 5 DCNN [74(2019) 声学特征 常规 S2、E3 6 GMM-DNN DBN+BP神经 [79例](2019)声学特征 WP滤波器组 El 6 SVM 网络 音调功率比、频谱 [80](2017) 声学特征 通量、常规和音调 串联 E1、T 5/7 AFDBN 色度提取 LDE、GbFA ELM+子空间 [81]2019) 声学特征 openSMILE LPDA、FDA G、A3、V、e 4/6/12 学习+KNN LDP [82](2019) 声学特征 常规 E1、SI > FAM-FIS [83](2019) 声学特征 openSMILE U、R2、E1、e、V、A4 V、A GMTL、MIT- KDG等 [84](2019)声学特征 openSMILE C3、M3 6 CNN [85)](2019)声学特征 常规 自己建立 2 SVM 注:常规:MFCC特征提取的FFT+梅尔滤波器组+对数变换+DCT。数据库名称按出现顺序缩写、El:EMO-DB、E2:Enteraface、. E3:ESD、E4:EMOVO、R1:RML、R2:RAVDESS、e:eNTERAFACE'O5、B:BAUM-I、CI:CASIA、C2:CHiME-3、C3:CHI MEI、S1:SAVEE、S2:SUSAS、A1:AFEW-6.0、A2:AVEC2012、A3:ABC、A4:AVEC(2011)、V:VAM、U:UMSSED、 I:IEMOCAP、M1:MSP-IMPROV、M2:MSP-Podcast、M3:MHMC、T:泰卢固语数据库、G:GEMEP:“+”表明方法结合使用:表 格中识别方法仅列举研究者主要使用方法。表 5 语音情感识别过程总结统计表 Table 5 Summary statistical table of speech emotion recognition’s whole process 文献(时间) 语音情感 特征 特征提取 降维和融合 数据库 情感类别 识别算法 离散情感 维度情感 [37] (2015) 声学特征 常规 MFCCG-PCA C1 6 — SVM [38] (2019) 声学特征 — Fisher准则 C1、E1 6/7 — 决策树SVM [40] (2018) 深度特征 DCNN DTPM E1、R、e、B 6/7 — SVM [41] (2018) 声学特征 PCNN、常规 — C1、E1、S1 — P、A、D SVR [42] (2019) 声学特征 VMD+IMF、常规 — E1、R2 5 — ELM [43] (2019) 声学特征 CNN、常规 多核学习方法 E1、C1 6/7 — SVM [44] (2018) 深度特征 LSTM+CNN — e、R1、A1 6 — CNN [45] (2018) 声学特征 Praat、GF、HOG、 GLCM和WD — E1、e、S1 6/7 — SVM [47] (2018) 声学特征 Praat、Pysound — V、A2 — V、A HSC+SVR [49] (2015) 声学特征、 语言特征 OpenSMILE、 BoW — I 4 — SVM [56] (2019) 深度特征 CNN+LSTM — E1、I 6/7 — CNN+LSTM [57] (2019) 深度特征 DBN — C1 6 — ELM [58] (2018) 声学特征 OpenSMILE DANN I、M1、M2 — V、A、D DANN [64] (2015) 声学特征 OpenSMILE PCA C1、S1 6 — IC-D、IC-S [66] (2016) 声学特征 Praat PCA、FCBF S1 7 — FAMNN [68] (2015) 声学特征、 非线性特征 C-C、G-P、重标 极差法等 — E1 4 — SVM [69] (2018) 声学特征 OpenSMILE 子空间学习、特 征选择、MMD E1、E2 5 — SVM [71] (2019) 声学特征 openSMILE thSD、thMN、 thMED、thCV E1、e、E4、S1 6/7 — SVM、MLP、 KNN [72] (2015) 声学特征 Voicebox 双输入对称相 关算法 E1 5 — 半定规划多核 SVM [73] (2015) 深度特征 DCNN PCA I 5 — DCNN [74] (2019) 声学特征 常规 — S2、E3 6 — GMM-DNN [79] (2019) 声学特征 WP滤波器组 DBN+BP神经 网络 E1 6 — SVM [80] (2017) 声学特征 音调功率比、频谱 通量、常规和音调 色度提取 串联 E1、T 5/7 — AFDBN [81] (2019) 声学特征 openSMILE LDE、GbFA、 LPDA、FDA、 LDP G、A3、V、e 4/6/12 — ELM+子空间 学习+KNN [82] (2019) 声学特征 常规 — E1、S1 7 — FAM-FIS [83] (2019) 声学特征 openSMILE — U、R2、E1、e、V、A4 — V、A GMTL、 MIT￾KDG等 [84] (2019) 声学特征 openSMILE — C3、M3 6 — CNN [85] (2019) 声学特征 常规 — 自己建立 2 — SVM 注:常规: MFCC特征提取的FFT+梅尔滤波器组+对数变换+DCT。数据库名称按出现顺序缩写、E1:EMO-DB、 E2:Enteraface、 E3:ESD、 E4:EMOVO、 R1:RML、 R2:RAVDESS、 e:eNTERAFACE’05、 B:BAUM-1、 C1:CASIA、 C2:CHiME-3、 C3: CHI￾MEI、 S1:SAVEE、 S2:SUSAS、 A1:AFEW -6.0、 A2:AVEC2012、 A3:ABC、 A4: AVEC(2011)、 V:VAM、 U: UMSSED、 I:IEMOCAP、 M1:MSP-IMPROV、 M2: MSP-Podcast、M3: MHMC、 T: 泰卢固语数据库、 G:GEMEP;“+”表明方法结合使用;表 格中识别方法仅列举研究者主要使用方法。 第 1 期 高庆吉,等:语音情感识别研究综述 ·7·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有