趋势包括： 1) 数据库不足且缺少广泛认可的数据库。目前数据库多在实验室

正在加载图片...

第1期高庆吉，等：语音情感识别研究综述年9布趋势包括：深度学习因其优越的性能也在特征提取和情感分 1)数据库不足且缺少广泛认可的数据库。目类与回归中受到了广泛关注、显示出广阔的应用前数据库多在实验室环境中采集，而情感在现实前景。最后总结了语音情感识别领域中语音情感世界中比实验室环境中表达方式更复杂，自然型数据库、标注方法和专业辅助工具、语音情感特数据库可有效解决这一难题，但其语料目前较征挖掘、语音情感特征提取、情感识别算法5个方少，需进一步丰富。可考虑采用跨语音库、合并面的尚待解决的问题，预测了未来的发展趋势。语音库等方法扩充语料或基于当前数据自动生成样本填充数据库，如GAN。此外，建立广泛认可参考文献：的数据库，如图像处理领域中的ImageNet,.进一 [1]PRAVENA D.GOVIND D.Significance of incorporating 步集结科研力量，推动深入研究。 excitation source parameters for improved emotion recog- 2)标注多样化。同时对数据库标注维度情感 nition from speech and electroglottographic signals[J].In- 和离散情感，二者互为补充，相互验证。促进从 ternational journal of speech technology,2017,20(4): 离散情感研究转向更精确的维度情感研究，为人 787-797 [2]MIXDORFF H.HONEMANN A.RILLIARD A.et al.Au- 机高级交互奠定基础。此外，目前广泛使用的标 dio-visual expressions of attitude:how many different atti- 注方法和专业辅助工具较少，需进一步丰富。 tudes can perceivers decode?[J].Speech communication, 3)特征挖掘是可提升的方向。语音情感识别 2017.95:114-126 领域中，情感特征丰富，但是现有典型特征较少， [3]BUITELAAR P,WOOD I D,NEGI S,et al.MixedEmo- 多为声学特征，且近期没有提出类似或更优的特 tions:an open-source toolbox for multimodal emotion ana 征，故特征挖掘需要进一步加强。 lysis[J].IEEE transactions on multimedia,2018,20(9): 4)特征提取方法需改良。语音情感数据样本 24542465. 有限，而语音识别语料数量庞大，如何采用无监 [4]SAPINSKI T,KAMINSKA D,PELIKANT A,et al.Emo- 督或半监督方式，自动学习无标签语料提取有效 tion recognition from skeletal movements[J].Entropy, 情感特征，是一个难题。此外，基于深度学习的 2019,21(7)646. 特征提取依赖所搭建网络的具体结构，对比点云 [5]PARIS M,MAHAJAN Y,KIM J,et al.Emotional speech processing deficits in bipolar disorder:the role of mis- 领域的PointNet和目标检测领域的YOLO,目前 match negativity and P3a[J].Journal of affective disorders, 情感识别领域缺乏对语音情感特征敏感且被广泛 2018,234261-269. 认可的网络结构，如何搭建一个擅于提取情感特 [6]SCHELINSKI S,VON KRIEGSTEIN K.The relation 征的专用网络结构已成为新的研究热点。 between vocal pitch and vocal emotion recognition abilit- 5)情感识别算法需深入研究。如何使用跨领 ies in people with autism spectrum disorder and typical de- 域算法微调，获取更优的初始化参数，提升识别 velopment[J].Journal of autism and developmental dis- 收敛性与准确性，将成为新的研究热点；同时，区 orders,.2019,49(168-82. 分性别、文化差异等来优化识别效果，是研究的 [7]SWAIN M,ROUTRAY A,KABISATPATHY P.Data- 一个方向。目前实时连续语音识别很少成功，可 bases,features and classifiers for speech emotion recogni- tion:a review[J].International journal of speech techno- 通过模拟复杂背景环境、提升算法的鲁棒性、提 1ogy,2018,21(1:93-120. 高模型运算效率和改善资源分配等方法解决。此 [8]韩文静，李海峰，阮华斌等.语音情感识别研究进展综外，高级语音情感识别应能模拟人对语音信息的述).软件学报，2014,25(1)37-50. 处理，实现机器情感仿生，这些功能目前暂未实 HAN Wenjing,LI Haifeng,RUAN Huabin,et al.Review 现。该课题需神经学、脑科学等多学科支持，值 on speech emotion recognition[J].Journal of software, 得深入研究。 2014,25(1):37-50. [9]刘振焘，徐建平，吴敏，等.语音情感特征提取及其降维 7结束语方法综述.计算机学报，2018,41(12)：2833-285L. 本文从情感描述模型、情感语音数据库、特征 LIU Zhentao,XU Jianping,WU Min,et al.Review of emotional feature extraction and dimension reduction 提取与降维、情感分类与回归算法4个环节对语 method for speech emotion recognition[J].Chinese journal 音情感识别进行综述，并着重分析深度学习算法 of computers,2018,41(12):2833-2851. 在特征提取、情感分类与回归算法方面的研究进 [10]KRATZWALD B.ILIC S,KRAUS M.et al.Deep learn- 展。总体而言，语音情感识别研究体系较为完整， ing for affective computing:text-based emotion recogni-趋势包括： 1) 数据库不足且缺少广泛认可的数据库。目前数据库多在实验室环境中采集，而情感在现实世界中比实验室环境中表达方式更复杂，自然型数据库可有效解决这一难题，但其语料目前较少，需进一步丰富。可考虑采用跨语音库、合并语音库等方法扩充语料或基于当前数据自动生成样本填充数据库，如 GAN。此外，建立广泛认可的数据库，如图像处理领域中的 ImageNet，进一步集结科研力量，推动深入研究。 2) 标注多样化。同时对数据库标注维度情感和离散情感，二者互为补充，相互验证。促进从离散情感研究转向更精确的维度情感研究，为人机高级交互奠定基础。此外，目前广泛使用的标注方法和专业辅助工具较少，需进一步丰富。 3) 特征挖掘是可提升的方向。语音情感识别领域中，情感特征丰富，但是现有典型特征较少，多为声学特征，且近期没有提出类似或更优的特征，故特征挖掘需要进一步加强。 4) 特征提取方法需改良。语音情感数据样本有限，而语音识别语料数量庞大，如何采用无监督或半监督方式，自动学习无标签语料提取有效情感特征，是一个难题。此外，基于深度学习的特征提取依赖所搭建网络的具体结构，对比点云领域的 PointNet 和目标检测领域的 YOLO，目前情感识别领域缺乏对语音情感特征敏感且被广泛认可的网络结构，如何搭建一个擅于提取情感特征的专用网络结构已成为新的研究热点。 5) 情感识别算法需深入研究。如何使用跨领域算法微调，获取更优的初始化参数，提升识别收敛性与准确性，将成为新的研究热点；同时，区分性别、文化差异等来优化识别效果，是研究的一个方向。目前实时连续语音识别很少成功，可通过模拟复杂背景环境、提升算法的鲁棒性、提高模型运算效率和改善资源分配等方法解决。此外，高级语音情感识别应能模拟人对语音信息的处理，实现机器情感仿生，这些功能目前暂未实现。该课题需神经学、脑科学等多学科支持，值得深入研究。 7 结束语本文从情感描述模型、情感语音数据库、特征提取与降维、情感分类与回归算法 4 个环节对语音情感识别进行综述，并着重分析深度学习算法在特征提取、情感分类与回归算法方面的研究进展。总体而言，语音情感识别研究体系较为完整，深度学习因其优越的性能也在特征提取和情感分类与回归中受到了广泛关注、显示出广阔的应用前景。最后总结了语音情感识别领域中语音情感数据库、标注方法和专业辅助工具、语音情感特征挖掘、语音情感特征提取、情感识别算法 5 个方面的尚待解决的问题，预测了未来的发展趋势。参考文献： PRAVENA D, GOVIND D. Significance of incorporating excitation source parameters for improved emotion recognition from speech and electroglottographic signals[J]. International journal of speech technology, 2017, 20(4): 787–797. [1] MIXDORFF H, HÖNEMANN A, RILLIARD A, et al. Audio-visual expressions of attitude: how many different attitudes can perceivers decode?[J]. Speech communication, 2017, 95: 114–126. [2] BUITELAAR P, WOOD I D, NEGI S, et al. MixedEmotions: an open-source toolbox for multimodal emotion analysis[J]. IEEE transactions on multimedia, 2018, 20(9): 2454–2465. [3] SAPIŃSKI T, KAMIŃSKA D, PELIKANT A, et al. Emotion recognition from skeletal movements[J]. Entropy, 2019, 21(7): 646. [4] PARIS M, MAHAJAN Y, KIM J, et al. Emotional speech processing deficits in bipolar disorder: the role of mismatch negativity and P3a[J]. Journal of affective disorders, 2018, 234: 261–269. [5] SCHELINSKI S, VON KRIEGSTEIN K. The relation between vocal pitch and vocal emotion recognition abilities in people with autism spectrum disorder and typical development[J]. Journal of autism and developmental disorders, 2019, 49(1): 68–82. [6] SWAIN M, ROUTRAY A, KABISATPATHY P. Databases, features and classifiers for speech emotion recognition: a review[J]. International journal of speech technology, 2018, 21(1): 93–120. [7] 韩文静, 李海峰, 阮华斌, 等. 语音情感识别研究进展综述 [J]. 软件学报, 2014, 25(1): 37–50. HAN Wenjing, LI Haifeng, RUAN Huabin, et al. Review on speech emotion recognition[J]. Journal of software, 2014, 25(1): 37–50. [8] 刘振焘, 徐建平, 吴敏, 等. 语音情感特征提取及其降维方法综述 [J]. 计算机学报, 2018, 41(12): 2833–2851. LIU Zhentao, XU Jianping, WU Min, et al. Review of emotional feature extraction and dimension reduction method for speech emotion recognition[J]. Chinese journal of computers, 2018, 41(12): 2833–2851. [9] KRATZWALD B, ILIĆ S, KRAUS M, et al. Deep learning for affective computing: text-based emotion recogni- [10] 第 1 期高庆吉，等：语音情感识别研究综述 ·9·

<<向上翻页向下翻页>>

点击下载：语音情感识别研究综述（中国民航大学：高庆吉、赵志华、徐达、邢志伟）