正在加载图片...
第1期 高庆吉,等:语音情感识别研究综述 年9布 趋势包括: 深度学习因其优越的性能也在特征提取和情感分 1)数据库不足且缺少广泛认可的数据库。目 类与回归中受到了广泛关注、显示出广阔的应用 前数据库多在实验室环境中采集,而情感在现实 前景。最后总结了语音情感识别领域中语音情感 世界中比实验室环境中表达方式更复杂,自然型 数据库、标注方法和专业辅助工具、语音情感特 数据库可有效解决这一难题,但其语料目前较 征挖掘、语音情感特征提取、情感识别算法5个方 少,需进一步丰富。可考虑采用跨语音库、合并 面的尚待解决的问题,预测了未来的发展趋势。 语音库等方法扩充语料或基于当前数据自动生成 样本填充数据库,如GAN。此外,建立广泛认可 参考文献: 的数据库,如图像处理领域中的ImageNet,.进一 [1]PRAVENA D.GOVIND D.Significance of incorporating 步集结科研力量,推动深入研究。 excitation source parameters for improved emotion recog- 2)标注多样化。同时对数据库标注维度情感 nition from speech and electroglottographic signals[J].In- 和离散情感,二者互为补充,相互验证。促进从 ternational journal of speech technology,2017,20(4): 离散情感研究转向更精确的维度情感研究,为人 787-797 [2]MIXDORFF H.HONEMANN A.RILLIARD A.et al.Au- 机高级交互奠定基础。此外,目前广泛使用的标 dio-visual expressions of attitude:how many different atti- 注方法和专业辅助工具较少,需进一步丰富。 tudes can perceivers decode?[J].Speech communication, 3)特征挖掘是可提升的方向。语音情感识别 2017.95:114-126 领域中,情感特征丰富,但是现有典型特征较少, [3]BUITELAAR P,WOOD I D,NEGI S,et al.MixedEmo- 多为声学特征,且近期没有提出类似或更优的特 tions:an open-source toolbox for multimodal emotion ana 征,故特征挖掘需要进一步加强。 lysis[J].IEEE transactions on multimedia,2018,20(9): 4)特征提取方法需改良。语音情感数据样本 24542465. 有限,而语音识别语料数量庞大,如何采用无监 [4]SAPINSKI T,KAMINSKA D,PELIKANT A,et al.Emo- 督或半监督方式,自动学习无标签语料提取有效 tion recognition from skeletal movements[J].Entropy, 情感特征,是一个难题。此外,基于深度学习的 2019,21(7)646. 特征提取依赖所搭建网络的具体结构,对比点云 [5]PARIS M,MAHAJAN Y,KIM J,et al.Emotional speech processing deficits in bipolar disorder:the role of mis- 领域的PointNet和目标检测领域的YOLO,目前 match negativity and P3a[J].Journal of affective disorders, 情感识别领域缺乏对语音情感特征敏感且被广泛 2018,234261-269. 认可的网络结构,如何搭建一个擅于提取情感特 [6]SCHELINSKI S,VON KRIEGSTEIN K.The relation 征的专用网络结构已成为新的研究热点。 between vocal pitch and vocal emotion recognition abilit- 5)情感识别算法需深入研究。如何使用跨领 ies in people with autism spectrum disorder and typical de- 域算法微调,获取更优的初始化参数,提升识别 velopment[J].Journal of autism and developmental dis- 收敛性与准确性,将成为新的研究热点;同时,区 orders,.2019,49(168-82. 分性别、文化差异等来优化识别效果,是研究的 [7]SWAIN M,ROUTRAY A,KABISATPATHY P.Data- 一个方向。目前实时连续语音识别很少成功,可 bases,features and classifiers for speech emotion recogni- tion:a review[J].International journal of speech techno- 通过模拟复杂背景环境、提升算法的鲁棒性、提 1ogy,2018,21(1:93-120. 高模型运算效率和改善资源分配等方法解决。此 [8]韩文静,李海峰,阮华斌等.语音情感识别研究进展综 外,高级语音情感识别应能模拟人对语音信息的 述).软件学报,2014,25(1)37-50. 处理,实现机器情感仿生,这些功能目前暂未实 HAN Wenjing,LI Haifeng,RUAN Huabin,et al.Review 现。该课题需神经学、脑科学等多学科支持,值 on speech emotion recognition[J].Journal of software, 得深入研究。 2014,25(1):37-50. [9]刘振焘,徐建平,吴敏,等.语音情感特征提取及其降维 7结束语 方法综述.计算机学报,2018,41(12):2833-285L. 本文从情感描述模型、情感语音数据库、特征 LIU Zhentao,XU Jianping,WU Min,et al.Review of emotional feature extraction and dimension reduction 提取与降维、情感分类与回归算法4个环节对语 method for speech emotion recognition[J].Chinese journal 音情感识别进行综述,并着重分析深度学习算法 of computers,2018,41(12):2833-2851. 在特征提取、情感分类与回归算法方面的研究进 [10]KRATZWALD B.ILIC S,KRAUS M.et al.Deep learn- 展。总体而言,语音情感识别研究体系较为完整, ing for affective computing:text-based emotion recogni-趋势包括: 1) 数据库不足且缺少广泛认可的数据库。目 前数据库多在实验室环境中采集,而情感在现实 世界中比实验室环境中表达方式更复杂,自然型 数据库可有效解决这一难题,但其语料目前较 少,需进一步丰富。可考虑采用跨语音库、合并 语音库等方法扩充语料或基于当前数据自动生成 样本填充数据库,如 GAN。此外,建立广泛认可 的数据库,如图像处理领域中的 ImageNet,进一 步集结科研力量,推动深入研究。 2) 标注多样化。同时对数据库标注维度情感 和离散情感,二者互为补充,相互验证。促进从 离散情感研究转向更精确的维度情感研究,为人 机高级交互奠定基础。此外,目前广泛使用的标 注方法和专业辅助工具较少,需进一步丰富。 3) 特征挖掘是可提升的方向。语音情感识别 领域中,情感特征丰富,但是现有典型特征较少, 多为声学特征,且近期没有提出类似或更优的特 征,故特征挖掘需要进一步加强。 4) 特征提取方法需改良。语音情感数据样本 有限,而语音识别语料数量庞大,如何采用无监 督或半监督方式,自动学习无标签语料提取有效 情感特征,是一个难题。此外,基于深度学习的 特征提取依赖所搭建网络的具体结构,对比点云 领域的 PointNet 和目标检测领域的 YOLO,目前 情感识别领域缺乏对语音情感特征敏感且被广泛 认可的网络结构,如何搭建一个擅于提取情感特 征的专用网络结构已成为新的研究热点。 5) 情感识别算法需深入研究。如何使用跨领 域算法微调,获取更优的初始化参数,提升识别 收敛性与准确性,将成为新的研究热点;同时,区 分性别、文化差异等来优化识别效果,是研究的 一个方向。目前实时连续语音识别很少成功,可 通过模拟复杂背景环境、提升算法的鲁棒性、提 高模型运算效率和改善资源分配等方法解决。此 外,高级语音情感识别应能模拟人对语音信息的 处理,实现机器情感仿生,这些功能目前暂未实 现。该课题需神经学、脑科学等多学科支持,值 得深入研究。 7 结束语 本文从情感描述模型、情感语音数据库、特征 提取与降维、情感分类与回归算法 4 个环节对语 音情感识别进行综述,并着重分析深度学习算法 在特征提取、情感分类与回归算法方面的研究进 展。总体而言,语音情感识别研究体系较为完整, 深度学习因其优越的性能也在特征提取和情感分 类与回归中受到了广泛关注、显示出广阔的应用 前景。最后总结了语音情感识别领域中语音情感 数据库、标注方法和专业辅助工具、语音情感特 征挖掘、语音情感特征提取、情感识别算法 5 个方 面的尚待解决的问题,预测了未来的发展趋势。 参考文献: PRAVENA D, GOVIND D. Significance of incorporating excitation source parameters for improved emotion recog￾nition from speech and electroglottographic signals[J]. In￾ternational journal of speech technology, 2017, 20(4): 787–797. [1] MIXDORFF H, HÖNEMANN A, RILLIARD A, et al. Au￾dio-visual expressions of attitude: how many different atti￾tudes can perceivers decode?[J]. Speech communication, 2017, 95: 114–126. [2] BUITELAAR P, WOOD I D, NEGI S, et al. MixedEmo￾tions: an open-source toolbox for multimodal emotion ana￾lysis[J]. IEEE transactions on multimedia, 2018, 20(9): 2454–2465. [3] SAPIŃSKI T, KAMIŃSKA D, PELIKANT A, et al. Emo￾tion recognition from skeletal movements[J]. Entropy, 2019, 21(7): 646. [4] PARIS M, MAHAJAN Y, KIM J, et al. Emotional speech processing deficits in bipolar disorder: the role of mis￾match negativity and P3a[J]. Journal of affective disorders, 2018, 234: 261–269. [5] SCHELINSKI S, VON KRIEGSTEIN K. The relation between vocal pitch and vocal emotion recognition abilit￾ies in people with autism spectrum disorder and typical de￾velopment[J]. Journal of autism and developmental dis￾orders, 2019, 49(1): 68–82. [6] SWAIN M, ROUTRAY A, KABISATPATHY P. Data￾bases, features and classifiers for speech emotion recogni￾tion: a review[J]. International journal of speech techno￾logy, 2018, 21(1): 93–120. [7] 韩文静, 李海峰, 阮华斌, 等. 语音情感识别研究进展综 述 [J]. 软件学报, 2014, 25(1): 37–50. HAN Wenjing, LI Haifeng, RUAN Huabin, et al. Review on speech emotion recognition[J]. Journal of software, 2014, 25(1): 37–50. [8] 刘振焘, 徐建平, 吴敏, 等. 语音情感特征提取及其降维 方法综述 [J]. 计算机学报, 2018, 41(12): 2833–2851. LIU Zhentao, XU Jianping, WU Min, et al. Review of emotional feature extraction and dimension reduction method for speech emotion recognition[J]. Chinese journal of computers, 2018, 41(12): 2833–2851. [9] KRATZWALD B, ILIĆ S, KRAUS M, et al. Deep learn￾ing for affective computing: text-based emotion recogni- [10] 第 1 期 高庆吉,等:语音情感识别研究综述 ·9·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有