绍了语音情感特征提取和降维的方法，其中，重点描述了基于 BN-DBN、C

正在加载图片...

·2 智能系统学报第15卷绍了语音情感特征提取和降维的方法，其中，重别或数字维度组合（空间坐标值）。根据表征方点描述了基于BN-DBN、CNN等深度学习方法的式不同，分为离散情感模型和维度情感模型。语音特征提取相关研究。离散情感模型使用形容词标签表示情感。随着研究者深人探索，语音情感识别在以下 Mover简单地将离散情感分为痛苦、快乐两类基几方面进展突出：维度情感和离散情感到维度情本情感；进一步，Ekman2将离散情感分成愤感的映射使情感描述更精确；情感语音数据库联怒、厌恶、恐惧、快乐、悲伤和惊喜6种基本情合使用；采用深度学习方法进行特征提取和情感感。目前常用10余种情感描述模型中，使用最广分类与回归：情感识别算法向更深层网络、多方泛的是Ekman提出的6种基本情感和在此基础上法融合角度演变。加入中性的7种基本情感1。离散情感模型简单本文将从情感描述模型、情感语音数据库、直观，运用广泛，但描述精确度不高、连续性不特征提取与降维、情感分类与回归算法四个环节好，表征情感能力有限。为克服以上不足，学者综述当前主流技术和前沿进展，然后总结深度学们建立了维度情感模型。习研究的难点，指出未来的研究趋势。其中，着维度情感模型可以在二维或多维空间中构重分析深度学习算法在特征提取、情感分类与回造，用以描述连续情感。可利用效价一唤醒二维归算法方面的研究进展。模型(valence-arousal,VA)描述情感的极性和度量情感程度，能够表示大部分情感；愉悦-唤醒-支 1情感描述模型配三维模型(pleasure-arousal-dominance,PAD)在完整的语音情感识别包括采集语音片段、预 VA模型上添加支配维，用以描述周围环境对自处理、语音特征提取与降维、情感分类与回归等身的影响，如高支配度是一种主宰感，低支配度流程，如图1所示。是一种软弱感，理论上可以表示无穷多种情感，但难以表述惊讶。Fontaine等16研究表明，在开始 PAD模型基础上添加期望维，度量个体对情感出现的准备性，可以描述惊讶。维度情感模型表征采集语音片段情感能力强（情感类别多、精确性高），可连续表征情感变化，但维度情感理解困难且操作复杂，目预处理前研究者较少。因此，为合理利用现有基于离散情感模型建情感特征提取立的数据库，研究者们开始关注离散情感和维度特征降维情感间的映射。Russell提出环形模型刀，将VA 模型空间中的某些区域解释为28种离散情感。而后，Yik等1将维度情感聚类为8种基本离散是否训练情感，即情绪轮。再后，又将该模型聚类情感扩展到l2种。Plutchik!9引入更加复杂的混合情感分类计算语音情感模型参数模型，即情绪“沙漏”。目前，环形模型和情绪“沙分类模型优化漏的关联性是大家关注的焦点，实用性有待研究。输出情感离散情感模型简单直接易搭建，但描述精度不足；维度情感模型描述精度高，情感表征能力强，但操作复杂，文献不多：离散情感和维度情感是否继续间的映射有研究价值，但实用性有待研究。故如何更好地将离散情感与维度情感结合来提升情感状态表征精度，受到广泛关注。结束 2情感语音数据库与数据标注图1语音情感识别流程图 Fig.1 Speech emotion recognition flow chart 2.1情感语音数据库实现语音情感识别，首先需要定义情感。情研究情感分类与回归算法，需要数据库的支感描述模型将情感表征为一组互斥的离散情感类撑。目前情感语音数据库数量较多，但没有统一绍了语音情感特征提取和降维的方法，其中，重点描述了基于 BN-DBN、CNN 等深度学习方法的语音特征提取相关研究。随着研究者深入探索，语音情感识别在以下几方面进展突出：维度情感和离散情感到维度情感的映射使情感描述更精确；情感语音数据库联合使用；采用深度学习方法进行特征提取和情感分类与回归；情感识别算法向更深层网络、多方法融合角度演变。本文将从情感描述模型、情感语音数据库、特征提取与降维、情感分类与回归算法四个环节综述当前主流技术和前沿进展，然后总结深度学习研究的难点，指出未来的研究趋势。其中，着重分析深度学习算法在特征提取、情感分类与回归算法方面的研究进展。 1 情感描述模型完整的语音情感识别包括采集语音片段、预处理、语音特征提取与降维、情感分类与回归等流程,如图 1 所示。开始预处理情感特征提取特征降维结束 Y N 采集语音片段输出情感是否训练分类计算语音情感分类模型 N Y 模型参数优化是否继续图 1 语音情感识别流程图 Fig. 1 Speech emotion recognition flow chart 实现语音情感识别，首先需要定义情感。情感描述模型将情感表征为一组互斥的离散情感类别或数字维度组合[10] (空间坐标值)。根据表征方式不同，分为离散情感模型和维度情感模型。离散情感模型使用形容词标签表示情感。 Mover 简单地将离散情感分为痛苦、快乐两类基本情感[11] ；进一步，Ekman[12] 将离散情感分成愤怒、厌恶、恐惧、快乐、悲伤和惊喜 6 种基本情感。目前常用 10 余种情感描述模型中，使用最广泛的是 Ekman 提出的 6 种基本情感和在此基础上加入中性的 7 种基本情感[13]。离散情感模型简单直观，运用广泛，但描述精确度不高、连续性不好，表征情感能力有限。为克服以上不足，学者们建立了维度情感模型。维度情感模型可以在二维或多维空间中构造，用以描述连续情感。可利用效价−唤醒二维模型 (valence-arousal, VA) 描述情感的极性和度量情感程度，能够表示大部分情感；愉悦−唤醒−支配三维模型 (pleasure-arousal-dominance, PAD) 在 VA 模型上添加支配维，用以描述周围环境对自身的影响，如高支配度是一种主宰感，低支配度是一种软弱感[14] ，理论上可以表示无穷多种情感，但难以表述惊讶[15]。Fontaine 等 [16] 研究表明，在 PAD 模型基础上添加期望维，度量个体对情感出现的准备性，可以描述惊讶。维度情感模型表征情感能力强 (情感类别多、精确性高)，可连续表征情感变化，但维度情感理解困难且操作复杂，目前研究者较少。因此，为合理利用现有基于离散情感模型建立的数据库，研究者们开始关注离散情感和维度情感间的映射。Russell 提出环形模型[17] ，将 VA 模型空间中的某些区域解释为 28 种离散情感。而后，Yik 等 [18] 将维度情感聚类为 8 种基本离散情感，即情绪轮。再后，又将该模型聚类情感扩展到 12 种。Plutchik[19] 引入更加复杂的混合情感模型，即情绪“沙漏”。目前，环形模型和情绪“沙漏”的关联性是大家关注的焦点，实用性有待研究[10]。离散情感模型简单直接易搭建，但描述精度不足；维度情感模型描述精度高，情感表征能力强，但操作复杂，文献不多；离散情感和维度情感间的映射有研究价值，但实用性有待研究。故如何更好地将离散情感与维度情感结合来提升情感状态表征精度，受到广泛关注。 2 情感语音数据库与数据标注 2.1 情感语音数据库研究情感分类与回归算法，需要数据库的支撑。目前情感语音数据库数量较多，但没有统一 ·2· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：语音情感识别研究综述（中国民航大学：高庆吉、赵志华、徐达、邢志伟）