正在加载图片...
·2 智能系统学报 第15卷 绍了语音情感特征提取和降维的方法,其中,重 别或数字维度组合(空间坐标值)。根据表征方 点描述了基于BN-DBN、CNN等深度学习方法的 式不同,分为离散情感模型和维度情感模型。 语音特征提取相关研究。 离散情感模型使用形容词标签表示情感。 随着研究者深人探索,语音情感识别在以下 Mover简单地将离散情感分为痛苦、快乐两类基 几方面进展突出:维度情感和离散情感到维度情 本情感;进一步,Ekman2将离散情感分成愤 感的映射使情感描述更精确;情感语音数据库联 怒、厌恶、恐惧、快乐、悲伤和惊喜6种基本情 合使用;采用深度学习方法进行特征提取和情感 感。目前常用10余种情感描述模型中,使用最广 分类与回归:情感识别算法向更深层网络、多方 泛的是Ekman提出的6种基本情感和在此基础上 法融合角度演变。 加入中性的7种基本情感1。离散情感模型简单 本文将从情感描述模型、情感语音数据库、 直观,运用广泛,但描述精确度不高、连续性不 特征提取与降维、情感分类与回归算法四个环节 好,表征情感能力有限。为克服以上不足,学者 综述当前主流技术和前沿进展,然后总结深度学 们建立了维度情感模型。 习研究的难点,指出未来的研究趋势。其中,着 维度情感模型可以在二维或多维空间中构 重分析深度学习算法在特征提取、情感分类与回 造,用以描述连续情感。可利用效价一唤醒二维 归算法方面的研究进展。 模型(valence-arousal,VA)描述情感的极性和度量 情感程度,能够表示大部分情感;愉悦-唤醒-支 1情感描述模型 配三维模型(pleasure-arousal-dominance,PAD)在 完整的语音情感识别包括采集语音片段、预 VA模型上添加支配维,用以描述周围环境对自 处理、语音特征提取与降维、情感分类与回归等 身的影响,如高支配度是一种主宰感,低支配度 流程,如图1所示。 是一种软弱感,理论上可以表示无穷多种情感, 但难以表述惊讶。Fontaine等16研究表明,在 开始 PAD模型基础上添加期望维,度量个体对情感出 现的准备性,可以描述惊讶。维度情感模型表征 采集语音片段 情感能力强(情感类别多、精确性高),可连续表征 情感变化,但维度情感理解困难且操作复杂,目 预处理 前研究者较少。 因此,为合理利用现有基于离散情感模型建 情感特征提取 立的数据库,研究者们开始关注离散情感和维度 特征降维 情感间的映射。Russell提出环形模型刀,将VA 模型空间中的某些区域解释为28种离散情感。 而后,Yik等1将维度情感聚类为8种基本离散 是否训练 情感,即情绪轮。再后,又将该模型聚类情感扩 展到l2种。Plutchik!9引入更加复杂的混合情感 分类计算 语音情感 模型参数 模型,即情绪“沙漏”。目前,环形模型和情绪“沙 分类模型 优化 漏的关联性是大家关注的焦点,实用性有待研究。 输出情感 离散情感模型简单直接易搭建,但描述精度 不足;维度情感模型描述精度高,情感表征能力 强,但操作复杂,文献不多:离散情感和维度情感 是否继续 间的映射有研究价值,但实用性有待研究。故如 何更好地将离散情感与维度情感结合来提升情感 状态表征精度,受到广泛关注。 结束 2情感语音数据库与数据标注 图1语音情感识别流程图 Fig.1 Speech emotion recognition flow chart 2.1情感语音数据库 实现语音情感识别,首先需要定义情感。情 研究情感分类与回归算法,需要数据库的支 感描述模型将情感表征为一组互斥的离散情感类 撑。目前情感语音数据库数量较多,但没有统一绍了语音情感特征提取和降维的方法,其中,重 点描述了基于 BN-DBN、CNN 等深度学习方法的 语音特征提取相关研究。 随着研究者深入探索,语音情感识别在以下 几方面进展突出:维度情感和离散情感到维度情 感的映射使情感描述更精确;情感语音数据库联 合使用;采用深度学习方法进行特征提取和情感 分类与回归;情感识别算法向更深层网络、多方 法融合角度演变。 本文将从情感描述模型、情感语音数据库、 特征提取与降维、情感分类与回归算法四个环节 综述当前主流技术和前沿进展,然后总结深度学 习研究的难点,指出未来的研究趋势。其中,着 重分析深度学习算法在特征提取、情感分类与回 归算法方面的研究进展。 1 情感描述模型 完整的语音情感识别包括采集语音片段、预 处理、语音特征提取与降维、情感分类与回归等 流程,如图 1 所示。 开始 预处理 情感特征提取 特征降维 结束 Y N 采集语音片段 输出情感 是否训练 分类计算 语音情感 分类模型 N Y 模型参数 优化 是否继续 图 1 语音情感识别流程图 Fig. 1 Speech emotion recognition flow chart 实现语音情感识别,首先需要定义情感。情 感描述模型将情感表征为一组互斥的离散情感类 别或数字维度组合[10] (空间坐标值)。根据表征方 式不同,分为离散情感模型和维度情感模型。 离散情感模型使用形容词标签表示情感。 Mover 简单地将离散情感分为痛苦、快乐两类基 本情感[11] ;进一步,Ekman[12] 将离散情感分成愤 怒、厌恶、恐惧、快乐、悲伤和惊喜 6 种基本情 感。目前常用 10 余种情感描述模型中,使用最广 泛的是 Ekman 提出的 6 种基本情感和在此基础上 加入中性的 7 种基本情感[13]。离散情感模型简单 直观,运用广泛,但描述精确度不高、连续性不 好,表征情感能力有限。为克服以上不足,学者 们建立了维度情感模型。 维度情感模型可以在二维或多维空间中构 造,用以描述连续情感。可利用效价−唤醒二维 模型 (valence-arousal, VA) 描述情感的极性和度量 情感程度,能够表示大部分情感;愉悦−唤醒−支 配三维模型 (pleasure-arousal-dominance, PAD) 在 VA 模型上添加支配维,用以描述周围环境对自 身的影响,如高支配度是一种主宰感,低支配度 是一种软弱感[14] ,理论上可以表示无穷多种情感, 但难以表述惊讶[15]。Fontaine 等 [16] 研究表明,在 PAD 模型基础上添加期望维,度量个体对情感出 现的准备性,可以描述惊讶。维度情感模型表征 情感能力强 (情感类别多、精确性高),可连续表征 情感变化,但维度情感理解困难且操作复杂,目 前研究者较少。 因此,为合理利用现有基于离散情感模型建 立的数据库,研究者们开始关注离散情感和维度 情感间的映射。Russell 提出环形模型[17] ,将 VA 模型空间中的某些区域解释为 28 种离散情感。 而后,Yik 等 [18] 将维度情感聚类为 8 种基本离散 情感,即情绪轮。再后,又将该模型聚类情感扩 展到 12 种。Plutchik[19] 引入更加复杂的混合情感 模型,即情绪“沙漏”。目前,环形模型和情绪“沙 漏”的关联性是大家关注的焦点,实用性有待研究[10]。 离散情感模型简单直接易搭建,但描述精度 不足;维度情感模型描述精度高,情感表征能力 强,但操作复杂,文献不多;离散情感和维度情感 间的映射有研究价值,但实用性有待研究。故如 何更好地将离散情感与维度情感结合来提升情感 状态表征精度,受到广泛关注。 2 情感语音数据库与数据标注 2.1 情感语音数据库 研究情感分类与回归算法,需要数据库的支 撑。目前情感语音数据库数量较多,但没有统一 ·2· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有