正在加载图片...
6 智能系统学报 第15卷 性和可信度。陈师哲等结合面部表情和语音 话者无关中的识别正确率分别为89.16%和52.14%, 模态,采用SVM和随机森林来减弱文化差异对 远高于分别采用DBN和CNN获得的73.78%和 情感分类的影响。刘颖等结合面部表情和语 40.02%的正确率。Abdelwahab等s在合并情感 音双模态,采用GMM,有效提升分类的准确性。 语音数据库中采用域对抗神经网络(domain ad- 4.2情感回归算法 versarial neural network,DANN)根据提取的源域和 情感回归算法将测试样本的连续维度情感值 目标域的共同特征表示,实现PAD模型下的情感 映射到二维或多维坐标空间。情感回归传统方法 回归,提升鲁棒性。 为SVR(support vector regression),M。 般情感回归主要解决维度情感问题,为有 近年来,研究者将深度学习技术引入情感回 效利用仅标注离散情感的语音数据库,Ma等7到 归中,取得良好效果,如LSTM和DANN。Zhao 采用SVM分类,通过离散情感和维度情感间的 等5采用二维CNN LSTM网络学习局部特征学 单向映射,实现PAD模型下的情感回归;Ey- 习块和LSTM提取的局部特征和全局特征并在全 ben等o1将离散情感映射至VA模型中对应维度 连接层实现VA模型情感预测,改变DBN、CNN 情感坐标,拓展情感描述能力。基于此,表4描述 等算法模型只能学习一种深度特征的现状。在 了数据库特定离散情感类别至VA模型中维度情 IEMOCAP数据库中,本方法在说话者相关和说 感间的映射。 表4数据库离散情感到VA模型中的维度情感的映射统计表 Table 4 Mapping statistical table of dataset specific emotion categories to dimensional emotions in VA models 效价维 数据库 激活维 低 高 消极 积极 FAU AIBO 消极 积极 TUM AVIC 无聊 中立、快乐 无聊 中立、快乐 EMO-DB 无聊、厌恶、中性、悲伤 生气、害怕、开心 生气、悲伤 开心、中性、吃惊 快乐、宽慰、兴趣、 喜悦、娱乐、骄傲、 生气、恐惧、绝望、 喜悦、娱乐、骄傲、 GEMAP 烦躁、焦虑、悲伤 生气、恐惧、绝望 烦躁、焦虑、悲伤 快乐、宽慰、兴趣 VAM q2、q3 q1、q4 q3、q4 q1、q2 注:将VAM数据库离散情感映射到代表VA模型中的4个象限(q1、q2、q3和q4,对应于高-积极、低-积极、低-消极、高-消极), 以便于评估 离散情感简单易理解,可用于训练的数据库 学习算法因表征能力好、学习能力强,能有效提取 较多,受众广,其中,基于声学特征的情感分类 情感特征,但参数调整直接影响提取效果。情感分 研究成果丰硕而情感回归实现维度情感识别有 类与回归算法中,SVM等传统算法简单并能有效 待加强。 解决小样本、高维、非线性等问题,但对缺失数据 问题敏感且无法处理大样本:各类深度学习算法优 5对比与分析 点较多,如:KNN处理大样本能力强;RNN、LSTM 本部分首先总结当前研究者们在语音情感识 适合处理样本序列:ELM计算复杂但泛化能力强, 别的研究过程,然后对比分析各特征提取和情感 对训练数据依赖性大,处理大样本耗时。鉴于算法 分类与回归算法的优缺点,最后重点评析深度学 特点的差异,采用前需全面分析。 习的研究近况。 总体而言,深度学习因其有着比传统机器学 近年来,研究者们在语音情感特征、特征提取 习方法更优越的性能,近期在特征提取和情感分 方法、降维或融合方法、数据库、情感类别和情感 类与回归中受到广泛关注。但是在不断研究和 分类与回归算法等影响情感识别的方面做了不懈 处理中,研究者也发现深度学习主要存在以下 努力,取得了较好成就。故从这6个方面总结近年 3个方面的不足:1)作为典型的“黑箱”算法,不 语音情感识别相关研究,如表5所示。由于不同文 易描述网络具体实现且解释能力弱;2)以输入为 献所使用的数据库、特征和使用的情感类别等方面 导向的神经网络算法仅根据现有样本进行学习, 都不尽相同,暂不比较各分类与回归算法准确率。 但自身无法验证输入样本的代表性和正确性; 此外,表6概要分析了典型特征提取和情感分 3)隐藏层中节点个数设置缺乏客观性,主要凭借 类与回归算法的特点。DNN、CNN和DBN等深度 经验设置。性和可信度。陈师哲等[76] 结合面部表情和语音 模态,采用 SVM 和随机森林来减弱文化差异对 情感分类的影响。刘颖等[77] 结合面部表情和语 音双模态,采用 GMM,有效提升分类的准确性。 4.2 情感回归算法 情感回归算法将测试样本的连续维度情感值 映射到二维或多维坐标空间。情感回归传统方法 为 SVR(support vector regression)[41,47]。 近年来,研究者将深度学习技术引入情感回 归中,取得良好效果,如 LSTM 和 DANN。Zhao 等 [56] 采用二维 CNN LSTM 网络学习局部特征学 习块和 LSTM 提取的局部特征和全局特征并在全 连接层实现 VA 模型情感预测,改变 DBN、CNN 等算法模型只能学习一种深度特征的现状。在 IEMOCAP 数据库中,本方法在说话者相关和说 话者无关中的识别正确率分别为 89.16% 和 52.14%, 远高于分别采用 DBN 和 CNN 获得的 73.78% 和 40.02% 的正确率。Abdelwahab 等 [58] 在合并情感 语音数据库中采用域对抗神经网络 (domain ad￾versarial neural network, DANN) 根据提取的源域和 目标域的共同特征表示,实现 PAD 模型下的情感 回归,提升鲁棒性。 一般情感回归主要解决维度情感问题,为有 效利用仅标注离散情感的语音数据库,Ma 等 [78] 采用 SVM 分类,通过离散情感和维度情感间的 单向映射,实现 PAD 模型下的情感回归;Ey￾ben 等 [70] 将离散情感映射至 VA 模型中对应维度 情感坐标,拓展情感描述能力。基于此,表 4 描述 了数据库特定离散情感类别至 VA 模型中维度情 感间的映射。 表 4 数据库离散情感到 VA 模型中的维度情感的映射统计表[70] Table 4 Mapping statistical table of dataset specific emotion categories to dimensional emotions in VA models 数据库 激活维 效价维 低 高 消极 积极 FAU AIBO — — 消极 积极 TUM AVIC 无聊 中立、快乐 无聊 中立、快乐 EMO-DB 无聊、厌恶、中性、悲伤 生气、害怕、开心 生气、悲伤 开心、中性、吃惊 GEMAP 快乐、宽慰、兴趣、 烦躁、焦虑、悲伤 喜悦、娱乐、骄傲、 生气、恐惧、绝望 生气、恐惧、绝望、 烦躁、焦虑、悲伤 喜悦、娱乐、骄傲、 快乐、宽慰、兴趣 VAM q2、q3 q1、q4 q3、q4 q1、q2 注:将VAM数据库离散情感映射到代表VA模型中的4个象限(q1、q2、q3和q4, 对应于高−积极、低−积极、低−消极、高−消极), 以便于评估. 离散情感简单易理解,可用于训练的数据库 较多,受众广,其中,基于声学特征的情感分类 研究成果丰硕而情感回归实现维度情感识别有 待加强。 5 对比与分析 本部分首先总结当前研究者们在语音情感识 别的研究过程,然后对比分析各特征提取和情感 分类与回归算法的优缺点,最后重点评析深度学 习的研究近况。 近年来,研究者们在语音情感特征、特征提取 方法、降维或融合方法、数据库、情感类别和情感 分类与回归算法等影响情感识别的方面做了不懈 努力,取得了较好成就。故从这 6 个方面总结近年 语音情感识别相关研究,如表 5 所示。由于不同文 献所使用的数据库、特征和使用的情感类别等方面 都不尽相同,暂不比较各分类与回归算法准确率。 此外,表 6 概要分析了典型特征提取和情感分 类与回归算法的特点。DNN、CNN 和 DBN 等深度 学习算法因表征能力好、学习能力强,能有效提取 情感特征,但参数调整直接影响提取效果。情感分 类与回归算法中,SVM 等传统算法简单并能有效 解决小样本、高维、非线性等问题,但对缺失数据 问题敏感且无法处理大样本;各类深度学习算法优 点较多,如:KNN 处理大样本能力强;RNN、LSTM 适合处理样本序列;ELM 计算复杂但泛化能力强, 对训练数据依赖性大,处理大样本耗时。鉴于算法 特点的差异,采用前需全面分析。 总体而言,深度学习因其有着比传统机器学 习方法更优越的性能,近期在特征提取和情感分 类与回归中受到广泛关注。但是在不断研究和 处理中,研究者也发现深度学习主要存在以下 3 个方面的不足:1) 作为典型的“黑箱”算法,不 易描述网络具体实现且解释能力弱;2) 以输入为 导向的神经网络算法仅根据现有样本进行学习, 但自身无法验证输入样本的代表性和正确性; 3) 隐藏层中节点个数设置缺乏客观性,主要凭借 经验设置。 ·6· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有