正在加载图片...
智能系统学报 第15卷 表6特征提取和情感分类与回归算法特点统计表 Table 6 Statistical table of the feature extraction and sentiment classification and regression algorithms 算法名称 优点 缺点 解决小样本、高维、非线性等问题,泛化能力 对缺失数据敏感,对非线性问题没有通用解决方 SVM 强,避免网络结构选择。 案,训练时间较长。 简单有效.重新训练的代价较低,适用于样本 样本容量较小的类域易误分,输出解释性不强,计 KNN 容量较大的类域的自动分类。 算量较大。 DNN 可模拟任意函数,情感表征能力强。 处理大量数据时,耗时较严重。 提取抽象特征能力强,具有类内收敛、类间发 一定程度上解决梯度消失和缓解过拟合,对空间 CNN 散的特点。 信息不敏感。 RNN 引入记忆单元.可用于语音序列建模。 长时间训练易出现梯度爆炸。 LSTM 具有记忆特性,能有效学习帧间相关性。 仅使用历史信息。 GMM 对语音情感数据的拟合性能高。 需存储各维度各高斯分量的参数,对训练数据的 依据性强,计算较复杂。 HMM 适用于分析短时平稳的语音信号。 处理海量数据能力有限。 性能取决于混合高斯函数的个数,具有一定的局 GMM-HMM 可模拟任意函数.情感表征能力强。 限性。 泛化能力强,学习速度快,预测准确.诚轻计 ELM 输出层决策值的计算完全取决于标签。 算负担。 GAN 对原始数据底层概率分布的感知能力强。 训练不稳定且调参难度大 DBN 情感表征能力强,无监督特征学习能力强。 网络超参选择直接影响检测准确率。 为此,研究者们主要做了如下努力:1)采用 6 应用与发展趋势 数据可视化技术,如t-SNE9,从各个层次理解数 据分布,有助于模型敏感性分析,提升模型可解 语音情感识别源于简单、交互直观,应用广 释性;2)采用弱标注、无监督861或半监督8刀方 泛。商务谈判中,提取语音和表情进行情感计算 并利用云计算远程存储,实时获取情感信息,辅 法,在现有数据库基础上,尽可能利用无标签数 据,提取域共同特征表示,拓展模型泛化能力。 助用户决策:远程教育系统对学员的语音、姿 态和表情进行分析,及时反馈学习状态,调整教 3)在隐藏层数、节点和超参数调整时根据算法性 学计划,实现个性化培养;可穿戴设备监测用户 能反馈设置实时优化设置⑧刿,如通过LSTM等类 情感状态、通过语音交互,辅助医生进行精神分 深度学习算法获取时序信息[]和通过采用多个 裂症患者四、情绪障碍患者⑧4、自闭症儿童的状 模型检测隐藏变量。 态监测和治疗1。公共服务中,呼叫中心根据语 鉴于上述分析,概要深度学习在语音情感识 音情感值筛选紧急电话⑧剧。机器人通过语音情感 别领域中的发展趋势: 识别,提升了人机交互91的针对性和准确性,为 1)当前机器缺乏理论推理是因为没有常识, 实现机器情感仿生奠定了基础。 故张钱院士提出将感知和认知投射到语义向量空 语音情感识别显示出广阔的应用前景。研究 间(特征向量空间和符号向量投射到一个空间, 者对语音情感识别深入探索,推进了其理论研究 该空间称之为语义向量空间),从而为感知和认知 和实际应用。目前已基本实现安静环境下的语音 建立统一的理论框架,统一处理,解决理解问题。 情感识别。而嘈杂环境下的语音情感识别尚有待 2)鉴于当前深度学习存在需要大量的数据 深入;此外,现有情感语音数据库总体语料不足, 集、知识无法积累等问题,可采用迁移学习或基 特别是自然型数据库。同时标注离散情感和维度 于度量、模型和优化的元学习方法,实现小样本 情感的语音数据库数量较少,如何对数据库同时 学习,在一定程度上实现知识积累。 标注,尚未形成广泛认可的体系;标注方法较少 3)使用更高算力的设备。如清华大学团队在 典型特征近期没有得到重大突破、语音情感识别 《自然》上介绍的天机芯片,灵活使用类脑计算 理论需进一步完善。综上所述,语音情感识别尚 和深度学习算法9),使语音情感识别运算结果尽 未达到成熟阶段,需进行语料库的丰富、理论的 可能达到模型理论推导的预期结果。 加强和方法的创新。尚待解决的问题和未来发展为此,研究者们主要做了如下努力:1) 采用 数据可视化技术,如 t-SNE[59] ,从各个层次理解数 据分布,有助于模型敏感性分析,提升模型可解 释性;2) 采用弱标注、无监督[86] 或半监督[87] 方 法,在现有数据库基础上,尽可能利用无标签数 据,提取域共同特征表示,拓展模型泛化能力[79]。 3) 在隐藏层数、节点和超参数调整时根据算法性 能反馈设置实时优化设置[89] ,如通过 LSTM 等类 深度学习算法获取时序信息[90] 和通过采用多个 模型检测隐藏变量。 鉴于上述分析,概要深度学习在语音情感识 别领域中的发展趋势: 1) 当前机器缺乏理论推理是因为没有常识, 故张䥽院士提出将感知和认知投射到语义向量空 间 (特征向量空间和符号向量投射到一个空间, 该空间称之为语义向量空间),从而为感知和认知 建立统一的理论框架,统一处理,解决理解问题。 2) 鉴于当前深度学习存在需要大量的数据 集、知识无法积累等问题,可采用迁移学习或基 于度量、模型和优化的元学习方法,实现小样本 学习,在一定程度上实现知识积累。 3) 使用更高算力的设备。如清华大学团队在 《自然》上介绍的天机芯片,灵活使用类脑计算 和深度学习算法[91] ,使语音情感识别运算结果尽 可能达到模型理论推导的预期结果。 6 应用与发展趋势 语音情感识别源于简单、交互直观,应用广 泛。商务谈判中,提取语音和表情进行情感计算 并利用云计算远程存储,实时获取情感信息,辅 助用户决策[91] ;远程教育系统对学员的语音、姿 态和表情进行分析,及时反馈学习状态,调整教 学计划,实现个性化培养;可穿戴设备监测用户 情感状态、通过语音交互,辅助医生进行精神分 裂症患者[92] 、情绪障碍患者[84] 、自闭症儿童的状 态监测和治疗[93]。公共服务中,呼叫中心根据语 音情感值筛选紧急电话[85]。机器人通过语音情感 识别,提升了人机交互[94] 的针对性和准确性,为 实现机器情感仿生奠定了基础。 语音情感识别显示出广阔的应用前景。研究 者对语音情感识别深入探索,推进了其理论研究 和实际应用。目前已基本实现安静环境下的语音 情感识别。而嘈杂环境下的语音情感识别尚有待 深入;此外,现有情感语音数据库总体语料不足, 特别是自然型数据库。同时标注离散情感和维度 情感的语音数据库数量较少,如何对数据库同时 标注,尚未形成广泛认可的体系;标注方法较少、 典型特征近期没有得到重大突破、语音情感识别 理论需进一步完善。综上所述,语音情感识别尚 未达到成熟阶段,需进行语料库的丰富、理论的 加强和方法的创新。尚待解决的问题和未来发展 表 6 特征提取和情感分类与回归算法特点统计表 Table 6 Statistical table of the feature extraction and sentiment classification and regression algorithms 算法名称 优点 缺点 SVM 解决小样本、高维、非线性等问题, 泛化能力 强, 避免网络结构选择。 对缺失数据敏感, 对非线性问题没有通用解决方 案, 训练时间较长。 KNN 简单有效, 重新训练的代价较低, 适用于样本 容量较大的类域的自动分类。 样本容量较小的类域易误分, 输出解释性不强, 计 算量较大。 DNN 可模拟任意函数,情感表征能力强。 处理大量数据时,耗时较严重。 CNN 提取抽象特征能力强, 具有类内收敛、类间发 散的特点。 一定程度上解决梯度消失和缓解过拟合,对空间 信息不敏感。 RNN 引入记忆单元,可用于语音序列建模。 长时间训练易出现梯度爆炸。 LSTM 具有记忆特性,能有效学习帧间相关性。 仅使用历史信息。 GMM 对语音情感数据的拟合性能高。 需存储各维度各高斯分量的参数, 对训练数据的 依据性强, 计算较复杂。 HMM 适用于分析短时平稳的语音信号。 处理海量数据能力有限。 GMM-HMM 可模拟任意函数,情感表征能力强。 性能取决于混合高斯函数的个数,具有一定的局 限性。 ELM 泛化能力强, 学习速度快,预测准确,减轻计 算负担。 输出层决策值的计算完全取决于标签。 GAN 对原始数据底层概率分布的感知能力强。 训练不稳定且调参难度大 DBN 情感表征能力强, 无监督特征学习能力强。 网络超参选择直接影响检测准确率。 ·8· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有