正在加载图片...
第4期 潘家辉,等:多模态情绪识别研究综述 ·637· 在特征级层面,常用的融合策略是将经特征 推广理论(Dempster-Shafer理论6、动态贝叶斯网 提取后全部模态特征数据级联为特征向量后再送 络6、模糊积分6等。 入一个情感分类器。如Emerich等s例将长度归一 Huang等6同时使用枚举权重及adaboost两 化的语音情感特征和面部表情特征级联起来,构 种不同决策级融合策略来比较情绪识别效果,使 造一个特征向量。实验结果表明语音信息系统提 用面部表情分类器和脑电图分类器作为增强分类 取的特征包含有价值的情感特征,这些特征是无 器的子分类器,并分别应用于两个学习任务(效价 法从视觉信息中提取出来的。当这两种模式融合 和唤醒)。结果表明这两种方法都能给出最后的 时,情绪识别系统的性能和鲁棒性都得到了提 效价和唤醒结果,在公开数据集DEAP、MAHNOB- 高,但这种直接级联拼接的方式导致了新特征空 HCI以及在线应用均取得不错的效果。 间不完备,融合后维数过高,当特征维数达到一 基于统计规则和概率理论均依赖于所有分类 定规模后,模型的性能将会下降。为此,Yan等s) 器相互独立的假设,这与实际情况不符。因此, 提出了一种基于稀疏核降秩回归(sparse kernel re 预测结果在一定程度上是不准确的。Lu等6采 duced-rank regression,SKRRR)特征级融合策略, 用了一种称为模糊积分的融合策略。模糊积分是 SKRRR方法是传统降秩回归(RRR)方法的非线 关于模糊测度的实函数的积分。实验发现眼球运 性扩展,将预测量和响应特征向量分别通过两个 动特征和脑电图对情绪识别具有互补作用,模糊 非线性映射映射到两个高维特征空间中进行核 积分融合策略的最佳准确率为87.59%,相比于其 化。openSMILE特征提取器和SIFT描述子分别 他融合方式,模糊积分融合能显著提高情绪识别 从语音模态和面部表情模态中提取有效特征,然 的准确性。通常情况下,多种模态间的信息并非 后使用SKRRR融合方法融合两种模态的情感特 完全独立,决策级融合会丢失不同模态之间的相 征。而Mansoorizadeh等s提出了一种异步的特 关性,所以在实际应用环境下识别的结果未必会 征级融合方法,在单个信号测量之外创建一个统 比单模态识别的效果好。 的混合特征空间,他们使用提出的方法从语音 4.4模型级融合 韵律和面部表情来识别基本的情绪状态。结果表 模型级模态融合67681不依赖于以上3种融合 明,与基于单模态人脸和基于语音的系统相比 层次的体系结构。决策级融合关键在于找出不同 基于特征级融合的系统性能明显提高。 模态在决策阶段的可信程度,但模型级融合并不 当模态信息针对同一内容而又不互相包含 需要重点去探究各模态的重要程度,而是根据模 时,特征级融合方法虽然能最大限度地保留原始 态特性需要建立合适的模型,联合学习关联信 信息,在理论上能达到最佳的识别效果9但是其 息。特征级融合则主要先通过构建特征集合或混 没有考虑到不同模态情绪特征之间的差异性。 合特征空间,再送入到分类模型进行分类决策。 4.3决策级融合 模型级融合可以将不同模态特征分别输入到不同 决策级融合5s561是找出各个模态的可信度, 模型结构再进行进一步特征提取,如Zheng等W 再进行协调、联合决策,如图4。决策级融合与特 采用将堆叠的受限玻尔兹曼机展开成深度置信网 征级融合相比,更容易进行,但关键是要探究各 络,首先以手工提取出来的脑电和眼动特征分别 个模态对情绪识别的重要度。 作为两个玻尔兹曼机的输入并从神经网络中学习 模态1 两种模式的共享表示,实验结果表明,基于深度 数据 特征提取 分类器 神经网络的模型级融合能显著提高性能。总的来 说,模型级融合相较于决策级融合和特征级融合 模态2 数据 特征提取 分类器2 融合 最大的优势在于可以灵活地选择融合的位置。 目前的模型级融合主要采取的策略是通过构 模态n 建深度网络模型,建立多层结构,逐层学习可以 特征提取 分类器, 数据 学习到更加复杂的变换,从而可以拟合更加复杂 图4决策级融合 的特征,增加非线性表达能力。Zhang等6m提出 Fig.4 Decision level fusion 一种充分利用深度神经网络强大的特征学习能力 决策级所采用的融合策略有基于统计学规则阿 的混合深度学习模型,将视听数据经卷积神经网 (总和规则、乘积规则、最大最小/中位数规则等)、 (convolutional neural networks,CNN)3DCNN 枚举权重s8s9、自适应增强606,贝叶斯推论及其 (three dimensional convolutional neural networks)在特征级层面,常用的融合策略是将经特征 提取后全部模态特征数据级联为特征向量后再送 入一个情感分类器。如 Emerich 等 [52] 将长度归一 化的语音情感特征和面部表情特征级联起来,构 造一个特征向量。实验结果表明语音信息系统提 取的特征包含有价值的情感特征,这些特征是无 法从视觉信息中提取出来的。当这两种模式融合 时,情绪识别系统的性能和鲁棒性都得到了提 高,但这种直接级联拼接的方式导致了新特征空 间不完备,融合后维数过高,当特征维数达到一 定规模后,模型的性能将会下降。为此,Yan 等 [53] 提出了一种基于稀疏核降秩回归 (sparse kernel re￾duced-rank regression,SKRRR) 特征级融合策略, SKRRR 方法是传统降秩回归 (RRR) 方法的非线 性扩展,将预测量和响应特征向量分别通过两个 非线性映射映射到两个高维特征空间中进行核 化。openSMILE 特征提取器和 SIFT 描述子分别 从语音模态和面部表情模态中提取有效特征,然 后使用 SKRRR 融合方法融合两种模态的情感特 征。而 Mansoorizadeh 等 [54] 提出了一种异步的特 征级融合方法,在单个信号测量之外创建一个统 一的混合特征空间,他们使用提出的方法从语音 韵律和面部表情来识别基本的情绪状态。结果表 明,与基于单模态人脸和基于语音的系统相比, 基于特征级融合的系统性能明显提高。 当模态信息针对同一内容而又不互相包含 时,特征级融合方法虽然能最大限度地保留原始 信息,在理论上能达到最佳的识别效果[49] ,但是其 没有考虑到不同模态情绪特征之间的差异性。 4.3 决策级融合 决策级融合[55-56] 是找出各个模态的可信度, 再进行协调、联合决策,如图 4。决策级融合与特 征级融合相比,更容易进行,但关键是要探究各 个模态对情绪识别的重要度。 模态 1 数据 模态 2 数据 模态 n 数据 特征提取 融合 特征提取 分类器 1 特征提取 分类器 2 分类器 n … … … 图 4 决策级融合 Fig. 4 Decision level fusion 决策级所采用的融合策略有基于统计学规则[57] (总和规则、乘积规则、最大/最小/中位数规则等)、 枚举权重[58-59] 、自适应增强[60-61] ,贝叶斯推论及其 推广理论 (Dempster-Shafer 理论[62] 、动态贝叶斯网 络 [63] )、模糊积分[64] 等。 Huang 等 [65] 同时使用枚举权重及 adaboost 两 种不同决策级融合策略来比较情绪识别效果,使 用面部表情分类器和脑电图分类器作为增强分类 器的子分类器,并分别应用于两个学习任务 (效价 和唤醒)。结果表明这两种方法都能给出最后的 效价和唤醒结果,在公开数据集 DEAP、MAHNOB￾HCI 以及在线应用均取得不错的效果。 基于统计规则和概率理论均依赖于所有分类 器相互独立的假设,这与实际情况不符。因此, 预测结果在一定程度上是不准确的。Lu 等 [66] 采 用了一种称为模糊积分的融合策略。模糊积分是 关于模糊测度的实函数的积分。实验发现眼球运 动特征和脑电图对情绪识别具有互补作用,模糊 积分融合策略的最佳准确率为 87.59%,相比于其 他融合方式,模糊积分融合能显著提高情绪识别 的准确性。通常情况下,多种模态间的信息并非 完全独立,决策级融合会丢失不同模态之间的相 关性,所以在实际应用环境下识别的结果未必会 比单模态识别的效果好。 4.4 模型级融合 模型级模态融合[67-68] 不依赖于以上 3 种融合 层次的体系结构。决策级融合关键在于找出不同 模态在决策阶段的可信程度,但模型级融合并不 需要重点去探究各模态的重要程度,而是根据模 态特性需要建立合适的模型,联合学习关联信 息。特征级融合则主要先通过构建特征集合或混 合特征空间,再送入到分类模型进行分类决策。 模型级融合可以将不同模态特征分别输入到不同 模型结构再进行进一步特征提取,如 Zheng 等 [17] 采用将堆叠的受限玻尔兹曼机展开成深度置信网 络,首先以手工提取出来的脑电和眼动特征分别 作为两个玻尔兹曼机的输入并从神经网络中学习 两种模式的共享表示,实验结果表明,基于深度 神经网络的模型级融合能显著提高性能。总的来 说,模型级融合相较于决策级融合和特征级融合 最大的优势在于可以灵活地选择融合的位置。 目前的模型级融合主要采取的策略是通过构 建深度网络模型,建立多层结构,逐层学习可以 学习到更加复杂的变换,从而可以拟合更加复杂 的特征,增加非线性表达能力。Zhang 等 [67] 提出 一种充分利用深度神经网络强大的特征学习能力 的混合深度学习模型,将视听数据经卷积神经网 络 (convolutional neural networks, CNN) 和 3DCNN (three dimensional convolutional neural networks) 产 第 4 期 潘家辉,等:多模态情绪识别研究综述 ·637·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有