发和事件诱发。主体诱发指借助回忆相关情绪的事件来产生相关的情绪，这是一

点击下载：多模态情绪识别研究综述（华南师范大学：潘家辉1、何志鹏1、李自娜2、梁艳1、邱丽娜）

正在加载图片...

·636· 智能系统学报第15卷发和事件诱发。 6.60%),综合分析出多个信号及其相互依赖可以主体诱发指借助回忆相关情绪的事件来产生构建出更准确地反映人类情感表达潜在本质的模相关的情绪，这是一个由被试者主动诱发目标情型。与文献[44不同，Poria等在充分讨论了单绪的方式。Zhuang等B设计了30名被试者在观模态识别方法的现状基础上，根据实验的准确性看每个电影片段（共18个片段）后，被试者被要求对基于同一数据集的多模态融合情绪识别研究与通过回忆每个电影中的特定场景来自我诱导6种单模态情绪识别进行了横向比较，同样有力证明离散情绪，包括喜悦、中立、悲伤、厌恶、愤怒和了高效的模态融合能极大地提高情绪识别系统的恐惧。lacoviello等B也做了类似的自诱发情绪健壮性。利用不同类别的信号相互支持，对互补的研究，该研究是对厌恶情绪和中立情绪进行二信息进行融合处理，能够有效地提高最终的识别效分类实验，被试者通过回忆一种不愉快的气味进果6。根据目前已有的研究，模态融合的方式大行自诱发情绪。主体诱发能充分反映被试者的主致可分为4种，分别是数据级融合（传感层融合）、观情感体验，但难以控制情绪诱发的时间且易受特征级融合、决策级融合、模型层融合。外界干扰。 4.1数据级融合事件诱发是指使用不同情绪相关的刺激材料数据级融合74，又称传感器层融合。数据来诱发被试者的某一目标情绪状态，如图片、声级融合是直接对各个传感器采集到的最原始的、音、视频、气味等。镜像神经元理论B)表明当一没有经过特殊处理的数据进行组合，从而构造一个人观察另一个人的活动时，其脑部也在做类似组新的数据，如图2。的活动。事件诱发正是根据该原理设计诱发情绪模态1 的方式。事件诱发能够更加高效地诱发被试者的数据目标情绪，因此其被广泛地用于设计诱发情绪方模态2 融合特征提取分类器式。事件诱发相对常用的刺激方式包括图片刺数据激、听觉刺激以及多媒体材料。当前公认的图片模态n 情绪刺激材料有Lang等B)采集的国际情绪图数据片，听觉刺激材料库则有Bradley等B采集的国图2数据级融合际情绪数字化声音。 Fig.2 Data level fusion 而目前公开的多模态情绪数据集大多采用多目前数据级融合处理的方法有数值处理、参媒体材料来诱发情绪。其中采集了多种生理信号数估计。具体为使用线性、非线性估计和统计运的最具代表性数据集的就是DEAP数据集4o。算方法对来自多个数据源的数据进行计算处理9。 DEAP数据集诱发方式要求32位被试者在观看其优点是：可以很好地保留各个模态传感器上的 40段1min的音乐视频片段后填写自我情绪评定数据信息，避免信息的丢失，保持信息的完整量表(self-assessment manikin,.SAM)。收集了生理性。但其缺点也是明显的，因为数据是在原始状信号和行为表现的数据集有MAHNOB-HCI数据态下进行融合，因此处理过程极为繁琐复杂。集，是记录由情绪电影刺激产生神经生理信号 4.2特征级融合和行为表现的多模态数据库。基于多种行为表现特征级融合50s)是将多种模态数据经过提模态的数据集有Martin等aa制作的视听数据集取、构建成相应的模态特征之后，再拼接成一个 eNTERFACE'05,共有42位被试者，可以使用该集成各个模态特征的特征集，如图3。数据库作为测试和评估视频、音频或者视听情感识别算法。模态1 特征提取数据 4 多模态融合策略 00 模态2 特征提毦融合分类器在单模态情绪识别领域，单模态信息易受各数据种噪声的影响，难以完整地反映情绪状态。文献[44]使用统计方法深入讨论单模态和多模态情模态n 特征提取绪识别精度。他们比较了不同算法在不同数据集数据上的准确性，85%多模态情绪识别系统比最佳单图3特征级融合模态对应系统更准确，平均提高9.83%（中位数为 Fig.3 Feature level fusion发和事件诱发。主体诱发指借助回忆相关情绪的事件来产生相关的情绪，这是一个由被试者主动诱发目标情绪的方式。Zhuang 等 [35] 设计了 30 名被试者在观看每个电影片段 (共 18 个片段) 后，被试者被要求通过回忆每个电影中的特定场景来自我诱导 6 种离散情绪，包括喜悦、中立、悲伤、厌恶、愤怒和恐惧。Iacoviello 等 [36] 也做了类似的自诱发情绪的研究，该研究是对厌恶情绪和中立情绪进行二分类实验，被试者通过回忆一种不愉快的气味进行自诱发情绪。主体诱发能充分反映被试者的主观情感体验，但难以控制情绪诱发的时间且易受外界干扰。事件诱发是指使用不同情绪相关的刺激材料来诱发被试者的某一目标情绪状态，如图片、声音、视频、气味等。镜像神经元理论[37] 表明当一个人观察另一个人的活动时，其脑部也在做类似的活动。事件诱发正是根据该原理设计诱发情绪的方式。事件诱发能够更加高效地诱发被试者的目标情绪，因此其被广泛地用于设计诱发情绪方式。事件诱发相对常用的刺激方式包括图片刺激、听觉刺激以及多媒体材料。当前公认的图片情绪刺激材料有 Lang 等 [38] 采集的国际情绪图片，听觉刺激材料库则有 Bradley 等 [39] 采集的国际情绪数字化声音。而目前公开的多模态情绪数据集大多采用多媒体材料来诱发情绪。其中采集了多种生理信号的最具代表性数据集的就是 DEAP 数据集[ 4 0 ]。 DEAP 数据集诱发方式要求 32 位被试者在观看 40 段 1 min 的音乐视频片段后填写自我情绪评定量表 (self-assessment manikin，SAM)。收集了生理信号和行为表现的数据集有 MAHNOB-HCI 数据集 [41] ，是记录由情绪电影刺激产生神经生理信号和行为表现的多模态数据库。基于多种行为表现模态的数据集有 Martin 等 [42] 制作的视听数据集 eNTERFACE’05，共有 42 位被试者，可以使用该数据库作为测试和评估视频、音频或者视听情感识别算法。 4 多模态融合策略在单模态情绪识别领域，单模态信息易受各种噪声的影响，难以完整地反映情绪状态[43]。文献 [44] 使用统计方法深入讨论单模态和多模态情绪识别精度。他们比较了不同算法在不同数据集上的准确性，85% 多模态情绪识别系统比最佳单模态对应系统更准确，平均提高 9.83%(中位数为 6.60%)，综合分析出多个信号及其相互依赖可以构建出更准确地反映人类情感表达潜在本质的模型。与文献 [44] 不同，Poria 等 [45] 在充分讨论了单模态识别方法的现状基础上，根据实验的准确性对基于同一数据集的多模态融合情绪识别研究与单模态情绪识别进行了横向比较，同样有力证明了高效的模态融合能极大地提高情绪识别系统的健壮性。利用不同类别的信号相互支持，对互补信息进行融合处理，能够有效地提高最终的识别效果 [46]。根据目前已有的研究，模态融合的方式大致可分为 4 种，分别是数据级融合 (传感层融合)、特征级融合、决策级融合、模型层融合。 4.1 数据级融合数据级融合[47-48] ，又称传感器层融合。数据级融合是直接对各个传感器采集到的最原始的、没有经过特殊处理的数据进行组合，从而构造一组新的数据，如图 2。融合特征提取分类器 … 模态 1 数据模态 2 数据模态 n 数据图 2 数据级融合 Fig. 2 Data level fusion 目前数据级融合处理的方法有数值处理、参数估计。具体为使用线性、非线性估计和统计运算方法对来自多个数据源的数据进行计算处理[49]。其优点是：可以很好地保留各个模态传感器上的数据信息，避免信息的丟失，保持信息的完整性。但其缺点也是明显的，因为数据是在原始状态下进行融合，因此处理过程极为繁琐复杂。 4.2 特征级融合特征级融合[50-51] 是将多种模态数据经过提取、构建成相应的模态特征之后，再拼接成一个集成各个模态特征的特征集，如图 3。模态 1 数据模态 2 数据模态 n 数据特征提取融合分类器特征提取特征提取 … … 图 3 特征级融合 Fig. 3 Feature level fusion ·636· 智能系统学报第 15 卷

<<向上翻页向下翻页>>

点击下载：多模态情绪识别研究综述（华南师范大学：潘家辉1、何志鹏1、李自娜2、梁艳1、邱丽娜）