正在加载图片...
·636· 智能系统学报 第15卷 发和事件诱发。 6.60%),综合分析出多个信号及其相互依赖可以 主体诱发指借助回忆相关情绪的事件来产生 构建出更准确地反映人类情感表达潜在本质的模 相关的情绪,这是一个由被试者主动诱发目标情 型。与文献[44不同,Poria等在充分讨论了单 绪的方式。Zhuang等B设计了30名被试者在观 模态识别方法的现状基础上,根据实验的准确性 看每个电影片段(共18个片段)后,被试者被要求 对基于同一数据集的多模态融合情绪识别研究与 通过回忆每个电影中的特定场景来自我诱导6种 单模态情绪识别进行了横向比较,同样有力证明 离散情绪,包括喜悦、中立、悲伤、厌恶、愤怒和 了高效的模态融合能极大地提高情绪识别系统的 恐惧。lacoviello等B也做了类似的自诱发情绪 健壮性。利用不同类别的信号相互支持,对互补 的研究,该研究是对厌恶情绪和中立情绪进行二 信息进行融合处理,能够有效地提高最终的识别效 分类实验,被试者通过回忆一种不愉快的气味进 果6。根据目前已有的研究,模态融合的方式大 行自诱发情绪。主体诱发能充分反映被试者的主 致可分为4种,分别是数据级融合(传感层融合)、 观情感体验,但难以控制情绪诱发的时间且易受 特征级融合、决策级融合、模型层融合。 外界干扰。 4.1数据级融合 事件诱发是指使用不同情绪相关的刺激材料 数据级融合74,又称传感器层融合。数据 来诱发被试者的某一目标情绪状态,如图片、声 级融合是直接对各个传感器采集到的最原始的、 音、视频、气味等。镜像神经元理论B)表明当一 没有经过特殊处理的数据进行组合,从而构造一 个人观察另一个人的活动时,其脑部也在做类似 组新的数据,如图2。 的活动。事件诱发正是根据该原理设计诱发情绪 模态1 的方式。事件诱发能够更加高效地诱发被试者的 数据 目标情绪,因此其被广泛地用于设计诱发情绪方 模态2 融合 特征提取 分类器 式。事件诱发相对常用的刺激方式包括图片刺 数据 激、听觉刺激以及多媒体材料。当前公认的图片 模态n 情绪刺激材料有Lang等B)采集的国际情绪图 数据 片,听觉刺激材料库则有Bradley等B采集的国 图2数据级融合 际情绪数字化声音。 Fig.2 Data level fusion 而目前公开的多模态情绪数据集大多采用多 目前数据级融合处理的方法有数值处理、参 媒体材料来诱发情绪。其中采集了多种生理信号 数估计。具体为使用线性、非线性估计和统计运 的最具代表性数据集的就是DEAP数据集4o。 算方法对来自多个数据源的数据进行计算处理9。 DEAP数据集诱发方式要求32位被试者在观看 其优点是:可以很好地保留各个模态传感器上的 40段1min的音乐视频片段后填写自我情绪评定 数据信息,避免信息的丢失,保持信息的完整 量表(self-assessment manikin,.SAM)。收集了生理 性。但其缺点也是明显的,因为数据是在原始状 信号和行为表现的数据集有MAHNOB-HCI数据 态下进行融合,因此处理过程极为繁琐复杂。 集,是记录由情绪电影刺激产生神经生理信号 4.2特征级融合 和行为表现的多模态数据库。基于多种行为表现 特征级融合50s)是将多种模态数据经过提 模态的数据集有Martin等aa制作的视听数据集 取、构建成相应的模态特征之后,再拼接成一个 eNTERFACE'05,共有42位被试者,可以使用该 集成各个模态特征的特征集,如图3。 数据库作为测试和评估视频、音频或者视听情感 识别算法。 模态1 特征提取 数据 4 多模态融合策略 00 模态2 特征提毦 融合 分类器 在单模态情绪识别领域,单模态信息易受各 数据 种噪声的影响,难以完整地反映情绪状态。文 献[44]使用统计方法深入讨论单模态和多模态情 模态n 特征提取 绪识别精度。他们比较了不同算法在不同数据集 数据 上的准确性,85%多模态情绪识别系统比最佳单 图3特征级融合 模态对应系统更准确,平均提高9.83%(中位数为 Fig.3 Feature level fusion发和事件诱发。 主体诱发指借助回忆相关情绪的事件来产生 相关的情绪,这是一个由被试者主动诱发目标情 绪的方式。Zhuang 等 [35] 设计了 30 名被试者在观 看每个电影片段 (共 18 个片段) 后,被试者被要求 通过回忆每个电影中的特定场景来自我诱导 6 种 离散情绪,包括喜悦、中立、悲伤、厌恶、愤怒和 恐惧。Iacoviello 等 [36] 也做了类似的自诱发情绪 的研究,该研究是对厌恶情绪和中立情绪进行二 分类实验,被试者通过回忆一种不愉快的气味进 行自诱发情绪。主体诱发能充分反映被试者的主 观情感体验,但难以控制情绪诱发的时间且易受 外界干扰。 事件诱发是指使用不同情绪相关的刺激材料 来诱发被试者的某一目标情绪状态,如图片、声 音、视频、气味等。镜像神经元理论[37] 表明当一 个人观察另一个人的活动时,其脑部也在做类似 的活动。事件诱发正是根据该原理设计诱发情绪 的方式。事件诱发能够更加高效地诱发被试者的 目标情绪,因此其被广泛地用于设计诱发情绪方 式。事件诱发相对常用的刺激方式包括图片刺 激、听觉刺激以及多媒体材料。当前公认的图片 情绪刺激材料有 Lang 等 [38] 采集的国际情绪图 片,听觉刺激材料库则有 Bradley 等 [39] 采集的国 际情绪数字化声音。 而目前公开的多模态情绪数据集大多采用多 媒体材料来诱发情绪。其中采集了多种生理信号 的最具代表性数据集的就是 DEAP 数据集[ 4 0 ]。 DEAP 数据集诱发方式要求 32 位被试者在观看 40 段 1 min 的音乐视频片段后填写自我情绪评定 量表 (self-assessment manikin,SAM)。收集了生理 信号和行为表现的数据集有 MAHNOB-HCI 数据 集 [41] ,是记录由情绪电影刺激产生神经生理信号 和行为表现的多模态数据库。基于多种行为表现 模态的数据集有 Martin 等 [42] 制作的视听数据集 eNTERFACE’05,共有 42 位被试者,可以使用该 数据库作为测试和评估视频、音频或者视听情感 识别算法。 4 多模态融合策略 在单模态情绪识别领域,单模态信息易受各 种噪声的影响,难以完整地反映情绪状态[43]。文 献 [44] 使用统计方法深入讨论单模态和多模态情 绪识别精度。他们比较了不同算法在不同数据集 上的准确性,85% 多模态情绪识别系统比最佳单 模态对应系统更准确,平均提高 9.83%(中位数为 6.60%),综合分析出多个信号及其相互依赖可以 构建出更准确地反映人类情感表达潜在本质的模 型。与文献 [44] 不同,Poria 等 [45] 在充分讨论了单 模态识别方法的现状基础上,根据实验的准确性 对基于同一数据集的多模态融合情绪识别研究与 单模态情绪识别进行了横向比较,同样有力证明 了高效的模态融合能极大地提高情绪识别系统的 健壮性。利用不同类别的信号相互支持,对互补 信息进行融合处理,能够有效地提高最终的识别效 果 [46]。根据目前已有的研究,模态融合的方式大 致可分为 4 种,分别是数据级融合 (传感层融合)、 特征级融合、决策级融合、模型层融合。 4.1 数据级融合 数据级融合[47-48] ,又称传感器层融合。数据 级融合是直接对各个传感器采集到的最原始的、 没有经过特殊处理的数据进行组合,从而构造一 组新的数据,如图 2。 融合 特征提取 分类器 … 模态 1 数据 模态 2 数据 模态 n 数据 图 2 数据级融合 Fig. 2 Data level fusion 目前数据级融合处理的方法有数值处理、参 数估计。具体为使用线性、非线性估计和统计运 算方法对来自多个数据源的数据进行计算处理[49]。 其优点是:可以很好地保留各个模态传感器上的 数据信息,避免信息的丟失,保持信息的完整 性。但其缺点也是明显的,因为数据是在原始状 态下进行融合,因此处理过程极为繁琐复杂。 4.2 特征级融合 特征级融合[50-51] 是将多种模态数据经过提 取、构建成相应的模态特征之后,再拼接成一个 集成各个模态特征的特征集,如图 3。 模态 1 数据 模态 2 数据 模态 n 数据 特征提取 融合 分类器 特征提取 特征提取 … … 图 3 特征级融合 Fig. 3 Feature level fusion ·636· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有