第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0:10.11992tis.202001032 多模态情绪识别研究综述 潘家辉,何志鹏',李自娜2,梁艳,邱丽娜 (1.华南师范大学软件学院,广东佛山528225,2.华南师范大学计算机学院,广东广州510641) 摘要:本文针对多模态情绪识别这一新兴领域进行综述。首先从情绪描述模型及情绪诱发方式两个方面对 情绪识别的研究基础进行了综述。接着针对多模态情绪识别中的信息融合这一重难点问题,从数据级融合、特 征级融合、决策级融合、模型级融合4种融合层次下的主流高效信息融合策略进行了介绍。然后从多种行为表 现模态混合、多神经生理模态混合、神经生理与行为表现模态混合这3个角度分别列举具有代表性的多模态混 合实例,全面合理地论证了多模态相较于单模态更具情绪区分能力和情绪表征能力,同时对多模态情绪识别方 法转为工程技术应用提出了一些思考。最后立足于情绪识别研究现状的分析和把握,对改善和提升情绪识别 模型性能的方式和策略进行了深入的探讨与展望。 关键词:情绪识别:情绪描述模型:情绪诱发方式:信息融合:融合策略:情绪表征:模态混合 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2020)04-0633-13 中文引用格式:潘家辉,何志鹏,李自娜,等.多模态情绪识别研究综述.智能系统学报,2020,15(4):633-645. 英文引用格式:PAN Jiahui,,HE Zhipeng,LI Zina,et aL.A review of multimodal emotion recognition Jl.CAAI transactions on in- telligent systems,2020,15(4):633-645. A review of multimodal emotion recognition PAN Jiahui',HE Zhipeng',LI Zina',LIANG Yan',QIU Lina' (1.School of Software,South China Normal University,Foshan 528225,China;2.School of Computer,South China Normal Uni- versity,Guangzhou 510641,China) Abstract:This paper reviews the emerging field of multimodal emotion recognition.Firstly,the research foundation of emotion recognition is summarized from two aspects:emotion description model and emotion-inducing mode.Then, aiming at the key and difficult problem of information fusion in multi-modal emotion recognition,some mainstream and high-efficiency information fusion strategies are introduced from four fusion levels:data-level fusion,feature-level fu- sion,decision-level fusion,and model-level fusion.By exemplifying representative multi-modal mixing examples from three perspectives:the mixing of multiple external presentation modalities,the mixing of multiple neurophysiological modalities,and the mixing of neurophysiology and external presentation modalities,it fully demonstrates that multi- modality is more capable of emotional discrimination and emotional representation than single-modality.At the same time,some thoughts on the conversion of multi-modal recognition methods to engineering technology applications are put forward.Finally,based on the analysis and grasp of the current situation of emotion recognition research,the ways and strategies for improving and enhancing the performance of the emotion recognition models are discussed and pro- spected. Keywords:emotion recognition;emotion description model;emotion inducing mode;information fusion;fusion strategy;emotion representation;modality blend 收稿日期:2020-01-30. 1相关研究 基金项目:国家自然科学基金面上项目(61876067):广东省自 然科学基金面上项目(2019A1515011375):广州市科 1.1背景与研究意义 技计划项目重点领域研发计划项目(202007030005). 通信作者:潘家辉,E-mail:panjh82@qq.com 情绪,是一系列主观认知经验的高度概括,由
DOI: 10.11992/tis.202001032 多模态情绪识别研究综述 潘家辉1 ,何志鹏1 ,李自娜2 ,梁艳1 ,邱丽娜1 (1. 华南师范大学 软件学院,广东 佛山 528225; 2. 华南师范大学 计算机学院,广东 广州 510641) 摘 要:本文针对多模态情绪识别这一新兴领域进行综述。首先从情绪描述模型及情绪诱发方式两个方面对 情绪识别的研究基础进行了综述。接着针对多模态情绪识别中的信息融合这一重难点问题,从数据级融合、特 征级融合、决策级融合、模型级融合 4 种融合层次下的主流高效信息融合策略进行了介绍。然后从多种行为表 现模态混合、多神经生理模态混合、神经生理与行为表现模态混合这 3 个角度分别列举具有代表性的多模态混 合实例,全面合理地论证了多模态相较于单模态更具情绪区分能力和情绪表征能力,同时对多模态情绪识别方 法转为工程技术应用提出了一些思考。最后立足于情绪识别研究现状的分析和把握,对改善和提升情绪识别 模型性能的方式和策略进行了深入的探讨与展望。 关键词:情绪识别;情绪描述模型;情绪诱发方式;信息融合;融合策略;情绪表征;模态混合 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2020)04−0633−13 中文引用格式:潘家辉, 何志鹏, 李自娜, 等. 多模态情绪识别研究综述 [J]. 智能系统学报, 2020, 15(4): 633–645. 英文引用格式:PAN Jiahui, HE Zhipeng, LI Zina, et al. A review of multimodal emotion recognition[J]. CAAI transactions on intelligent systems, 2020, 15(4): 633–645. A review of multimodal emotion recognition PAN Jiahui1 ,HE Zhipeng1 ,LI Zina2 ,LIANG Yan1 ,QIU Lina1 (1. School of Software, South China Normal University, Foshan 528225, China; 2. School of Computer, South China Normal University, Guangzhou 510641, China) Abstract: This paper reviews the emerging field of multimodal emotion recognition. Firstly, the research foundation of emotion recognition is summarized from two aspects: emotion description model and emotion-inducing mode. Then, aiming at the key and difficult problem of information fusion in multi-modal emotion recognition, some mainstream and high-efficiency information fusion strategies are introduced from four fusion levels: data-level fusion, feature-level fusion, decision-level fusion, and model-level fusion. By exemplifying representative multi-modal mixing examples from three perspectives: the mixing of multiple external presentation modalities, the mixing of multiple neurophysiological modalities, and the mixing of neurophysiology and external presentation modalities, it fully demonstrates that multimodality is more capable of emotional discrimination and emotional representation than single-modality. At the same time, some thoughts on the conversion of multi-modal recognition methods to engineering technology applications are put forward. Finally, based on the analysis and grasp of the current situation of emotion recognition research, the ways and strategies for improving and enhancing the performance of the emotion recognition models are discussed and prospected. Keywords: emotion recognition; emotion description model; emotion inducing mode; information fusion; fusion strategy; emotion representation; modality blend 1 相关研究 1.1 背景与研究意义 情绪,是一系列主观认知经验的高度概括,由 收稿日期:2020−01−30. 基金项目:国家自然科学基金面上项目 (61876067);广东省自 然科学基金面上项目 (2019A1515011375);广州市科 技计划项目重点领域研发计划项目 (202007030005). 通信作者:潘家辉,E-mail:panjh82@qq.com. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
·634· 智能系统学报 第15卷 多种感觉、思想和行为等产生的生理心理状态。 兰州大学普适感知与智能系统团队主要研究 人们在交流过程中无时无刻不传递着大量的情绪 基于人体生理信号和眼动、表情等行为表现模态 信息。从认知神经科学角度来看,情绪也属于经 的多模态知识建模及应用。通过对生理信号等 典认知的一种。情绪在人与人之间的沟通中意义 模态,组织与建模,研究适用于不同人群(抑郁症 重大,而在人机交互中,情绪识别是实现人性化 患者、心理高压患者)的模型,为准确、客观、实时 必不可少的部分。 地监控异常情感与心理状态变化。东南大学情感 1995年,Picard等四提出了“情感计算”,情感 信息处理团队开展了基于脑电、表情、语音、肢体 计算要赋予计算机像人一样的观察理解和生成情 动作等模态的情绪分析研究516,在情感分析的 感特征的能力,最终使得计算机像人一样进行自 基础探究和实践应用都取得了一定的成果。 然亲近和生动交互。情感计算逐渐演变成高级人 基于神经生理信号的情绪识别的研究方面, 机交互的关键技术,而情感计算的子领域情绪识 上海交通大学吕宝粮教授团队建立了公开情绪数 别更是人工智能领域中日益受到重点关注的研究 据集SEED叨,并且在情绪最相关的信号频段和脑 方向。 区、脑电的时间稳定性等基础研究方面做了不少 情绪识别应用领域非常广阔,涉及日常生活 相关的探索1。另外,中国科学院自动化研究 的方方面面。在医学领域),情绪识别能为精神 所何晖光研究团队02训和西南大学刘光远教授团 疾病的诊断治疗提供依据。比如在意识障碍的诊 队22]都对生理信号的情绪识别进行了较为深入 断上,利用标准的行为量表不容易检测患者的意 的研究。 识状态,而计算机辅助评估意识障碍患者的情绪 2情绪模型描述 能帮助医生更好地做出诊断和治疗;在远程教育 领域],学生佩戴具有情绪识别功能的便携设 情绪识别本质上是挖掘出有关情绪的特征数 备,以便教师可以监控学生在远程授课过程中的 据与内在情绪状态的映射关系,如图1所示。情 情绪状态,从而调整授课的进度和方式。在交通 绪建模是指通过建立数学模型对情绪状态进行描 领域中6刃,对于那些需要高度集中注意力进行操 述,从科学角度对情绪状态进行分类甚至量化。 作的工作人员,例如宇航员、长途旅行客车司机、 情绪模型的建立对于情绪测量有重要的意义,通 飞行员等,他们的愤怒、焦虑、悲伤等负面情绪会 过它可以对情绪状态做出较为准确的评估。2003 严重影响他们的专注度,导致操作水平下降,造 年,Picard2就情绪建模描述进行了探讨。许多 成交通事故的发生⑧。及时检测这类人员的情绪 研究者提出了相应的情绪表征方法,依据表征方 状态是避免事故发生的一种有效手段。 式的不同,可划分为离散情绪模型、维度情绪模 1.2研究现状 型以及其他情绪模型,完整的描述如表1。 近年来,随着人工智能和便携无创人体传感 离散情绪模型指的是情绪由几种基本的离散 器技术的不断发展,多模态情绪识别已成为国内 的情绪构成,正如传统观念上的“喜怒哀乐”。Ek 外情感计算领域的研究热点。目前,多模态情绪 man等2认为情绪由悲伤、恐惧、厌恶、惊讶、高 识别的研究主要集中于以下几个层面,基于多种 兴和愤怒组成,这6种情绪通过一定的组合模式 外在行为表现模态、基于多种神经生理模态、基 可构成更为复杂的情绪类别。然而这种描述方 于神经生理状态和行为潜意识行为。我国在这些 式,无法科学地描述情绪的本质,也无法很好地 层面的情绪识别研究均取得了初步成果。 从计算的角度来分析情绪状态。 基于行为表现方面,中国地质大学吴敏教授 维度情绪模型是将情绪状态映射为某一空间 情感计算团队在基于语音情感、人脸表情等基于 上的点,不同的情绪状态依据不同维度分布在空 外在行为的多模态情绪识别方面开展了研究 间中的不同位置,位置间的距离反映了不同的情 并在此基础上对多维度情感意图理解、人机情感 绪状态间的差异。与离散情绪模型最大不同在 交互等领域也进行了较为深入的研究。中国人 于,维度情绪模型是连续的,具有表示情绪的范 民大学多媒体计算实验室融合了视听两种模态, 围广、能描述情绪的演变过程的优点。 采取条件注意融合策略进行连续维的情感预测研 美国心理学家Johnston使用一维的坐标轴表 究。同时着力于探索多种信道交互信息的有效 征情绪,其正半轴为快乐,负半轴为悲伤P。而二 替代、互补与干扰等融合机制,以实现人机交互 维情绪模型则是从极性和强度两个维度区分情 自然性。 绪,极性指情绪具有正情绪和负情绪之分,强度
多种感觉、思想和行为等产生的生理心理状态。 人们在交流过程中无时无刻不传递着大量的情绪 信息。从认知神经科学角度来看,情绪也属于经 典认知的一种。情绪在人与人之间的沟通中意义 重大,而在人机交互中,情绪识别是实现人性化 必不可少的部分。 1995 年,Picard 等 [1] 提出了“情感计算”,情感 计算要赋予计算机像人一样的观察理解和生成情 感特征的能力,最终使得计算机像人一样进行自 然亲近和生动交互。情感计算逐渐演变成高级人 机交互的关键技术,而情感计算的子领域情绪识 别更是人工智能领域中日益受到重点关注的研究 方向。 情绪识别应用领域非常广阔,涉及日常生活 的方方面面。在医学领域[2-3] ,情绪识别能为精神 疾病的诊断治疗提供依据。比如在意识障碍的诊 断上,利用标准的行为量表不容易检测患者的意 识状态,而计算机辅助评估意识障碍患者的情绪 能帮助医生更好地做出诊断和治疗;在远程教育 领域[4-5] ,学生佩戴具有情绪识别功能的便携设 备,以便教师可以监控学生在远程授课过程中的 情绪状态,从而调整授课的进度和方式。在交通 领域中[6-7] ,对于那些需要高度集中注意力进行操 作的工作人员,例如宇航员、长途旅行客车司机、 飞行员等,他们的愤怒、焦虑、悲伤等负面情绪会 严重影响他们的专注度,导致操作水平下降,造 成交通事故的发生[8]。及时检测这类人员的情绪 状态是避免事故发生的一种有效手段。 1.2 研究现状 近年来,随着人工智能和便携无创人体传感 器技术的不断发展,多模态情绪识别已成为国内 外情感计算领域的研究热点。目前,多模态情绪 识别的研究主要集中于以下几个层面,基于多种 外在行为表现模态、基于多种神经生理模态、基 于神经生理状态和行为潜意识行为。我国在这些 层面的情绪识别研究均取得了初步成果。 基于行为表现方面,中国地质大学吴敏教授 情感计算团队在基于语音情感、人脸表情等基于 外在行为的多模态情绪识别方面开展了研究[9-10] , 并在此基础上对多维度情感意图理解、人机情感 交互等领域也进行了较为深入的研究[11]。中国人 民大学多媒体计算实验室融合了视听两种模态, 采取条件注意融合策略进行连续维的情感预测研 究 [12]。同时着力于探索多种信道交互信息的有效 替代、互补与干扰等融合机制,以实现人机交互 自然性[13]。 兰州大学普适感知与智能系统团队主要研究 基于人体生理信号和眼动、表情等行为表现模态 的多模态知识建模及应用[14]。通过对生理信号等 模态,组织与建模,研究适用于不同人群 (抑郁症 患者、心理高压患者) 的模型,为准确、客观、实时 地监控异常情感与心理状态变化。东南大学情感 信息处理团队开展了基于脑电、表情、语音、肢体 动作等模态的情绪分析研究[15-16] ,在情感分析的 基础探究和实践应用都取得了一定的成果。 基于神经生理信号的情绪识别的研究方面, 上海交通大学吕宝粮教授团队建立了公开情绪数 据集 SEED[17] ,并且在情绪最相关的信号频段和脑 区、脑电的时间稳定性等基础研究方面做了不少 相关的探索[18-19]。另外,中国科学院自动化研究 所何晖光研究团队[20-21] 和西南大学刘光远教授团 队 [22-23] 都对生理信号的情绪识别进行了较为深入 的研究。 2 情绪模型描述 情绪识别本质上是挖掘出有关情绪的特征数 据与内在情绪状态的映射关系,如图 1 所示。情 绪建模是指通过建立数学模型对情绪状态进行描 述,从科学角度对情绪状态进行分类甚至量化。 情绪模型的建立对于情绪测量有重要的意义,通 过它可以对情绪状态做出较为准确的评估。2003 年,Picard[24] 就情绪建模描述进行了探讨。许多 研究者提出了相应的情绪表征方法,依据表征方 式的不同,可划分为离散情绪模型、维度情绪模 型以及其他情绪模型,完整的描述如表 1。 离散情绪模型指的是情绪由几种基本的离散 的情绪构成,正如传统观念上的“喜怒哀乐”。Ekman 等 [25] 认为情绪由悲伤、恐惧、厌恶、惊讶、高 兴和愤怒组成,这 6 种情绪通过一定的组合模式 可构成更为复杂的情绪类别。然而这种描述方 式,无法科学地描述情绪的本质,也无法很好地 从计算的角度来分析情绪状态。 维度情绪模型是将情绪状态映射为某一空间 上的点,不同的情绪状态依据不同维度分布在空 间中的不同位置,位置间的距离反映了不同的情 绪状态间的差异。与离散情绪模型最大不同在 于,维度情绪模型是连续的,具有表示情绪的范 围广、能描述情绪的演变过程的优点[26]。 美国心理学家 Johnston 使用一维的坐标轴表 征情绪,其正半轴为快乐,负半轴为悲伤[27]。而二 维情绪模型则是从极性和强度两个维度区分情 绪,极性指情绪具有正情绪和负情绪之分,强度 ·634· 智 能 系 统 学 报 第 15 卷
第4期 潘家辉,等:多模态情绪识别研究综述 ·635· 指情绪具有强烈程度和微弱程度的区别。目前使 负半轴表示平缓的情绪,正半轴表示强烈的情 用最多的是1980年Russell2!8提出的效价-唤醒二 绪。在三维情绪模型方面,当前认可度比较高的 维情绪模型。该模型将情绪划分为两个维度,分 是Mehrabian2提出的高兴-唤醒-优势三维模 别为效价维度和唤醒维度。效价维度的负半轴表 型,该模型定义情绪具有愉悦度、唤醒度和优势 示消极情绪,正半轴表示积极情绪。唤醒维度的 度3个维度。 行为表现模态 神经生理模态 , O Pe 肢体动作 哈表情 语音信号 眼球运动 神经生理电信号呼吸心率信号 运动量 纹理特征 韵律特征 瞳孔直径 时域特征、 频带心率 肢体收缩 统计特征、 谱特征、 视线特征 频域特征 指数、 变换特征、 事件时间 时频域特征 变异性 声学特征 空间域特征 分析 运动速率 Haar矩形 特征 AAAAA 4.44 视听嗅觉等情绪刺激 分类器 情绪模型 图1情绪识别研究流程 Fig.1 Research process of emotion recognition 表1情绪描述模型 Table 1 Emotional description model 模型类别 情绪描述 提出者 基本内容 基本 悲伤、恐惧、高兴、厌恶、惊讶、愤怒 离散情绪 EkmanRs] 复合 Plutchik 复杂情绪由基本情绪的组合形成 一维 Johnston27 快乐一悲伤的正负两极 二维 Russel2 效价-唤醒 维度情绪 三维 Mehrabian 高兴-唤醒-优势 四维 Izard 愉快度-紧张度-激动度-确信度 Ortony-Clore-Collins Ortony Bo 事件结果-仿生动作-对象感观的情感层次关系 其他模型 隐马尔可夫情感 PicardBn 感兴趣-高兴-悲伤的环形情感状态转移模型 分布式 Kesteren2] 将特定的情感事件转换为相应的情绪状态 除此之外,许多心理学家和情绪研究学者 建立了分布式情感模型。 根据各自不同的分析角度,提出了不同于上述两 种模型的情绪描述模型。如Ortony等o在1988 3情绪诱发方式 年提出了Ortony-Clore-.Collins(OCC)模型, Picard在20o0年提出了隐马尔可夫模型(hidden 在进行情绪识别研究时,首要考虑的是如何 Markov model,,HMM)。同年,Kesteren等IB以情 才能有效地诱发被试者的情绪状态。目前的研究 绪时间类型为分类标准,并针对外界刺激事件而 中,情绪的诱发方式主要有两种,分别是主体诱
指情绪具有强烈程度和微弱程度的区别。目前使 用最多的是 1980 年 Russell[28] 提出的效价−唤醒二 维情绪模型。该模型将情绪划分为两个维度,分 别为效价维度和唤醒维度。效价维度的负半轴表 示消极情绪,正半轴表示积极情绪。唤醒维度的 负半轴表示平缓的情绪,正半轴表示强烈的情 绪。在三维情绪模型方面,当前认可度比较高的 是 Mehrabian[29] 提出的高兴−唤醒−优势三维模 型,该模型定义情绪具有愉悦度、唤醒度和优势 度 3 个维度。 频带心率 变异性 分析 神经生理模态 眼球运动 神经生理电信号 呼吸心率信号 时域特征、 频域特征、 时频域特征、 空间域特征 肢体动作 脸部表情 语音信号 行为表现模态 纹理特征、 统计特征、 变换特征、 Haar矩形 韵律特征、 谱特征、 声学特征 运动量、 肢体收缩 指数、 运动速率 瞳孔直径、 视线特征、 事件时间 特征 ... ... 情绪模型 视听嗅觉等情绪刺激 分类器 图 1 情绪识别研究流程 Fig. 1 Research process of emotion recognition 表 1 情绪描述模型 Table 1 Emotional description model 模型类别 情绪描述 提出者 基本内容 离散情绪 基本 Ekman[25] 悲伤、恐惧、高兴、厌恶、惊讶、愤怒 复合 Plutchik[33] 复杂情绪由基本情绪的组合形成 维度情绪 一维 Johnston[27] 快乐−悲伤的正负两极 二维 Russell[28] 效价−唤醒 三维 Mehrabian[29] 高兴−唤醒−优势 四维 Izard[34] 愉快度−紧张度−激动度−确信度 其他模型 Ortony-Clore-Collins Ortony[30] 事件结果−仿生动作−对象感观的情感层次关系 隐马尔可夫情感 Picard[31] 感兴趣−高兴−悲伤的环形情感状态转移模型 分布式 Kesteren[32] 将特定的情感事件转换为相应的情绪状态 除此之外,许多心理学家和情绪研究学者 根据各自不同的分析角度,提出了不同于上述两 种模型的情绪描述模型。如 Ortony 等 [30] 在 1988 年提出了 Ortony-Clore-Collins(OCC) 模型, Picard[31] 在 2000 年提出了隐马尔可夫模型 (hidden Markov model, HMM)。同年,Kesteren 等 [32] 以情 绪时间类型为分类标准,并针对外界刺激事件而 建立了分布式情感模型。 3 情绪诱发方式 在进行情绪识别研究时,首要考虑的是如何 才能有效地诱发被试者的情绪状态。目前的研究 中,情绪的诱发方式主要有两种,分别是主体诱 第 4 期 潘家辉,等:多模态情绪识别研究综述 ·635·
·636· 智能系统学报 第15卷 发和事件诱发。 6.60%),综合分析出多个信号及其相互依赖可以 主体诱发指借助回忆相关情绪的事件来产生 构建出更准确地反映人类情感表达潜在本质的模 相关的情绪,这是一个由被试者主动诱发目标情 型。与文献[44不同,Poria等在充分讨论了单 绪的方式。Zhuang等B设计了30名被试者在观 模态识别方法的现状基础上,根据实验的准确性 看每个电影片段(共18个片段)后,被试者被要求 对基于同一数据集的多模态融合情绪识别研究与 通过回忆每个电影中的特定场景来自我诱导6种 单模态情绪识别进行了横向比较,同样有力证明 离散情绪,包括喜悦、中立、悲伤、厌恶、愤怒和 了高效的模态融合能极大地提高情绪识别系统的 恐惧。lacoviello等B也做了类似的自诱发情绪 健壮性。利用不同类别的信号相互支持,对互补 的研究,该研究是对厌恶情绪和中立情绪进行二 信息进行融合处理,能够有效地提高最终的识别效 分类实验,被试者通过回忆一种不愉快的气味进 果6。根据目前已有的研究,模态融合的方式大 行自诱发情绪。主体诱发能充分反映被试者的主 致可分为4种,分别是数据级融合(传感层融合)、 观情感体验,但难以控制情绪诱发的时间且易受 特征级融合、决策级融合、模型层融合。 外界干扰。 4.1数据级融合 事件诱发是指使用不同情绪相关的刺激材料 数据级融合74,又称传感器层融合。数据 来诱发被试者的某一目标情绪状态,如图片、声 级融合是直接对各个传感器采集到的最原始的、 音、视频、气味等。镜像神经元理论B)表明当一 没有经过特殊处理的数据进行组合,从而构造一 个人观察另一个人的活动时,其脑部也在做类似 组新的数据,如图2。 的活动。事件诱发正是根据该原理设计诱发情绪 模态1 的方式。事件诱发能够更加高效地诱发被试者的 数据 目标情绪,因此其被广泛地用于设计诱发情绪方 模态2 融合 特征提取 分类器 式。事件诱发相对常用的刺激方式包括图片刺 数据 激、听觉刺激以及多媒体材料。当前公认的图片 模态n 情绪刺激材料有Lang等B)采集的国际情绪图 数据 片,听觉刺激材料库则有Bradley等B采集的国 图2数据级融合 际情绪数字化声音。 Fig.2 Data level fusion 而目前公开的多模态情绪数据集大多采用多 目前数据级融合处理的方法有数值处理、参 媒体材料来诱发情绪。其中采集了多种生理信号 数估计。具体为使用线性、非线性估计和统计运 的最具代表性数据集的就是DEAP数据集4o。 算方法对来自多个数据源的数据进行计算处理9。 DEAP数据集诱发方式要求32位被试者在观看 其优点是:可以很好地保留各个模态传感器上的 40段1min的音乐视频片段后填写自我情绪评定 数据信息,避免信息的丢失,保持信息的完整 量表(self-assessment manikin,.SAM)。收集了生理 性。但其缺点也是明显的,因为数据是在原始状 信号和行为表现的数据集有MAHNOB-HCI数据 态下进行融合,因此处理过程极为繁琐复杂。 集,是记录由情绪电影刺激产生神经生理信号 4.2特征级融合 和行为表现的多模态数据库。基于多种行为表现 特征级融合50s)是将多种模态数据经过提 模态的数据集有Martin等aa制作的视听数据集 取、构建成相应的模态特征之后,再拼接成一个 eNTERFACE'05,共有42位被试者,可以使用该 集成各个模态特征的特征集,如图3。 数据库作为测试和评估视频、音频或者视听情感 识别算法。 模态1 特征提取 数据 4 多模态融合策略 00 模态2 特征提毦 融合 分类器 在单模态情绪识别领域,单模态信息易受各 数据 种噪声的影响,难以完整地反映情绪状态。文 献[44]使用统计方法深入讨论单模态和多模态情 模态n 特征提取 绪识别精度。他们比较了不同算法在不同数据集 数据 上的准确性,85%多模态情绪识别系统比最佳单 图3特征级融合 模态对应系统更准确,平均提高9.83%(中位数为 Fig.3 Feature level fusion
发和事件诱发。 主体诱发指借助回忆相关情绪的事件来产生 相关的情绪,这是一个由被试者主动诱发目标情 绪的方式。Zhuang 等 [35] 设计了 30 名被试者在观 看每个电影片段 (共 18 个片段) 后,被试者被要求 通过回忆每个电影中的特定场景来自我诱导 6 种 离散情绪,包括喜悦、中立、悲伤、厌恶、愤怒和 恐惧。Iacoviello 等 [36] 也做了类似的自诱发情绪 的研究,该研究是对厌恶情绪和中立情绪进行二 分类实验,被试者通过回忆一种不愉快的气味进 行自诱发情绪。主体诱发能充分反映被试者的主 观情感体验,但难以控制情绪诱发的时间且易受 外界干扰。 事件诱发是指使用不同情绪相关的刺激材料 来诱发被试者的某一目标情绪状态,如图片、声 音、视频、气味等。镜像神经元理论[37] 表明当一 个人观察另一个人的活动时,其脑部也在做类似 的活动。事件诱发正是根据该原理设计诱发情绪 的方式。事件诱发能够更加高效地诱发被试者的 目标情绪,因此其被广泛地用于设计诱发情绪方 式。事件诱发相对常用的刺激方式包括图片刺 激、听觉刺激以及多媒体材料。当前公认的图片 情绪刺激材料有 Lang 等 [38] 采集的国际情绪图 片,听觉刺激材料库则有 Bradley 等 [39] 采集的国 际情绪数字化声音。 而目前公开的多模态情绪数据集大多采用多 媒体材料来诱发情绪。其中采集了多种生理信号 的最具代表性数据集的就是 DEAP 数据集[ 4 0 ]。 DEAP 数据集诱发方式要求 32 位被试者在观看 40 段 1 min 的音乐视频片段后填写自我情绪评定 量表 (self-assessment manikin,SAM)。收集了生理 信号和行为表现的数据集有 MAHNOB-HCI 数据 集 [41] ,是记录由情绪电影刺激产生神经生理信号 和行为表现的多模态数据库。基于多种行为表现 模态的数据集有 Martin 等 [42] 制作的视听数据集 eNTERFACE’05,共有 42 位被试者,可以使用该 数据库作为测试和评估视频、音频或者视听情感 识别算法。 4 多模态融合策略 在单模态情绪识别领域,单模态信息易受各 种噪声的影响,难以完整地反映情绪状态[43]。文 献 [44] 使用统计方法深入讨论单模态和多模态情 绪识别精度。他们比较了不同算法在不同数据集 上的准确性,85% 多模态情绪识别系统比最佳单 模态对应系统更准确,平均提高 9.83%(中位数为 6.60%),综合分析出多个信号及其相互依赖可以 构建出更准确地反映人类情感表达潜在本质的模 型。与文献 [44] 不同,Poria 等 [45] 在充分讨论了单 模态识别方法的现状基础上,根据实验的准确性 对基于同一数据集的多模态融合情绪识别研究与 单模态情绪识别进行了横向比较,同样有力证明 了高效的模态融合能极大地提高情绪识别系统的 健壮性。利用不同类别的信号相互支持,对互补 信息进行融合处理,能够有效地提高最终的识别效 果 [46]。根据目前已有的研究,模态融合的方式大 致可分为 4 种,分别是数据级融合 (传感层融合)、 特征级融合、决策级融合、模型层融合。 4.1 数据级融合 数据级融合[47-48] ,又称传感器层融合。数据 级融合是直接对各个传感器采集到的最原始的、 没有经过特殊处理的数据进行组合,从而构造一 组新的数据,如图 2。 融合 特征提取 分类器 … 模态 1 数据 模态 2 数据 模态 n 数据 图 2 数据级融合 Fig. 2 Data level fusion 目前数据级融合处理的方法有数值处理、参 数估计。具体为使用线性、非线性估计和统计运 算方法对来自多个数据源的数据进行计算处理[49]。 其优点是:可以很好地保留各个模态传感器上的 数据信息,避免信息的丟失,保持信息的完整 性。但其缺点也是明显的,因为数据是在原始状 态下进行融合,因此处理过程极为繁琐复杂。 4.2 特征级融合 特征级融合[50-51] 是将多种模态数据经过提 取、构建成相应的模态特征之后,再拼接成一个 集成各个模态特征的特征集,如图 3。 模态 1 数据 模态 2 数据 模态 n 数据 特征提取 融合 分类器 特征提取 特征提取 … … 图 3 特征级融合 Fig. 3 Feature level fusion ·636· 智 能 系 统 学 报 第 15 卷
第4期 潘家辉,等:多模态情绪识别研究综述 ·637· 在特征级层面,常用的融合策略是将经特征 推广理论(Dempster-Shafer理论6、动态贝叶斯网 提取后全部模态特征数据级联为特征向量后再送 络6、模糊积分6等。 入一个情感分类器。如Emerich等s例将长度归一 Huang等6同时使用枚举权重及adaboost两 化的语音情感特征和面部表情特征级联起来,构 种不同决策级融合策略来比较情绪识别效果,使 造一个特征向量。实验结果表明语音信息系统提 用面部表情分类器和脑电图分类器作为增强分类 取的特征包含有价值的情感特征,这些特征是无 器的子分类器,并分别应用于两个学习任务(效价 法从视觉信息中提取出来的。当这两种模式融合 和唤醒)。结果表明这两种方法都能给出最后的 时,情绪识别系统的性能和鲁棒性都得到了提 效价和唤醒结果,在公开数据集DEAP、MAHNOB- 高,但这种直接级联拼接的方式导致了新特征空 HCI以及在线应用均取得不错的效果。 间不完备,融合后维数过高,当特征维数达到一 基于统计规则和概率理论均依赖于所有分类 定规模后,模型的性能将会下降。为此,Yan等s) 器相互独立的假设,这与实际情况不符。因此, 提出了一种基于稀疏核降秩回归(sparse kernel re 预测结果在一定程度上是不准确的。Lu等6采 duced-rank regression,SKRRR)特征级融合策略, 用了一种称为模糊积分的融合策略。模糊积分是 SKRRR方法是传统降秩回归(RRR)方法的非线 关于模糊测度的实函数的积分。实验发现眼球运 性扩展,将预测量和响应特征向量分别通过两个 动特征和脑电图对情绪识别具有互补作用,模糊 非线性映射映射到两个高维特征空间中进行核 积分融合策略的最佳准确率为87.59%,相比于其 化。openSMILE特征提取器和SIFT描述子分别 他融合方式,模糊积分融合能显著提高情绪识别 从语音模态和面部表情模态中提取有效特征,然 的准确性。通常情况下,多种模态间的信息并非 后使用SKRRR融合方法融合两种模态的情感特 完全独立,决策级融合会丢失不同模态之间的相 征。而Mansoorizadeh等s提出了一种异步的特 关性,所以在实际应用环境下识别的结果未必会 征级融合方法,在单个信号测量之外创建一个统 比单模态识别的效果好。 的混合特征空间,他们使用提出的方法从语音 4.4模型级融合 韵律和面部表情来识别基本的情绪状态。结果表 模型级模态融合67681不依赖于以上3种融合 明,与基于单模态人脸和基于语音的系统相比 层次的体系结构。决策级融合关键在于找出不同 基于特征级融合的系统性能明显提高。 模态在决策阶段的可信程度,但模型级融合并不 当模态信息针对同一内容而又不互相包含 需要重点去探究各模态的重要程度,而是根据模 时,特征级融合方法虽然能最大限度地保留原始 态特性需要建立合适的模型,联合学习关联信 信息,在理论上能达到最佳的识别效果9但是其 息。特征级融合则主要先通过构建特征集合或混 没有考虑到不同模态情绪特征之间的差异性。 合特征空间,再送入到分类模型进行分类决策。 4.3决策级融合 模型级融合可以将不同模态特征分别输入到不同 决策级融合5s561是找出各个模态的可信度, 模型结构再进行进一步特征提取,如Zheng等W 再进行协调、联合决策,如图4。决策级融合与特 采用将堆叠的受限玻尔兹曼机展开成深度置信网 征级融合相比,更容易进行,但关键是要探究各 络,首先以手工提取出来的脑电和眼动特征分别 个模态对情绪识别的重要度。 作为两个玻尔兹曼机的输入并从神经网络中学习 模态1 两种模式的共享表示,实验结果表明,基于深度 数据 特征提取 分类器 神经网络的模型级融合能显著提高性能。总的来 说,模型级融合相较于决策级融合和特征级融合 模态2 数据 特征提取 分类器2 融合 最大的优势在于可以灵活地选择融合的位置。 目前的模型级融合主要采取的策略是通过构 模态n 建深度网络模型,建立多层结构,逐层学习可以 特征提取 分类器, 数据 学习到更加复杂的变换,从而可以拟合更加复杂 图4决策级融合 的特征,增加非线性表达能力。Zhang等6m提出 Fig.4 Decision level fusion 一种充分利用深度神经网络强大的特征学习能力 决策级所采用的融合策略有基于统计学规则阿 的混合深度学习模型,将视听数据经卷积神经网 (总和规则、乘积规则、最大最小/中位数规则等)、 (convolutional neural networks,CNN)3DCNN 枚举权重s8s9、自适应增强606,贝叶斯推论及其 (three dimensional convolutional neural networks)
在特征级层面,常用的融合策略是将经特征 提取后全部模态特征数据级联为特征向量后再送 入一个情感分类器。如 Emerich 等 [52] 将长度归一 化的语音情感特征和面部表情特征级联起来,构 造一个特征向量。实验结果表明语音信息系统提 取的特征包含有价值的情感特征,这些特征是无 法从视觉信息中提取出来的。当这两种模式融合 时,情绪识别系统的性能和鲁棒性都得到了提 高,但这种直接级联拼接的方式导致了新特征空 间不完备,融合后维数过高,当特征维数达到一 定规模后,模型的性能将会下降。为此,Yan 等 [53] 提出了一种基于稀疏核降秩回归 (sparse kernel reduced-rank regression,SKRRR) 特征级融合策略, SKRRR 方法是传统降秩回归 (RRR) 方法的非线 性扩展,将预测量和响应特征向量分别通过两个 非线性映射映射到两个高维特征空间中进行核 化。openSMILE 特征提取器和 SIFT 描述子分别 从语音模态和面部表情模态中提取有效特征,然 后使用 SKRRR 融合方法融合两种模态的情感特 征。而 Mansoorizadeh 等 [54] 提出了一种异步的特 征级融合方法,在单个信号测量之外创建一个统 一的混合特征空间,他们使用提出的方法从语音 韵律和面部表情来识别基本的情绪状态。结果表 明,与基于单模态人脸和基于语音的系统相比, 基于特征级融合的系统性能明显提高。 当模态信息针对同一内容而又不互相包含 时,特征级融合方法虽然能最大限度地保留原始 信息,在理论上能达到最佳的识别效果[49] ,但是其 没有考虑到不同模态情绪特征之间的差异性。 4.3 决策级融合 决策级融合[55-56] 是找出各个模态的可信度, 再进行协调、联合决策,如图 4。决策级融合与特 征级融合相比,更容易进行,但关键是要探究各 个模态对情绪识别的重要度。 模态 1 数据 模态 2 数据 模态 n 数据 特征提取 融合 特征提取 分类器 1 特征提取 分类器 2 分类器 n … … … 图 4 决策级融合 Fig. 4 Decision level fusion 决策级所采用的融合策略有基于统计学规则[57] (总和规则、乘积规则、最大/最小/中位数规则等)、 枚举权重[58-59] 、自适应增强[60-61] ,贝叶斯推论及其 推广理论 (Dempster-Shafer 理论[62] 、动态贝叶斯网 络 [63] )、模糊积分[64] 等。 Huang 等 [65] 同时使用枚举权重及 adaboost 两 种不同决策级融合策略来比较情绪识别效果,使 用面部表情分类器和脑电图分类器作为增强分类 器的子分类器,并分别应用于两个学习任务 (效价 和唤醒)。结果表明这两种方法都能给出最后的 效价和唤醒结果,在公开数据集 DEAP、MAHNOBHCI 以及在线应用均取得不错的效果。 基于统计规则和概率理论均依赖于所有分类 器相互独立的假设,这与实际情况不符。因此, 预测结果在一定程度上是不准确的。Lu 等 [66] 采 用了一种称为模糊积分的融合策略。模糊积分是 关于模糊测度的实函数的积分。实验发现眼球运 动特征和脑电图对情绪识别具有互补作用,模糊 积分融合策略的最佳准确率为 87.59%,相比于其 他融合方式,模糊积分融合能显著提高情绪识别 的准确性。通常情况下,多种模态间的信息并非 完全独立,决策级融合会丢失不同模态之间的相 关性,所以在实际应用环境下识别的结果未必会 比单模态识别的效果好。 4.4 模型级融合 模型级模态融合[67-68] 不依赖于以上 3 种融合 层次的体系结构。决策级融合关键在于找出不同 模态在决策阶段的可信程度,但模型级融合并不 需要重点去探究各模态的重要程度,而是根据模 态特性需要建立合适的模型,联合学习关联信 息。特征级融合则主要先通过构建特征集合或混 合特征空间,再送入到分类模型进行分类决策。 模型级融合可以将不同模态特征分别输入到不同 模型结构再进行进一步特征提取,如 Zheng 等 [17] 采用将堆叠的受限玻尔兹曼机展开成深度置信网 络,首先以手工提取出来的脑电和眼动特征分别 作为两个玻尔兹曼机的输入并从神经网络中学习 两种模式的共享表示,实验结果表明,基于深度 神经网络的模型级融合能显著提高性能。总的来 说,模型级融合相较于决策级融合和特征级融合 最大的优势在于可以灵活地选择融合的位置。 目前的模型级融合主要采取的策略是通过构 建深度网络模型,建立多层结构,逐层学习可以 学习到更加复杂的变换,从而可以拟合更加复杂 的特征,增加非线性表达能力。Zhang 等 [67] 提出 一种充分利用深度神经网络强大的特征学习能力 的混合深度学习模型,将视听数据经卷积神经网 络 (convolutional neural networks, CNN) 和 3DCNN (three dimensional convolutional neural networks) 产 第 4 期 潘家辉,等:多模态情绪识别研究综述 ·637·
·638- 智能系统学报 第15卷 生视听片段特征,然后将视听片段特征融合到深 表情、姿态手势、语音等外在表现行为进行识别。 度置信网络中,联合学习了一种视听特征表示, 多模态数据的混合可以为决策提供更多信息,从 在情感识别任务上比先手工特征再深度学习融合 而提高了决策总体的准确率69。表2针对不同的 方法表现得更好。 模态类型对情绪识别的效果进行粗略的比较。 表3总结了近年基于公开数据集的多模态情绪识 5多模态混合形式 别相关研究。 情绪是一个人在某种环境状态下的行为和心 表2不同模态类型下的情绪识别效果对比 理综合表现。从人体的表现角度来讲情绪表现主 Table 2 Comparisons of emotion recognition effects under different model types 要分为神经生理层面及外在行为层面。神经生理 层面情绪识别利用人的脑电信号(electroencephal- 模态属性 模态类型 采集难度信噪比识别率 ogram,EEG)、血容量搏动(blood volume pulsation,. 脑中枢变化 高 低 高 神经生理 BVP)、瞳孔变化、肌电(electromyogram,EMG)、心 外周生理变化 高 高 为 电(electrocardiogram,ECG)、皮肤电(galvanie skin 脸部表情 低 高 中 response,.GSR)、皮温(skin temperature,SKT)、呼吸 行为表现 语音语调 低 中 中 (respire,RSP)等内在的神经生理信号变化进行识 肢体动作 低 高 低 别,而行为表现层面情绪识别,则可以通过面部 表3不同混合模式的多模态情绪识别方案及效果 Table 3 Schemes and effects of multimodal emotion recognition with different mixed modes 模态融合层次 准确率% 模态混合模式公开数据集作者及文献 模态与特征提取 分类算法 (融合策略) (分类标准/m Nguyen等m 语音+人脸:串联三维 特征级融合 DBN 卷积神经网络 90.85(AVg/6) (双线性池理论) 多种行为表 eNTER Dobrisek等W 语音:open SMILE;人脸: 决策级融合 支持向量机 77.50Avg/6) 现模态混合 FACE'05 子空间的构建与匹配 (加权乘积规则) Zhang等 模型级融合 语音:CNN人脸:3D-CNN 支持向量机 85.97Avg/6) DBN融合网络) Koelstra等 决策级融合 58.6 (Valence/2) EEG+PPS:Welch's method 朴素贝叶斯 (多数类别投票) 64.4(Arousal/2) 多种神经生 EEG:频域微分熵:PPS: 模型级融合 83.8 (Valence/2) DEAP Tang等例 支持向量机 理模态混合 时域统计特征 (BLSTM编码融合) 83.2(Arousal/2) Yim等网 EEG+PPS: 模型级融合 83.0 (Valence/2) Ensemble-SAE 堆叠自编码器 (多层网络融合) 84.1 (Arousal/2) EEG:频域功率谱密度; Soleymani等 决策级融合 眼动:瞳孔功率谱眨眼、 76.4 (Valence/3) 支持向量机 行为表现与 (置信度求和融合) 68.5 (Arousal/3) 注视等时域统计特征 MAHNOB- 神经生理模 Huang等例 EEG:小波变换提取功率谱: 决策级融合 SVM脑电) 75.2 (Valence/2) HCI 态混合 人脸:CNN深度特征提取 (自适应增强) CNN(表情) 74.1 (Arousal/2) Koelstra等5sg EEG:支持向量机递归特征消除: 特征级融合 73.0 (Valence/2) 朴素贝叶斯 人脸:动作单元映射 (特征拼接) 68.5 (Arousal/2) 注:I)#分类类别数;2)Avg.平均准确率;3)Valence,.Arousal维度情绪模型的效价和唤醒维度;4)PPS,peripheral physiologcal sials(外周生理信 号):5)DBN,deep belief networks(深度置信网络)片6)BLSTM,bi-directional long short---term memory(向长短时记忆):7)Ensemble--SAE,ensemble- stacked auto encoder(堆叠自编码器)。 5.1多种行为表现模态混合 在情绪活动过程中伴随着一定的行为表现。James网 情绪表达的途径多种多样,情绪的载体也极 认为情绪是人们对于自己身体所发生变化的一种 其丰富。情绪过程与其他心理过程不一样,表现 感觉,先有身体的变化然后才有情绪的感知,任
生视听片段特征,然后将视听片段特征融合到深 度置信网络中,联合学习了一种视听特征表示, 在情感识别任务上比先手工特征再深度学习融合 方法表现得更好。 5 多模态混合形式 情绪是一个人在某种环境状态下的行为和心 理综合表现。从人体的表现角度来讲情绪表现主 要分为神经生理层面及外在行为层面。神经生理 层面情绪识别利用人的脑电信号 (electroencephalogram, EEG)、血容量搏动 (blood volume pulsation, BVP)、瞳孔变化、肌电 (electromyogram, EMG)、心 电 (electrocardiogram, ECG)、皮肤电 (galvanie skin response, GSR)、皮温 (skin temperature, SKT)、呼吸 (respire, RSP) 等内在的神经生理信号变化进行识 别,而行为表现层面情绪识别,则可以通过面部 表情、姿态手势、语音等外在表现行为进行识别。 多模态数据的混合可以为决策提供更多信息,从 而提高了决策总体的准确率[69]。表 2 针对不同的 模态类型对情绪识别的效果进行粗略的比较。 表 3 总结了近年基于公开数据集的多模态情绪识 别相关研究。 表 2 不同模态类型下的情绪识别效果对比 Table 2 Comparisons of emotion recognition effects under different model types 模态属性 模态类型 采集难度 信噪比 识别率 神经生理 脑中枢变化 高 低 高 外周生理变化 高 高 中 行为表现 脸部表情 低 高 中 语音语调 低 中 中 肢体动作 低 高 低 5.1 多种行为表现模态混合 情绪表达的途径多种多样,情绪的载体也极 其丰富。情绪过程与其他心理过程不一样,表现 在情绪活动过程中伴随着一定的行为表现。James[76] 认为情绪是人们对于自己身体所发生变化的一种 感觉,先有身体的变化然后才有情绪的感知,任 表 3 不同混合模式的多模态情绪识别方案及效果 Table 3 Schemes and effects of multimodal emotion recognition with different mixed modes 模态混合模式 公开数据集 作者及文献 模态与特征提取 模态融合层次 (融合策略) 分类算法 准确率/% (分类标准/#) 多种行为表 现模态混合 eNTER FACE’05 Nguyen等 [70] 语音+人脸: 串联三维 卷积神经网络 特征级融合 (双线性池理论) DBN 90.85(Avg./6) Dobrišek等 [71] 语音:open SMILE;人脸: 子空间的构建与匹配 决策级融合 (加权乘积规则) 支持向量机 77.50(Avg./6) Zhang等 [72] 语音:CNN 人脸:3D-CNN 模型级融合 (DBN融合网络) 支持向量机 85.97(Avg./6) 多种神经生 理模态混合 DEAP Koelstra等 [40] EEG+PPS: Welch’s method 决策级融合 (多数类别投票) 朴素贝叶斯 58.6 (Valence/2) 64.4 (Arousal/2) Tang等 [73] EEG:频域微分熵;PPS: 时域统计特征 模型级融合 (BLSTM编码融合) 支持向量机 83.8 (Valence/2) 83.2 (Arousal/2) Yin等 [74] EEG+PPS: 堆叠自编码器 模型级融合 (多层网络融合) Ensemble- SAE 83.0 (Valence/2) 84.1 (Arousal/2) 行为表现与 神经生理模 态混合 MAHNOB - HCI Soleymani等 [75] EEG:频域功率谱密度; 眼动:瞳孔功率谱眨眼、 注视等时域统计特征 决策级融合 (置信度求和融合) 支持向量机 76.4 (Valence/3) 68.5 (Arousal/3) Huang等 [65] EEG:小波变换提取功率谱; 人脸:CNN深度特征提取 决策级融合 (自适应增强) SVM(脑电) CNN(表情) 75.2 (Valence/2) 74.1 (Arousal/2) Koelstra等 [58] EEG:支持向量机递归特征消除; 人脸:动作单元映射 特征级融合 (特征拼接) 朴素贝叶斯 73.0 (Valence/2) 68.5 (Arousal/2) 注:1) # 分类类别数;2) Avg. 平均准确率;3) Valence, Arousal 维度情绪模型的效价和唤醒维度;4) PPS, peripheral physiological signals (外周生理信 号);5) DBN, deep belief networks (深度置信网络);6) BLSTM, bi-directional long short-term memory (向长短时记忆);7) Ensemble-SAE, ensemblestacked auto encoder (堆叠自编码器)。 ·638· 智 能 系 统 学 报 第 15 卷
第4期 潘家辉,等:多模态情绪识别研究综述 ·639· 何情绪的产生都伴随着一定的身体变化,包括面 生理唤醒是情绪与情感产生的生理反应,可 部表情、肌肉紧张、内脏活动等,从而可以通过行 以用于衡量生理激活水平。在不同情绪状态下 为表现感知推测情绪变化。在众多行为表现模态 人体的生理反应模式是不一样的,如高兴时心跳 信息中,语音语调7771、脸部表情79.801、肢体动 节律平稳;恐惧时,血压升高、心跳加速。Picard 作8121这几类模态在情绪识别中取得较好的 等川首次应用计算机模式识别的思路来解决情感 效果。 生理识别问题,并使用图片诱发材料,采集一个 语音信息具有复杂多样的声学属性。人在不 被试者的4种生理信号(肌电、脉搏、皮肤电导、 同情绪状态下的语调、语速等声学属性将显现其 呼吸),提取其中的生理信号特征对8种情感状态 不同的情绪特性。从语音语调等声学属性中提取 进行分类,总体识别率为81%。 出能体现情绪差异的参数特征即可进行情绪识 神经生理模态直接受神经系统和内分泌系统 别。面部表情是一种最为直观的情绪表达方式, 支配,不受主观影响,难以伪装,因此与脸部表情 对人脸信息进行分析就可以解读人的情绪。表情 等行为模态相比更具真实性、客观性。Chanel等网 是所有面部肌肉变化所组成的模式。面部表情模 结合脑电信号与皮肤电传导、血压、心率、呼吸等 式能精细地表达不同性质的情绪和情感。此外, 外围生理信号对积极情绪、消极情绪和中立情绪 人在特定的情绪状态下往往会伴随着相应的肢体 进行情绪识别,该实验达到80%的准确率,可以 动作,比如人在失落时捶胸顿足。 发现将外围生理信号特征与脑电特征融合,情绪 因此也有不少研究者在情绪识别框架中整 识别效果明显。显然,脑电信号有着与情绪相关 合来自各种行为表现特征。Kaliouby和Robinson') 的大量信息,而外围神经系统生理信号也有与情 提出了一个基于视觉的计算模型,从头部运动 绪相关的信息,两者的结合可以增强情绪识别的 和面部表情来推断行为相应的精神状态。Cas- 效果。 tellano等s融合了面部表情、语音和手势这3种 Chen等I9别通过脑电图增强周围生理信号的 模态,对8种情绪状态进行识别,准确率达到 情感识别,这是利用脑电信号特征作为特殊信息 78.3%。与Castellano不同的是,Scherer等s在面 从周围信号中识别情绪的新方法,首先提取周围 部表情、语音、手势3种模态的基础上加上身体 生理特征和脑电图特征,利用典型相关分析方 姿态,对14种不同情绪进行识别,分类准确率达 法,结合脑电特征构建了一个新的边缘生理特征 到79%。 空间。最后,训练支持向量机模型,只利用边缘 5.2多种神经生理模态混合 生理特征从构建的边缘生理特征空间来识别情 美国心理学之父James1884年首次定义了 绪。该方法在DEAP数据集和MAHNOB-HCI数 情绪,他认为情绪是人的身体上发生某种变化的 据集上的实验结果表明.提出的以脑电图特征为 一种综合效应,一切情绪都引起了身体上的一定 优先信息的方法优于仅从周围生理信号识别情绪 变化。人的情绪总是伴随着心理活动的产生,而 的方法。 任何心理活动又与我们的神经生理状态息息相关。 5.3 神经生理模态与行为表现模态混合 因为情绪的变化会引起相应人体神经中枢的 上述研究分别以外在行为和神经生理信号作 活动,进而反应为脑区的活跃,因此可以通过采 为输入信号来进行情绪识别。而基本情绪理论 集脑电图、核磁共振图像等脑成像技术来监测大 已经证明,当情绪被激发时,会激活人类的多种 脑结构和功能活动状态的变化。在这些大脑信号 生理和外在行为反应系统。比如高兴时会出现特 中,脑电被证实能够更好地提供反映情绪状态变 定的面部表情、语音语调、手势姿态及相应神经 化的信息.s7。Davidson等s陶提出脑额叶皮层活 生理状态的变化。 跃活动能表征人体积极消极情绪变化。不少研 随着神经生理及行为表现信号采集设备的发 究9,91也印证了EEG能够很好地反映情绪的波 展与推广,基于神经生理模态与行为表现模态的 动变化。 混合模式受到越来越多情绪识别研究者的关注。 为了利用脑电图信号识别情绪,需要执行以 Huang等基于效价-唤醒情绪模型,将面部表情 下步骤:记录用户大脑中观察到的电压变化;去除 和脑电图相结合,采用了一种多模式情绪识别框 记录信号中的噪音和伪影;分析结果数据,提取相 架。对于面部表情检测,他们遵循用于多任务卷 关特征;利用计算出的特征对分类器进行训练,得 积神经网络架构的迁移学习方法来检测效价和唤 到原始脑信号与情绪状态的映射关系。 醒状态。对于脑电图检测,通过支持向量机分类
何情绪的产生都伴随着一定的身体变化,包括面 部表情、肌肉紧张、内脏活动等,从而可以通过行 为表现感知推测情绪变化。在众多行为表现模态 信息中,语音语调[77-78] 、脸部表情[79-80] 、肢体动 作 [ 8 1 - 8 2 ] 这几类模态在情绪识别中取得较好的 效果。 语音信息具有复杂多样的声学属性。人在不 同情绪状态下的语调、语速等声学属性将显现其 不同的情绪特性。从语音语调等声学属性中提取 出能体现情绪差异的参数特征即可进行情绪识 别。面部表情是一种最为直观的情绪表达方式, 对人脸信息进行分析就可以解读人的情绪。表情 是所有面部肌肉变化所组成的模式。面部表情模 式能精细地表达不同性质的情绪和情感。此外, 人在特定的情绪状态下往往会伴随着相应的肢体 动作,比如人在失落时捶胸顿足。 因此也有不少研究者在情绪识别框架中整 合来自各种行为表现特征。Kaliouby 和 Robinson[83] 提出了一个基于视觉的计算模型,从头部运动 和面部表情来推断行为相应的精神状态。Castellano 等 [84] 融合了面部表情、语音和手势这 3 种 模态,对 8 种情绪状态进行识别,准确率达到 78.3%。与 Castellano 不同的是,Scherer 等 [85] 在面 部表情、语音、手势 3 种模态的基础上加上身体 姿态,对 14 种不同情绪进行识别,分类准确率达 到 79%。 5.2 多种神经生理模态混合 美国心理学之父 James[76] 1884 年首次定义了 情绪,他认为情绪是人的身体上发生某种变化的 一种综合效应,一切情绪都引起了身体上的一定 变化。人的情绪总是伴随着心理活动的产生,而 任何心理活动又与我们的神经生理状态息息相关。 因为情绪的变化会引起相应人体神经中枢的 活动,进而反应为脑区的活跃,因此可以通过采 集脑电图、核磁共振图像等脑成像技术来监测大 脑结构和功能活动状态的变化。在这些大脑信号 中,脑电被证实能够更好地提供反映情绪状态变 化的信息[86-87]。Davidson 等 [88] 提出脑额叶皮层活 跃活动能表征人体积极消极情绪变化。不少研 究 [89-90] 也印证了 EEG 能够很好地反映情绪的波 动变化。 为了利用脑电图信号识别情绪,需要执行以 下步骤:记录用户大脑中观察到的电压变化;去除 记录信号中的噪音和伪影;分析结果数据,提取相 关特征;利用计算出的特征对分类器进行训练,得 到原始脑信号与情绪状态的映射关系[91]。 生理唤醒是情绪与情感产生的生理反应,可 以用于衡量生理激活水平。在不同情绪状态下, 人体的生理反应模式是不一样的,如高兴时心跳 节律平稳;恐惧时,血压升高、心跳加速。Picard 等 [1] 首次应用计算机模式识别的思路来解决情感 生理识别问题,并使用图片诱发材料,采集一个 被试者的 4 种生理信号 (肌电、脉搏、皮肤电导、 呼吸),提取其中的生理信号特征对 8 种情感状态 进行分类,总体识别率为 81%。 神经生理模态直接受神经系统和内分泌系统 支配,不受主观影响,难以伪装,因此与脸部表情 等行为模态相比更具真实性、客观性。Chanel 等 [92] 结合脑电信号与皮肤电传导、血压、心率、呼吸等 外围生理信号对积极情绪、消极情绪和中立情绪 进行情绪识别,该实验达到 80% 的准确率,可以 发现将外围生理信号特征与脑电特征融合,情绪 识别效果明显。显然,脑电信号有着与情绪相关 的大量信息,而外围神经系统生理信号也有与情 绪相关的信息,两者的结合可以增强情绪识别的 效果。 Chen 等 [93] 通过脑电图增强周围生理信号的 情感识别,这是利用脑电信号特征作为特殊信息 从周围信号中识别情绪的新方法,首先提取周围 生理特征和脑电图特征,利用典型相关分析方 法,结合脑电特征构建了一个新的边缘生理特征 空间。最后,训练支持向量机模型,只利用边缘 生理特征从构建的边缘生理特征空间来识别情 绪。该方法在 DEAP 数据集和 MAHNOB-HCI 数 据集上的实验结果表明,提出的以脑电图特征为 优先信息的方法优于仅从周围生理信号识别情绪 的方法。 5.3 神经生理模态与行为表现模态混合 上述研究分别以外在行为和神经生理信号作 为输入信号来进行情绪识别。而基本情绪理论[94] 已经证明,当情绪被激发时,会激活人类的多种 生理和外在行为反应系统。比如高兴时会出现特 定的面部表情、语音语调、手势姿态及相应神经 生理状态的变化。 随着神经生理及行为表现信号采集设备的发 展与推广,基于神经生理模态与行为表现模态的 混合模式受到越来越多情绪识别研究者的关注。 Huang 等 [95] 基于效价−唤醒情绪模型,将面部表情 和脑电图相结合,采用了一种多模式情绪识别框 架。对于面部表情检测,他们遵循用于多任务卷 积神经网络架构的迁移学习方法来检测效价和唤 醒状态。对于脑电图检测,通过支持向量机分类 第 4 期 潘家辉,等:多模态情绪识别研究综述 ·639·
·640· 智能系统学报 第15卷 器检测到两个学习目标。最终的混合模态识别准 反应与模态特征之间的对应关系,构建普适的稳 确率均达到82%左右。 健的情感模型是当前工程应用研究中急需解决且 就应用型情感识别系统而言,较具代表性的 具有挑战性的问题。文献[99]提出了一种归一化 是2007年Kapoor等6提出的学习伴侣系统,该 数据转换方法,将模态信号中依赖于个体的分量 系统不仅使用面部表情,还结合了皮肤电导、姿势 去除,构建不依赖于个体的共用特征空间,从而 等信息。该系统通过识别用户是否处于失落状态 消除模态数据特征个体差异性所带来的影响,实 而自动调整呈现的学习内容,给用户提供了极大 现了跨被试者、可迁移的非个体依赖的情感生理 的协助。Liu等7提出了一种将眼动和脑电图 状态识别,提出了更接近实际应用的情绪识别方法。 相结合的多模态情绪识别框架,利用提取出的特 目前大多的情绪识别模型训练需要花费大量 征对3类(正面、中性和负面)情绪进行识别。他 前期时间进行系统标定,这极大地限制了工程应 们所提出的双模态深度自编码器能够充分利用脑 用的场景,同时无标签多模态数据的获取相对比 神经信号(脑电)与外围生理信息(眼球运动)的 较容易,因此基于无标签样本的多模态学习对于 互补性来提高模型的情绪识别准确率,最终的准 工程应用具有重要意义。Du等2提出了一个多 确率达到91.01%。 视角深层生成多视图情绪识别模型,将无标签的 半监督分类问题转化为一个专门的缺失数据输人 工程应用的讨论与建议 任务,其中丢失的视图被视为一个潜在变量,并 要实现具有一定情绪识别功能的人机交互应 在推理过程中被整合出来。 用,建立自然的人机交互过程,需要满足数据高 6.3多模态在线系统设计 质量获取、识别过程中准确性和鲁棒性、在线识 当我们需要借助多种模态对情绪状态进行综 别的时效性这3个方面的要求。因此在实际工程 合分析时,首先工程应用过程中多种模态数据采 应用方面,我们针对数据的获取与处理、系统应 集仪器设备分别记录的每种模态信号在时间上必 用模型泛化设计、实时在线系统设计等方面的挑 须准确对应或同步。最直接方式是保证每种模态 战,提出了操作性建议以及在实践应用需要考虑 采集的频率一致,但在工程应用中要保证异质多 的问题。 源模态数据采集频率一致是不现实的。清华大学 6.1多模态情绪数据的获取与处理 高小榕团队1]使用伪随机序列编码信号同时标 情绪识别的实际应用过程中,如何快速准确 记视频和脑电信号的数据同步方法,完成了眼动 地采集高质量的多模态信号是一个关键问题。 仪与脑电同步采集平台的搭建。 2017德国柏林工业大学的脑机接口研究团队发 与多模态情绪识别离线算法分析不同,多模 布了一款可同时采集脑电信号、近红外光谱,以 态情绪识别在实际的工程应用中我们更强调系统 及其他常规生理参数(如心电、肌电和加速度 需要实时针对当前新的样本,不断学习新的特征 等)的无线模块化硬件架构。类似的高精准、 并保存大部分已经学习到的知识,适当调整模型 便携式、可扩展性的多生理参数采集硬件架构, 结构,从而不断提升模型的泛化能力。大连理工 是多模态情绪识别研究走向工程应用是先决条件。 大学赵亮提出一种多模态数据增量共聚类融 使用多模态进行情绪识别的意义在于通过不 合算法,设计了3种增量聚类策略,即簇创建、簇 同模态之间的情绪信息互补,融合各模态潜在的 合并和聚类划分,对多模态数据进行增量聚类融 共享信息,进而提升情绪识别任务的有效性。但 合,同时设计一种自适应的模态权重机制,在共 混合了各种异质高维的特征,带来的最直接问题 聚类融合过程中对模态权重进行动态调整以应对 就是维数灾难,从而显著降低了模型的性能。同 多模态数据处理的实时性问题。 时,数据中包含的负相关特征,也将会极大影响 7未来展望 模型识别的准确率,因此需要针对不同的数据源 采用合适的降维方法,保留数量适当且分类效果 本文对目前多模态情绪识别研究现状进行了 好的特征。 综述,包括情绪模型的描述、情绪诱发的范式设 6.2系统应用模型泛化设计 计、按多模态的融合层次介绍了各层次下的融合 情绪刺激反应普遍都存在着个体差异性和非 策略、不同模态类型混合的情绪识别方案,论证 平稳特性,即不同个体在面对同一刺激产生的情 了多模态融合技术可以极大提高情绪识别效果, 绪反应不尽相同,从这种差异中寻找稳定的情绪 同时对多模态情绪识别方法转为工程技术应用提
器检测到两个学习目标。最终的混合模态识别准 确率均达到 82% 左右。 就应用型情感识别系统而言,较具代表性的 是 2007 年 Kapoor 等 [96] 提出的学习伴侣系统,该 系统不仅使用面部表情,还结合了皮肤电导、姿势 等信息。该系统通过识别用户是否处于失落状态 而自动调整呈现的学习内容,给用户提供了极大 的协助[23]。Liu 等 [97] 提出了一种将眼动和脑电图 相结合的多模态情绪识别框架,利用提取出的特 征对 3 类 (正面、中性和负面) 情绪进行识别。他 们所提出的双模态深度自编码器能够充分利用脑 神经信号 (脑电) 与外围生理信息 (眼球运动) 的 互补性来提高模型的情绪识别准确率,最终的准 确率达到 91.01%。 6 工程应用的讨论与建议 要实现具有一定情绪识别功能的人机交互应 用,建立自然的人机交互过程,需要满足数据高 质量获取、识别过程中准确性和鲁棒性、在线识 别的时效性这 3 个方面的要求。因此在实际工程 应用方面,我们针对数据的获取与处理、系统应 用模型泛化设计、实时在线系统设计等方面的挑 战,提出了操作性建议以及在实践应用需要考虑 的问题。 6.1 多模态情绪数据的获取与处理 情绪识别的实际应用过程中,如何快速准确 地采集高质量的多模态信号是一个关键问题。 2017 德国柏林工业大学的脑机接口研究团队发 布了一款可同时采集脑电信号、近红外光谱,以 及其他常规生理参数 (如心电、肌电和加速度 等) 的无线模块化硬件架构[98]。类似的高精准、 便携式、可扩展性的多生理参数采集硬件架构, 是多模态情绪识别研究走向工程应用是先决条件。 使用多模态进行情绪识别的意义在于通过不 同模态之间的情绪信息互补,融合各模态潜在的 共享信息,进而提升情绪识别任务的有效性。但 混合了各种异质高维的特征,带来的最直接问题 就是维数灾难,从而显著降低了模型的性能。同 时,数据中包含的负相关特征,也将会极大影响 模型识别的准确率,因此需要针对不同的数据源 采用合适的降维方法,保留数量适当且分类效果 好的特征。 6.2 系统应用模型泛化设计 情绪刺激反应普遍都存在着个体差异性和非 平稳特性,即不同个体在面对同一刺激产生的情 绪反应不尽相同,从这种差异中寻找稳定的情绪 反应与模态特征之间的对应关系,构建普适的稳 健的情感模型是当前工程应用研究中急需解决且 具有挑战性的问题。文献 [99] 提出了一种归一化 数据转换方法,将模态信号中依赖于个体的分量 去除,构建不依赖于个体的共用特征空间,从而 消除模态数据特征个体差异性所带来的影响,实 现了跨被试者、可迁移的非个体依赖的情感生理 状态识别,提出了更接近实际应用的情绪识别方法。 目前大多的情绪识别模型训练需要花费大量 前期时间进行系统标定,这极大地限制了工程应 用的场景,同时无标签多模态数据的获取相对比 较容易,因此基于无标签样本的多模态学习对于 工程应用具有重要意义。Du 等 [21] 提出了一个多 视角深层生成多视图情绪识别模型,将无标签的 半监督分类问题转化为一个专门的缺失数据输入 任务,其中丢失的视图被视为一个潜在变量,并 在推理过程中被整合出来。 6.3 多模态在线系统设计 当我们需要借助多种模态对情绪状态进行综 合分析时,首先工程应用过程中多种模态数据采 集仪器设备分别记录的每种模态信号在时间上必 须准确对应或同步。最直接方式是保证每种模态 采集的频率一致,但在工程应用中要保证异质多 源模态数据采集频率一致是不现实的。清华大学 高小榕团队[100] 使用伪随机序列编码信号同时标 记视频和脑电信号的数据同步方法,完成了眼动 仪与脑电同步采集平台的搭建。 与多模态情绪识别离线算法分析不同,多模 态情绪识别在实际的工程应用中我们更强调系统 需要实时针对当前新的样本,不断学习新的特征 并保存大部分已经学习到的知识,适当调整模型 结构,从而不断提升模型的泛化能力。大连理工 大学赵亮[101] 提出一种多模态数据增量共聚类融 合算法,设计了 3 种增量聚类策略,即簇创建、簇 合并和聚类划分,对多模态数据进行增量聚类融 合,同时设计一种自适应的模态权重机制,在共 聚类融合过程中对模态权重进行动态调整以应对 多模态数据处理的实时性问题。 7 未来展望 本文对目前多模态情绪识别研究现状进行了 综述,包括情绪模型的描述、情绪诱发的范式设 计、按多模态的融合层次介绍了各层次下的融合 策略、不同模态类型混合的情绪识别方案,论证 了多模态融合技术可以极大提高情绪识别效果, 同时对多模态情绪识别方法转为工程技术应用提 ·640· 智 能 系 统 学 报 第 15 卷
第4期 潘家辉,等:多模态情绪识别研究综述 ·641· 出了一些思考,但无论是算法研究还是工程应用 参考文献: 都存在着一些可以努力尝试和改进的方向。下面 将提出值得进一步探究和尝试的方面,旨在对相 [1]PICARD R W.HEALEY J.Affective wearables[J].Per- sonal technologies,1997,1(4):231-240 关研究者起到一定的启发作用。 [2]PAN J.XIE O.HUANG H.et al.Emotion-related con- 1)量化情绪描述模型 sciousness detection in patients with disorders of con- 现在进行的情感识别工作多集中在简单的情 sciousness through an EEG-Based BCI system[J].Fronti- 感分类,对于情绪强弱程度方面,目前并没有太 ers in human neuroence,2018,12:198-209. 多的研究者去探究。精准地识别情绪强弱能够更 [3]HUANG H.XIE O.PAN J.et al.An EEG-based brain 加明确情绪状态,具有非常重要的现实意义。 computer interface for emotion recognition and its applic- 2)尝试多模态的混合融合策略 ation in patients with disorder of consciousness[J].IEEE 混合融合属于深层融合的方式,能够很好地 transactions on affective computing,2019,99:1-10. 挖掘不同模态之间的非线性关联。我们可以同时 [4]WANG S.PHILLIPS P.DONG Z.et al.Intelligent facial 考虑结合深度学习,针对不同模态,在不同的融 emotion recognition based on stationary wavelet entropy and Jaya algorithm[J].Neurocomputing,2018,272 合层次进行相关融合,进而实现情绪识别。 668-676 3)针对不同实际应用场景,选择合适模态 [5]WANG W.WU J.Notice of retraction emotion recogni- 利用情绪信息之间的互补性无疑是可以提高 tion based on CSO&SVM in e-learning[C]//Poceedings of 识别准确率的.但我们也有必要根据不同的应用 the 2011 Seventh International Conference on Natural 环境选择不同的模态进行混合识别。例如针对健 Computation.Shanghai,China,2011:566-570. 康人群,采集脸部表情这一对于健康人最能反映 [6]LIU W,QIAN J,YAO Z,et al.Convolutional two-stream 情绪的外部行为表现的基础上,结合能充分揭露 network using multi-facial feature fusion for driver fa- 用户的内在认知状态和情感状态的脑电信号,增 tigue detection[J].Future internet,2019,11(5):115. 强了现实应用的可用性和可靠性。针对意识障碍 [7]BORIL H.OMID SADJADI S,KLEINSCHMIDT T.et 患者等运动障碍患者,基于脑电信号的方法被认 al.Analysis and detection of cognitive load and frustra- tion in drivers'speech[J].Proceedings of interspeech, 为是更可靠的解析情绪的方法,因为它们是对中 2010:502-505 枢神经系统和自主神经系统的客观测量。 [8]陆怡菲,基于脑电信号和眼动信号融合的多模态情绪 4)借助深度学习算法提取情感特征 识别研究D].上海:上海交通大学,2017, 目前情绪识别研究大多是从数字信号分析的 LU Yifei.Research on multi-modal emotion recognition 角度出发,探究情绪与信号特征的关系。深度学 based on eeg and eye movement signal fusion[D].Shang- 习具有提取鲁棒性特征的潜力,大量基于深度学 hai:Shanghai Jiaotong University,2017. 习的情绪识别算法被提出。利用海量数据学习到 [9]LIU Z,WU M,TAN G,et al.Speech emotion recogni- 的特征比人工构造的特征更能反映数据的内在本 tion based on feature selection and extreme learning ma- chine decision tree[J].Neurocomputing,2018,10: 质,能在一定程度上克服特征冗余问题,从而极 271-280. 大提高情绪识别效果。 [10]LIU Z,WU M,CAO W,et al.A facial expression emo- 5)设计更加有效的情绪诱发方式 tion recognition based human-robot interaction 主体诱发难以控制情绪诱发的时间且易受外 system[J].Journal of automation:english version,2017, 界干扰,使用情绪诱发材料的事件诱发情绪和现 4(4上668-676. 实生活中个体感受到情绪的情境相差甚远,不同 [11]LIU Z.PAN F.WU M.et al.A multimodal emotional 通道的情绪刺激对被试者的认知和行为产生的影 communication based humans-robots interaction 响也不尽相同。在未来,一方面可以通过设计特 system[C]//Poceedings of the Control Conference. 殊情境来操控诱发被试者情绪体验的范式,例如 Chengdu,China,2016:6363-6368. 开发情绪诱发游戏、基于虚拟现实技术的沉浸式 [12]CHEN S,JIN Q.Multi-modal conditional attention fu- sion for dimensional emotion prediction[Cl//Proceed- 情境诱发情绪等。另一方面,由于基于高度控制 ings of the 24th ACM International Conference on Mul- 素材诱发情绪的范式推广的局限性,可通过让被 timedia.Amsterdam,the Netherlands,2016:571-575. 试者处于一种自然情境下并使用相对开放素材诱 [13]CHEN S,LI X,JIN Q,et al.Video emotion recognition 发情绪,探究真实场景的模态信息与情绪状态之 in the wild based on fusion of multimodal features[Cl// 间的关系。 Proceedings of the 18th ACM International Conference
出了一些思考,但无论是算法研究还是工程应用 都存在着一些可以努力尝试和改进的方向。下面 将提出值得进一步探究和尝试的方面,旨在对相 关研究者起到一定的启发作用。 1) 量化情绪描述模型 现在进行的情感识别工作多集中在简单的情 感分类,对于情绪强弱程度方面,目前并没有太 多的研究者去探究。精准地识别情绪强弱能够更 加明确情绪状态,具有非常重要的现实意义。 2) 尝试多模态的混合融合策略 混合融合属于深层融合的方式,能够很好地 挖掘不同模态之间的非线性关联。我们可以同时 考虑结合深度学习,针对不同模态,在不同的融 合层次进行相关融合,进而实现情绪识别。 3) 针对不同实际应用场景,选择合适模态 利用情绪信息之间的互补性无疑是可以提高 识别准确率的,但我们也有必要根据不同的应用 环境选择不同的模态进行混合识别。例如针对健 康人群,采集脸部表情这一对于健康人最能反映 情绪的外部行为表现的基础上,结合能充分揭露 用户的内在认知状态和情感状态的脑电信号,增 强了现实应用的可用性和可靠性。针对意识障碍 患者等运动障碍患者,基于脑电信号的方法被认 为是更可靠的解析情绪的方法,因为它们是对中 枢神经系统和自主神经系统的客观测量。 4) 借助深度学习算法提取情感特征 目前情绪识别研究大多是从数字信号分析的 角度出发,探究情绪与信号特征的关系。深度学 习具有提取鲁棒性特征的潜力,大量基于深度学 习的情绪识别算法被提出。利用海量数据学习到 的特征比人工构造的特征更能反映数据的内在本 质,能在一定程度上克服特征冗余问题,从而极 大提高情绪识别效果。 5) 设计更加有效的情绪诱发方式 主体诱发难以控制情绪诱发的时间且易受外 界干扰,使用情绪诱发材料的事件诱发情绪和现 实生活中个体感受到情绪的情境相差甚远,不同 通道的情绪刺激对被试者的认知和行为产生的影 响也不尽相同。在未来,一方面可以通过设计特 殊情境来操控诱发被试者情绪体验的范式,例如 开发情绪诱发游戏、基于虚拟现实技术的沉浸式 情境诱发情绪等。另一方面,由于基于高度控制 素材诱发情绪的范式推广的局限性,可通过让被 试者处于一种自然情境下并使用相对开放素材诱 发情绪,探究真实场景的模态信息与情绪状态之 间的关系。 参考文献: PICARD R W, HEALEY J. Affective wearables[J]. Personal technologies, 1997, 1(4): 231–240. [1] PAN J, XIE Q, HUANG H, et al. Emotion-related consciousness detection in patients with disorders of consciousness through an EEG-Based BCI system[J]. Frontiers in human neuroence, 2018, 12: 198–209. [2] HUANG H, XIE Q, PAN J, et al. An EEG-based brain computer interface for emotion recognition and its application in patients with disorder of consciousness[J]. IEEE transactions on affective computing, 2019, 99: 1–10. [3] WANG S, PHILLIPS P, DONG Z, et al. Intelligent facial emotion recognition based on stationary wavelet entropy and Jaya algorithm[J]. Neurocomputing, 2018, 272: 668–676. [4] WANG W, WU J. Notice of retraction emotion recognition based on CSO&SVM in e-learning[C]//Poceedings of the 2011 Seventh International Conference on Natural Computation. Shanghai, China, 2011: 566−570. [5] LIU W, QIAN J, YAO Z, et al. Convolutional two-stream network using multi-facial feature fusion for driver fatigue detection[J]. Future internet, 2019, 11(5): 115. [6] BORIL H, OMID SADJADI S, KLEINSCHMIDT T, et al. Analysis and detection of cognitive load and frustration in drivers' speech[J]. Proceedings of interspeech, 2010: 502–505. [7] 陆怡菲. 基于脑电信号和眼动信号融合的多模态情绪 识别研究 [D]. 上海: 上海交通大学, 2017. LU Yifei. Research on multi-modal emotion recognition based on eeg and eye movement signal fusion[D]. Shanghai: Shanghai Jiaotong University, 2017. [8] LIU Z, WU M, TAN G, et al. Speech emotion recognition based on feature selection and extreme learning machine decision tree[J]. Neurocomputing, 2018, 10: 271–280. [9] LIU Z, WU M, CAO W, et al. A facial expression emotion recognition based human-robot interaction system[J]. Journal of automation: english version, 2017, 4(4): 668–676. [10] LIU Z, PAN F, WU M, et al. A multimodal emotional communication based humans-robots interaction system[C]//Poceedings of the Control Conference. Chengdu, China, 2016: 6363−6368. [11] CHEN S, JIN Q. Multi-modal conditional attention fusion for dimensional emotion prediction[C]//Proceedings of the 24th ACM International Conference on Multimedia. Amsterdam, the Netherlands, 2016: 571−575. [12] CHEN S, LI X, JIN Q, et al. Video emotion recognition in the wild based on fusion of multimodal features[C]// Proceedings of the 18th ACM International Conference [13] 第 4 期 潘家辉,等:多模态情绪识别研究综述 ·641·
·642· 智能系统学报 第15卷 on Mmultimodal Interaction.Tokyo,Japan,2016: [26]高庆吉,赵志华,徐达,等.语音情感识别研究综述 494-500 智能系统学报,2020,15(1)1-13 [14]ZHANG X,SHEN J,DIN Z U,et al.Multimodal de- GAO Qingji,ZHAO Zhihua,XU Da,et al.Review on pression detection:fusion of electroencephalography and speech emotion recognition research[J].CAAI transac. paralinguistic behaviors using a novel strategy for classi- tions on intelligent systems,2020,15(1):1-13. fier ensemble[J].IEEE journal of biomedical and health [27]JOHNSTON V S.Why we feel:The science of human informatics,,2019,23(6:2265-2275. emotions[M].New York:Perseus publishing,1999 [15]ZONG Y,ZHENG W,HUANG X,et al.Emotion recog- [28]RUSSELL JA.A circumplex model of affect[J].Journ- nition in the wild via sparse transductive transfer linear al of personality and social psychology,1980,39(6): discriminant analysis[J].Journal on multimodal user in- 1161. terfaces,2016,10(2):163-172. [29]MEHRABIAN A.Basic dimensions for a general psy- [16]ZHANG T,ZHENG W,CUI Z,et al.Spatial-temporal chological theory:Implications for personality,social. recurrent neural network for emotion recognition[J]. environmental,and developmental studies[M].Cam- IEEE transactions on systems,man,and cybernetics, bridge:Oelgeschlager Gunn Hain Cambridge,MA. 2019.49(3):839-847 1980. [17]ZHENG W,LIU W,LU Y,et al.Emotionmeter:A mul- [30]ORTONY A,CLORE G L,COLLINS A.The cognitive timodal framework for recognizing human emotions[J]. structure of emotion[J].Contemporary sociology,1988 IEEE transactions on cybernetics,2018,49(3): 18(6):2147-2153 1110-1122 [31]PICARD R W.Affective computing[M].Cambridge: [18]ZHENG W,ZHU J,LU B.Identifying stable patterns MIT press,2000 over time for emotion recognition from EEG[J].IEEE [32]VAN KESTEREN A,OPDEN AKKER R.POEL M,et transactions on affective computing,2019,10(3): al.Simulation of emotions of agents in virtual environ- 417-429 ments using neural networks[J].Learning to behave:in- [19]YAN X.ZHENG W.LIU W,et al.Investigating Gender ternalising knowledge,2000:137-147. differences of brain areas in emotion recognition using [33]PLUTCHIK R.Emotions and life:Perspectives from LSTM neural network[C]//Poceedings of the Internation- psychology,biology,and evolution[M].Washington: al Conference on Neural Information Processing.Guang- American Psychological Association,2003. zhou,China.2017:820-829. [34]IZARD.Human emotions[M].Berlin:Springer Science [20]LI J.QIU S,SHEN Y,et al.Multisource transfer learn- Business Media,2013. ing for cross-subject EEG emotion recognition[J].IEEE [35]ZHUANG N,ZENG Y,YANG K,et al.Investigating transactions on systems,man,and cybernetics,2019, patterns for self-induced emotion recognition from EEG 50(7:1-13. signals[J].Sensors,2018,18(3):841. [21]DU Changde,DU Changying.LI J,et al.Semi-super- [36]IACOVIELLO D.PETRACCA A.SPEZIALETTI M.et vised bayesian deep multi-modal emotion recognition[J]. al.A real-time classification algorithm for EEG-based arXiv preprint arXiv:170407548,2017. BCI driven by self-induced emotions[J].Computer [22]程静.基本情感生理信号的非线性特征提取研究D] methods and programs in biomedicine,2015,122(3): 重庆:西南大学2015. 293-303. CHENG Jing.Research on nonlinear feature extraction [37]RIZZOLATTI G,CRAIGHERO L.The mirror-neuron of basic emotional physiological signals[D].Chongqing: system[J].Annu rev neurosci,2004,27:169-192. Southwest University,2015. [38]LANG P J,BRADLEY MM,CUTHBERT B N.Inter- [23]温万惠.基于生理信号的情感识别方法研究D].重 national affective picture system (IAPS):Technical 庆:西南大学,2010 manual and affective ratings[J].NIMH center for the WEN Wanhui.Research on emotion recognition meth- study of emotion and attention,1997.1:39-58. od based on physiological signals[D].Chongqing, [39]BRADLEY M,LANG P J.The International affective Southwest university,2010. digitized sounds (IADS)[M].Rockville:NIMH center, [24]PICARD R W.Affective computing:challenges[J].In- 1999. ternational journal of human-computer studies,2003, [40]KOELSTRA S.MUHL C.SOLEYMANI M.et al. 59(1-2):55-64. Deap:A database for emotion analysis;using physiolo- [25]EKMAN PE,DAVIDSON R J.The nature of emotion: gical signals[J].IEEE transactions on affective comput- fundamental questions[M].Oxford:Oxford university ing2011,3(1):18-3L. press,1994 [41]SOLEYMANI M,LICHTENAUER J,PUN T,et al.A
on Mmultimodal Interaction. Tokyo, Japan, 2016: 494−500. ZHANG X, SHEN J, DIN Z U, et al. Multimodal depression detection: fusion of electroencephalography and paralinguistic behaviors using a novel strategy for classifier ensemble[J]. IEEE journal of biomedical and health informatics, 2019, 23(6): 2265–2275. [14] ZONG Y, ZHENG W, HUANG X, et al. Emotion recognition in the wild via sparse transductive transfer linear discriminant analysis[J]. Journal on multimodal user interfaces, 2016, 10(2): 163–172. [15] ZHANG T, ZHENG W, CUI Z, et al. Spatial–temporal recurrent neural network for emotion recognition[J]. IEEE transactions on systems, man, and cybernetics, 2019, 49(3): 839–847. [16] ZHENG W, LIU W, LU Y, et al. Emotionmeter: A multimodal framework for recognizing human emotions[J]. IEEE transactions on cybernetics, 2018, 49(3): 1110–1122. [17] ZHENG W, ZHU J, LU B. Identifying stable patterns over time for emotion recognition from EEG[J]. IEEE transactions on affective computing, 2019, 10(3): 417–429. [18] YAN X, ZHENG W, LIU W, et al. Investigating Gender differences of brain areas in emotion recognition using LSTM neural network[C]//Poceedings of the International Conference on Neural Information Processing. Guangzhou, China, 2017: 820−829. [19] LI J, QIU S, SHEN Y, et al. Multisource transfer learning for cross-subject EEG emotion recognition[J]. IEEE transactions on systems, man, and cybernetics, 2019, 50(7): 1–13. [20] DU Changde, DU Changying, LI J, et al. Semi-supervised bayesian deep multi-modal emotion recognition[J]. arXiv preprint arXiv: 170407548, 2017. [21] 程静. 基本情感生理信号的非线性特征提取研究 [D]. 重庆: 西南大学, 2015. CHENG Jing. Research on nonlinear feature extraction of basic emotional physiological signals[D]. Chongqing: Southwest University, 2015. [22] 温万惠. 基于生理信号的情感识别方法研究 [D]. 重 庆: 西南大学, 2010. WEN Wanhui. Research on emotion recognition method based on physiological signals[D]. Chongqing, Southwest university, 2010. [23] PICARD R W. Affective computing: challenges[J]. International journal of human-computer studies, 2003, 59(1-2): 55–64. [24] EKMAN P E, DAVIDSON R J. The nature of emotion: fundamental questions[M]. Oxford: Oxford university press, 1994. [25] 高庆吉, 赵志华, 徐达, 等. 语音情感识别研究综述 [J]. 智能系统学报, 2020, 15(1): 1–13. GAO Qingji, ZHAO Zhihua, XU Da, et al. Review on speech emotion recognition research[J]. CAAI transactions on intelligent systems, 2020, 15(1): 1–13. [26] JOHNSTON V S. Why we feel: The science of human emotions[M]. New York: Perseus publishing, 1999. [27] RUSSELL J A. A circumplex model of affect[J]. Journal of personality and social psychology, 1980, 39(6): 1161. [28] MEHRABIAN A. Basic dimensions for a general psychological theory: Implications for personality, social, environmental, and developmental studies[M]. Cambridge: Oelgeschlager Gunn & Hain Cambridge, MA, 1980. [29] ORTONY A, CLORE G L, COLLINS A. The cognitive structure of emotion[J]. Contemporary sociology, 1988, 18(6): 2147–2153. [30] PICARD R W. Affective computing[M]. Cambridge: MIT press, 2000. [31] VAN KESTEREN A, OPDEN AKKER R, POEL M, et al. Simulation of emotions of agents in virtual environments using neural networks[J]. Learning to behave: internalising knowledge, 2000: 137–147. [32] PLUTCHIK R. Emotions and life: Perspectives from psychology, biology, and evolution[M]. Washington: American Psychological Association, 2003. [33] IZARD. Human emotions[M]. Berlin: Springer Science & Business Media, 2013. [34] ZHUANG N, ZENG Y, YANG K, et al. Investigating patterns for self-induced emotion recognition from EEG signals[J]. Sensors, 2018, 18(3): 841. [35] IACOVIELLO D, PETRACCA A, SPEZIALETTI M, et al. A real-time classification algorithm for EEG-based BCI driven by self-induced emotions[J]. Computer methods and programs in biomedicine, 2015, 122(3): 293–303. [36] RIZZOLATTI G, CRAIGHERO L. The mirror-neuron system[J]. Annu rev neurosci, 2004, 27: 169–192. [37] LANG P J, BRADLEY M M, CUTHBERT B N. International affective picture system (IAPS): Technical manual and affective ratings[J]. NIMH center for the study of emotion and attention, 1997, 1: 39–58. [38] BRADLEY M, LANG P J. The International affective digitized sounds (IADS)[M]. Rockville: NIMH center, 1999. [39] KOELSTRA S, MUHL C, SOLEYMANI M, et al. Deap: A database for emotion analysis; using physiological signals[J]. IEEE transactions on affective computing, 2011, 3(1): 18–31. [40] [41] SOLEYMANI M, LICHTENAUER J, PUN T, et al. A ·642· 智 能 系 统 学 报 第 15 卷