正在加载图片...
·1043· 颜文靖,等:心理学视角下的自动表情识别 第5期 (spontaneous)和自然性。有些研究者通过材料刺 点,又不干扰其情绪体验,我们要求被试在有情 激或者做某些任务来实现情绪的诱发,如DISFA、 绪反应时进行按键操作,以便于在编码时过滤无 Belfast Databasela、MMa、Multi-PIE等。 情绪意义的面部动作。在观看情绪视频结束后, 构建微表情数据库也同样经历了从摆拍表情 收集被试情绪体验的主观报告(见图3)。整理编 到自然诱发表情的过程。我们过去所做的微表 码之后,构建了CASME系列数据库s-47。使用类 情数据库,就是在实验室里,采用情绪性视频作 似的方法,我们也构建了伪装表情数据库MFED。 为诱发材料,通过让参与者观看视频来激发参与 当然我们也明确地意识到,这些在实验室里诱发 者的情绪和表情。为了更好地记录被试情绪激发 出的表情样本依然缺乏生态效度。 目的 激发伪装动机 情绪唤醒 采集(微表情) 记录表情对应的情绪 阶段 指导语操纵 观看情绪性视频 拍摄观看过程 对情绪进行主观评价 图3微表情诱发范式流程 Fig.3 The elicitation approach for micro-expressions 既然实验室样本的生态效度不够,那么就有 效率和性能。心理学的研究也证明,动态表情能 必要高度关注现实场景(in-the-wild)中的自然表 够提供更多的有效信息,包括区分真实与伪装的 情。与在实验室里诱发得到的表情相比,现实场 表情51。例如,真实笑容的时长一般是在500~ 景中的自然表情在光照、脸部姿势、尺寸和面部 4000ms,而伪装笑容的时长则可能过长或过短5: 遮挡等方面都有很大的变化,因此对其分类更具 与非真实笑容相比,真实笑容的启动时长和恢复 挑战性,但在实际应用中也更为重要。当前很多 时长都更长5s。 数据库从网上(如网页、社交媒体、视频等)抓取 3.3从表情的单一面部动作模式到表情的多模 大量的表情图片,并假设它们是相对自然的(不 态信息 过这些图片中仍有不少是摆拍的),如EmotioNet9、 人类在现实应用中的情绪表达涉及到不同的 AffectNet、RAF-DBIs0。自2013年以来,FER2013 通道,而面部表情只是其中一种。所以,越来越 Emotion Recognition in the Wild(Emotiw )(51-521 多的多模态表情数据库被建构出来,如EU Emo- 等情感识别竞赛基于真实世界场景中收集的相对 tion Stimuluss7、BAUM-1、AFEW。其中,最常 充足的训练数据,这也促进了自动表情识别从实 见的是表情与声音结合的多模态数据库。例如, 验室场景到自然环境的过渡。 AFEW数据库包含了从不同电影中收集的视频片 3.2从静态表情图片到动态表情视频 段,这些视频片段具有自发的表情、各种头部姿势 在现实世界中,人们的表情是一个动态的过 遮挡和照明,有时间和多模态信息,提供了不同 程。一个完整的表情可区分为启动阶段(onset 环境条件下音频和视频方面的样本。多模态情感 phase)、高峰阶段(apex phase)和恢复阶段(offset 分析往往通过处理这些不同的模态来分析人类对 phase)。而静态表情图片仅仅展示了高峰阶段的 某一事物的观点(通常区分为积极的或消极的)网。 瞬间。 3.4从小样本到大样本 在基于静态表情图片的自动表情识别方法 在实验室里诱发个体的情绪进而采集表情样 中,特征表示只用当前单一图像的空间信息进行 本并进行标注,是一种效率较低的构建表情数据 编码,而在基于动态表情视频的识别方法中,则 库的方法,但具有较高的效度,可以较为明确地 会考虑输入表情序列中连续帧之间的时间关系。 区分情绪类型。这些数据库中模特的数量往往在 对序列(视频)数据进行识别已经成为一种趋势。 几十到几百人之间。 Lⅰ等向总结了不同类型的方法在动态数据上的相 为了满足深度学习的大数据需求,很多研究 对优势,包括代表空间和时间信息的能力、对训 者从网上抓取图片与视频作为样本。这些样本往 练数据大小和帧数的要求(可变或固定)、计算 往无法确定当事人自身的主观体验,而只能使用(spontaneous)和自然性。有些研究者通过材料刺 激或者做某些任务来实现情绪的诱发,如 DISFA[40] 、 Belfast Database[41] 、MMI[42] 、Multi-PIE[43] 等。 构建微表情数据库也同样经历了从摆拍表情 到自然诱发表情的过程[44]。我们过去所做的微表 情数据库,就是在实验室里,采用情绪性视频作 为诱发材料,通过让参与者观看视频来激发参与 者的情绪和表情。为了更好地记录被试情绪激发 点,又不干扰其情绪体验,我们要求被试在有情 绪反应时进行按键操作,以便于在编码时过滤无 情绪意义的面部动作。在观看情绪视频结束后, 收集被试情绪体验的主观报告(见图 3)。整理编 码之后,构建了 CASME 系列数据库[45-47]。使用类 似的方法,我们也构建了伪装表情数据库 MFED[48]。 当然我们也明确地意识到,这些在实验室里诱发 出的表情样本依然缺乏生态效度。 目的 阶段 激发伪装动机 情绪唤醒 采集 (微表情) 记录表情对应的情绪 指导语操纵 观看情绪性视频 拍摄观看过程 对情绪进行主观评价 图 3 微表情诱发范式流程 Fig. 3 The elicitation approach for micro-expressions 既然实验室样本的生态效度不够,那么就有 必要高度关注现实场景(in-the-wild)中的自然表 情。与在实验室里诱发得到的表情相比,现实场 景中的自然表情在光照、脸部姿势、尺寸和面部 遮挡等方面都有很大的变化,因此对其分类更具 挑战性,但在实际应用中也更为重要。当前很多 数据库从网上(如网页、社交媒体、视频等)抓取 大量的表情图片,并假设它们是相对自然的(不 过这些图片中仍有不少是摆拍的),如 EmotioNet[49] 、 AffectNet[34] 、RAF-DB[50]。自 2013 年以来,FER2013 和 Emotion Recognition in the Wild(EmotiW) [51-52] 等情感识别竞赛基于真实世界场景中收集的相对 充足的训练数据,这也促进了自动表情识别从实 验室场景到自然环境的过渡。 3.2 从静态表情图片到动态表情视频 在现实世界中,人们的表情是一个动态的过 程。一个完整的表情可区分为启动阶段(onset phase)、高峰阶段(apex phase)和恢复阶段(offset phase)。而静态表情图片仅仅展示了高峰阶段的 一瞬间。 在基于静态表情图片的自动表情识别方法 中,特征表示只用当前单一图像的空间信息进行 编码,而在基于动态表情视频的识别方法中,则 会考虑输入表情序列中连续帧之间的时间关系。 对序列(视频)数据进行识别已经成为一种趋势。 Li 等 [6] 总结了不同类型的方法在动态数据上的相 对优势,包括代表空间和时间信息的能力、对训 练数据大小和帧数的要求(可变或固定)、计算 效率和性能。心理学的研究也证明,动态表情能 够提供更多的有效信息,包括区分真实与伪装的 表情[53]。例如,真实笑容的时长一般是在 500~ 4000 ms,而伪装笑容的时长则可能过长或过短[54] ; 与非真实笑容相比,真实笑容的启动时长和恢复 时长都更长[55-56]。 3.3 从表情的单一面部动作模式到表情的多模 态信息 人类在现实应用中的情绪表达涉及到不同的 通道,而面部表情只是其中一种。所以,越来越 多的多模态表情数据库被建构出来,如 EU Emo￾tion Stimulus[57] 、BAUM-1[58] 、AFEW[51]。其中,最常 见的是表情与声音结合的多模态数据库。例如, AFEW 数据库包含了从不同电影中收集的视频片 段,这些视频片段具有自发的表情、各种头部姿势、 遮挡和照明,有时间和多模态信息,提供了不同 环境条件下音频和视频方面的样本。多模态情感 分析往往通过处理这些不同的模态来分析人类对 某一事物的观点(通常区分为积极的或消极的)[59]。 3.4 从小样本到大样本 在实验室里诱发个体的情绪进而采集表情样 本并进行标注,是一种效率较低的构建表情数据 库的方法,但具有较高的效度,可以较为明确地 区分情绪类型。这些数据库中模特的数量往往在 几十到几百人之间。 为了满足深度学习的大数据需求,很多研究 者从网上抓取图片与视频作为样本。这些样本往 往无法确定当事人自身的主观体验,而只能使用 ·1043· 颜文靖,等:心理学视角下的自动表情识别 第 5 期
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有