第17卷第5期 智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202112056 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20220617.1819.008.html 心理学视角下的自动表情识别 颜文靖,蒋柯,傅小兰2 (1.温州医科大学精神医学学院浙江省阿尔茨海默病研究重点实验室,渐江温州325015,2.中国科学院心理 研究所脑与认知科学国家重点实验室,北京100101:3.中国科学院大学心理学系,北京100049) 摘要:自动表情识别是心理学与计算机科学等深度交叉的前沿领域。情绪心理学、模式识别、情感计算等领 域的研究者发展表情识别相关的理论、数据库和算法,极大地推动了自动表情识别技术的进步。文章基于心理 学视角,结合我们前期开展的相关工作,首先梳理自动表情识别的心理学基础、情绪的面部表达方式、表情数 据的演化、表情样本的标注等方面的理论观点与实践进展,然后分析指出自动表情识别面临的主要问题,最后 基于预测加工理论的建构观点,提出注重交互过程中的表情“理解”,有望进一步提高自动表情识别的有效性, 并预期这可能是自动表情识别研究的未来发展方向。 关键词:自动表情识别:基本情绪理论:情绪维度理论:表情数据库;建构论;情绪标注:微表情;面部动作 中图分类号:TP202:F407 文献标志码:A文章编号:1673-4785(2022)05-1039-15 中文引用格式:颜文靖,蒋柯,傅小兰.心理学视角下的自动表情识别.智能系统学报,2022,17(5):1039-1053. 英文引用格式:YAN Wenjing,JIANG Ke,,FU Xiaolan..Automatic facial expression recognition from a psychological perspective. CAAI transactions on intelligent systems,2022,17(5):1039-1053. Automatic facial expression recognition from a psychological perspective YAN Wenjing',JIANG Ke',FU Xiaolan23 (1.School of Mental Health,Key Laboratory of Alzheimer's Disease of Zhejiang Province,Wenzhou Medical University,Wenzhou 325015,China;2.State Key Laboratory of Brain and Cognitive Science,Institute of Psychology,Chinese Academy of Sciences, Beijing 100101,China:3.Department of Psychology,University of the Chinese Academy of Sciences,Beijing 100049,China) Abstract:Automatic facial expression recognition is an interdisciplinary and frontier field,spanning psychology,com- puter science,and other research areas.Researchers in the fields of emotional psychology,pattern recognition,and af- fective computing develop expression recognition-related theories,databases,and algorithms,greatly progressing the automatic facial expression technologies.Combining the previous related work,the article first discusses the theoretical perspectives and practical advances in the psychological basis of automatic facial expression recognition,facial expres- sion approaches to emotions,facial expression database development,and emotion annotations.Then,it analyzes and highlights the primary issues in automatic expression recognition.Finally,based on the constructivism of the predictive processing theory,it proposes that attention must be paid to"understanding"the facial expressions in interpersonal inter- action to further improve the effectiveness of automatic facial expression recognition and be the future research direc- tion. Keywords:automatic expression recognition;basic emotion theory;dimension theory in emotion;database of facial ex- pressions,constructivism;emotion annotation;micro-expressions;facial actions 如果机器能够像人类一样,通过识别表情来 为实现这个美好的愿望,几十年来心理学与计算 了解他人的情绪状态,会是件多么美妙的事情。 机科学等领域的研究者付出了巨大的努力,构建 理论、采集数据和研发算法,推动自动表情识别 收稿日期:2021-12-30.网络出版日期:2022-06-20. 研究不断取得新进展。心理学在为自动表情识别 基金项目:温州市科技计划项目(G20210027). 通信作者:傅小兰.E-mail:fuxl@psych.ac.cn 提供思路和启发的同时,其情绪心理学分支也得
DOI: 10.11992/tis.202112056 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20220617.1819.008.html 心理学视角下的自动表情识别 颜文靖1 ,蒋柯1 ,傅小兰2,3 (1. 温州医科大学 精神医学学院 浙江省阿尔茨海默病研究重点实验室, 浙江 温州 325015; 2. 中国科学院心理 研究所 脑与认知科学国家重点实验室, 北京 100101; 3. 中国科学院大学 心理学系, 北京 100049) 摘 要:自动表情识别是心理学与计算机科学等深度交叉的前沿领域。情绪心理学、模式识别、情感计算等领 域的研究者发展表情识别相关的理论、数据库和算法,极大地推动了自动表情识别技术的进步。文章基于心理 学视角,结合我们前期开展的相关工作,首先梳理自动表情识别的心理学基础、情绪的面部表达方式、表情数 据的演化、表情样本的标注等方面的理论观点与实践进展,然后分析指出自动表情识别面临的主要问题,最后 基于预测加工理论的建构观点,提出注重交互过程中的表情“理解”,有望进一步提高自动表情识别的有效性, 并预期这可能是自动表情识别研究的未来发展方向。 关键词:自动表情识别;基本情绪理论;情绪维度理论;表情数据库;建构论;情绪标注;微表情;面部动作 中图分类号:TP202; F407 文献标志码:A 文章编号:1673−4785(2022)05−1039−15 中文引用格式:颜文靖, 蒋柯, 傅小兰. 心理学视角下的自动表情识别 [J]. 智能系统学报, 2022, 17(5): 1039–1053. 英文引用格式:YAN Wenjing, JIANG Ke, FU Xiaolan. Automatic facial expression recognition from a psychological perspective[J]. CAAI transactions on intelligent systems, 2022, 17(5): 1039–1053. Automatic facial expression recognition from a psychological perspective YAN Wenjing1 ,JIANG Ke1 ,FU Xiaolan2,3 (1. School of Mental Health, Key Laboratory of Alzheimer’s Disease of Zhejiang Province, Wenzhou Medical University, Wenzhou 325015, China; 2. State Key Laboratory of Brain and Cognitive Science, Institute of Psychology, Chinese Academy of Sciences, Beijing 100101, China; 3. Department of Psychology, University of the Chinese Academy of Sciences, Beijing 100049, China) Abstract: Automatic facial expression recognition is an interdisciplinary and frontier field, spanning psychology, computer science, and other research areas. Researchers in the fields of emotional psychology, pattern recognition, and affective computing develop expression recognition-related theories, databases, and algorithms, greatly progressing the automatic facial expression technologies. Combining the previous related work, the article first discusses the theoretical perspectives and practical advances in the psychological basis of automatic facial expression recognition, facial expression approaches to emotions, facial expression database development, and emotion annotations. Then, it analyzes and highlights the primary issues in automatic expression recognition. Finally, based on the constructivism of the predictive processing theory, it proposes that attention must be paid to “understanding” the facial expressions in interpersonal interaction to further improve the effectiveness of automatic facial expression recognition and be the future research direction. Keywords: automatic expression recognition; basic emotion theory; dimension theory in emotion; database of facial expressions; constructivism; emotion annotation; micro-expressions; facial actions 如果机器能够像人类一样,通过识别表情来 了解他人的情绪状态,会是件多么美妙的事情。 为实现这个美好的愿望,几十年来心理学与计算 机科学等领域的研究者付出了巨大的努力,构建 理论、采集数据和研发算法,推动自动表情识别 研究不断取得新进展。心理学在为自动表情识别 提供思路和启发的同时,其情绪心理学分支也得 收稿日期:2021−12−30. 网络出版日期:2022−06−20. 基金项目:温州市科技计划项目(G20210027). 通信作者:傅小兰. E-mail:fuxl@psych.ac.cn. 第 17 卷第 5 期 智 能 系 统 学 报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022
第17卷 智能系统学报 ·1040· 以蓬勃发展,并影响着自动表情识别的未来发展 理反应与行为表现)(见图1):基本情绪能够被 方向。我们前期围绕情绪的相关问题(尤其是微 全人类识别。以这些观点为核心的理论被称为基 表情),在心理学和计算机科学等学科交叉领域 本情绪理论。自动表情识别领域中的工作大多数 开展工作,考察了情绪与表情的关系、微表情的 是根据基本情绪理论进行情绪分类的。 行为特点,构建了3个微表情数据库和一个伪装 表情数据库,研发微表情和伪装表情自动识别与 检测算法等。 虽然自动表情识别已经取得了重大进展,但 是依然存在着一些问题,导致实际应用中存在困 难。我们在研究过程中也产生了有关情绪的面部 (a)中性 b)高兴 (c)惊讶 (d轻蔑 表达及数据标注等方面的困惑,并进行了反思。本 文基于心理学视角,首先系统地梳理自动表情识别 的心理学基础、情绪的面部表达方式、表情数据 的演化、表情样本的标注方法等方面的理论观点 与实践进展,然后分析指出自动表情识别面临的 主要问题,最后基于心理学的建构论,提出在人 (e)悲伤 ()恐惧 (g)厌恶 (h)愤怒 际交互过程中进行表情“理解”有望进一步提高自 动表情识别的有效性,并预期这可能是自动表情 图1 基本情绪对应的原型表情示例(模特为本文第一作者) Fig.1 An example of the prototypical facial expressions 识别研究的未来发展方向。本文是一篇从心理学 corresponding to the basic emotion theory (the mod- 视角下思考自动表情识别的理论性文章,而非综 el is the first author of this paper) 述性或实证性文章。主要梳理表情识别的心理学 基本情绪理论认为每种情绪都是一个整体。 基础、情绪的面部表达方式、表情数据的演化、表 例如,高兴意味着我们内心有愉悦的体验,身体上 情样本的标注等方面的理论观点与实践进展,对 有心跳加速等生理活动,并可能还有对应的外显 计算机识别出的“情绪”进行心理学视角的思考。 动作,如手舞足蹈、眉飞色舞等。这是一个封装 1表情识别的心理学基础 好的系统,一旦触动某种情绪则会引发一系列完 整、特定的反应B,。基本情绪理论顺应了人类认 情绪心理学中两大流派一基本情绪理论 识活动的一般趋势:对纷繁复杂的事物进行分 (basic emotion theory)和维度论(dimension ap- 析,形成清晰的、结构化的知识体系。使用这些 proach)一几乎是所有自动表情识别的心理学 简洁的类别标签,我们可以把复杂的情绪过程与 基础。其中基本情绪理论处于主流地位,因为它 性格特征归属为简单的类别,这不仅与多数人的 有清晰的理论框架,结构化的系统,且与人们的 生活体验相契合,也便于人们理解这些心理现象 常识体验相吻合。 并进行沟通交流,同时也为机器自动表情识别提 1.1基本情绪理论 供了一个结构化的理论框架。 早在1872年,达尔文在《人类与动物的表情》 根据基本情绪理论,不同的情绪类型是离散 一书中对表情进行了分类。20世纪60至70年 的,相互独立的,有特定的诱发原因、主观体验 代,Ekman'2-总结了基本情绪具有的11个特点, 生理唤醒和行为反应,那么主观的情绪体验一定 包括特定的普遍性信号(distinctive universal sig 会反映在生理与行为上,即个体会表达出可观测 nal)、灵长类动物共有(present in other primates)、特 的信号以区分内在的情绪体验,内在情绪体验与 定的生理反应(distinctive physiological response)、 外在信号的关系是有效的(valid)、特异的(specif- 特定的普遍诱发事件(distinctive universals in ante- ic)和普遍的(generalized)。所以,通过提取面部 cedent events)、一致的情绪性反应(coherence 动作、肢体动作T、语言内容)、音频信号例、外 among emotional response)、特定的主观感受(dis- 周生理变化(如心率、血压、皮肤电),和中枢神 tinctive subjective feeling)等。Ekman等认为,人类 经变化(如脑电波、血氧消耗))等特征,研究者 拥有几类基本情绪,诸如高兴、悲伤、厌恶、愤 就可以推测个体内在的主观情绪体验。 怒、惊讶、恐惧等;这几类基本情绪是离散的、相 1.2情绪的维度论 互独立的;每类情绪都有其特定的主观体验、生 情绪的维度论由来已久。一个经典的情绪维
以蓬勃发展,并影响着自动表情识别的未来发展 方向。我们前期围绕情绪的相关问题(尤其是微 表情),在心理学和计算机科学等学科交叉领域 开展工作,考察了情绪与表情的关系、微表情的 行为特点,构建了 3 个微表情数据库和一个伪装 表情数据库,研发微表情和伪装表情自动识别与 检测算法等。 虽然自动表情识别已经取得了重大进展,但 是依然存在着一些问题,导致实际应用中存在困 难。我们在研究过程中也产生了有关情绪的面部 表达及数据标注等方面的困惑,并进行了反思。本 文基于心理学视角,首先系统地梳理自动表情识别 的心理学基础、情绪的面部表达方式、表情数据 的演化、表情样本的标注方法等方面的理论观点 与实践进展,然后分析指出自动表情识别面临的 主要问题,最后基于心理学的建构论,提出在人 际交互过程中进行表情“理解”有望进一步提高自 动表情识别的有效性,并预期这可能是自动表情 识别研究的未来发展方向。本文是一篇从心理学 视角下思考自动表情识别的理论性文章,而非综 述性或实证性文章。主要梳理表情识别的心理学 基础、情绪的面部表达方式、表情数据的演化、表 情样本的标注等方面的理论观点与实践进展,对 计算机识别出的“情绪”进行心理学视角的思考。 1 表情识别的心理学基础 情绪心理学中两大流派−基本情绪理论 (basic emotion theory)和维度论(dimension approach)−几乎是所有自动表情识别的心理学 基础。其中基本情绪理论处于主流地位,因为它 有清晰的理论框架,结构化的系统,且与人们的 常识体验相吻合。 1.1 基本情绪理论 早在 1872 年,达尔文在《人类与动物的表情》 一书中对表情进行了分类[1]。20 世纪 60 至 70 年 代,Ekman[2-3] 总结了基本情绪具有的 11 个特点, 包括特定的普遍性信号(distinctive universal signal)、灵长类动物共有 (present in other primates)、特 定的生理反应 (distinctive physiological response)、 特定的普遍诱发事件 (distinctive universals in antecedent events)、一致的情绪性反应(coherence among emotional response)、特定的主观感受(distinctive subjective feeling)等。Ekman 等认为,人类 拥有几类基本情绪,诸如高兴、悲伤、厌恶、愤 怒、惊讶、恐惧等;这几类基本情绪是离散的、相 互独立的;每类情绪都有其特定的主观体验、生 理反应与行为表现[2] (见图 1);基本情绪能够被 全人类识别。以这些观点为核心的理论被称为基 本情绪理论。自动表情识别领域中的工作大多数 是根据基本情绪理论进行情绪分类的[4]。 (a) 中性 (b) 高兴 (c) 惊讶 (d) 轻蔑 (e) 悲伤 (f) 恐惧 (g) 厌恶 (h) 愤怒 图 1 基本情绪对应的原型表情示例 (模特为本文第一作者) Fig. 1 An example of the prototypical facial expressions corresponding to the basic emotion theory (the model is the first author of this paper) 基本情绪理论认为每种情绪都是一个整体。 例如,高兴意味着我们内心有愉悦的体验,身体上 有心跳加速等生理活动,并可能还有对应的外显 动作,如手舞足蹈、眉飞色舞等。这是一个封装 好的系统,一旦触动某种情绪则会引发一系列完 整、特定的反应[3,5]。基本情绪理论顺应了人类认 识活动的一般趋势:对纷繁复杂的事物进行分 析,形成清晰的、结构化的知识体系。使用这些 简洁的类别标签,我们可以把复杂的情绪过程与 性格特征归属为简单的类别,这不仅与多数人的 生活体验相契合,也便于人们理解这些心理现象 并进行沟通交流,同时也为机器自动表情识别提 供了一个结构化的理论框架。 根据基本情绪理论,不同的情绪类型是离散 的,相互独立的,有特定的诱发原因、主观体验、 生理唤醒和行为反应,那么主观的情绪体验一定 会反映在生理与行为上,即个体会表达出可观测 的信号以区分内在的情绪体验,内在情绪体验与 外在信号的关系是有效的(valid)、特异的(specific)和普遍的(generalized)。所以,通过提取面部 动作[6] 、肢体动作[7] 、语言内容[8] 、音频信号[9] 、外 周生理变化(如心率、血压、皮肤电)[10] ,和中枢神 经变化(如脑电波、血氧消耗)[11] 等特征,研究者 就可以推测个体内在的主观情绪体验。 1.2 情绪的维度论 情绪的维度论由来已久。一个经典的情绪维 第 17 卷 智 能 系 统 学 报 ·1040·
·1041· 颜文靖,等:心理学视角下的自动表情识别 第5期 度论定义是:可伴随特定生理活动的正性或负性 最近Daniel Cordaro和Dacher Keltner(两人都 体验。维度取向曾经一度占据着情绪理论的主 曾是Ekman的学生)等&19进行了一系列跨文化 流。早在19世纪末,“心理学之父”冯特就认为情 研究,扩展了基本情绪的清单。他们使用情绪编 绪是可以通过愉快-不愉快、激动-平静、紧张-松 码范式,系统地分析来自5种不同文化背景个体 弛3个维度来描述的。Osgood!通过研究发现, 的22种情绪表现,提出了情绪的国际核心模式 个体在对各种刺激进行判断时,都会关注其在价 (international core patterns,.ICPs),即,在不同文化 值、活力和力量这3个因素上的语义差别,而这 中存在着22种普遍的面部情绪表达规律,而同时 些语义差别因素在本质上是情感性的,是对刺激 也会受到文化的一些影响。除了最初的6种情绪外, 进行分类的基础。Mehrabian等提出了情绪状 这些研究还提供了在面部和声音表达中出现的情 态的“愉悦度-唤醒度-支配度”三维度模型(pleas-. 绪如娱乐、敬畏、满足、欲望、尴尬、痛苦、解脱和 antness-arousal--dominance.,PAD)。在对PAD模型 同情等情绪的证据。表情类型增加到20多个,对 的深入研究中,Russel发现,情绪的支配度更 表情数据库的建立以及自动表情识别的准确率都 多地与其认知活动有关,愉悦和唤醒两个维度就 提出了新的挑战。 可以解释绝大部分情绪变异。2008年,国内引入 2.2微表情和伪装表情 了PAD情绪量表,它可以从愉悦度、激活度和优 微表情是人们隐藏或抑制自己的真实情绪时 势度上评定心境或情绪状态6。Watson等1)采 出现非常迅速泄露的面部动作2022。研究者以时 取自陈式情绪研究方法,提出积极-消极情感模 长(根据微表情快速的特点)对微表情进行操作 型(PANA),他们认为积极情感(positive affect, 性定义。现在越来越多的研究者将小于500s PA)和消极情感(negative affect,.NA)是两个相对 的表情定义为微表情四。微表情已成为自动表情 独立的、基本的维度。 识别研究的新热点,因为人们普遍认为微表情泄 如果使用情绪维度来标注表情样本,并不需 露了个体的真实表情,能够反映其真实情绪。 要给出一个明确的情绪类别标签;情感的维度模 早在《人类与动物的表情》一书中,达尔文 型似乎可以在连续的尺度上对每种情绪强度的微 就开始关注难以抑制的情绪表达,21。弗洛伊德 小变化进行编码。也有很多学者试图将维度论和 也提出人们的情绪都会以某种形式表达出来4。 基本情绪理论结合,将基本表情放在两三个维度 Haggard等21在寻找治疗师和病人之间的非言语 形成的坐标系中的合适位置,如情绪的环形模型 交流特征、观察心理治疗动态图片时,发现了一 (circumplex model of affect)。不过,每一种情绪 种“微小瞬间表情(micro-momentary facial expres- 都是非常复杂的,虽然我们可以用几个维度来表 sions)”,并认为其与压抑和自我防御机制有关。 达某种情绪的主要特点,但却无法充分地解释或 神经心理学的研究发现,自主表情和非自主表情 理解这种情绪。 分别受锥体束(pyramidal tract)和外锥体束(ex- 2情绪的面部表达方式 trapyramidal tract)控制21。因此,Ekman等21,2假 设微表情是自主表情和非自主表情之间对抗的 显然,6种基本情绪似乎不足以涵盖我们复杂 产物。 多样的情绪与对应的表情表达,而且人类擅长伪 我们前期在实验室里,通过诱发被试(心理 装,表情与情绪有时并不能很好地对应。此外, 学实验参与者)的情绪(非自主的),同时要求其 表情还受到特定社会文化条件下的展示规则(dis 伪装自己的表情(自主的),探索微表情的诱发 play rule)的影响。因此,除了研究基本表情类别, 方法和出现条件2。我们基于收集的数据,拟合 许多研究者也开始关注微表情、复杂表情和结合 不同条件下微表情表达的特点,描述了自然诱发 其他线索的表情。 的微表情的时间和空间特征。结合前人的研究 2.1基本表情类型 与假设,我们总结了微表情的表达机制,提出微 基本情绪理论把情绪分成几个基本类别,诸 表情既可能是个体在自主抑制其情绪表达时真实 如:高兴、悲伤、惊讶、恐惧、厌恶、愤怒等四。这 情绪的泄露,也可能是个体在正常表达真实表情 6种基本情绪似乎是泾渭分明的,且适用于所有 后因主动抑制而终止的真实情绪表达(见图2)。 人。但是,科学研究和实践应用都表明,依靠6种 至于微表情识别方面的研究,不是本文的关注 基本情绪的分类方式无法涵盖和解释复杂的情绪 点,感兴趣的读者可以查阅已经发表的综述性 现象。 文章
度论定义是:可伴随特定生理活动的正性或负性 体验[12]。维度取向曾经一度占据着情绪理论的主 流。早在 19 世纪末,“心理学之父”冯特就认为情 绪是可以通过愉快–不愉快、激动–平静、紧张–松 弛 3 个维度来描述的。Osgood[13] 通过研究发现, 个体在对各种刺激进行判断时,都会关注其在价 值、活力和力量这 3 个因素上的语义差别,而这 些语义差别因素在本质上是情感性的,是对刺激 进行分类的基础。Mehrabian 等 [14] 提出了情绪状 态的“愉悦度–唤醒度–支配度”三维度模型(pleasantness-arousal-dominance,PAD)。在对 PAD 模型 的深入研究中,Russell[15] 发现,情绪的支配度更 多地与其认知活动有关,愉悦和唤醒两个维度就 可以解释绝大部分情绪变异。2008 年,国内引入 了 PAD 情绪量表,它可以从愉悦度、激活度和优 势度上评定心境或情绪状态[16]。Watson 等 [17] 采 取自陈式情绪研究方法,提出积极–消极情感模 型(PANA),他们认为积极情感(positive affect, PA)和消极情感(negative affect,NA)是两个相对 独立的、基本的维度。 如果使用情绪维度来标注表情样本,并不需 要给出一个明确的情绪类别标签;情感的维度模 型似乎可以在连续的尺度上对每种情绪强度的微 小变化进行编码。也有很多学者试图将维度论和 基本情绪理论结合,将基本表情放在两三个维度 形成的坐标系中的合适位置,如情绪的环形模型 (circumplex model of affect) [15]。不过,每一种情绪 都是非常复杂的,虽然我们可以用几个维度来表 达某种情绪的主要特点,但却无法充分地解释或 理解这种情绪。 2 情绪的面部表达方式 显然,6 种基本情绪似乎不足以涵盖我们复杂 多样的情绪与对应的表情表达,而且人类擅长伪 装,表情与情绪有时并不能很好地对应。此外, 表情还受到特定社会文化条件下的展示规则(display rule)的影响。因此,除了研究基本表情类别, 许多研究者也开始关注微表情、复杂表情和结合 其他线索的表情。 2.1 基本表情类型 基本情绪理论把情绪分成几个基本类别,诸 如:高兴、悲伤、惊讶、恐惧、厌恶、愤怒等[2]。这 6 种基本情绪似乎是泾渭分明的,且适用于所有 人。但是,科学研究和实践应用都表明,依靠 6 种 基本情绪的分类方式无法涵盖和解释复杂的情绪 现象。 最近 Daniel Cordaro 和 Dacher Keltner(两人都 曾是 Ekman 的学生)等[18-19] 进行了一系列跨文化 研究,扩展了基本情绪的清单。他们使用情绪编 码范式,系统地分析来自 5 种不同文化背景个体 的 22 种情绪表现,提出了情绪的国际核心模式 (international core patterns, ICPs),即,在不同文化 中存在着 22 种普遍的面部情绪表达规律,而同时 也会受到文化的一些影响。除了最初的 6 种情绪外, 这些研究还提供了在面部和声音表达中出现的情 绪如娱乐、敬畏、满足、欲望、尴尬、痛苦、解脱和 同情等情绪的证据。表情类型增加到 20 多个,对 表情数据库的建立以及自动表情识别的准确率都 提出了新的挑战。 2.2 微表情和伪装表情 微表情是人们隐藏或抑制自己的真实情绪时 出现非常迅速泄露的面部动作[20-22]。研究者以时 长(根据微表情快速的特点)对微表情进行操作 性定义。现在越来越多的研究者将小于 500 ms 的表情定义为微表情[22]。微表情已成为自动表情 识别研究的新热点,因为人们普遍认为微表情泄 露了个体的真实表情,能够反映其真实情绪。 早在《人类与动物的表情》一书中,达尔文 就开始关注难以抑制的情绪表达[1,23]。弗洛伊德 也提出人们的情绪都会以某种形式表达出来[24]。 Haggard 等 [24] 在寻找治疗师和病人之间的非言语 交流特征、观察心理治疗动态图片时,发现了一 种“微小瞬间表情(micro-momentary facial expressions)”,并认为其与压抑和自我防御机制有关。 神经心理学的研究发现,自主表情和非自主表情 分别受锥体束(pyramidal tract)和外锥体束(extrapyramidal tract)控制[25]。因此,Ekman 等 [21,26] 假 设微表情是自主表情和非自主表情之间对抗的 产物。 我们前期在实验室里,通过诱发被试(心理 学实验参与者)的情绪(非自主的),同时要求其 伪装自己的表情(自主的),探索微表情的诱发 方法和出现条件[22]。我们基于收集的数据,拟合 不同条件下微表情表达的特点,描述了自然诱发 的微表情的时间和空间特征。结合前人的研究 与假设,我们总结了微表情的表达机制,提出微 表情既可能是个体在自主抑制其情绪表达时真实 情绪的泄露,也可能是个体在正常表达真实表情 后因主动抑制而终止的真实情绪表达(见图 2)。 至于微表情识别方面的研究,不是本文的关注 点,感兴趣的读者可以查阅已经发表的综述性 文章。 ·1041· 颜文靖,等:心理学视角下的自动表情识别 第 5 期
第17卷 智能系统学报 ·1042· 自主神经通路 抑制信号 表情预表达 泄露 (大脑皮层运动区) 微表情 风说 险谎 非自主 情等 神经通路 表情预表达 (大脑皮层运动区) 微表情 终 自主神经通路 抑制信号 情绪产生 表情表达准备 微表情的产生 图2微表情的产生机制 Fig.2 The production mechanism of micro-expressions 2.3复杂表情 应的表达信号交织在一起。Keltner等B认为,当 一些学者关注“复杂表情”,以期能更好地解 考虑到不同的模态时,我们就应该认可存在24种 释“不太标准”的表情。一篇发表在PNAS上的颇 情绪状态的独特表达。 有影响力的文章对复杂表情的定义是:复杂表情 既然情绪表达是多方面的,那么在表情提供 是由基本表情组合而成的”。实验者要求参与者 的信息不充分的情况下,就可以加入其他通道的 学习原型表情,并且努力摆出原型表情的组合, 信息,如肢体动作、皮肤温度、语言内容、语气语 然后筛选出可以明确识别表情的图片。在此基础 调、外周生理信号和中枢神经活动等。理论上而 上,研究者对这些复杂表情的类别进行分类,得 言,多模态信息互相补充可以得到更加完整的 到了较高的准确率,认为该实验证明了22种情绪 更加确定的信号,因此应能获得更好的情绪识别 类别的表达和识别是一致的。 结果,而很多实证研究也证明了这一点。如果多 Li等2从社交网络中收集了表情图片,招募 模态信息能够让我们更准确地识别情绪,那么, 315名参与者对数以万计的图片进行标注,筛选 对机器来说,只要能获得足够的多模态数据,就 出多标签的表情图片,建立了一个复杂表情数据 能够通过深度学习,建立良好的情绪预测模型。 库RAF-ML。该数据库的标注采用的是6种基本 情绪的标签。如果某个标签的选择人数超过20%, 3表情数据的演化 则标定为存在该种情绪:如果有2个以上的标签 从最初的6种基本表情到更多类型的表情, 有20%人选择,则定义为多标签(复杂)情绪。这 从摆拍表情到自然表情,从实验室场景中的表情 个研究使用的是复杂表情的“操作性定义”。 到自然场景(in-the-wild)中的表情,从静态表情图 值得一提的是,虽然关于复杂情绪与表情的 片到动态表情视频,从表情的单一面部动作模式 研究工作大多是在基本情绪理论框架下开展的, 到表情的多模态信息,从小样本到大样本,表情 但是该理论的领袖人物Ekman早期并不认同“复 数据库的建设取得了巨大的进展,这是情绪心理 杂情绪”这个概念。Ekman认为在生理反应与行 学家和情感计算科学家共同努力的结果。 为表达上缺乏存在复杂表情的证据。在他看来, 研究者提升机器识别人类情绪的准确性的工 所谓复杂的情绪只是多个基本表情的序列呈现, 作主要集中在基于表情数据库训练出一个计算快 是混合(mixed)而非融合(blend)。 速的、鲁棒性高的模型43,努力使机器能够基于 2.4表情的多模态信息 表情准确分类表达者内心情绪的状态。显而易见 在过去的20年里,对情绪识别的研究已经超 的是,自动表情识别的准确性在很大程度上受制 越了对6种情绪的静态描述,开启了一种多模态 于数据库中样本标注的质量。 的、动态的行为模式,涉及面部动作、发声、身体 3.1从摆拍表情到自发的自然表情 运动、凝视、手势、头部运动、触摸,甚至气味 早期的表情数据库里大多是摆拍(posed)的 的描述情绪表达的方式。例如,凝视模式和头部 原型表情,如CK+、JAFFE7、MUG、RaFD9。 动作与尴尬0、自豪和敬畏B的体验,以及相 近年来的表情数据库更加关注表情样本的自发性
自主神经通路 自主神经通路 表情预表达 (大脑皮层运动区) 表情预表达 (大脑皮层运动区) 抑制信号 抑制信号 泄露 终止 非自主 神经通路 情绪产生 表情表达准备 情绪 微表情 微表情 微表情的产生 高 风说 险谎 情等 景 ( ) 图 2 微表情的产生机制 Fig. 2 The production mechanism of micro-expressions 2.3 复杂表情 一些学者关注“复杂表情”,以期能更好地解 释“不太标准”的表情。一篇发表在 PNAS 上的颇 有影响力的文章对复杂表情的定义是:复杂表情 是由基本表情组合而成的[27]。实验者要求参与者 学习原型表情,并且努力摆出原型表情的组合, 然后筛选出可以明确识别表情的图片。在此基础 上,研究者对这些复杂表情的类别进行分类,得 到了较高的准确率,认为该实验证明了 22 种情绪 类别的表达和识别是一致的。 Li 等 [28] 从社交网络中收集了表情图片,招募 315 名参与者对数以万计的图片进行标注,筛选 出多标签的表情图片,建立了一个复杂表情数据 库 RAF-ML。该数据库的标注采用的是 6 种基本 情绪的标签。如果某个标签的选择人数超过 20%, 则标定为存在该种情绪;如果有 2 个以上的标签 有 20% 人选择,则定义为多标签(复杂)情绪。这 个研究使用的是复杂表情的“操作性定义”。 值得一提的是,虽然关于复杂情绪与表情的 研究工作大多是在基本情绪理论框架下开展的, 但是该理论的领袖人物 Ekman 早期并不认同“复 杂情绪”这个概念。Ekman[2] 认为在生理反应与行 为表达上缺乏存在复杂表情的证据。在他看来, 所谓复杂的情绪只是多个基本表情的序列呈现, 是混合(mixed)而非融合(blend)。 2.4 表情的多模态信息 在过去的 20 年里,对情绪识别的研究已经超 越了对 6 种情绪的静态描述,开启了一种多模态 的、动态的行为模式,涉及面部动作、发声、身体 运动、凝视、手势、头部运动、触摸,甚至气味[29] 的描述情绪表达的方式。例如,凝视模式和头部 动作与尴尬[30] 、自豪[31] 和敬畏[32] 的体验,以及相 应的表达信号交织在一起。Keltner 等 [33] 认为,当 考虑到不同的模态时,我们就应该认可存在 24 种 情绪状态的独特表达。 既然情绪表达是多方面的,那么在表情提供 的信息不充分的情况下,就可以加入其他通道的 信息,如肢体动作、皮肤温度、语言内容、语气语 调、外周生理信号和中枢神经活动等。理论上而 言,多模态信息互相补充可以得到更加完整的、 更加确定的信号,因此应能获得更好的情绪识别 结果,而很多实证研究也证明了这一点。如果多 模态信息能够让我们更准确地识别情绪,那么, 对机器来说,只要能获得足够的多模态数据,就 能够通过深度学习,建立良好的情绪预测模型。 3 表情数据的演化 从最初的 6 种基本表情到更多类型的表情, 从摆拍表情到自然表情,从实验室场景中的表情 到自然场景(in-the-wild)中的表情,从静态表情图 片到动态表情视频,从表情的单一面部动作模式 到表情的多模态信息,从小样本到大样本,表情 数据库的建设取得了巨大的进展,这是情绪心理 学家和情感计算科学家共同努力的结果。 研究者提升机器识别人类情绪的准确性的工 作主要集中在基于表情数据库训练出一个计算快 速的、鲁棒性高的模型[34-35] ,努力使机器能够基于 表情准确分类表达者内心情绪的状态。显而易见 的是,自动表情识别的准确性在很大程度上受制 于数据库中样本标注的质量。 3.1 从摆拍表情到自发的自然表情 早期的表情数据库里大多是摆拍(posed)的 原型表情,如 CK+[36] 、JAFFE[37] 、MUG[38] 、RaFD[39]。 近年来的表情数据库更加关注表情样本的自发性 第 17 卷 智 能 系 统 学 报 ·1042·
·1043· 颜文靖,等:心理学视角下的自动表情识别 第5期 (spontaneous)和自然性。有些研究者通过材料刺 点,又不干扰其情绪体验,我们要求被试在有情 激或者做某些任务来实现情绪的诱发,如DISFA、 绪反应时进行按键操作,以便于在编码时过滤无 Belfast Databasela、MMa、Multi-PIE等。 情绪意义的面部动作。在观看情绪视频结束后, 构建微表情数据库也同样经历了从摆拍表情 收集被试情绪体验的主观报告(见图3)。整理编 到自然诱发表情的过程。我们过去所做的微表 码之后,构建了CASME系列数据库s-47。使用类 情数据库,就是在实验室里,采用情绪性视频作 似的方法,我们也构建了伪装表情数据库MFED。 为诱发材料,通过让参与者观看视频来激发参与 当然我们也明确地意识到,这些在实验室里诱发 者的情绪和表情。为了更好地记录被试情绪激发 出的表情样本依然缺乏生态效度。 目的 激发伪装动机 情绪唤醒 采集(微表情) 记录表情对应的情绪 阶段 指导语操纵 观看情绪性视频 拍摄观看过程 对情绪进行主观评价 图3微表情诱发范式流程 Fig.3 The elicitation approach for micro-expressions 既然实验室样本的生态效度不够,那么就有 效率和性能。心理学的研究也证明,动态表情能 必要高度关注现实场景(in-the-wild)中的自然表 够提供更多的有效信息,包括区分真实与伪装的 情。与在实验室里诱发得到的表情相比,现实场 表情51。例如,真实笑容的时长一般是在500~ 景中的自然表情在光照、脸部姿势、尺寸和面部 4000ms,而伪装笑容的时长则可能过长或过短5: 遮挡等方面都有很大的变化,因此对其分类更具 与非真实笑容相比,真实笑容的启动时长和恢复 挑战性,但在实际应用中也更为重要。当前很多 时长都更长5s。 数据库从网上(如网页、社交媒体、视频等)抓取 3.3从表情的单一面部动作模式到表情的多模 大量的表情图片,并假设它们是相对自然的(不 态信息 过这些图片中仍有不少是摆拍的),如EmotioNet9、 人类在现实应用中的情绪表达涉及到不同的 AffectNet、RAF-DBIs0。自2013年以来,FER2013 通道,而面部表情只是其中一种。所以,越来越 Emotion Recognition in the Wild(Emotiw )(51-521 多的多模态表情数据库被建构出来,如EU Emo- 等情感识别竞赛基于真实世界场景中收集的相对 tion Stimuluss7、BAUM-1、AFEW。其中,最常 充足的训练数据,这也促进了自动表情识别从实 见的是表情与声音结合的多模态数据库。例如, 验室场景到自然环境的过渡。 AFEW数据库包含了从不同电影中收集的视频片 3.2从静态表情图片到动态表情视频 段,这些视频片段具有自发的表情、各种头部姿势 在现实世界中,人们的表情是一个动态的过 遮挡和照明,有时间和多模态信息,提供了不同 程。一个完整的表情可区分为启动阶段(onset 环境条件下音频和视频方面的样本。多模态情感 phase)、高峰阶段(apex phase)和恢复阶段(offset 分析往往通过处理这些不同的模态来分析人类对 phase)。而静态表情图片仅仅展示了高峰阶段的 某一事物的观点(通常区分为积极的或消极的)网。 瞬间。 3.4从小样本到大样本 在基于静态表情图片的自动表情识别方法 在实验室里诱发个体的情绪进而采集表情样 中,特征表示只用当前单一图像的空间信息进行 本并进行标注,是一种效率较低的构建表情数据 编码,而在基于动态表情视频的识别方法中,则 库的方法,但具有较高的效度,可以较为明确地 会考虑输入表情序列中连续帧之间的时间关系。 区分情绪类型。这些数据库中模特的数量往往在 对序列(视频)数据进行识别已经成为一种趋势。 几十到几百人之间。 Lⅰ等向总结了不同类型的方法在动态数据上的相 为了满足深度学习的大数据需求,很多研究 对优势,包括代表空间和时间信息的能力、对训 者从网上抓取图片与视频作为样本。这些样本往 练数据大小和帧数的要求(可变或固定)、计算 往无法确定当事人自身的主观体验,而只能使用
(spontaneous)和自然性。有些研究者通过材料刺 激或者做某些任务来实现情绪的诱发,如 DISFA[40] 、 Belfast Database[41] 、MMI[42] 、Multi-PIE[43] 等。 构建微表情数据库也同样经历了从摆拍表情 到自然诱发表情的过程[44]。我们过去所做的微表 情数据库,就是在实验室里,采用情绪性视频作 为诱发材料,通过让参与者观看视频来激发参与 者的情绪和表情。为了更好地记录被试情绪激发 点,又不干扰其情绪体验,我们要求被试在有情 绪反应时进行按键操作,以便于在编码时过滤无 情绪意义的面部动作。在观看情绪视频结束后, 收集被试情绪体验的主观报告(见图 3)。整理编 码之后,构建了 CASME 系列数据库[45-47]。使用类 似的方法,我们也构建了伪装表情数据库 MFED[48]。 当然我们也明确地意识到,这些在实验室里诱发 出的表情样本依然缺乏生态效度。 目的 阶段 激发伪装动机 情绪唤醒 采集 (微表情) 记录表情对应的情绪 指导语操纵 观看情绪性视频 拍摄观看过程 对情绪进行主观评价 图 3 微表情诱发范式流程 Fig. 3 The elicitation approach for micro-expressions 既然实验室样本的生态效度不够,那么就有 必要高度关注现实场景(in-the-wild)中的自然表 情。与在实验室里诱发得到的表情相比,现实场 景中的自然表情在光照、脸部姿势、尺寸和面部 遮挡等方面都有很大的变化,因此对其分类更具 挑战性,但在实际应用中也更为重要。当前很多 数据库从网上(如网页、社交媒体、视频等)抓取 大量的表情图片,并假设它们是相对自然的(不 过这些图片中仍有不少是摆拍的),如 EmotioNet[49] 、 AffectNet[34] 、RAF-DB[50]。自 2013 年以来,FER2013 和 Emotion Recognition in the Wild(EmotiW) [51-52] 等情感识别竞赛基于真实世界场景中收集的相对 充足的训练数据,这也促进了自动表情识别从实 验室场景到自然环境的过渡。 3.2 从静态表情图片到动态表情视频 在现实世界中,人们的表情是一个动态的过 程。一个完整的表情可区分为启动阶段(onset phase)、高峰阶段(apex phase)和恢复阶段(offset phase)。而静态表情图片仅仅展示了高峰阶段的 一瞬间。 在基于静态表情图片的自动表情识别方法 中,特征表示只用当前单一图像的空间信息进行 编码,而在基于动态表情视频的识别方法中,则 会考虑输入表情序列中连续帧之间的时间关系。 对序列(视频)数据进行识别已经成为一种趋势。 Li 等 [6] 总结了不同类型的方法在动态数据上的相 对优势,包括代表空间和时间信息的能力、对训 练数据大小和帧数的要求(可变或固定)、计算 效率和性能。心理学的研究也证明,动态表情能 够提供更多的有效信息,包括区分真实与伪装的 表情[53]。例如,真实笑容的时长一般是在 500~ 4000 ms,而伪装笑容的时长则可能过长或过短[54] ; 与非真实笑容相比,真实笑容的启动时长和恢复 时长都更长[55-56]。 3.3 从表情的单一面部动作模式到表情的多模 态信息 人类在现实应用中的情绪表达涉及到不同的 通道,而面部表情只是其中一种。所以,越来越 多的多模态表情数据库被建构出来,如 EU Emotion Stimulus[57] 、BAUM-1[58] 、AFEW[51]。其中,最常 见的是表情与声音结合的多模态数据库。例如, AFEW 数据库包含了从不同电影中收集的视频片 段,这些视频片段具有自发的表情、各种头部姿势、 遮挡和照明,有时间和多模态信息,提供了不同 环境条件下音频和视频方面的样本。多模态情感 分析往往通过处理这些不同的模态来分析人类对 某一事物的观点(通常区分为积极的或消极的)[59]。 3.4 从小样本到大样本 在实验室里诱发个体的情绪进而采集表情样 本并进行标注,是一种效率较低的构建表情数据 库的方法,但具有较高的效度,可以较为明确地 区分情绪类型。这些数据库中模特的数量往往在 几十到几百人之间。 为了满足深度学习的大数据需求,很多研究 者从网上抓取图片与视频作为样本。这些样本往 往无法确定当事人自身的主观体验,而只能使用 ·1043· 颜文靖,等:心理学视角下的自动表情识别 第 5 期
第17卷 智能系统学报 ·1044· 观察者的他人主观标注。典型的数据库是Emo- 没有当事人主观体验的任何信息,所以研究者只 tioNet4!9,包含了百万图像。值得注意的是,尽管 能使用观察者的他人主观标注,即要求观察者在 这个表情数据集规模非常大,但它并非完全由人工 观看相关表情材料后,判断该材料对应的情绪类 标注,而是通过半自动的方式标注的,所以可能存 型。观察者主观标注的大部分材料是非实验室场 在很多噪声。另一个百万级别的表情数据库Af 景下拍摄的。由于这些表情往往不那么“标准”, fectNet,是用6种不同语言和1250个与情绪相 使得基于面部动作(AU)组合来判断表情的方法 关的关键词在3个网络引擎上进行收集的,并进 难以实现。因此研究者会通过“众包”的方法,让 行了情绪类别和维度(效价和唤醒度)的标注。 一定数量的观察者为每一张图片进行情绪类型的 标注从而达到一定程度的“标准化”。这种方法蕴 4表情样本的标注方法 涵的假设是:情绪识别在人类中是普遍的,具有 目前,监督学习依然是情绪识别建模中最常 跨文化的一致性;人的判断是可靠的、特异的和 用的方法。这需要为可观察到的外在行为与生理 具有普遍性的:表情的表达者(编码者)与接收者 信号提供其情绪标注(即ground-.truth)。研究者 (解码者)之间的信息沟通是通畅的。近期有一 基于不同的理论和不同的技术对表情样本进行标 些表情数据库就是用这种方法进行标注的,如 注,有基于基本情绪理论或维度论的,有基于主 RAF-ML2s、AffectNet!。 观或客观,也有基于行为或生理的。不同的标注 4.3基于行为的客观标注 取向各有优缺点,也决定了机器最后的输出结 除了主观标注的方式外,有研究者还采用一些 果。主流的标注方式来自基本情绪理论对基本情 客观标准来标注情绪。最常见的做法是事先定义 绪的划分,诸如高兴、惊讶、厌恶、悲伤、愤怒、恐 一些情绪的动作单元(AU)组合。这种情绪-表情 惧等。一些研究者会使用一些变式或者更多的情 关系表一般参照FACS(facial action coding system) 绪类型。而另一些研究者会(往往是同时)使用 研究手册切或者由研究者自己设定。FACS是 情感维度来标注,如愉悦度、唤醒度和优势度。 个基于解剖学的描述面部动作的工具,用于描述 研究者们给行为或者生理信号标注情绪的方法既 所有视觉上可识别的面部运动。该系统由Paul 有主观的也有客观的。 Ekman和Wallace V.Friesen于1978年创立,由 4.1体验者主观标注 Ekman,Friesen和Joseph C.Hager于2002年予以 体验者的自我报告是目前最具有分辨力的情 更新6。他们根据面部肌肉的解剖学特点及其外 绪测量方法6,因为情绪本质上是一种主观体验。 部表现特点,将面部动作划分成几十个相对独立 其操作过程一般是先诱发出当事人的某种情绪体 的动作单元(action unit,.AU)。AU表现为一个或 验,然后要求体验者描述自己的情绪。例如,研 多个面部肌肉的收缩或放松,例如皱眉、抿嘴 究者用一个刺激物来唤起当事人的情绪,如情绪 等。FACS可以对面部各种动作的位置、形态、强 性的图片、视频,或者对某一事件的描述,如“你 的表哥刚刚去世,你感到非常悲伤。但对大多 度和时长进行相对客观地标记,是目前最常用的 数人来说,描述自己的主观情绪体验并非一件容 描述面部动作的编码工具。 易的事。这需要体验者具有较好的情绪感受能 进行FACS编码十分耗时,尤其是对视频进 力,愿意且能够表达出自己的情绪体验。另外, 行逐帧编码的时候需要耗费大量时间成本。所 个体在关注自己的情绪时往往会影响自己的情绪 以,许多研究者努力研发基于计算机的自动编码 体验6。因此,除了要求参与者描述他们的感受 系统6.2020年EmotioNet挑战赛中,有研究者 外,更常用的方法是要求参与者从一组情绪形容 通过100万张图像训练了非刚性的面部肌肉运动 词中选择自己当时体验到的情绪并对情绪进行评 (主要是前17个AU)和刚性的头部运动(最后 分2,4m;有时候还使用事后回溯的方式6。虽然 6个AU)的FACS编码算法。他们将AU识别问 词表可能有很多候选词,但是研究者最终往往会 题作为一个多任务学习问题,前17个AU准确率 将候选词简化为若干种“基本情绪”。参与者所体 为94.9%,精确性和召回率的综合指标(称为F1, 验到的情绪,都可以被归类于基本情绪中的某一 范围从0到1)在验证集中达到0.746,在挑战赛的 个“家族”,例如,高兴包含了兴奋、满足、愉快、舒 测试集中也达到了0.7306的最终成绩67。 适等一系列的积极情绪体验。 我们的研究结果也显示,基于AU的标注方 4.2观察者主观标注 法结构化水平很高,完全以表面形态(几何特征 许多表情数据(如从网上抓取图片与视频)并 纹理特征)为基础,这种方法非常“适合”计算机
观察者的他人主观标注。典型的数据库是 EmotioNet[49] ,包含了百万图像。值得注意的是,尽管 这个表情数据集规模非常大,但它并非完全由人工 标注,而是通过半自动的方式标注的,所以可能存 在很多噪声。另一个百万级别的表情数据库 AffectNet[34] ,是用 6 种不同语言和 1 250 个与情绪相 关的关键词在 3 个网络引擎上进行收集的,并进 行了情绪类别和维度(效价和唤醒度)的标注。 4 表情样本的标注方法 目前,监督学习依然是情绪识别建模中最常 用的方法。这需要为可观察到的外在行为与生理 信号提供其情绪标注(即 ground-truth)。研究者 基于不同的理论和不同的技术对表情样本进行标 注,有基于基本情绪理论或维度论的,有基于主 观或客观,也有基于行为或生理的。不同的标注 取向各有优缺点,也决定了机器最后的输出结 果。主流的标注方式来自基本情绪理论对基本情 绪的划分,诸如高兴、惊讶、厌恶、悲伤、愤怒、恐 惧等。一些研究者会使用一些变式或者更多的情 绪类型。而另一些研究者会(往往是同时)使用 情感维度来标注,如愉悦度、唤醒度和优势度。 研究者们给行为或者生理信号标注情绪的方法既 有主观的也有客观的。 4.1 体验者主观标注 体验者的自我报告是目前最具有分辨力的情 绪测量方法[60] ,因为情绪本质上是一种主观体验。 其操作过程一般是先诱发出当事人的某种情绪体 验,然后要求体验者描述自己的情绪。例如,研 究者用一个刺激物来唤起当事人的情绪,如情绪 性的图片、视频,或者对某一事件的描述,如“你 的表哥刚刚去世,你感到非常悲伤” [19]。但对大多 数人来说,描述自己的主观情绪体验并非一件容 易的事。这需要体验者具有较好的情绪感受能 力,愿意且能够表达出自己的情绪体验。另外, 个体在关注自己的情绪时往往会影响自己的情绪 体验[61]。因此,除了要求参与者描述他们的感受 外,更常用的方法是要求参与者从一组情绪形容 词中选择自己当时体验到的情绪并对情绪进行评 分 [22,47] ;有时候还使用事后回溯的方式[62]。虽然 词表可能有很多候选词,但是研究者最终往往会 将候选词简化为若干种“基本情绪”。参与者所体 验到的情绪,都可以被归类于基本情绪中的某一 个“家族”,例如,高兴包含了兴奋、满足、愉快、舒 适等一系列的积极情绪体验。 4.2 观察者主观标注 许多表情数据(如从网上抓取图片与视频)并 没有当事人主观体验的任何信息,所以研究者只 能使用观察者的他人主观标注,即要求观察者在 观看相关表情材料后,判断该材料对应的情绪类 型。观察者主观标注的大部分材料是非实验室场 景下拍摄的。由于这些表情往往不那么“标准”, 使得基于面部动作(AU)组合来判断表情的方法 难以实现。因此研究者会通过“众包”的方法,让 一定数量的观察者为每一张图片进行情绪类型的 标注从而达到一定程度的“标准化”。这种方法蕴 涵的假设是:情绪识别在人类中是普遍的,具有 跨文化的一致性;人的判断是可靠的、特异的和 具有普遍性的;表情的表达者(编码者)与接收者 (解码者)之间的信息沟通是通畅的。近期有一 些表情数据库就是用这种方法进行标注的,如 RAF-ML[28] 、AffectNet[34]。 4.3 基于行为的客观标注 除了主观标注的方式外,有研究者还采用一些 客观标准来标注情绪。最常见的做法是事先定义 一些情绪的动作单元(AU)组合。这种情绪–表情 关系表一般参照 FACS(facial action coding system) 研究手册[47] 或者由研究者自己设定。FACS 是一 个基于解剖学的描述面部动作的工具,用于描述 所有视觉上可识别的面部运动。该系统由 Paul Ekman 和 Wallace V. Friesen 于 1978 年创立,由 Ekman, Friesen 和 Joseph C. Hager 于 2002 年予以 更新[63]。他们根据面部肌肉的解剖学特点及其外 部表现特点,将面部动作划分成几十个相对独立 的动作单元(action unit, AU)。AU 表现为一个或 多个面部肌肉的收缩或放松,例如皱眉、抿嘴 等。FACS 可以对面部各种动作的位置、形态、强 度和时长进行相对客观地标记,是目前最常用的 描述面部动作的编码工具。 进行 FACS 编码十分耗时,尤其是对视频进 行逐帧编码的时候需要耗费大量时间成本。所 以,许多研究者努力研发基于计算机的自动编码 系统[64-66]。2020 年 EmotioNet 挑战赛中,有研究者 通过 100 万张图像训练了非刚性的面部肌肉运动 (主要是前 17 个 AU)和刚性的头部运动(最后 6 个 AU)的 FACS 编码算法。他们将 AU 识别问 题作为一个多任务学习问题,前 17 个 AU 准确率 为 94.9%,精确性和召回率的综合指标(称为 F1, 范围从 0 到 1)在验证集中达到 0.746,在挑战赛的 测试集中也达到了 0.7306 的最终成绩[67]。 我们的研究结果也显示,基于 AU 的标注方 法结构化水平很高,完全以表面形态(几何特征、 纹理特征)为基础,这种方法非常“适合”计算机 第 17 卷 智 能 系 统 学 报 ·1044·
·1045· 颜文靖,等:心理学视角下的自动表情识别 第5期 视觉和模式识别技术。所以,许多数据库也选择 们常常会遇到一些困难。在数据标注过程中,我 基于AU组合来做情绪标注,并获得了令人满意 们很难确定这些表情是否确切地反映了某种情 的效果,如Emotionet!。在情绪标注过程中,有 绪。虽然在数据采集过程中,我们收集了主观评 些数据库的开发人员基于AU组合的同时,也尽 价、评估了视频的情绪特点并进行了面部动作编 可能地考虑主观报告与视频的内容464切。但是, 码,但是却发现主观评估与面部动作有时并不匹 标注准确性依然会受到情绪体验与表情之间的一 配(基于基本情绪理论的观,点应该是匹配的)。而 致性水平的约束,因为只有提供了一致的表面形 且,我们还发现巨大的个体差异,例如,有些人看 态标准,计算机才可以对表情特征做很好的分类。 到恶心的内容会表现出大笑,但是这个大笑并不 4.4情感维度标注 等于“高兴”,然而当事人又说不清是什么情绪。 非摆拍条件下的表情照片中,符合原型表情 于是,虽然基于数据库的自动表情识别准确率非 的动作组合较少,所以基于原型表情模板进行情 常高,但是在现实生活情景中的识别准确率往往 绪类型的标注比较困难。而基于FACS提供的 不是很高,难以应用于实践。 “核心AU”分析也很难确认某个表情的情绪类别。 5.1问题一:表情与真实情绪体验的一致性 而根据情感维度模型,则没有必要假设独立的离 我们前期在微表情数据库的构建以及微表情 散的情绪类型。这种观点认为,少量的两极维度 分析等领域做了一些颇有成效的工作,但也发现 可以作为情感体验和情感识别的基本构件。这 情绪与表情的一致性并没有理论预期得那么高。 也是为什么许多非摆拍的样本也标注了维度,如 同时,大量研究也表明,人的内在情绪体验和外 AFEW-VAs,AffectNet!。 在表情、生理信号之间的相关性较低。 从愉快到不愉快的效价(Valence)维度在定 Durn等o进行了一项荟萃分析(元分析). 义情绪体验和表达方面至关重要。这一维度能够 其包含了37篇关于情绪体验与原型表情之间关 被人类自动地、快速地识别出来,而且具有普遍 系的研究。研究通过计算相关系数,来确定一种 性6。毕竞,积极和消极的情感状态位于情感空 情绪与所设定表达之间的一致性程度(见表1)。 间的相反位置,它们以一种非常不同的方式被传 荟萃分析的结果显示,高兴与典型笑容的总体相 达。所以,效价似乎是非常容易标注的,而唤醒 关系数是0.40(95%的置信区间为0.310.49)。如 度(Arousal)的标注比较困难。例如,哭泣是唤醒 果我们把高兴(Happiness)和好玩(Amusement)看 程度低的情绪吗?生闷气的唤醒程度是否比哭泣 作是两种相互独立的情绪,那么与微笑相关的总 高呢,高多少呢?而且,在较低的效价和唤醒度 体估计值是:快乐为0.27[0.16,0.39],好玩为0.52 状态下,人们哪怕有情绪体验,也往往面无表情。 [0.43,0.62]。而参与者在高兴时出现典型笑容的 自动表情识别面临的主要问题 概率是0.41[0.08,0.73]。如果把高兴和好玩分开 考虑,则高兴的概率为0.12[0.06,0.181,好玩的概 在实践中,从数据的标注到计算机的识别,我 率为0.47[0.09,0.84]。 表1情绪与原型表情表达关系的元分析结果(Duran,2017) Table 1 The meta-analysis for the relationship between felt emotions and prototypical facial expressions 情绪 被试数 相关系数(95%置信区间) 被试数 反应概率(95%置信区间) 高兴+好玩 1398 0.40[0.31,0.49 217 0.41[0.080.73] 高兴 732 0.27[0.16,0.39] 98 0.12[0.06,0.18] 好玩 666 0.52[0.43,0.62 119 0.47[0.09,0.84] 惊讶 168 0.24[0.04,0.44] 515 0.09[0.05,0.14] 厌恶 187 0.24[0.10,0.37J 279 0.32[0.14,0.50] 悲伤 247 0.41[0.200.63] 119 0.21[0.14,0.29] 愤怒 281 0.22[0.11,0.33] 133 0.28[0.20,0.35] 恐惧 60 0.11[-0.14,0.36 170 0.34[0.00,0.74] 在所有测试的情绪类别中,除了恐惧之外,其 然而,高于随机水平并不能说明特定情绪可以对 他情绪与原型表情的相关系数均高于随机水平。 应到特定表情。实际上,它们之间的相关性很
视觉和模式识别技术。所以,许多数据库也选择 基于 AU 组合来做情绪标注,并获得了令人满意 的效果,如 Emotionet[49]。在情绪标注过程中,有 些数据库的开发人员基于 AU 组合的同时,也尽 可能地考虑主观报告与视频的内容[46-47]。但是, 标注准确性依然会受到情绪体验与表情之间的一 致性水平的约束,因为只有提供了一致的表面形 态标准,计算机才可以对表情特征做很好的分类。 4.4 情感维度标注 非摆拍条件下的表情照片中,符合原型表情 的动作组合较少,所以基于原型表情模板进行情 绪类型的标注比较困难。而基于 FACS 提供的 “核心 AU”分析也很难确认某个表情的情绪类别。 而根据情感维度模型,则没有必要假设独立的离 散的情绪类型。这种观点认为,少量的两极维度 可以作为情感体验和情感识别的基本构件[15]。这 也是为什么许多非摆拍的样本也标注了维度,如 AFEW-VA[68] ,AffectNet[34]。 从愉快到不愉快的效价(Valence)维度在定 义情绪体验和表达方面至关重要。这一维度能够 被人类自动地、快速地识别出来,而且具有普遍 性 [69]。毕竟,积极和消极的情感状态位于情感空 间的相反位置,它们以一种非常不同的方式被传 达 [69]。所以,效价似乎是非常容易标注的,而唤醒 度(Arousal)的标注比较困难。例如,哭泣是唤醒 程度低的情绪吗?生闷气的唤醒程度是否比哭泣 高呢,高多少呢?而且,在较低的效价和唤醒度 状态下,人们哪怕有情绪体验,也往往面无表情。 5 自动表情识别面临的主要问题 在实践中,从数据的标注到计算机的识别,我 们常常会遇到一些困难。在数据标注过程中,我 们很难确定这些表情是否确切地反映了某种情 绪。虽然在数据采集过程中,我们收集了主观评 价、评估了视频的情绪特点并进行了面部动作编 码,但是却发现主观评估与面部动作有时并不匹 配(基于基本情绪理论的观点应该是匹配的)。而 且,我们还发现巨大的个体差异,例如,有些人看 到恶心的内容会表现出大笑,但是这个大笑并不 等于“高兴”,然而当事人又说不清是什么情绪。 于是,虽然基于数据库的自动表情识别准确率非 常高,但是在现实生活情景中的识别准确率往往 不是很高,难以应用于实践。 5.1 问题一:表情与真实情绪体验的一致性 我们前期在微表情数据库的构建以及微表情 分析等领域做了一些颇有成效的工作,但也发现 情绪与表情的一致性并没有理论预期得那么高。 同时,大量研究也表明,人的内在情绪体验和外 在表情、生理信号之间的相关性较低。 Durán 等 [70] 进行了一项荟萃分析(元分析), 其包含了 37 篇关于情绪体验与原型表情之间关 系的研究。研究通过计算相关系数,来确定一种 情绪与所设定表达之间的一致性程度(见表 1)。 荟萃分析的结果显示,高兴与典型笑容的总体相 关系数是 0.40(95% 的置信区间为 0.31~0.49)。如 果我们把高兴(Happiness)和好玩(Amusement)看 作是两种相互独立的情绪,那么与微笑相关的总 体估计值是:快乐为 0.27[0.16, 0.39],好玩为 0.52 [0.43, 0.62]。而参与者在高兴时出现典型笑容的 概率是 0.41[0.08, 0.73]。如果把高兴和好玩分开 考虑,则高兴的概率为 0.12[0.06, 0.18],好玩的概 率为 0.47[0.09, 0.84]。 表 1 情绪与原型表情表达关系的元分析结果(Duran,2017) Table 1 The meta-analysis for the relationship between felt emotions and prototypical facial expressions 情绪 被试数 相关系数(95%置信区间) 被试数 反应概率(95%置信区间) 高兴+好玩 1398 0.40[0.31, 0.49] 217 0.41 [0.08 0.73] 高兴 732 0.27[0.16, 0.39] 98 0.12[0.06, 0.18] 好玩 666 0.52[0.43, 0.62] 119 0.47[0.09, 0.84] 惊讶 168 0.24 [0.04, 0.44] 515 0.09 [0.05, 0.14] 厌恶 187 0.24 [0.10, 0.37] 279 0.32 [0.14, 0.50] 悲伤 247 0.41 [0.20 0.63] 119 0.21 [0.14, 0.29] 愤怒 281 0.22 [0.11, 0.33] 133 0.28 [0.20, 0.35] 恐惧 60 0.11 [–0. 14, 0.36] 170 0.34 [0.00, 0.74] 在所有测试的情绪类别中,除了恐惧之外,其 他情绪与原型表情的相关系数均高于随机水平。 然而,高于随机水平并不能说明特定情绪可以对 应到特定表情。实际上,它们之间的相关性很 ·1045· 颜文靖,等:心理学视角下的自动表情识别 第 5 期
第17卷 智能系统学报 ·1046· 弱。进一步的荟萃分析考察了来自76项研究 能是不准确的。而且,各数据库的标注标准差异 的131个效应大小,共计4487名参与者,也获得 也非常大。以悲伤为例,有的认为是4+15,有 了类似的结果:原型表情与愤怒、厌恶、恐惧、快 的则认为应该是1+4+15或11或6+15。 乐、悲伤或惊讶情绪的测量之间的总体相关系数 另一些表情数据库是根据观察者的判断进行 为0.31(弱相关),在情绪事件中观察到对应的标 标注的。之所以这样做,是基于下述(基本情绪 准面部动作的平均概率是0.22。 理论的)假设:人的判断是可靠的、特异的和具有 以上这些研究结果表明,人们其实很难根据 普遍性的;表情的表达者(编码者)与接收者(解 他人的面部动作有效地预测其内在情绪状态。从 码者)之间的信息沟通是通畅的。但是,该假设可 生活经验的角度看,这个结果并不意外。我们以 能并不成立。例如,越来越多的研究表明,当人 “恐惧”情绪为例,面对潜在的危险,人和动物都 们推断面部结构中的情感含义时,背景是一个重 可能产生所谓的Freeze(呆若木鸡)、Fight(狗急 要的、有时甚至是主导性的信息来源7s6。这个 跳墙)、light(逃之天天)等多种反应模式。在主 背景信息可以是观察者的状态、事件的前因后果 观体验、生理唤醒和行为表现等方面,个体的表 表达者所处的场景等m。也就是说人们是基于多 达方式千差万别,而在许多研究中都只用单一的 方面的信息去理解对方的情绪,而不仅仅是根据 恐惧反应来描述它们。然而,有研究表明这些恐 个体的表情。这时候的情绪标签,很难保证反映 惧情绪的行为表达所对应的神经环路也不同,不 了图片中个体的内在情绪体验。此外,观察者主 应该被归为同一类型6。 观标注的方法还存在一个统计上的悖论。基本情 Barrett等m指出了基本情绪理论相关研究中 绪理论通过高于随机水平的“表情识别能力”来证 的3个关键缺陷:1)可靠性(reliability)有限,即同 明基本情绪的存在,并以此标注“正确答案”。但 一情绪类别的实例既不能通过一套共同的面部动 是,人们的识别能力存在着个体差异且经常会存 作可靠地表达,也不能从一套面部动作去推论个 在“识别错误”,如混淆愤怒与厌恶、惊讶与恐惧 体的情绪;2)缺乏特异性(specificity),即不同的 等情况,因此单纯靠人的主观判断似乎是不可靠 面部动作和对应的情绪类别之间没有独特的映射 的。一群普通人进行情绪评估得到的平均答案” 关系,即被标注为微笑的识别标签,并不一定是 作为“标准答案”来训练计算机,其结果也只是计 高兴的表情,皱眉也不一定是愤怒的表情:3)有 算机的情绪识别水平会更接近“平均水平”。 限的普遍性(generalization),即没有充分的证据 主观报告似乎是情绪标注的一个可靠方式。 表明情绪表达的跨文化一致性。由于先前的跨文 些数据库的开发人员基于AU组合的同时,也 化证据往往存在方法上的缺陷,而这些缺陷导致 尽可能地考虑主观报告与视频的内容,如6切。但 了一种普遍的误解,即对情绪与面部动作之间关 是,基于体验者主观标注的方法存在两个问题, 联性的误解,这一误解又进一步限制了这一证据 一是个体很难准确地描述自己的情绪体验。情绪 在其他用途中的转化。Barrett等的总体结论是 的变异性过大导致难以被收敛到简单的标签;二 明确的:“从一个微笑中推断出快乐,从一个皱眉 是参与者被迫用几个预置设定的情绪词来表征自 中推断出愤怒,或从一个皱眉中推断出悲伤,这 己的真实情绪,这种“迫选”式的设定可能会歪曲 样的推断是不可能具有足够信心的;而目前的许 当事人的真实情绪体验2,。而且,标注准确性 多技术正在运用这些错误的推断,并且这些错误 依然会受到情绪体验与表情之间的一致性水平的 的推断往往被认为是科学事实”。 约束一只有提供了一致的表面形态标准,机器 5.2问题二:人工标注的准确性 才可以对表情特征做很好的分类。 表情与真实情绪体验的一致性不高,会导致 如果采用的是维度标注方法,也需要关注下 人工标注的有效性受到质疑。 述两个问题:第一,效价与唤醒度的评分本身没有 如前所述,许多表情数据库的编码是基于行 标准,主观性非常强。每个材料的标注可能都只 为的客观标注,即基于情绪-表情对应表。虽然 是由一个人或者两个人来完成的B4,网,重测信度较 FACS提供了一个情绪-表情对应表,但是后来的研 低1,网。另外,标注很大程度上基于情绪体验者的 究者在实际使用中并没有严格地参照。实际上, 外部表现,而表情难以反映其内心的情绪,或内 情绪与AU组合的映射关系哪怕在各个支持基本 心的情绪常常不会反映在外部。例如,一般认为 情绪理论的研究者眼里也没有达成一致,6。而 悲伤情绪可能会被认为处在低效价和低唤醒度象 如今,越来越多的研究发现情绪与表情的相关性 限里,但是当我们能够看到一个人明显的悲伤表 不高,这意味着基于AU确定表情的情绪类型可 情时,往往意味着此时他(她)的情绪体验激烈
弱。进一步的荟萃分析[71] 考察了来自 76 项研究 的 131 个效应大小,共计 4 487 名参与者,也获得 了类似的结果:原型表情与愤怒、厌恶、恐惧、快 乐、悲伤或惊讶情绪的测量之间的总体相关系数 为 0.31(弱相关),在情绪事件中观察到对应的标 准面部动作的平均概率是 0.22。 以上这些研究结果表明,人们其实很难根据 他人的面部动作有效地预测其内在情绪状态。从 生活经验的角度看,这个结果并不意外。我们以 “恐惧”情绪为例,面对潜在的危险,人和动物都 可能产生所谓的 Freeze(呆若木鸡)、Fight(狗急 跳墙)、Flight(逃之夭夭)等多种反应模式。在主 观体验、生理唤醒和行为表现等方面,个体的表 达方式千差万别,而在许多研究中都只用单一的 恐惧反应来描述它们。然而,有研究表明这些恐 惧情绪的行为表达所对应的神经环路也不同,不 应该被归为同一类型[61]。 Barrett 等 [72] 指出了基本情绪理论相关研究中 的 3 个关键缺陷:1)可靠性(reliability)有限,即同 一情绪类别的实例既不能通过一套共同的面部动 作可靠地表达,也不能从一套面部动作去推论个 体的情绪;2)缺乏特异性(specificity),即不同的 面部动作和对应的情绪类别之间没有独特的映射 关系,即被标注为微笑的识别标签,并不一定是 高兴的表情,皱眉也不一定是愤怒的表情;3)有 限的普遍性(generalization),即没有充分的证据 表明情绪表达的跨文化一致性。由于先前的跨文 化证据往往存在方法上的缺陷,而这些缺陷导致 了一种普遍的误解,即对情绪与面部动作之间关 联性的误解,这一误解又进一步限制了这一证据 在其他用途中的转化。Barrett 等 [73] 的总体结论是 明确的:“从一个微笑中推断出快乐,从一个皱眉 中推断出愤怒,或从一个皱眉中推断出悲伤,这 样的推断是不可能具有足够信心的;而目前的许 多技术正在运用这些错误的推断,并且这些错误 的推断往往被认为是科学事实”。 5.2 问题二:人工标注的准确性 表情与真实情绪体验的一致性不高,会导致 人工标注的有效性受到质疑。 如前所述,许多表情数据库的编码是基于行 为的客观标注,即基于情绪–表情对应表。虽然 FACS 提供了一个情绪–表情对应表,但是后来的研 究者在实际使用中并没有严格地参照。实际上, 情绪与 AU 组合的映射关系哪怕在各个支持基本 情绪理论的研究者眼里也没有达成一致[19,63]。而 如今,越来越多的研究发现情绪与表情的相关性 不高,这意味着基于 AU 确定表情的情绪类型可 能是不准确的。而且,各数据库的标注标准差异 也非常大。以悲伤为例,有的认为是 4+15[49] ,有 的则认为应该是 1+4+15 或 11 或 6+15[74]。 另一些表情数据库是根据观察者的判断进行 标注的。之所以这样做,是基于下述(基本情绪 理论的)假设:人的判断是可靠的、特异的和具有 普遍性的;表情的表达者(编码者)与接收者(解 码者)之间的信息沟通是通畅的。但是,该假设可 能并不成立。例如,越来越多的研究表明,当人 们推断面部结构中的情感含义时,背景是一个重 要的、有时甚至是主导性的信息来源[75-76]。这个 背景信息可以是观察者的状态、事件的前因后果、 表达者所处的场景等[77]。也就是说人们是基于多 方面的信息去理解对方的情绪,而不仅仅是根据 个体的表情。这时候的情绪标签,很难保证反映 了图片中个体的内在情绪体验。此外,观察者主 观标注的方法还存在一个统计上的悖论。基本情 绪理论通过高于随机水平的“表情识别能力”来证 明基本情绪的存在,并以此标注“正确答案”。但 是,人们的识别能力存在着个体差异且经常会存 在“识别错误”,如混淆愤怒与厌恶、惊讶与恐惧 等情况,因此单纯靠人的主观判断似乎是不可靠 的。一群普通人进行情绪评估得到的“平均答案” 作为“标准答案”来训练计算机,其结果也只是计 算机的情绪识别水平会更接近“平均水平”。 主观报告似乎是情绪标注的一个可靠方式。 一些数据库的开发人员基于 AU 组合的同时,也 尽可能地考虑主观报告与视频的内容,如[46-47]。但 是,基于体验者主观标注的方法存在两个问题, 一是个体很难准确地描述自己的情绪体验。情绪 的变异性过大导致难以被收敛到简单的标签;二 是参与者被迫用几个预置设定的情绪词来表征自 己的真实情绪,这种“迫选”式的设定可能会歪曲 当事人的真实情绪体验[72,78]。而且,标注准确性 依然会受到情绪体验与表情之间的一致性水平的 约束−只有提供了一致的表面形态标准,机器 才可以对表情特征做很好的分类。 如果采用的是维度标注方法,也需要关注下 述两个问题:第一,效价与唤醒度的评分本身没有 标准,主观性非常强。每个材料的标注可能都只 是由一个人或者两个人来完成的[34,68] ,重测信度较 低 [41,79]。另外,标注很大程度上基于情绪体验者的 外部表现,而表情难以反映其内心的情绪,或内 心的情绪常常不会反映在外部。例如,一般认为 悲伤情绪可能会被认为处在低效价和低唤醒度象 限里,但是当我们能够看到一个人明显的悲伤表 情时,往往意味着此时他(她)的情绪体验激烈, 第 17 卷 智 能 系 统 学 报 ·1046·
·1047· 颜文靖,等:心理学视角下的自动表情识别 第5期 唤醒度可能很高。又如,唤醒水平低且效价较高 者也很难基于其表现确认其真实的情绪体验。例 时,人往往是处于舒适满足的状态,这个时候大 如,我们见到他人打招呼时,往往会伴随着微笑, 部分情绪体验者是面无表情的。这也许解释了为 目的是让别人觉得“见到你很高兴”,而非真实的 什么在AFEW-VA数据库中低效价象限中样本很 主观高兴的情绪体验;而这时如果让机器进行识 少。第二,效价和唤醒两个维度构成的环形模型啊 别,机器会将这种表现识别为“高兴”,但不一定 并不能解释大多数具体的情绪事件。Russell也 能反映人们内心的真实状态。又例如,一些运动 认为情感维度模型并没有对典型的情绪事件提供 员在战胜对手时,狂喜中却出现十分“痛苦”的表 足够丰富的解释。例如,该模型未能充分解释恐 情,机器可能会将其识别为“悲伤”或者“厌恶”; 惧、嫉妒、愤怒和羞愧有什么差异,也无法解释观 许多抑郁症患者同样会面带微笑,但是内心往 察者是如何区分它们的。近年来,建构论的观点 往是不快乐的。于是,在基本情绪理论基础上的 认为,效价与唤醒两个核心要素仅仅是情绪的组 自动表情识别系统会出现生态效度较低的问题, 成部分,还需要对自身、环境等信息的整合,才能 即,虽然基于数据库的表情识别准确率非常高 形成特定的情绪。Russell!的比喻是:星座是最 但是在现实生活情景中的应用价值却很有限。 后赋予的意义解释,而其中的星星只是各个成 分。所以,就算机器能够计算出某个人某时某刻 6表情识别的未来进路 的效价与唤醒度,也不能输出一个人们能够理解 以上问题表明,情绪与表情的关系很复杂,表 的“情绪”结果。此外,还存在一个更加具有挑战 情样本数据的效度比较低,自动表情识别仍然面 性的质疑:评分者基于外部反应的主观标注(效 临巨大的挑战。一方面,现实中的大部分人的表 价与唤醒度)本身也可能是不准确的。 情不是以原型表情的形式出现,甚至与这些原型 5.3问题三:情绪与表情的变异性 表情根本不相似。于是,基于刻板的表情模板去 当我们尝试用一个标签代表一类情绪或表情 识别现实情景中的表情几乎不可能。另一方面,人 时,会遇到一些困难。 类会根据现实情景和自己的经验来理解他人的情 例如,在实验室诱发笑容(标注为happiness) 绪,而不太依赖于面部肌肉、皮肤的形状与纹理来 似乎是非常容易的一给参与者看一些喜剧片 做判断,即不太会受到“长什么样”的干扰。也就 的搞笑片段就可以了,但这种大笑并不意味着参 是说,人对他人情绪的识别是“格式塔式的(gestalt) 与者的内心是愉悦幸福的。我们中了大奖、表白 而不是“刻板分类的”一人类的情绪识别方式 成功、获得学术奖项或者吃一顿美食时候的愉悦 与机器的识别方式相去甚远。未来工作中,我们 感与幸福感,和观看视频产生的“好玩(amusing)” 可能需要明确表情识别的目标,以及尝试从基于 体验相去甚远。而且还有不少研究者发现,人们 预测加工理论的建构论观点来理解情绪。 在体验到幸福快乐的时候并不一定会笑,而是在 6.1表情识别的目标 跟其他人进行交互的时候才会频繁地笑。更有 自动表情识别的目标是准确识别他人的情绪 甚者,有些被试看到恶心的内容会表现出大笑。 类型,还是努力理解人类的情绪并学习人类的情 再如,以观看恐怖片时诱发情绪过程为例。 绪识别方式? 虽然我们知道电影中的场景非常可怕,但也知道 如果是前者,则识别任务的设定必须是基于 自己是安全的,所以很多人乐于体验那种刺激的 “表情、语言、生理信号能够准确反映人的情绪” 愉悦感”。当出现某些恐怖场景时,我们会选择 这一理论假设。如果计算机识别成绩能超越人类 种回避的状态,但是这种回避只是眯着眼睛或 的识别成绩,则表明计算机工作的成绩优于常人。 者转过头去。如果在森林里遇到危险物(如老虎 如果是后者,工作重点则是理解人类的情绪,并 之类的野兽),我们可能会吓得僵直,或者睁大眼 让计算机尽可能模仿人类的情绪识别方式。在这 晴寻找逃跑的路,或者张大嘴巴发出惊叫以寻求 种模式下,不再关注计算机的情绪识别是否比人 帮助或吓退对象。这些反应都是根据当时情境做 类更准确,而是计算机的情绪识别是否接近人类 出的适应性反应6。对比看恐怖片和身处真实的 识别的成绩。例如,张三现在内心很悲伤,但是 危险场景这两种情况,虽然我们把其中的情绪体 他笑得很开心的样子,那么理想的识别模型应该 验都叫做恐惧,但实际上无论是主观体验还是行 将这个表情识别成悲伤还是高兴呢?如果识别为 为反应都截然不同,似乎不应该归为同一类。 “悲伤”则体现了“察言观色”的真正目的,即“理解 这意味着,情绪与表情的一致性可能没那么 人”的心理活动;如果识别为“高兴”,体现为模仿 高,个体的主观报告没有那么清晰准确,而观察 人的目标,即“像大多数人”一样识别他人的表情
唤醒度可能很高。又如,唤醒水平低且效价较高 时,人往往是处于舒适满足的状态,这个时候大 部分情绪体验者是面无表情的。这也许解释了为 什么在 AFEW-VA 数据库中低效价象限中样本很 少。第二,效价和唤醒两个维度构成的环形模型[15] 并不能解释大多数具体的情绪事件。Russell[78] 也 认为情感维度模型并没有对典型的情绪事件提供 足够丰富的解释。例如,该模型未能充分解释恐 惧、嫉妒、愤怒和羞愧有什么差异,也无法解释观 察者是如何区分它们的。近年来,建构论的观点 认为,效价与唤醒两个核心要素仅仅是情绪的组 成部分,还需要对自身、环境等信息的整合,才能 形成特定的情绪。Russell[78] 的比喻是:星座是最 后赋予的意义解释,而其中的星星只是各个成 分。所以,就算机器能够计算出某个人某时某刻 的效价与唤醒度,也不能输出一个人们能够理解 的“情绪”结果。此外,还存在一个更加具有挑战 性的质疑:评分者基于外部反应的主观标注(效 价与唤醒度)本身也可能是不准确的。 5.3 问题三:情绪与表情的变异性 当我们尝试用一个标签代表一类情绪或表情 时,会遇到一些困难。 例如,在实验室诱发笑容(标注为 happiness) 似乎是非常容易的−给参与者看一些喜剧片 的搞笑片段就可以了,但这种大笑并不意味着参 与者的内心是愉悦幸福的。我们中了大奖、表白 成功、获得学术奖项或者吃一顿美食时候的愉悦 感与幸福感,和观看视频产生的“好玩(amusing)” 体验相去甚远。而且还有不少研究者发现,人们 在体验到幸福快乐的时候并不一定会笑,而是在 跟其他人进行交互的时候才会频繁地笑[5]。更有 甚者,有些被试看到恶心的内容会表现出大笑。 再如,以观看恐怖片时诱发情绪过程为例。 虽然我们知道电影中的场景非常可怕,但也知道 自己是安全的,所以很多人乐于体验那种刺激的 “愉悦感”。当出现某些恐怖场景时,我们会选择 一种回避的状态,但是这种回避只是眯着眼睛或 者转过头去。如果在森林里遇到危险物(如老虎 之类的野兽),我们可能会吓得僵直,或者睁大眼 睛寻找逃跑的路,或者张大嘴巴发出惊叫以寻求 帮助或吓退对象。这些反应都是根据当时情境做 出的适应性反应[69]。对比看恐怖片和身处真实的 危险场景这两种情况,虽然我们把其中的情绪体 验都叫做恐惧,但实际上无论是主观体验还是行 为反应都截然不同,似乎不应该归为同一类。 这意味着,情绪与表情的一致性可能没那么 高,个体的主观报告没有那么清晰准确,而观察 者也很难基于其表现确认其真实的情绪体验。例 如,我们见到他人打招呼时,往往会伴随着微笑, 目的是让别人觉得“见到你很高兴”,而非真实的 主观高兴的情绪体验;而这时如果让机器进行识 别,机器会将这种表现识别为“高兴”,但不一定 能反映人们内心的真实状态。又例如,一些运动 员在战胜对手时,狂喜中却出现十分“痛苦”的表 情 [75] ,机器可能会将其识别为“悲伤”或者“厌恶”; 许多抑郁症患者同样会面带微笑[80] ,但是内心往 往是不快乐的。于是,在基本情绪理论基础上的 自动表情识别系统会出现生态效度较低的问题, 即,虽然基于数据库的表情识别准确率非常高, 但是在现实生活情景中的应用价值却很有限。 6 表情识别的未来进路 以上问题表明,情绪与表情的关系很复杂,表 情样本数据的效度比较低,自动表情识别仍然面 临巨大的挑战。一方面,现实中的大部分人的表 情不是以原型表情的形式出现,甚至与这些原型 表情根本不相似。于是,基于刻板的表情模板去 识别现实情景中的表情几乎不可能。另一方面,人 类会根据现实情景和自己的经验来理解他人的情 绪,而不太依赖于面部肌肉、皮肤的形状与纹理来 做判断,即不太会受到“长什么样”的干扰。也就 是说,人对他人情绪的识别是“格式塔式的(gestalt)” 而不是“刻板分类的”−人类的情绪识别方式 与机器的识别方式相去甚远。未来工作中,我们 可能需要明确表情识别的目标,以及尝试从基于 预测加工理论的建构论观点来理解情绪。 6.1 表情识别的目标 自动表情识别的目标是准确识别他人的情绪 类型,还是努力理解人类的情绪并学习人类的情 绪识别方式? 如果是前者,则识别任务的设定必须是基于 “表情、语言、生理信号能够准确反映人的情绪” 这一理论假设。如果计算机识别成绩能超越人类 的识别成绩,则表明计算机工作的成绩优于常人。 如果是后者,工作重点则是理解人类的情绪,并 让计算机尽可能模仿人类的情绪识别方式。在这 种模式下,不再关注计算机的情绪识别是否比人 类更准确,而是计算机的情绪识别是否接近人类 识别的成绩。例如,张三现在内心很悲伤,但是 他笑得很开心的样子,那么理想的识别模型应该 将这个表情识别成悲伤还是高兴呢?如果识别为 “悲伤”则体现了“察言观色”的真正目的,即“理解 人”的心理活动;如果识别为“高兴”,体现为模仿 人的目标,即“像大多数人”一样识别他人的表情。 ·1047· 颜文靖,等:心理学视角下的自动表情识别 第 5 期
第17卷 智能系统学报 ·1048· 计算机表情识别的目标选择与应用场景存在 互过程中建构的。对一个人的愤怒表达,有许多 关联。在一些场景中,我们训练计算机是为让它了 解释的角度,如攻击的语言内容是指向自己的还 解人们内心的真实情绪,即所谓“读懂对方”,例 是维护自己的(在骂别人)。个体从情绪情景中 如共情、测谎等任务。而有时候,我们仅仅希望机 所感受到的情绪特征,绝不只是用愤怒或者不愤 器能够像人一样,能看出对方希望展示的情绪状 怒这个维度来评价的。接收者可能会考虑情绪表 态(如打招呼时高兴的表情),或者能借助场景与 达者是否对自己有恶意、是否在呵护自己等角度 经验推测对方的情绪。那么,训练计算机情绪识 来进行“识别”,进而形成不同的情绪体验,并做 别时,首先应该考虑应用场景和明确的任务目标。 出不一样的行为反应。因此,整个过程的动态性 然而,当前很多研究者并没有考虑这两个目 和复杂性只能在持续地建构过程中才能实现。相 标的差异,在情绪识别模型建构时,往往默认情 应地,用简单的情绪分类来理解情绪并不真正符 绪识别的目标是努力通过测量外部信号推测人的 合日常生活中人们的情绪体验与行为反应。总 情绪类型。更具体而言,即是识别并区分几种有 之,个体对恐惧、愤怒、喜悦和悲伤等情绪的体验 限的基本情绪类型,如高兴、悲伤等。这一目标 都是融合了情感表征、身体知觉、对象知觉、评价 往往事先假设了“外部信号与内部情绪是一致的”。 观念和行为冲动等内容而形成的整体性体验。从 唯有这样,情绪识别模型才能满足反向推断的要 这个角度来看,情绪并非一个静态结构,而是一 求,即,根据外在表现推断内心情绪。但是,这 个建构过程。 一假设实际上可能并不成立(见61节)。对于第 建构论的观念最初源自20世纪初的社会学 二个目标,即让机器尽量模仿人,似乎只需要找 人类学和社会心理学的社会互动理念,后经皮亚 一群有代表性的普通人,根据情绪词表来进行情 杰、维果斯基等的阐释与倡导,到20世纪末形成 绪类别的标注,即“众包”(Crowdsourcing)B0。只 了一股强调社会互动和生成认知,强调动作导向 要众包的数据量足够,似乎机器就能够像人一样 的哲学、社会学和心理学思潮。建构论反对古老 识别他人的情绪了。然而,这种识别并不是真正 的理性主义,强调知识不是人出生时预留在头脑 模仿了人类的表情识别方式(见6.2节)。 中的:它也反对经验主义,认为知识不是物理的或 我们分析表情识别的目标,并反思情绪的本质, 社会的环境给主体的认知碎片组合而成的。建构 以及在表情识别领域人工智能的角色和定位。研 论认为,知识是主客体互动过程中生成的⑧引。按 究发现,无论是情绪的表达还是情绪的识别,都 照这样的观点,情绪识别不是基于人先天拥有的对 不仅仅是一个“分类”的过程,而是一个建构的过 “基本情绪”的表达和识别知识;也不是通过条件 程。按照这种建构取向,情绪本身并不存在“可 反射式的经验学习而获得的能力。情绪本身 分类”的信息,或者说这些情绪类型本质上并不存 包括表达与识别 是人际互动过程中逐渐生 在一情绪类型只是人们在交互过程中的建构。 成的体验。 如果情绪本身在概念意义上缺乏足够的结构性特 2013年,Clark8则提出了一个基于贝叶斯计算 征,那么,关于情绪的类别化也就没有充分的标 和神经科学的预测加工理论(predictive process- 准,进而也无法通过数据库所提供特征与标注并 ig)。根据预测加工理论,我们不再需要通过外 训练出一个计算化模型。因此,前述情绪识别的 在的知觉信号或行动去推测个体内在的“本质”状 两个目标都无法实现。 态,因为那种将个体的外部表现当作其内在状态 6.2交互中的建构与情绪理解 表征的观念早已化作“老生常谈”(stale old deba- 前期的实践结果显示,基于基本情绪理论训 ts),应该被抛弃了ss1。在预测加工理论的框架 练计算机识别系统似乎无法精确地反映人类情绪 中,脑被看作是一个基于贝叶斯概率理论来评估 的本质,也难以在实践中获得有价值的应用效 环境信息的计算机。在个体与环境的互动过程 果。因此,我们需要更深入地理解人的情绪识别 中,大脑对互动进程中的先验概率(prior probabil- 特点。 ity)、预测信号(prediction-signal)、后验概率(pos- 我们可能很难根据某一瞬间(一张图片)正确 terior probability)、似然性(likelihood)等进行实时 断定一个人的情绪。多数情绪识别是在交互过程 地评估和计算,从而实现最小知觉偏差(minimise 中慢慢确认的,需要不断地修正原来的判断82。 prediction error)。通过最小知觉偏差,个体与环 这就是面部表达的行为生态学观点(behavioral 境的互动得以维持在适度的平衡范围内,也就是 ecology view of facial displays,BECV)。也就是说, 大脑实现的“最佳猜度”(best guess)。关键是,这 个人对另一个人的表情识别是在持续不断地交 种最佳猜度是行动导向的(action-oriented),即,是
计算机表情识别的目标选择与应用场景存在 关联。在一些场景中,我们训练计算机是为让它了 解人们内心的真实情绪,即所谓“读懂对方”,例 如共情、测谎等任务。而有时候,我们仅仅希望机 器能够像人一样,能看出对方希望展示的情绪状 态(如打招呼时高兴的表情),或者能借助场景与 经验推测对方的情绪。那么,训练计算机情绪识 别时,首先应该考虑应用场景和明确的任务目标。 然而,当前很多研究者并没有考虑这两个目 标的差异,在情绪识别模型建构时,往往默认情 绪识别的目标是努力通过测量外部信号推测人的 情绪类型。更具体而言,即是识别并区分几种有 限的基本情绪类型,如高兴、悲伤等。这一目标 往往事先假设了“外部信号与内部情绪是一致的”。 唯有这样,情绪识别模型才能满足反向推断的要 求,即,根据外在表现推断内心情绪[72]。但是,这 一假设实际上可能并不成立(见 6.1 节)。对于第 二个目标,即让机器尽量模仿人,似乎只需要找 一群有代表性的普通人,根据情绪词表来进行情 绪类别的标注,即“众包”(Crowdsourcing) [50]。只 要众包的数据量足够,似乎机器就能够像人一样 识别他人的情绪了。然而,这种识别并不是真正 模仿了人类的表情识别方式(见 6.2 节)。 我们分析表情识别的目标,并反思情绪的本质, 以及在表情识别领域人工智能的角色和定位。研 究发现,无论是情绪的表达还是情绪的识别,都 不仅仅是一个“分类”的过程,而是一个建构的过 程 [81]。按照这种建构取向,情绪本身并不存在“可 分类”的信息,或者说这些情绪类型本质上并不存 在−情绪类型只是人们在交互过程中的建构。 如果情绪本身在概念意义上缺乏足够的结构性特 征,那么,关于情绪的类别化也就没有充分的标 准,进而也无法通过数据库所提供特征与标注并 训练出一个计算化模型。因此,前述情绪识别的 两个目标都无法实现。 6.2 交互中的建构与情绪理解 前期的实践结果显示,基于基本情绪理论训 练计算机识别系统似乎无法精确地反映人类情绪 的本质,也难以在实践中获得有价值的应用效 果。因此,我们需要更深入地理解人的情绪识别 特点。 我们可能很难根据某一瞬间(一张图片)正确 断定一个人的情绪。多数情绪识别是在交互过程 中慢慢确认的,需要不断地修正原来的判断[82]。 这就是面部表达的行为生态学观点(behavioral ecology view of facial displays,BECV)。也就是说, 一个人对另一个人的表情识别是在持续不断地交 互过程中建构的。对一个人的愤怒表达,有许多 解释的角度,如攻击的语言内容是指向自己的还 是维护自己的(在骂别人)。个体从情绪情景中 所感受到的情绪特征,绝不只是用愤怒或者不愤 怒这个维度来评价的。接收者可能会考虑情绪表 达者是否对自己有恶意、是否在呵护自己等角度 来进行“识别”,进而形成不同的情绪体验,并做 出不一样的行为反应。因此,整个过程的动态性 和复杂性只能在持续地建构过程中才能实现。相 应地,用简单的情绪分类来理解情绪并不真正符 合日常生活中人们的情绪体验与行为反应。总 之,个体对恐惧、愤怒、喜悦和悲伤等情绪的体验 都是融合了情感表征、身体知觉、对象知觉、评价 观念和行为冲动等内容而形成的整体性体验。从 这个角度来看,情绪并非一个静态结构,而是一 个建构过程。 建构论的观念最初源自 20 世纪初的社会学、 人类学和社会心理学的社会互动理念,后经皮亚 杰、维果斯基等的阐释与倡导,到 20 世纪末形成 了一股强调社会互动和生成认知,强调动作导向 的哲学、社会学和心理学思潮。建构论反对古老 的理性主义,强调知识不是人出生时预留在头脑 中的;它也反对经验主义,认为知识不是物理的或 社会的环境给主体的认知碎片组合而成的。建构 论认为,知识是主客体互动过程中生成的[83]。按 照这样的观点,情绪识别不是基于人先天拥有的对 “基本情绪”的表达和识别知识;也不是通过条件 反射式的经验学习而获得的能力。情绪本身− 包括表达与识别−是人际互动过程中逐渐生 成的体验。 2013 年,Clark[84] 提出了一个基于贝叶斯计算 和神经科学的预测加工理论(predictive processing)。根据预测加工理论,我们不再需要通过外 在的知觉信号或行动去推测个体内在的“本质”状 态,因为那种将个体的外部表现当作其内在状态 表征的观念早已化作“老生常谈”(stale old debates),应该被抛弃了[85]。在预测加工理论的框架 中,脑被看作是一个基于贝叶斯概率理论来评估 环境信息的计算机。在个体与环境的互动过程 中,大脑对互动进程中的先验概率(prior probability)、预测信号(prediction-signal)、后验概率(posterior probability)、似然性(likelihood)等进行实时 地评估和计算,从而实现最小知觉偏差(minimise prediction error)。通过最小知觉偏差,个体与环 境的互动得以维持在适度的平衡范围内,也就是 大脑实现的“最佳猜度”(best guess)。关键是,这 种最佳猜度是行动导向的(action-oriented),即,是 第 17 卷 智 能 系 统 学 报 ·1048·