正在加载图片...
第17卷 智能系统学报 ·1044· 观察者的他人主观标注。典型的数据库是Emo- 没有当事人主观体验的任何信息,所以研究者只 tioNet4!9,包含了百万图像。值得注意的是,尽管 能使用观察者的他人主观标注,即要求观察者在 这个表情数据集规模非常大,但它并非完全由人工 观看相关表情材料后,判断该材料对应的情绪类 标注,而是通过半自动的方式标注的,所以可能存 型。观察者主观标注的大部分材料是非实验室场 在很多噪声。另一个百万级别的表情数据库Af 景下拍摄的。由于这些表情往往不那么“标准”, fectNet,是用6种不同语言和1250个与情绪相 使得基于面部动作(AU)组合来判断表情的方法 关的关键词在3个网络引擎上进行收集的,并进 难以实现。因此研究者会通过“众包”的方法,让 行了情绪类别和维度(效价和唤醒度)的标注。 一定数量的观察者为每一张图片进行情绪类型的 标注从而达到一定程度的“标准化”。这种方法蕴 4表情样本的标注方法 涵的假设是:情绪识别在人类中是普遍的,具有 目前,监督学习依然是情绪识别建模中最常 跨文化的一致性;人的判断是可靠的、特异的和 用的方法。这需要为可观察到的外在行为与生理 具有普遍性的:表情的表达者(编码者)与接收者 信号提供其情绪标注(即ground-.truth)。研究者 (解码者)之间的信息沟通是通畅的。近期有一 基于不同的理论和不同的技术对表情样本进行标 些表情数据库就是用这种方法进行标注的,如 注,有基于基本情绪理论或维度论的,有基于主 RAF-ML2s、AffectNet!。 观或客观,也有基于行为或生理的。不同的标注 4.3基于行为的客观标注 取向各有优缺点,也决定了机器最后的输出结 除了主观标注的方式外,有研究者还采用一些 果。主流的标注方式来自基本情绪理论对基本情 客观标准来标注情绪。最常见的做法是事先定义 绪的划分,诸如高兴、惊讶、厌恶、悲伤、愤怒、恐 一些情绪的动作单元(AU)组合。这种情绪-表情 惧等。一些研究者会使用一些变式或者更多的情 关系表一般参照FACS(facial action coding system) 绪类型。而另一些研究者会(往往是同时)使用 研究手册切或者由研究者自己设定。FACS是 情感维度来标注,如愉悦度、唤醒度和优势度。 个基于解剖学的描述面部动作的工具,用于描述 研究者们给行为或者生理信号标注情绪的方法既 所有视觉上可识别的面部运动。该系统由Paul 有主观的也有客观的。 Ekman和Wallace V.Friesen于1978年创立,由 4.1体验者主观标注 Ekman,Friesen和Joseph C.Hager于2002年予以 体验者的自我报告是目前最具有分辨力的情 更新6。他们根据面部肌肉的解剖学特点及其外 绪测量方法6,因为情绪本质上是一种主观体验。 部表现特点,将面部动作划分成几十个相对独立 其操作过程一般是先诱发出当事人的某种情绪体 的动作单元(action unit,.AU)。AU表现为一个或 验,然后要求体验者描述自己的情绪。例如,研 多个面部肌肉的收缩或放松,例如皱眉、抿嘴 究者用一个刺激物来唤起当事人的情绪,如情绪 等。FACS可以对面部各种动作的位置、形态、强 性的图片、视频,或者对某一事件的描述,如“你 的表哥刚刚去世,你感到非常悲伤。但对大多 度和时长进行相对客观地标记,是目前最常用的 数人来说,描述自己的主观情绪体验并非一件容 描述面部动作的编码工具。 易的事。这需要体验者具有较好的情绪感受能 进行FACS编码十分耗时,尤其是对视频进 力,愿意且能够表达出自己的情绪体验。另外, 行逐帧编码的时候需要耗费大量时间成本。所 个体在关注自己的情绪时往往会影响自己的情绪 以,许多研究者努力研发基于计算机的自动编码 体验6。因此,除了要求参与者描述他们的感受 系统6.2020年EmotioNet挑战赛中,有研究者 外,更常用的方法是要求参与者从一组情绪形容 通过100万张图像训练了非刚性的面部肌肉运动 词中选择自己当时体验到的情绪并对情绪进行评 (主要是前17个AU)和刚性的头部运动(最后 分2,4m;有时候还使用事后回溯的方式6。虽然 6个AU)的FACS编码算法。他们将AU识别问 词表可能有很多候选词,但是研究者最终往往会 题作为一个多任务学习问题,前17个AU准确率 将候选词简化为若干种“基本情绪”。参与者所体 为94.9%,精确性和召回率的综合指标(称为F1, 验到的情绪,都可以被归类于基本情绪中的某一 范围从0到1)在验证集中达到0.746,在挑战赛的 个“家族”,例如,高兴包含了兴奋、满足、愉快、舒 测试集中也达到了0.7306的最终成绩67。 适等一系列的积极情绪体验。 我们的研究结果也显示,基于AU的标注方 4.2观察者主观标注 法结构化水平很高,完全以表面形态(几何特征 许多表情数据(如从网上抓取图片与视频)并 纹理特征)为基础,这种方法非常“适合”计算机观察者的他人主观标注。典型的数据库是 Emo￾tioNet[49] ,包含了百万图像。值得注意的是,尽管 这个表情数据集规模非常大,但它并非完全由人工 标注,而是通过半自动的方式标注的,所以可能存 在很多噪声。另一个百万级别的表情数据库 Af￾fectNet[34] ,是用 6 种不同语言和 1 250 个与情绪相 关的关键词在 3 个网络引擎上进行收集的,并进 行了情绪类别和维度(效价和唤醒度)的标注。 4 表情样本的标注方法 目前,监督学习依然是情绪识别建模中最常 用的方法。这需要为可观察到的外在行为与生理 信号提供其情绪标注(即 ground-truth)。研究者 基于不同的理论和不同的技术对表情样本进行标 注,有基于基本情绪理论或维度论的,有基于主 观或客观,也有基于行为或生理的。不同的标注 取向各有优缺点,也决定了机器最后的输出结 果。主流的标注方式来自基本情绪理论对基本情 绪的划分,诸如高兴、惊讶、厌恶、悲伤、愤怒、恐 惧等。一些研究者会使用一些变式或者更多的情 绪类型。而另一些研究者会(往往是同时)使用 情感维度来标注,如愉悦度、唤醒度和优势度。 研究者们给行为或者生理信号标注情绪的方法既 有主观的也有客观的。 4.1 体验者主观标注 体验者的自我报告是目前最具有分辨力的情 绪测量方法[60] ,因为情绪本质上是一种主观体验。 其操作过程一般是先诱发出当事人的某种情绪体 验,然后要求体验者描述自己的情绪。例如,研 究者用一个刺激物来唤起当事人的情绪,如情绪 性的图片、视频,或者对某一事件的描述,如“你 的表哥刚刚去世,你感到非常悲伤” [19]。但对大多 数人来说,描述自己的主观情绪体验并非一件容 易的事。这需要体验者具有较好的情绪感受能 力,愿意且能够表达出自己的情绪体验。另外, 个体在关注自己的情绪时往往会影响自己的情绪 体验[61]。因此,除了要求参与者描述他们的感受 外,更常用的方法是要求参与者从一组情绪形容 词中选择自己当时体验到的情绪并对情绪进行评 分 [22,47] ;有时候还使用事后回溯的方式[62]。虽然 词表可能有很多候选词,但是研究者最终往往会 将候选词简化为若干种“基本情绪”。参与者所体 验到的情绪,都可以被归类于基本情绪中的某一 个“家族”,例如,高兴包含了兴奋、满足、愉快、舒 适等一系列的积极情绪体验。 4.2 观察者主观标注 许多表情数据(如从网上抓取图片与视频)并 没有当事人主观体验的任何信息,所以研究者只 能使用观察者的他人主观标注,即要求观察者在 观看相关表情材料后,判断该材料对应的情绪类 型。观察者主观标注的大部分材料是非实验室场 景下拍摄的。由于这些表情往往不那么“标准”, 使得基于面部动作(AU)组合来判断表情的方法 难以实现。因此研究者会通过“众包”的方法,让 一定数量的观察者为每一张图片进行情绪类型的 标注从而达到一定程度的“标准化”。这种方法蕴 涵的假设是:情绪识别在人类中是普遍的,具有 跨文化的一致性;人的判断是可靠的、特异的和 具有普遍性的;表情的表达者(编码者)与接收者 (解码者)之间的信息沟通是通畅的。近期有一 些表情数据库就是用这种方法进行标注的,如 RAF-ML[28] 、AffectNet[34]。 4.3 基于行为的客观标注 除了主观标注的方式外,有研究者还采用一些 客观标准来标注情绪。最常见的做法是事先定义 一些情绪的动作单元(AU)组合。这种情绪–表情 关系表一般参照 FACS(facial action coding system) 研究手册[47] 或者由研究者自己设定。FACS 是一 个基于解剖学的描述面部动作的工具,用于描述 所有视觉上可识别的面部运动。该系统由 Paul Ekman 和 Wallace V. Friesen 于 1978 年创立,由 Ekman, Friesen 和 Joseph C. Hager 于 2002 年予以 更新[63]。他们根据面部肌肉的解剖学特点及其外 部表现特点,将面部动作划分成几十个相对独立 的动作单元(action unit, AU)。AU 表现为一个或 多个面部肌肉的收缩或放松,例如皱眉、抿嘴 等。FACS 可以对面部各种动作的位置、形态、强 度和时长进行相对客观地标记,是目前最常用的 描述面部动作的编码工具。 进行 FACS 编码十分耗时,尤其是对视频进 行逐帧编码的时候需要耗费大量时间成本。所 以,许多研究者努力研发基于计算机的自动编码 系统[64-66]。2020 年 EmotioNet 挑战赛中,有研究者 通过 100 万张图像训练了非刚性的面部肌肉运动 (主要是前 17 个 AU)和刚性的头部运动(最后 6 个 AU)的 FACS 编码算法。他们将 AU 识别问 题作为一个多任务学习问题,前 17 个 AU 准确率 为 94.9%,精确性和召回率的综合指标(称为 F1, 范围从 0 到 1)在验证集中达到 0.746,在挑战赛的 测试集中也达到了 0.7306 的最终成绩[67]。 我们的研究结果也显示,基于 AU 的标注方 法结构化水平很高,完全以表面形态(几何特征、 纹理特征)为基础,这种方法非常“适合”计算机 第 17 卷 智 能 系 统 学 报 ·1044·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有