正在加载图片...
第17卷 智能系统学报 ·1048· 计算机表情识别的目标选择与应用场景存在 互过程中建构的。对一个人的愤怒表达,有许多 关联。在一些场景中,我们训练计算机是为让它了 解释的角度,如攻击的语言内容是指向自己的还 解人们内心的真实情绪,即所谓“读懂对方”,例 是维护自己的(在骂别人)。个体从情绪情景中 如共情、测谎等任务。而有时候,我们仅仅希望机 所感受到的情绪特征,绝不只是用愤怒或者不愤 器能够像人一样,能看出对方希望展示的情绪状 怒这个维度来评价的。接收者可能会考虑情绪表 态(如打招呼时高兴的表情),或者能借助场景与 达者是否对自己有恶意、是否在呵护自己等角度 经验推测对方的情绪。那么,训练计算机情绪识 来进行“识别”,进而形成不同的情绪体验,并做 别时,首先应该考虑应用场景和明确的任务目标。 出不一样的行为反应。因此,整个过程的动态性 然而,当前很多研究者并没有考虑这两个目 和复杂性只能在持续地建构过程中才能实现。相 标的差异,在情绪识别模型建构时,往往默认情 应地,用简单的情绪分类来理解情绪并不真正符 绪识别的目标是努力通过测量外部信号推测人的 合日常生活中人们的情绪体验与行为反应。总 情绪类型。更具体而言,即是识别并区分几种有 之,个体对恐惧、愤怒、喜悦和悲伤等情绪的体验 限的基本情绪类型,如高兴、悲伤等。这一目标 都是融合了情感表征、身体知觉、对象知觉、评价 往往事先假设了“外部信号与内部情绪是一致的”。 观念和行为冲动等内容而形成的整体性体验。从 唯有这样,情绪识别模型才能满足反向推断的要 这个角度来看,情绪并非一个静态结构,而是一 求,即,根据外在表现推断内心情绪。但是,这 个建构过程。 一假设实际上可能并不成立(见61节)。对于第 建构论的观念最初源自20世纪初的社会学 二个目标,即让机器尽量模仿人,似乎只需要找 人类学和社会心理学的社会互动理念,后经皮亚 一群有代表性的普通人,根据情绪词表来进行情 杰、维果斯基等的阐释与倡导,到20世纪末形成 绪类别的标注,即“众包”(Crowdsourcing)B0。只 了一股强调社会互动和生成认知,强调动作导向 要众包的数据量足够,似乎机器就能够像人一样 的哲学、社会学和心理学思潮。建构论反对古老 识别他人的情绪了。然而,这种识别并不是真正 的理性主义,强调知识不是人出生时预留在头脑 模仿了人类的表情识别方式(见6.2节)。 中的:它也反对经验主义,认为知识不是物理的或 我们分析表情识别的目标,并反思情绪的本质, 社会的环境给主体的认知碎片组合而成的。建构 以及在表情识别领域人工智能的角色和定位。研 论认为,知识是主客体互动过程中生成的⑧引。按 究发现,无论是情绪的表达还是情绪的识别,都 照这样的观点,情绪识别不是基于人先天拥有的对 不仅仅是一个“分类”的过程,而是一个建构的过 “基本情绪”的表达和识别知识;也不是通过条件 程。按照这种建构取向,情绪本身并不存在“可 反射式的经验学习而获得的能力。情绪本身 分类”的信息,或者说这些情绪类型本质上并不存 包括表达与识别 是人际互动过程中逐渐生 在一情绪类型只是人们在交互过程中的建构。 成的体验。 如果情绪本身在概念意义上缺乏足够的结构性特 2013年,Clark8则提出了一个基于贝叶斯计算 征,那么,关于情绪的类别化也就没有充分的标 和神经科学的预测加工理论(predictive process- 准,进而也无法通过数据库所提供特征与标注并 ig)。根据预测加工理论,我们不再需要通过外 训练出一个计算化模型。因此,前述情绪识别的 在的知觉信号或行动去推测个体内在的“本质”状 两个目标都无法实现。 态,因为那种将个体的外部表现当作其内在状态 6.2交互中的建构与情绪理解 表征的观念早已化作“老生常谈”(stale old deba- 前期的实践结果显示,基于基本情绪理论训 ts),应该被抛弃了ss1。在预测加工理论的框架 练计算机识别系统似乎无法精确地反映人类情绪 中,脑被看作是一个基于贝叶斯概率理论来评估 的本质,也难以在实践中获得有价值的应用效 环境信息的计算机。在个体与环境的互动过程 果。因此,我们需要更深入地理解人的情绪识别 中,大脑对互动进程中的先验概率(prior probabil- 特点。 ity)、预测信号(prediction-signal)、后验概率(pos- 我们可能很难根据某一瞬间(一张图片)正确 terior probability)、似然性(likelihood)等进行实时 断定一个人的情绪。多数情绪识别是在交互过程 地评估和计算,从而实现最小知觉偏差(minimise 中慢慢确认的,需要不断地修正原来的判断82。 prediction error)。通过最小知觉偏差,个体与环 这就是面部表达的行为生态学观点(behavioral 境的互动得以维持在适度的平衡范围内,也就是 ecology view of facial displays,BECV)。也就是说, 大脑实现的“最佳猜度”(best guess)。关键是,这 个人对另一个人的表情识别是在持续不断地交 种最佳猜度是行动导向的(action-oriented),即,是计算机表情识别的目标选择与应用场景存在 关联。在一些场景中,我们训练计算机是为让它了 解人们内心的真实情绪,即所谓“读懂对方”,例 如共情、测谎等任务。而有时候,我们仅仅希望机 器能够像人一样,能看出对方希望展示的情绪状 态(如打招呼时高兴的表情),或者能借助场景与 经验推测对方的情绪。那么,训练计算机情绪识 别时,首先应该考虑应用场景和明确的任务目标。 然而,当前很多研究者并没有考虑这两个目 标的差异,在情绪识别模型建构时,往往默认情 绪识别的目标是努力通过测量外部信号推测人的 情绪类型。更具体而言,即是识别并区分几种有 限的基本情绪类型,如高兴、悲伤等。这一目标 往往事先假设了“外部信号与内部情绪是一致的”。 唯有这样,情绪识别模型才能满足反向推断的要 求,即,根据外在表现推断内心情绪[72]。但是,这 一假设实际上可能并不成立(见 6.1 节)。对于第 二个目标,即让机器尽量模仿人,似乎只需要找 一群有代表性的普通人,根据情绪词表来进行情 绪类别的标注,即“众包”(Crowdsourcing) [50]。只 要众包的数据量足够,似乎机器就能够像人一样 识别他人的情绪了。然而,这种识别并不是真正 模仿了人类的表情识别方式(见 6.2 节)。 我们分析表情识别的目标,并反思情绪的本质, 以及在表情识别领域人工智能的角色和定位。研 究发现,无论是情绪的表达还是情绪的识别,都 不仅仅是一个“分类”的过程,而是一个建构的过 程 [81]。按照这种建构取向,情绪本身并不存在“可 分类”的信息,或者说这些情绪类型本质上并不存 在−情绪类型只是人们在交互过程中的建构。 如果情绪本身在概念意义上缺乏足够的结构性特 征,那么,关于情绪的类别化也就没有充分的标 准,进而也无法通过数据库所提供特征与标注并 训练出一个计算化模型。因此,前述情绪识别的 两个目标都无法实现。 6.2 交互中的建构与情绪理解 前期的实践结果显示,基于基本情绪理论训 练计算机识别系统似乎无法精确地反映人类情绪 的本质,也难以在实践中获得有价值的应用效 果。因此,我们需要更深入地理解人的情绪识别 特点。 我们可能很难根据某一瞬间(一张图片)正确 断定一个人的情绪。多数情绪识别是在交互过程 中慢慢确认的,需要不断地修正原来的判断[82]。 这就是面部表达的行为生态学观点(behavioral ecology view of facial displays,BECV)。也就是说, 一个人对另一个人的表情识别是在持续不断地交 互过程中建构的。对一个人的愤怒表达,有许多 解释的角度,如攻击的语言内容是指向自己的还 是维护自己的(在骂别人)。个体从情绪情景中 所感受到的情绪特征,绝不只是用愤怒或者不愤 怒这个维度来评价的。接收者可能会考虑情绪表 达者是否对自己有恶意、是否在呵护自己等角度 来进行“识别”,进而形成不同的情绪体验,并做 出不一样的行为反应。因此,整个过程的动态性 和复杂性只能在持续地建构过程中才能实现。相 应地,用简单的情绪分类来理解情绪并不真正符 合日常生活中人们的情绪体验与行为反应。总 之,个体对恐惧、愤怒、喜悦和悲伤等情绪的体验 都是融合了情感表征、身体知觉、对象知觉、评价 观念和行为冲动等内容而形成的整体性体验。从 这个角度来看,情绪并非一个静态结构,而是一 个建构过程。 建构论的观念最初源自 20 世纪初的社会学、 人类学和社会心理学的社会互动理念,后经皮亚 杰、维果斯基等的阐释与倡导,到 20 世纪末形成 了一股强调社会互动和生成认知,强调动作导向 的哲学、社会学和心理学思潮。建构论反对古老 的理性主义,强调知识不是人出生时预留在头脑 中的;它也反对经验主义,认为知识不是物理的或 社会的环境给主体的认知碎片组合而成的。建构 论认为,知识是主客体互动过程中生成的[83]。按 照这样的观点,情绪识别不是基于人先天拥有的对 “基本情绪”的表达和识别知识;也不是通过条件 反射式的经验学习而获得的能力。情绪本身− 包括表达与识别−是人际互动过程中逐渐生 成的体验。 2013 年,Clark[84] 提出了一个基于贝叶斯计算 和神经科学的预测加工理论(predictive process￾ing)。根据预测加工理论,我们不再需要通过外 在的知觉信号或行动去推测个体内在的“本质”状 态,因为那种将个体的外部表现当作其内在状态 表征的观念早已化作“老生常谈”(stale old deba￾tes),应该被抛弃了[85]。在预测加工理论的框架 中,脑被看作是一个基于贝叶斯概率理论来评估 环境信息的计算机。在个体与环境的互动过程 中,大脑对互动进程中的先验概率(prior probabil￾ity)、预测信号(prediction-signal)、后验概率(pos￾terior probability)、似然性(likelihood)等进行实时 地评估和计算,从而实现最小知觉偏差(minimise prediction error)。通过最小知觉偏差,个体与环 境的互动得以维持在适度的平衡范围内,也就是 大脑实现的“最佳猜度”(best guess)。关键是,这 种最佳猜度是行动导向的(action-oriented),即,是 第 17 卷 智 能 系 统 学 报 ·1048·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有