第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0L:10.11992tis.202008034 基于迁移学习的无监督跨域人脸表情识别 莫宏伟,傅智杰 (哈尔滨工程大学自动化学院,黑龙江哈尔滨150001) 摘要:本文主要研究了基于迁移学习的无监督跨域人脸表情识别。在过去的几年里,提出的许多方法在人脸 表情识别方面取得了令人满意的识别效果。但这些方法通常认为训练和测试数据来自同一个数据集,因此其 具有相同的分布。而在实际应用中,这一假设通常并不成立,特别当训练集和测试集来自不同的数据集时,即 跨域人脸表情识别问题。为了解决这一问题,本文提出将一种基于联合分布对齐的迁移学习方法(domain align learning)应用于跨域人脸表情识别.该方法通过找到一个特征变换,将源域和目标域数据映射到一个公共子空 间中,在该子空间中联合对齐边缘分布和条件分布来减小域之间的分布差异,然后对变换后的特征进行训练得 到一个域适应分类器来预测目标域样本标签。为了验证提出算法的有效性,在CK+、Oulu-CASIA NIR和Oulu CASIA VIS这3个不同的数据库上做了大量实验,实验结果证明所提算法在跨域表情识别上是有效性的。 关键词:表情识别;无监督;跨域;迁移学习;特征变换:联合对齐;公共子空间:域适应 中图分类号:TP181文献标志码:A文章编号:1673-4785(2021)03-0397-10 中文引用格式:莫宏伟,傅智杰.基于迁移学习的无监督跨域人脸表情识别.智能系统学报,2021,16(3):397-406. 英文引用格式:MO Hongwei,FU Zhijie.Unsupervised cross-domain expression recognition based on transfer learning.CAAI transactions on intelligent systems,2021,16(3):397-406. Unsupervised cross-domain expression recognition based on transfer learning MO Hongwei,FU Zhijie (Automation College,Harbin Engineering University,Harbin 150001,China) Abstract:This paper primarily studies unsupervised cross-domain facial expression recognition based on transfer learn- ing.In recent years,many proposed methods have achieved satisfactory results in facial expression recognition. However,these methods usually assume that the training and test data come from the same data set and therefore have the same distribution.In practical applications,this assumption is usually untrue,especially when the training and test sets come from different data sets,also known as the cross-domain facial expression recognition problem.To solve this problem,we propose a migration learning method(domain align learning)based on joint distributed alignment for cross- domain facial expression recognition.By determining a feature transform,the source and target domain data are mapped onto a common subspace,wherein edge distribution and conditional distribution are aligned jointly to reduce the distri- bution difference between domains,and then a domain adaptive classifier is obtained by training the transformed fea- tures to predict the target domain sample label.To verify the effectiveness of the proposed algorithm,many experiments are performed on three databases,CK+,Oulu-CASIA NIR,and Oulu-CASIA VIS.The experimental results show the ef- fectiveness of the proposed algorithm in cross-domain facial expression recognition. Keywords:expression recognition;unsupervised;cross-domain;transfer learning;feature transformation;joint align- ment;public subspace;domain adaptive 人脸表情自动识别是情感计算和计算机视觉 收稿日期:2020-08-28. 基金项目:国家自然科学基金项目(60035117). 领域的研究热点之一。近年来,随着人工智能 通信作者:莫宏伟.E-mail:honwei2004@126.com 的迅猛发展,人脸表情识别在多媒体娱乐、人机
DOI: 10.11992/tis.202008034 基于迁移学习的无监督跨域人脸表情识别 莫宏伟,傅智杰 (哈尔滨工程大学 自动化学院,黑龙江 哈尔滨 150001) 摘 要:本文主要研究了基于迁移学习的无监督跨域人脸表情识别。在过去的几年里,提出的许多方法在人脸 表情识别方面取得了令人满意的识别效果。但这些方法通常认为训练和测试数据来自同一个数据集,因此其 具有相同的分布。而在实际应用中,这一假设通常并不成立,特别当训练集和测试集来自不同的数据集时,即 跨域人脸表情识别问题。为了解决这一问题,本文提出将一种基于联合分布对齐的迁移学习方法 (domain align learning) 应用于跨域人脸表情识别,该方法通过找到一个特征变换,将源域和目标域数据映射到一个公共子空 间中,在该子空间中联合对齐边缘分布和条件分布来减小域之间的分布差异,然后对变换后的特征进行训练得 到一个域适应分类器来预测目标域样本标签。为了验证提出算法的有效性,在 CK+、Oulu-CASIA NIR 和 OuluCASIA VIS 这 3 个不同的数据库上做了大量实验,实验结果证明所提算法在跨域表情识别上是有效性的。 关键词:表情识别;无监督;跨域;迁移学习;特征变换;联合对齐;公共子空间;域适应 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)03−0397−10 中文引用格式:莫宏伟, 傅智杰. 基于迁移学习的无监督跨域人脸表情识别 [J]. 智能系统学报, 2021, 16(3): 397–406. 英文引用格式:MO Hongwei, FU Zhijie. Unsupervised cross-domain expression recognition based on transfer learning[J]. CAAI transactions on intelligent systems, 2021, 16(3): 397–406. Unsupervised cross-domain expression recognition based on transfer learning MO Hongwei,FU Zhijie (Automation College, Harbin Engineering University, Harbin 150001, China) Abstract: This paper primarily studies unsupervised cross-domain facial expression recognition based on transfer learning. In recent years, many proposed methods have achieved satisfactory results in facial expression recognition. However, these methods usually assume that the training and test data come from the same data set and therefore have the same distribution. In practical applications, this assumption is usually untrue, especially when the training and test sets come from different data sets, also known as the cross-domain facial expression recognition problem. To solve this problem, we propose a migration learning method (domain align learning) based on joint distributed alignment for crossdomain facial expression recognition. By determining a feature transform, the source and target domain data are mapped onto a common subspace, wherein edge distribution and conditional distribution are aligned jointly to reduce the distribution difference between domains, and then a domain adaptive classifier is obtained by training the transformed features to predict the target domain sample label. To verify the effectiveness of the proposed algorithm, many experiments are performed on three databases, CK+, Oulu-CASIA NIR, and Oulu-CASIA VIS. The experimental results show the effectiveness of the proposed algorithm in cross-domain facial expression recognition. Keywords: expression recognition; unsupervised; cross-domain; transfer learning; feature transformation; joint alignment; public subspace; domain adaptive 人脸表情自动识别是情感计算和计算机视觉 领域的研究热点之一[1-5]。近年来,随着人工智能 的迅猛发展,人脸表情识别在多媒体娱乐、人机 收稿日期:2020−08−28. 基金项目:国家自然科学基金项目 (60035117). 通信作者:莫宏伟. E-mail:honwei2004@126.com. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
·398· 智能系统学报 第16卷 交互、机器智能等领域有着广泛的应用前景。近 需要解决的主要问题就是如何减小不同域之间的 年来,许多研究者致力于人脸表情识别研究,并 分布差异。近几年,一些研究者通过对源域和目 提出了许多有效的方法。 标域数据进行权重的重用来减小域之间的分布差 Zheng等I提出了核典型关联分析(kernel 异2,或者通过找到一个共享的特征表示在保留 canoncal correlation analysis,.KCCA)的人脸表情识 原始数据属性的同时来减小域之间的分布差 别方法,通过对输入图像中人面部34个关键点进 异22。但是大多数存在的方法仅对齐了边缘分 行定位,然后将这些关键点通过Gabor小波变换 布而忽略了条件分布的重要性,且往往需要目标 转换成带有标注信息的图向量(labeled graph, 域中有少量标签样本。 LG)来表示人脸特征。另外,针对每个训练人脸 因此,为了解决源域和目标域数据来自2个 表情图像,将6种表情类型的标签转化成一个六 不同的数据集,服从不同的边缘分布和条件分 维语义表达向量,进而学习LG向量与语义表达 布,且目标域没有标记数据的无监督跨域表情识 向量之间的相关关系,利用这种关系推断出测试 别问题,本文提出将联合分布对齐的迁移学习方 图像的语义表达。在不同人脸表情数据库上的实 法应用于跨域表情识别。该方法通过找到一个特 验结果表明了该方法的有效性。与目标检测等计 征变换,将源域和目标域数据映射到一个公共子 算机视觉任务相比,图像描述不仅需要检测图像 空间中,在该子空间中联合对齐边缘分布和条件分 中的内容,还需要理解图像中目标物体之间的具 布来减小域之间的分布差异,然后对变换后的特 体关系,并使用自然语言正确地表达出来。Uddin 征进行训练得到一个域适应分类器来预测目标域 等提出了一种新的方法来对基于时间序列的视 样本标签,提高跨域人脸表情识别的准确率。 频中的人脸表情进行识别,首先从时间序列人脸 1提出方法 中提取局部方向模式特征,然后进行主成分分析 和线性判别分析,使特征具有较强的鲁棒性。最 1.1问题描述 后,利用隐马尔可夫模型对不同的面部表情进行 令X∈Rmm,表示源域样本集合,X,∈Rmm表 局部特征建模和识别,取得了较好的识别效果。 示目标域样本集合,P(X)和P(X)分别表示源域 Yu圆提出了一种基于图像的静态面部表情识别方 数据和目标域数据的边缘分布,P,(YX)和 法,该方法包含一个基于3个最先进的人脸检测 P(YX,)分别表示源域和目标域的条件分布。m 器集成的人脸检测模块,以及一个基于多层深度 表示源域和目标域中样本的维度,n,和n,分别表 卷积神经网络(convolutional neural network,.CNN) 示源域和目标域样本数据的个数。因此,给定一 级联的分类模块。为了自动决定级联CNN的权 个带有标签的源域数据D,={c,)烂1,x∈Rm,一 重分配问题,提出了通过最小化对数似然损失和 个无标签的目标域数据D,=(c)1,x∈Rm,源域 最小化铰链损失2种自适应训练卷积神经网络权 和目标域样本具有相同的特征空间和标签空间, 值的优化方案。Baccouche等)设计了一种时空 即X,=X,Y,=Y,。但源域和目标域样本服从不 卷积稀疏自编码器,在不需要任何监督信息的情 同的数据分布P(X)≠P,(X),P(YX)+P(YX)。 况下学习稀疏移位不变表示。 1.2核心思想 虽然上述人脸表情识别方法取得了较好的识 分布对齐的核心思想是通过找到一个特征变 别效果,但需要注意的是,这些方法通常认为训 换矩阵,将源域和目标域样本映射到一个公共子 练数据样本和测试数据样本的数据分布相同。而 空间,即可再生核希尔伯特空间(reproducing ker- 在实际应用中,可能无法满足相同的分布假设。 nel Hilbert space,RKHS),通过引入无参数的最大 特别是当训练数据和测试数据来自2个不同的数 均值差异MMD来度量源域和目标域数据之间边 据库,且这2个数据库是在不同的数据收集环境 缘分布和条件分布的距离,在该子空间中在最大 下收集的。对于这样的跨域人脸表情识别问题, 化投影后源域和目标域数据方差的同时,联合对 传统的人脸表情识别方法可能无法达到很好的识 齐边缘分布和条件分布,最小化域之间的分布距 别效果。近年来,迁移学习在图像分类101山和标 离,即 注2)、目标识别47和特征学习20等方面都有 Dist(D.D)Dist(P(X).P (X))+ 很好的应用前景。且在跨域识别问题上展现出较 Dist(P,(Y,X),P(YX)) (1) 大的优势,越来越受到研究者的关注。 然后对变换后的特征进行训练得到一个域适 在跨域人脸表情识别问题中,源域和目标域 应分类器,来对目标域中的数据标签进行预测。 来自不同的数据库,服从不同的数据分布,因此 分布对齐原理示意图如图1所示
交互、机器智能等领域有着广泛的应用前景。近 年来,许多研究者致力于人脸表情识别研究,并 提出了许多有效的方法。 Zheng 等 [6] 提出了核典型关联分析 (kernel canoncal correlation analysis,KCCA) 的人脸表情识 别方法,通过对输入图像中人面部 34 个关键点进 行定位,然后将这些关键点通过 Gabor 小波变换 转换成带有标注信息的图向量 (labeled graph, LG) 来表示人脸特征。另外,针对每个训练人脸 表情图像,将 6 种表情类型的标签转化成一个六 维语义表达向量,进而学习 LG 向量与语义表达 向量之间的相关关系,利用这种关系推断出测试 图像的语义表达。在不同人脸表情数据库上的实 验结果表明了该方法的有效性。与目标检测等计 算机视觉任务相比,图像描述不仅需要检测图像 中的内容,还需要理解图像中目标物体之间的具 体关系,并使用自然语言正确地表达出来。Uddin 等 [7] 提出了一种新的方法来对基于时间序列的视 频中的人脸表情进行识别,首先从时间序列人脸 中提取局部方向模式特征,然后进行主成分分析 和线性判别分析,使特征具有较强的鲁棒性。最 后,利用隐马尔可夫模型对不同的面部表情进行 局部特征建模和识别,取得了较好的识别效果。 Yu[8] 提出了一种基于图像的静态面部表情识别方 法,该方法包含一个基于 3 个最先进的人脸检测 器集成的人脸检测模块,以及一个基于多层深度 卷积神经网络 (convolutional neural network, CNN) 级联的分类模块。为了自动决定级联 CNN 的权 重分配问题,提出了通过最小化对数似然损失和 最小化铰链损失 2 种自适应训练卷积神经网络权 值的优化方案。Baccouche 等 [9] 设计了一种时空 卷积稀疏自编码器,在不需要任何监督信息的情 况下学习稀疏移位不变表示。 虽然上述人脸表情识别方法取得了较好的识 别效果,但需要注意的是,这些方法通常认为训 练数据样本和测试数据样本的数据分布相同。而 在实际应用中,可能无法满足相同的分布假设。 特别是当训练数据和测试数据来自 2 个不同的数 据库,且这 2 个数据库是在不同的数据收集环境 下收集的。对于这样的跨域人脸表情识别问题, 传统的人脸表情识别方法可能无法达到很好的识 别效果。近年来,迁移学习在图像分类[10-11] 和标 注 [12-13] 、目标识别[14-17] 和特征学习[18-20] 等方面都有 很好的应用前景。且在跨域识别问题上展现出较 大的优势,越来越受到研究者的关注。 在跨域人脸表情识别问题中,源域和目标域 来自不同的数据库,服从不同的数据分布,因此 需要解决的主要问题就是如何减小不同域之间的 分布差异。近几年,一些研究者通过对源域和目 标域数据进行权重的重用来减小域之间的分布差 异 [21] ,或者通过找到一个共享的特征表示在保留 原始数据属性的同时来减小域之间的分布差 异 [22-23]。但是大多数存在的方法仅对齐了边缘分 布而忽略了条件分布的重要性,且往往需要目标 域中有少量标签样本。 因此,为了解决源域和目标域数据来自 2 个 不同的数据集,服从不同的边缘分布和条件分 布,且目标域没有标记数据的无监督跨域表情识 别问题,本文提出将联合分布对齐的迁移学习方 法应用于跨域表情识别。该方法通过找到一个特 征变换,将源域和目标域数据映射到一个公共子 空间中,在该子空间中联合对齐边缘分布和条件分 布来减小域之间的分布差异,然后对变换后的特 征进行训练得到一个域适应分类器来预测目标域 样本标签,提高跨域人脸表情识别的准确率。 1 提出方法 1.1 问题描述 Xs ∈ R m×ns Xt ∈ R m×nt Ps(Xs) Pt(Xt) Ps (Ys |Xs) Pt (Yt |Xt) m ns nt Ds = {(xi , yi)} ns i=1 , xi ∈ R m Dt = {(xj )}nt j=1 , xj ∈ R m Xs = Xt Ys = Yt Ps (Xs) , Pt (Xt) Ps (Ys |Xs) , Pt (Yt |Xt) 令 表示源域样本集合, 表 示目标域样本集合, 和 分别表示源域 数据和目标域数据的边缘分布, 和 分别表示源域和目标域的条件分布。 表示源域和目标域中样本的维度, 和 分别表 示源域和目标域样本数据的个数。因此,给定一 个带有标签的源域数据 ,一 个无标签的目标域数据 ,源域 和目标域样本具有相同的特征空间和标签空间, 即 , 。但源域和目标域样本服从不 同的数据分布 , 。 1.2 核心思想 分布对齐的核心思想是通过找到一个特征变 换矩阵,将源域和目标域样本映射到一个公共子 空间,即可再生核希尔伯特空间 (reproducing kernel Hilbert space, RKHS),通过引入无参数的最大 均值差异 MMD 来度量源域和目标域数据之间边 缘分布和条件分布的距离,在该子空间中在最大 化投影后源域和目标域数据方差的同时,联合对 齐边缘分布和条件分布,最小化域之间的分布距 离,即 Dist(Ds ,Dt) ≈ Dist(Ps(Xs),Pt(Xt))+ Dist(Ps(Ys |Xs),Pt(Yt |Xt)) (1) 然后对变换后的特征进行训练得到一个域适 应分类器,来对目标域中的数据标签进行预测。 分布对齐原理示意图如图 1 所示。 ·398· 智 能 系 统 学 报 第 16 卷
第3期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·399· 源域数据目标域数据 源域数据。 ◆ 缘分布差异。 目标域数据 公共子空间中 原域数据· ◆ 1.5条件分布对齐 公共子空间中目标域数据。◆◆ 减小边缘分布的差异通常并不能保证域之间 原始空间 公共子空间(RKHS) 的条件分布差异也随之减小。实际上最小化条件分 特征变换 布P(YX)和P(YX)之间的差异对于跨域识别 MMD 问题来说也是至关重要的。然而,对齐条件分布 并不是很容易,在目标域没有标签数据,对条件 图1分布对齐原理示意 分布P(YX)直接进行求解是行不通的。因此可 Fig.1 Schematic diagram of the distribution alignment 以使用类条件分布的充分统计量P(XY,)来近似 1.3特征变换 P(Y,X,)。近来的一些工作开始通过内核映射空 令X=[X,X]∈Rmx,+n)为输入矩阵,n和n 间中的样本选择、联合训练、循环验证、核密 分别为源域和目标域中的样本个数,H=1-1 度估计26]等进行条件分布对齐。但是这些方法 n+n 往往都需要在目标域中有一些标签数据,所以这 1为中心矩阵,其中I∈R,+,+m)为单位矩阵,1是 一个(n,+n,)×(m,+n)的全1矩阵,则输入数据的 些方法并不能解决我们的问题。 为了解决这一问题,提出利用目标域数据的 协方差矩阵可以表示为XHXT。本文的主要目标 伪标签,即通过将在有标签的源域数据上训练的 就是找到一个正交变换矩阵W∈Rm使得源域和 基分类器应用于无标签的目标域数据,可以很容 目标域数据映射到公共子空间中的数据方差最 易地预测目标域数据的伪标签。由于不同域之间 大,即 的分布差异,这些伪标签可能不是太准确,需要 max t(WXHXW) (2) 在实验中进行迭代优化。在源域带标签数据上训 1.4边缘分布对齐 练的基分类器可以是标准的学习器,例如支持向 在进行分布对齐之前,需要解决的主要问题 量机(SVM)、NN等。 就是找到一个合适的度量准则来计算2个域之间 有了真实标签的源域数据和带有伪标签的目 的分布差异。而在机器学习中存在很多度量准则 标域数据之后,就可以在标签空间Y的每个类中 可以度量不同分布之间的差异,例如欧氏距离、 匹配类条件分布P(xy=c)和P,(xb,=c), 余弦相似度、KL散度等。但这些方法通常计算 c=(1,2,…,C。为了测量类条件分布P(xby,=c) 起来比较复杂。因此为了对齐边缘分布,减小边 和P(xy,=c)之间的距离,本文对MMD进行了 缘分布P(X)和P(X)之间的差异,采用无参数的最 修改。因此,条件分布对齐的目标函数可以写成: 大均值差异MMD来度量不同分布之间的距离。 MMD的主要目标就是在RKHS中计算经过 mi的 (6) 变换后的源域样本和目标域样本均值之间的距 XED 离。因此,边缘分布对齐的目标函数可以写成: 式中:D9={::x:∈D,Ay()=c}是源域数据中属 于第c类的样本集合;y(x)是数据:的真实标签; (3) n9=D是源域数据中属于第c类的样本个数。对 应的,D9={x:x,∈D,Ax)=c是目标域数据中 式中:x、x,分别为源域和目标域中的第i个样本 属于第c类样本集合,x)是样本x的伪标签, 和第j个样本;H表示可再生核希尔伯特空间。 m9=D是目标域数据中属于第c类样本的个数。 通过矩阵技巧和迹优化,式(3)可以被改写为 通过进一步优化,式(6)可以简化为 (WXLXW) (4) iu(WXL.XW) (7) 其中L是MMD矩阵,计算如下: 式中:L是类标签的MMD矩阵,计算如下: xi,xi∈D n:n, nono rxj∈De Lo= x,xj∈D, (5) 1 nene xi,xjE De) 1 (8) 其他 (L)= n几 1 x∈De,xjEDI 因此,通过式(4)使得域之间的边缘分布 nonos xeDP,x,∈D PX)和P(X)尽可能地接近,减小了域之间的边 0 其他
原始空间 MMD 公共子空间 (RKHS) 源域数据 目标域数据 源域数据 目标域数据 公共子空间中源域数据 公共子空间中目标域数据 特征变换 图 1 分布对齐原理示意 Fig. 1 Schematic diagram of the distribution alignment 1.3 特征变换 X = [Xs ,Xt] ∈ R m×(ns+nt) ns nt H = I− 1 ns +nt 1 I ∈ R (ns+nt)(ns+nt) 1 (ns +nt)×(ns +nt) XHXT W ∈ R m×k 令 为输入矩阵, 和 分别为源域和目标域中的样本个数, 为中心矩阵,其中 为单位矩阵, 是 一个 的全 1 矩阵,则输入数据的 协方差矩阵可以表示为 。本文的主要目标 就是找到一个正交变换矩阵 使得源域和 目标域数据映射到公共子空间中的数据方差最 大,即 max WTW=I tr(WTXHXTW) (2) 1.4 边缘分布对齐 P(Xs) P(Xt) 在进行分布对齐之前,需要解决的主要问题 就是找到一个合适的度量准则来计算 2 个域之间 的分布差异。而在机器学习中存在很多度量准则 可以度量不同分布之间的差异, 例如欧氏距离、 余弦相似度、KL 散度等。但这些方法通常计算 起来比较复杂。因此为了对齐边缘分布,减小边 缘分布 和 之间的差异,采用无参数的最 大均值差异 MMD 来度量不同分布之间的距离。 MMD 的主要目标就是在 RKHS 中计算经过 变换后的源域样本和目标域样本均值之间的距 离。因此,边缘分布对齐的目标函数可以写成: min WTW=I 1 ns ∑ns i=1 WT xi − 1 nt ∑nt j=1 WT xj 2 H (3) xi xj i j H 式中: 、 分别为源域和目标域中的第 个样本 和第 个样本; 表示可再生核希尔伯特空间。 通过矩阵技巧和迹优化,式 (3) 可以被改写为 min WTW=I tr(WTXLXTW) (4) 其中 L 是 MMD 矩阵,计算如下: Li j = 1 nsns , xi , xj ∈ Ds 1 ntnt , xi , xj ∈ Dt − 1 nsnt , 其他 (5) P(Xs) P(Xt) 因此,通过式 (4) 使得域之间的边缘分布 和 尽可能地接近,减小了域之间的边 缘分布差异。 1.5 条件分布对齐 Ps (Ys |Xs) Pt(Yt |Xt) Pt(Yt |Xt) Pt(Xt |Yt) Pt(Yt |Xt) 减小边缘分布的差异通常并不能保证域之间 的条件分布差异也随之减小。实际上最小化条件分 布 和 之间的差异对于跨域识别 问题来说也是至关重要的。然而,对齐条件分布 并不是很容易,在目标域没有标签数据,对条件 分布 直接进行求解是行不通的。因此可 以使用类条件分布的充分统计量 来近似 。近来的一些工作开始通过内核映射空 间中的样本选择、联合训练[24] 、循环验证[25] 、核密 度估计[26] 等进行条件分布对齐。但是这些方法 往往都需要在目标域中有一些标签数据,所以这 些方法并不能解决我们的问题。 为了解决这一问题,提出利用目标域数据的 伪标签,即通过将在有标签的源域数据上训练的 基分类器应用于无标签的目标域数据,可以很容 易地预测目标域数据的伪标签。由于不同域之间 的分布差异,这些伪标签可能不是太准确,需要 在实验中进行迭代优化。在源域带标签数据上训 练的基分类器可以是标准的学习器,例如支持向 量机 (SVM)、NN 等。 Y Ps (xs |ys = c) Pt (xt |yt = c) c = {1,2,··· ,C} Ps (xs |ys = c) Pt (xt |yt = c) 有了真实标签的源域数据和带有伪标签的目 标域数据之后,就可以在标签空间 的每个类中 匹配类条件分布 和 , 。为了测量类条件分布 和 之间的距离,本文对 MMD 进行了 修改。因此,条件分布对齐的目标函数可以写成: min WTW=I 1 n (c) s ∑ xi∈D (c) s WT xi − 1 n (c) t ∑ xj∈D (c) t WT xj 2 H (6) D (c) s = {xi : xi ∈ Ds ∧y(xi) = c} y(xi) xi n (c) s = D (c) s D (c) t = {xj : xj ∈ Dt ∧yˆ(xj) = c} yˆ(xj) xj n (c) t = D (c) t 式中: 是源域数据中属 于第 c 类的样本集合; 是数据 的真实标签; 是源域数据中属于第 c 类的样本个数。对 应的, 是目标域数据中 属于第 c 类样本集合, 是样本 的伪标签, 是目标域数据中属于第 c 类样本的个数。 通过进一步优化,式 (6) 可以简化为 min WTW=I tr( WTXLcX TW ) (7) 式中: Lc 是类标签的 MMD 矩阵,计算如下: (Lc)i j = 1 n (c) s n (c) s , xi , xj ∈ D (c) s 1 n (c) t n (c) t , xi , xj ∈ D (c) t − 1 n (c) s n (c) t , { xi ∈ D (c) s , xj ∈ D (c) t xj ∈ D (c) s , xi ∈ D (c) t 0, 其他 (8) 第 3 期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·399·
·400· 智能系统学报 第16卷 因此,通过式(⑦减小了域之间的条件分布差 而来的。CK+数据库包含123名年龄在1850岁 异。但是在本文要解决的问题中,目标同时是最 来自不同人种的成年人,包括非裔美国人、亚洲 小化域间的边缘分布和条件分布的差异。因此将 以及拉丁美洲人的593个图像序列,如图2所 式(4)、(7)与式(2)合并到一起得到DaL的优化问 示。在CK数据库的基础上对视频序列和采集对 题,即 象进行扩充,分别增加了22%和27%,且在该数 m盟tr(WXLXW)+ t(WTXLXW)+lW 据库中的视频序列中包括生气、厌恶、恐惧、高 c=1 兴、难过、吃惊和中性等7种表情,每种表情均有 (9) 完整的面部编码。该数据库中表情图像的采集对 式中:λ是正则化参数:W表示转换矩阵W的 象中有65%是女性,35%是男性。 Frobenius范数。 1.6模型优化 令p=diag(p1,p2,…,p)∈Rt为拉格朗日乘 子,根据约束优化理论,可以推导出式(9)的拉格 朗日函数,即 w(WXLXW)+∑(WXLXW)+ (10) t((I-WXHXW)) 图2CK+数据库部分表情样本 令式(10)对变换矩阵W求偏导数,并令其等 Fig.2 Partial expression samples of CK+Database 于零可得到其广义特征分解: 2)Oulu-CASIA NIR&VIS Database数据库 (XLXT+X LXT+ADW=XHXTWO 该数据库主要由Oulu-CASIA NIR(近红外相 (11) c= 机)和Oulu-CASIA VIS(可见光相机)两部分组 最后,选择式(11)的前k个最小特征值对应 成,如图3、4所示,均通过对年龄范围为25~58岁 的特征向量作为变换矩阵W的解。算法的伪代 的80位测试者进行表情采集,其中男性和女性 码如算法1所示。 的比例分别为73.8%和26.2%。在80位测试者 算法1分布对齐算法(DaL) 中,50位芬兰测试者由奥卢大学进行采集,剩 输入数据矩阵X,标签矩阵y,子空间维度 余的测试者由中国科学院模式识别实验室完成 k,以及正则化参数; 采集整理。整个数据库包含的面部表情为高兴、 输出变换矩阵W,域适应分类器f。 生气、厌恶、惊讶、恐惧和悲伤,所有这些表情都 1)通过式(5)构建MMD矩阵L,并令 是在3种不同光源条件(正常、强光、黑暗)下,分 (Le=011 别通过一个可见光摄像机和一个近红外摄像机获 2)通过对式(11)进行特征分解选择最小的k 得的。 个特征向量构建变换矩阵W; 3)在{(Wxy),上训练一个标准分类器,并 用其去更新目标域伪标签=f(Wx,),通过 (a)黑暗 式(8)构造MMD矩阵L。 4)重复步骤2)、3)直至收敛: 5)在标注数据{(Wx,y)上训练的域适应 (b)正常 分类器f。 2实验与分析 2.1数据库介绍 (c)强光 1)CK+数据库 图3 Oulu-CASIA VIS分别在黑暗、正常、强光条件下数 CK+(the extended cohn-kanda dataset)数据库27 据库中表情样本 Fig.3 Expression samples of Oulu-CASIA VIS under 是美国的匹兹堡大学团队和卡内基梅隆大学团队 dark,normal and strong light conditions respect- 合作在CK(cohn-kanade)数据库2!上进行扩充 ively
因此,通过式 (7) 减小了域之间的条件分布差 异。但是在本文要解决的问题中,目标同时是最 小化域间的边缘分布和条件分布的差异。因此将 式 (4)、(7) 与式 (2) 合并到一起得到 DaL 的优化问 题,即 min WTXHXTW=I tr(WTXLXTW)+ ∑C c=1 tr(WTXLcX TW)+λ∥W∥ 2 F (9) λ ∥W∥ 2 式中: 是正则化参数; F 表示转换矩阵 W 的 Frobenius 范数。 1.6 模型优化 φ = diag(φ1,φ2,··· ,φk) ∈ R 令 k×k 为拉格朗日乘 子,根据约束优化理论,可以推导出式 (9) 的拉格 朗日函数,即 tr(WTXLXTW)+ ∑C c=1 tr(WTXLcX TW)+ tr((I−WTXHXTW)φ) (10) 令式 (10) 对变换矩阵 W 求偏导数,并令其等 于零可得到其广义特征分解: (XLXT + X ∑C c=1 LcX T +λI)W = XHXTWφ (11) k W 最后,选择式 (11) 的前 个最小特征值对应 的特征向量作为变换矩阵 的解。算法的伪代 码如算法 1 所示。 算法 1 分布对齐算法 (DaL) X ys k λ 输入 数据矩阵 ,标签矩阵 ,子空间维度 ,以及正则化参数 ; 输出 变换矩阵 W ,域适应分类器 f。 L {Lc = 0} C c=1 1 ) 通 过 式 ( 5 ) 构 建 M M D 矩 阵 ,并令 。 k W 2) 通过对式 (11) 进行特征分解选择最小的 个特征向量构建变换矩阵 ; {(WT xi , yi)} ns i=1 {yˆj = f(WT xj)} nt j=1 Lc 3) 在 上训练一个标准分类器,并 用其去更新目标域伪标签 ,通过 式 (8) 构造 MMD 矩阵 。 4) 重复步骤 2)、3) 直至收敛; {(WT xi , yi)} ns i=1 f 5) 在标注数据 上训练的域适应 分类器 。 2 实验与分析 2.1 数据库介绍 1)CK+数据库 CK+(the extended cohn-kanda dataset) 数据库[27] 是美国的匹兹堡大学团队和卡内基梅隆大学团队 合作在 CK(cohn–kanade) 数据库[28] 上进行扩充 而来的。CK +数据库包含 123 名年龄在 18~50 岁 来自不同人种的成年人,包括非裔美国人、亚洲 以及拉丁美洲人的 593 个图像序列,如图 2 所 示。在 CK 数据库的基础上对视频序列和采集对 象进行扩充,分别增加了 22% 和 27%,且在该数 据库中的视频序列中包括生气、厌恶、恐惧、高 兴、难过、吃惊和中性等 7 种表情,每种表情均有 完整的面部编码。该数据库中表情图像的采集对 象中有 65% 是女性,35% 是男性。 图 2 CK+数据库部分表情样本 Fig. 2 Partial expression samples of CK + Database 2)Oulu-CASIA NIR & VIS Database 数据库[29] 该数据库主要由 Oulu-CASIA NIR(近红外相 机) 和 Oulu-CASIA VIS(可见光相机) 两部分组 成,如图 3、4 所示,均通过对年龄范围为 25~58 岁 的 80 位测试者进行表情采集,其中男性和女性 的比例分别为 73.8% 和 26.2%。在 80 位测试者 中 ,50 位芬兰测试者由奥卢大学进行采集,剩 余的测试者由中国科学院模式识别实验室完成 采集整理。整个数据库包含的面部表情为高兴、 生气、厌恶、惊讶、恐惧和悲伤,所有这些表情都 是在 3 种不同光源条件 (正常、强光、黑暗) 下,分 别通过一个可见光摄像机和一个近红外摄像机获 得的。 (a) 黑暗 (b) 正常 (c) 强光 图 3 Oulu-CASIA VIS 分别在黑暗、正常、强光条件下数 据库中表情样本 Fig. 3 Expression samples of Oulu-CASIA VIS under dark, normal and strong light conditions respectively ·400· 智 能 系 统 学 报 第 16 卷
第3期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·401· 集),因此可以得到6组对比实验,即 I)CK+作为源域,Oulu-CASIA NIR作为目标 (a)黑暗 域,用C&N表示; 2)Oulu-CASIA NIR作为源域,CK+作为目标 域,用N&C表示; 3)CK+作为源域,Oulu-CASIA VIS作为目标 (b)正常 域,用C&V表示; 4)Oulu-CASIA VIS作为源域,CK+作为目标 域,用V&C表示; (⊙)强光 5)Oulu-CASIA NIR作为源域,Oulu-CASIA 图4Oulu-CASIA NIR分别在黑暗、正常、强光条件下数 VIS作为目标域,用N&V表示; 据库中表情样本 6)Oulu-CASIA VIS作为源域,Oulu-CASIA Fig.4 Expression samples of Oulu CASIA NIR under NIR作为目标域,用V&N表示。 dark,normal and strong light conditions respect- 在本文实验中所用到的3个数据库中的表情 ively 样本构成如表1所示。实验中所有方法采用的参 2.2实验设置 数设置及评价指标如下:在实验中,线性支持向量机 为了比较,本文选择了近年来在跨域人脸表 (SVM以固定的C=0.2,且在实验过程中,为了公 情识别中常使用的迁移学习算法,包括核均值匹 平对比,所有方法均采用线性核函数。对于 (kernel mean matching,KMM)301 Kullback-Lei- KMM来说主要有2个参数B和E,分别设置为 bler重要性估计过程(kullback-leibler importance 1 estimation process,.KLIEP)B)、选择性迁移机 B=1000,8=m- 而,其中n为训练样本的个 (selective transfer machine,.STM)等与本文提出的 数。STM中的参数B和ε设置和KMM一样。 分布对齐(①aL)进行对比,这些方法的参数设置 在DL中主要包括2个参数子空间维度k和正则 将在后面进行介绍。此外,使用线性支持向量机 化参数A,在实验中设置为k=100,A=0.1,迭代次 (SVM)作为这4种基准对比方法的分类器,即 数N=20。在本文中,使用测试数据的分类精度作 KLIEP+SVM、KMM+SVM、STM+SVM和DaL+SVM, 为评价指标,即 同时将无迁移的SVM作为基准方法与这4种算 A=:xED,A)=y() (12) 法进行对比。 x:x∈D.l 在本文中,采用圆形LBP特征提取算子来 式中:A表示准确率;D,表示目标域样本;(x)表 提取表情特征,在实验中选择2种不同的半径和 示各对比算法预测的目标域样本标签;(x)表示 周围像素点的圆形LBP算子,即R=1,P=8和 目标域样本的真实标签。 R=2,P=16,分别用LBPI和LBPI6表示。选择 表1实验所用数据库样本构成 CK+,Oulu-CASIA NIR和Oulu-CASIA VIS这3个 Table 1 Composition of database samples used in the ex- 数据库进行验证本文提出算法的有效性,在这 periment 3个数据库中采集的表情样本来自不同的人种, 实验数据库 愤怒厌恶恐惧高兴悲伤吃惊 且是在不同的实验环境下使用不同的设备进行采 CK+ 45 60 25 70 28 85 集的,因此这3个数据库中表情样本具有不同的 Ouu-CASIA NIR240240240240240240 特征分布。在进行实验之前,首先对这3个数据 Oulu-CASIA VIS240240240240240240 库中的表情图像进行预处理,将这3个数据库中 的表情图像大小进行归一化,统一调整为64×64, 2.3 实验结果与分析 并选用这3个数据库中共有的惊讶(surprise)、高 不同对比方法在本文设置的6种实验场景下 兴(happy)、悲伤(sad)、愤怒(angy)、恐惧(fear)和 的平均准确率分别如表2、3所示。从实验结果可 厌恶(disgust)等6种表情类型的样本进行实验, 以看出: 因此在这3个数据库中的表情图像具有相同的特 1)本文提出的DaL在不同场景下的识别效 征空间和标签空间。 果相对于无迁移学习的传统机器学习算法SVM 在实验过程中,每次选取这3个数据库中的 有大幅提升,且均高于KMM、KLIEP和STM,表 任意2个分别作为源域(训练集)和目标域(测试 明DaL在跨域人脸表情识别的有效性
(a) 黑暗 (b) 正常 (c) 强光 图 4 Oulu-CASIA NIR 分别在黑暗、正常、强光条件下数 据库中表情样本 Fig. 4 Expression samples of Oulu CASIA NIR under dark, normal and strong light conditions respectively 2.2 实验设置 为了比较,本文选择了近年来在跨域人脸表 情识别中常使用的迁移学习算法,包括核均值匹 配 (kernel mean matching, KMM)[30] 、Kullback-Leibler 重要性估计过程 (kullback-leibler importance estimation process, KLIEP)[ 3 1 ] 、选择性迁移机 (selective transfer machine, STM)[5] 等与本文提出的 分布对齐 (DaL) 进行对比,这些方法的参数设置 将在后面进行介绍。此外,使用线性支持向量机 (SVM) 作为这 4 种基准对比方法的分类器,即 KLIEP+SVM、KMM+SVM、STM+SVM 和 DaL+SVM, 同时将无迁移的 SVM 作为基准方法与这 4 种算 法进行对比。 R= 1 P= 8 R= 2 P= 16 LBP| 8 1 LBP| 16 2 64×64 在本文中,采用圆形 LBP[32] 特征提取算子来 提取表情特征,在实验中选择 2 种不同的半径和 周围像素点的圆形 LBP 算子,即 , 和 , ,分别用 和 表示。选择 CK+,Oulu-CASIA NIR 和 Oulu-CASIA VIS 这 3 个 数据库进行验证本文提出算法的有效性,在这 3 个数据库中采集的表情样本来自不同的人种, 且是在不同的实验环境下使用不同的设备进行采 集的,因此这 3 个数据库中表情样本具有不同的 特征分布。在进行实验之前,首先对这 3 个数据 库中的表情图像进行预处理,将这 3 个数据库中 的表情图像大小进行归一化,统一调整为 , 并选用这 3 个数据库中共有的惊讶 (surprise)、高 兴 (happy)、悲伤 (sad)、愤怒 (angry)、恐惧 (fear) 和 厌恶 (disgust) 等 6 种表情类型的样本进行实验, 因此在这 3 个数据库中的表情图像具有相同的特 征空间和标签空间。 在实验过程中,每次选取这 3 个数据库中的 任意 2 个分别作为源域 (训练集) 和目标域 (测试 集),因此可以得到 6 组对比实验,即 1) CK+作为源域,Oulu-CASIA NIR 作为目标 域,用 C&N 表示; 2) Oulu-CASIA NIR 作为源域,CK+作为目标 域,用 N&C 表示; 3) CK+作为源域,Oulu-CASIA VIS 作为目标 域,用 C&V 表示; 4) Oulu-CASIA VIS 作为源域,CK+作为目标 域,用 V&C 表示; 5) Oulu-CASIA NIR 作为源域,Oulu-CASIA VIS 作为目标域,用 N&V 表示; 6) Oulu-CASIA VIS 作为源域,Oulu-CASIA NIR 作为目标域,用 V&N 表示。 在本文实验中所用到的 3 个数据库中的表情 样本构成如表 1 所示。实验中所有方法采用的参 数设置及评价指标如下:在实验中,线性支持向量机 C= 0.2 B ε B = 1 000 ε = √ n− 1 √ n n B ε k λ k λ (SVM) 以固定的 ,且在实验过程中,为了公 平对比,所有方法均采用线性核函数。对 于 KMM 来说主要有 2 个参数 和 ,分别设置为 , ,其中 为训练样本的个 数。STM 中的参数 和 设置和 KMM 一样。 在 DaL 中主要包括 2 个参数子空间维度 和正则 化参数 ,在实验中设置为 =100, =0.1,迭代次 数 N=20。在本文中,使用测试数据的分类精度作 为评价指标,即 A = |x : x ∈ Dt ∧yˆ(x) = y(x)| |x : x ∈ Dt | (12) A Dt yˆ(x) y(x) 式中: 表示准确率; 表示目标域样本; 表 示各对比算法预测的目标域样本标签; 表示 目标域样本的真实标签。 表 1 实验所用数据库样本构成 Table 1 Composition of database samples used in the experiment 实验数据库 愤怒 厌恶 恐惧 高兴 悲伤 吃惊 CK+ 45 60 25 70 28 85 Oulu-CASIA NIR 240 240 240 240 240 240 Oulu-CASIA VIS 240 240 240 240 240 240 2.3 实验结果与分析 不同对比方法在本文设置的 6 种实验场景下 的平均准确率分别如表 2、3 所示。从实验结果可 以看出: 1) 本文提出的 DaL 在不同场景下的识别效 果相对于无迁移学习的传统机器学习算法 SVM 有大幅提升,且均高于 KMM、KLIEP 和 STM,表 明 DaL 在跨域人脸表情识别的有效性。 第 3 期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·401·
·402· 智能系统学报 第16卷 2)从表2和表3的1、2和3、4四组实验中可 表3不同方法在6种不同实验场景下的平均准确率 以看出,在源域为CK+而目标域分别为Oulu- (LBP) Table 3 CASIA VIS和Oulu-CASIA NIR时的识别准确率 Average accuracy of different methods in six different experimental scenarios LBP6 % 均低于在源域分别为Oulu-CASIA VIS和Oulu- CASIA NIR而目标域为CK+时的识别准确率,并 序号 实验场景 SVM KMM KLIEP STM DaL 结合表1可以看出,出现这种情况的原因:1)可 能是因为CK+数据库中的表情样本数量较少:2) C&N 19.32 25.46 36.84 28.76 45.24 可能是因为CK+数据库中样本数量不均衡造 N&C 26.79 38.64 43.5 30.2652.38 成的。 3)通过表2和3中5、6两组实验可以看出, C&V 21.25 34.3 31.5 29.3246.18 在源域为Oulu-CASIA VIS,目标域为Oulu-CASIA V&C 30.2843.64 46.78 33.2654.13 NIR上的识别效果要高于在源域为Oulu-CASIA NIR,目标域为Oulu-CASIA VIS上的识别效果, N&V 54.2 57.5 54.7850.2461.64 出现这种现象的原因可能是由于Oulu-CASIA VIS和Oulu-CASIA NIR数据库中表情图像使用 6 V&N 62.568.7663.5461.4574.58 的采集设备不同,在Oulu-CASIA VIS和Oulu- CASIA NIR数据库中的表情图像分别是通过可见 为了更加直观地表示各对比算法的识别效 光相机和近红外相机拍摄的,表明模型从由可见 果,给出了这5种算法在不同场景下的平均准确 光相机拍摄的表情图像上提取的特征要比近红外 率曲线,如图5所示。从图5中可以清晰看出,本 图像上提取的质量更高。 文提出的DaL方法在跨域人脸表情识别上的有 4)通过对比表2和表3中6组实验可以看 效性。 出,通过圆形LBP特征提取方法在R=2,P=16时 提取特征的识别效果均高于R=1,P=8时的识别 70 效果,这一现象表明,在扩大特征提取半径和增 加临近像素点时,LBP提取的特征相对较好。 50 5)通过对比表2和3中的6组实验可以看 出,SVM在5、6两组实验上的识别效果相对于 40 -SVM 前4组实验来说有了较大提升。这是因为,Oulu- KMM 一KLIEP CASIA VIS和Oulu-CASIA NIR数据库中的样本 20 STM 之间的差异,要小于CK+中样本与Oulu-CASIA 6 VIS和Oulu-CASIA NIR之间的差异。在Oulu- 序号 CASIA VIS和Oulu-CASIA NIR中样本的采集对 (a)R=l,P=8时的识别准确率 象相同,因此样本间的特征差异相对较小。所 80 以,对于无迁移学习的传统机器学习算法SVM 70 来说,在5、6两组上的识别率相对较好。 0 表2不同方法在6种不同实验场景下的平均准确率 50 (LBP) 40 Table 2 Average accuracy of different methods in six -SVM 30 KMM different experimental scenarios LBP % KLIEP STM 序号实验场景 一DaL SVM KMM KLIEP STM DaL 10 2 3 4 5 6 C&N 17.6824.35 34.26 23.540.76 序号 (b)R=2,P=16时的识别准确率 2 N&C 24.65 36.52 42.3 28.6449.48 3 C&V 20.32 32.68 30.49 27.56 44.35 图5各对比算法在不同实验场景下的平均准确率曲线 Fig.5 Average accuracy curve of each comparison al- 4 V&C 28.6 40.18 45.24 32.1552.74 gorithm in different experimental scenarios 5 N&V 49.35 51.4 48.54 46.756.78 为了进一步验证提出方法的有效性,本文选 6 V&N 58.4 65.64 60.48 56.569.74 择表3中序号为3和5的这一组对比实验进行分
2) 从表 2 和表 3 的 1、2 和 3、4 四组实验中可 以看出,在源域为 CK+而目标域分别为 OuluCASIA VIS 和 Oulu-CASIA NIR 时的识别准确率 均低于在源域分别为 Oulu-CASIA VIS 和 OuluCASIA NIR 而目标域为 CK+时的识别准确率,并 结合表 1 可以看出,出现这种情况的原因:1)可 能是因为 CK+数据库中的表情样本数量较少;2) 可能是因为 CK+数据库中样本数量不均衡造 成的。 3) 通过表 2 和 3 中 5、6 两组实验可以看出, 在源域为 Oulu-CASIA VIS,目标域为 Oulu-CASIA NIR 上的识别效果要高于在源域为 Oulu-CASIA NIR,目标域为 Oulu-CASIA VIS 上的识别效果, 出现这种现象的原因可能是由于 Oulu-CASIA VIS 和 Oulu-CASIA NIR 数据库中表情图像使用 的采集设备不同,在 Oulu-CASIA VIS 和 OuluCASIA NIR 数据库中的表情图像分别是通过可见 光相机和近红外相机拍摄的,表明模型从由可见 光相机拍摄的表情图像上提取的特征要比近红外 图像上提取的质量更高。 R P R P 4) 通过对比表 2 和表 3 中 6 组实验可以看 出,通过圆形 LBP 特征提取方法在 =2, =16 时 提取特征的识别效果均高于 =1, =8 时的识别 效果,这一现象表明,在扩大特征提取半径和增 加临近像素点时,LBP 提取的特征相对较好。 5) 通过对比表 2 和 3 中的 6 组实验可以看 出,SVM 在 5、6 两组实验上的识别效果相对于 前 4 组实验来说有了较大提升。这是因为,OuluCASIA VIS 和 Oulu-CASIA NIR 数据库中的样本 之间的差异,要小于 CK+中样本与 Oulu-CASIA VIS 和 Oulu-CASIA NIR 之间的差异。在 OuluCASIA VIS 和 Oulu-CASIA NIR 中样本的采集对 象相同,因此样本间的特征差异相对较小。所 以,对于无迁移学习的传统机器学习算法 SVM 来说,在 5、6 两组上的识别率相对较好。 LBP| 8 1 表 2 不同方法在 6 种不同实验场景下的平均准确率 ( ) LBP| 8 1 Table 2 Average accuracy of different methods in six different experimental scenarios % 序号 实验场景 SVM KMM KLIEP STM DaL 1 C&N 17.68 24.35 34.26 23.5 40.76 2 N&C 24.65 36.52 42.3 28.64 49.48 3 C&V 20.32 32.68 30.49 27.56 44.35 4 V&C 28.6 40.18 45.24 32.15 52.74 5 N&V 49.35 51.4 48.54 46.7 56.78 6 V&N 58.4 65.64 60.48 56.5 69.74 LBP| 16 2 表 3 不同方法在 6 种不同实验场景下的平均准确率 ( ) LBP| 16 2 Table 3 Average accuracy of different methods in six different experimental scenarios % 序号 实验场景 SVM KMM KLIEP STM DaL 1 C&N 19.32 25.46 36.84 28.76 45.24 2 N&C 26.79 38.64 43.5 30.26 52.38 3 C&V 21.25 34.3 31.5 29.32 46.18 4 V&C 30.28 43.64 46.78 33.26 54.13 5 N&V 54.2 57.5 54.78 50.24 61.64 6 V&N 62.5 68.76 63.54 61.45 74.58 为了更加直观地表示各对比算法的识别效 果,给出了这 5 种算法在不同场景下的平均准确 率曲线,如图 5 所示。从图 5 中可以清晰看出,本 文提出的 DaL 方法在跨域人脸表情识别上的有 效性。 70 60 50 准确率/% 40 30 20 10 80 70 60 50 准确率/% 40 30 20 10 1 2 3 序号 (a) R=1, P=8 时的识别准确率 (b) R=2, P=16 时的识别准确率 SVM KMM KLIEP STM DaL 4 5 6 1 2 3 序号 4 5 6 SVM KMM KLIEP STM DaL 图 5 各对比算法在不同实验场景下的平均准确率曲线 Fig. 5 Average accuracy curve of each comparison algorithm in different experimental scenarios 为了进一步验证提出方法的有效性,本文选 择表 3 中序号为 3 和 5 的这一组对比实验进行分 ·402· 智 能 系 统 学 报 第 16 卷
第3期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·403· 析,并给出了在C&V和N&V两种实验场景下各 生气0.410.140.150.080.210.01 1.0 对比算法在6种表情上的识别率混淆矩阵,分别 厌恶0.20.450.070.080.160.04 0.8 如图6和图7所示。 整8根080.1403201402012 40.6 通过图6和图7可以看出,在CK+作为源域, 警高兴.010.120.060601002 0.4 Oulu-CASIA VIS作为目标域时,在DaL中各种表 悲伤0.20.130.180.070.360.06 0.2 情的识别率均高于各基准对比算法,并且不同算 惊讶0.050.070.10.030.03072 .0 法在6种表情上的识别率差异相对较大。例如, g 在DaL中“惊讶”、“高兴”这2种表情的识别率相 预测标签 (e)DaL算法 对较高,分别为72%、60%,而“悲伤”和“恐惧”这 2种表情的识别率较低,分别为36%、32%。 图6 C&V实验场景下各对比方法在6种表情上的识别 率混淆矩阵 Fig.6 -1.0 Confusion matrix of the recognition rate of each 生气023020.050.090.060.37 comparison method on six expressions in the C&V 厌恶0.210.60.160.080.02027 0.8 experimental scene 整恐惧020240120.13006024 0.6 结合表2可知,出现这种现象主要是因为在 变商兴090150680320203/ CK+数据库中“吃惊”表情的样本数量最多,有 0.4 85张表情图像,而“恐惧”仅有25张表情图像。 悲伤0.220.280.120.060.140.18 02 另外,还可以看到,“愤怒”、“厌恶”和“悲伤”这 惊讶0.230250.020.1700.33 0 3种表情比较容易误判,结合图4中各表情样本, e 出现这种情况原因可能是因为受试者在表达这 预测标签 3种表情时的面部运动变化不大,因此提取的特 (a)SVM算法 生气0.320.120.160.030.350.02 1.0 征较为相似,不易于区分。此外,当源域为Oulu- CASIA NIR,目标域为Oulu-CASIA VIS时,“悲 厌恶0.170.350.10.050.310.02 0.8 伤”和“恐惧”这2种表情的识别准确率有了大幅 0.6 提升,平均提高了22%左右,且其他4种表情的 0.4 识别率也有较大提升。这进一步说明了,数据库 悲伤0.210.050.350.030280.08 02 中样本数量的多少对跨域人脸表情识别的效果具 惊讶0.030.040.080.030.260.56 有一定的影响。但无论CK+和Oulu-CASIA 0 NIR哪个数据库作为源域,DaL的识别准确率均 预测标签 高于各基准对比算法,验证了该算法在跨域人脸 (b)KMM算法 表情识别上的有效性。 1.0 生气0.320.360.020.050.130.12 1.0 生气0430.210.130.010.140.08 厌恶0.280.380.020.060.210.12 0.8 厌恶0.20.480.120.020150.03 0.8 邕恐惧0.20.080240.080.230.17 0.6 整恐惧0.110.140.340.140.20.08 0.6 毫高兴0.090080.1604200602 0.4 室高兴08090.14050902 0.4 悲伤0.280.160.060.040.280.18 0.2 悲伤0.20.130.170.080.380.04 0.2 惊讶0.10.040.120.080.090.57 0 惊讶0.10.120.110.10.030.54 ” 0 预测标签 (c)KLIEP算法 预测标签 1.0 (a)SVM算法 生气0270.20.150.110.140.13 1.0 生气0580.220.10.020.050.03 厌恶0.180.30.140.120.110.15 0.8 厌恶0.160.60.100.120.02 0.8 恐惧0.150.170.180.10.18022 0.6 菱有兴015020c8A40c0 恐惧0.140.120.480.080.090.09 0.6 0.4 室商兴00400202□0105 0.4 悲伤0240.150.220.040.20.15 0.2 悲伤0.180.170.120.010.50.02 0.2 惊讶0.210.060.160.060.140.36 惊讶0.060.080.080.020.04072 .0 预测标签 (dSTM算法 预测标签 (b)KMM算法
析,并给出了在 C&V 和 N&V 两种实验场景下各 对比算法在 6 种表情上的识别率混淆矩阵,分别 如图 6 和图 7 所示。 通过图 6 和图 7 可以看出,在 CK+作为源域, Oulu-CASIA VIS 作为目标域时,在 DaL 中各种表 情的识别率均高于各基准对比算法,并且不同算 法在 6 种表情上的识别率差异相对较大。例如, 在 DaL 中 “惊讶”、“高兴”这 2 种表情的识别率相 对较高,分别为 72%、60%,而“悲伤”和“恐惧”这 2 种表情的识别率较低,分别为 36%、32%。 0.27 0.2 0.15 0.11 0.14 0.13 0.18 0.3 0.14 0.12 0.11 0.15 0.15 0.17 0.18 0.1 0.18 0.22 0.15 0.22 0.08 0.34 0.08 0.13 0.24 0.15 0.22 0.04 0.2 0.15 0.21 0.06 0.16 0.06 0.14 0.36 1.0 0.8 0.6 0.4 0.2 0 预测标签 真实标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 生气 厌恶 恐惧 高兴 悲伤 惊讶 (d) STM 算法 预测标签 (a) SVM 算法 真实标签 生气 1.0 0.23 0.2 0.05 0.09 0.06 0.37 0.21 0.6 0.16 0.08 0.02 0.27 0.2 0.240.12 0.13 0.06 0.24 0.09 0.150.08 0.32 0.02 0.34 0.22 0.280.12 0.06 0.14 0.18 0.23 0.250.02 0.17 0 0.33 0.8 0.6 0.4 0.2 0 厌恶 恐惧 高兴 悲伤 惊讶 生气 厌恶 恐惧 高兴 悲伤 惊讶 (b) KMM 算法 0.32 0.12 0.16 0.03 0.35 0.02 0.17 0.35 0.1 0.05 0.31 0.02 0.05 0.04 0.26 0.12 0.43 0.10 0.02 0.05 0.08 0.52 0.3 0.03 0.21 0.05 0.35 0.03 0.28 0.08 0.03 0.04 0.08 0.03 0.26 0.56 1.0 0.8 0.6 0.4 0.2 0 预测标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 真实标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 (c) KLIEP 算法 0.32 0.36 0.02 0.05 0.13 0.12 0.28 0.38 0.02 0.06 0.21 0.12 0.2 0.08 0.24 0.08 0.23 0.17 0.09 0.08 0.16 0.42 0.06 0.2 0.28 0.16 0.06 0.04 0.28 0.18 0.1 0.04 0.12 0.08 0.09 0.57 1.0 0.8 0.6 0.4 0.2 0 预测标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 真实标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 0.41 0.14 0.15 0.08 0.21 0.01 0.2 0.45 0.07 0.08 0.16 0.04 0.08 0.14 0.32 0.14 0.2 0.12 0.1 0.12 0.06 0.6 0.1 0.02 0.2 0.13 0.18 0.07 0.36 0.06 0.05 0.07 0.1 0.03 0.03 0.72 1.0 0.8 0.6 0.4 0.2 0 预测标签 真实标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 生气 厌恶 恐惧 高兴 悲伤 惊讶 (e) DaL 算法 图 6 C&V 实验场景下各对比方法在 6 种表情上的识别 率混淆矩阵 Fig. 6 Confusion matrix of the recognition rate of each comparison method on six expressions in the C&V experimental scene 结合表 2 可知,出现这种现象主要是因为在 CK+数据库中 “吃惊”表情的样本数量最多,有 85 张表情图像,而“恐惧”仅有 25 张表情图像。 另外,还可以看到,“愤怒”、“厌恶”和“悲伤”这 3 种表情比较容易误判,结合图 4 中各表情样本, 出现这种情况原因可能是因为受试者在表达这 3 种表情时的面部运动变化不大,因此提取的特 征较为相似,不易于区分。此外,当源域为 OuluCASIA NIR,目标域为 Oulu-CASIA VIS 时,“悲 伤”和“恐惧”这 2 种表情的识别准确率有了大幅 提升,平均提高了 22% 左右,且其他 4 种表情的 识别率也有较大提升。这进一步说明了,数据库 中样本数量的多少对跨域人脸表情识别的效果具 有一定的影响。但无论 CK+和 Oulu-CASIA NIR 哪个数据库作为源域,DaL 的识别准确率均 高于各基准对比算法,验证了该算法在跨域人脸 表情识别上的有效性。 预测标签 (a) SVM 算法 真实标签 生气 1.0 0.43 0.21 0.13 0.01 0.14 0.08 0.2 0.48 0.12 0.02 0.15 0.03 0.11 0.14 0.34 0.14 0.2 0.08 0.08 0.09 0.14 0.5 0.09 0.12 0.2 0.13 0.17 0.08 0.38 0.04 0.1 0.12 0.11 0.1 0.03 0.54 0.8 0.6 0.4 0.2 0 厌恶 恐惧 高兴 悲伤 惊讶 生气 厌恶 恐惧 高兴 悲伤 惊讶 (b) KMM 算法 0.58 0.22 0.1 0.02 0.05 0.03 0.16 0.6 0.1 0 0.12 0.02 0.14 0.12 0.48 0.08 0.09 0.09 0.04 0.02 0.2 0.7 0.01 0.05 0.18 0.17 0.12 0.01 0.5 0.02 0.06 0.08 0.08 0.02 0.04 0.72 1.0 0.8 0.6 0.4 0.2 0 预测标签 真实标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 生气 厌恶 恐惧 高兴 悲伤 惊讶 第 3 期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·403·
·404· 智能系统学报 第16卷 1.0 生气0.56020.140.040.050.01 对于实验效果会产生很大的影响。因此,对于如 厌恶0.180.580.120.010.10.01 0.8 何建立大样本人脸表情数据库将会是下一步需要 整恐惧0.140120480080.0909 0.6 进行的工作。2)在本文中对条件分布进行对齐 室高兴004040.18060303 时,由于目标域数据中没有标签数据,因此在实 0.4 悲伤0.160.190.10.010.520.02 验中通过目标域数据的伪标签来进行对齐。但由 .0.2 惊讶0.080.090.070.0600.7 于域之间的分布差异问题,这种方法预测的伪标 0 多产 签可能不是很准确。因此,对于在条件分布对齐 预测标签 时目标域中无标签数据的问题,需要进一步探索 (c)KLIEP算法 新方法来解决。 生气0.480.20.080.010.150.08 1.0 0.8 参考文献: 厌恶0.210520.10.010.10.06 恐惧0.160.120420.10.080.12 0.6 [1]ZHENG Wenming,TANG Hao,HUANG T S.Emotion re- 警商兴0080.070.1B058010.13 0.4 cognition from non-frontal facial images[M]//KONAR A, 悲伤0.170.140.180.020.40.09 0.2 CHAKRABORTY A.Emotion Recognition:A Pattern 惊讶0.10.10.080.050.070.6 0 Analysis Approach.Hoboken,USA:John Wiley Sons, ☆ 2015:183-213 预测标签 [2]WANG Yongjin,GUAN Ling,VENETSANOPOULOS A (d)STM算法 ▣10 N.Kernel cross-modal factor analysis for information fu- 生气0.590.120.10.060.120.01 厌恶0.170.620.050.040.080.04 08 sion with application to bimodal emotion recognition[J]. 整恐惧0.060.13050.080,120.1 IEEE transactions on multimedia,2012,14(3):597-607. 0.6 室高兴0801060☑00601 [3]YAN Jingjie,ZHENG Wenming,XU Guanming,et al. 0.4 悲伤0.160.10.130.040.540.03 Sparse kernel reduced-rank regression for bimodal emo- -02 惊讶0.040.050.060.040.010.8 tion recognition from facial expression and speech[J] .0 IEEE transactions on multimedia,2016,18(7):1319-1329 预测标签 [4]ZENG Zhihong,PANTIC M,ROISMAN G I,et al.A sur- (e)DaL算法 vey of affect recognition methods:audio,visual,and spon- 图7N&V实验场景下各对比方法在6种表情上的识别 taneous expressions[J].IEEE transactions on pattern ana- 率混淆矩阵 lysis and machine intelligence,2009,31(1):39-58. Fig.7 Confusion matrix of the recognition rate of each [5]CHU W S.DE LA TORRE F.COHN J F.Selective trans- comparison method on six expressions in the N&V experimental scene fer machine for personalized facial expression analysis[]. IEEE transactions on pattern analysis and machine intelli- 3结束语 gence,2017,39(3):529-545. [6]ZHENG Wenming,ZHOU Xiaoyan,ZOU Cairong,et al. 本文提出将一种基于分布对齐的迁移学习方 Facial expression recognition using kernel canonical cor- 法应用到跨域人脸表情识别中,通过找到一个特 征变换矩阵,将源域和目标域样本映射到一个公 relation analysis(KCCA)[J].IEEE transactions on neural 共子空间,引入无参数的最大均值差异MMD来 networks..2006,171):233-238 度量源域和目标域数据之间边缘分布和条件分布 [7]UDDIN M Z.A local feature-based facial expression re- 的距离,在该子空间中最大化投影后源域和目标 cognition system from depth video[MV//DELIGIANNIDIS 域数据方差的同时,联合对齐边缘分布和条件分 L,ARABNIA H R.Emerging Trends in Image Processing, 布,最小化域之间的分布距离,然后对迁移后的 Computer Vision and Pattern Recognition.Amsterdam:El- 特征进行训练得到一个域适应分类器,来对目标 sevier,.2015:407-419 域中的数据标签进行预测,与4种基准方法在不 [8]YU Zhiding,ZHANG Cha.Image based static facial ex- 同实验场景下的实验结果表明,本文提出的算法 pression recognition with multiple deep network 在跨域人脸表情识别上具有优势。但是还有一些 learning[C]//Proceedings of the 2015 ACM on Internation- 不足之处,需要进一步的研究:1)对于跨域人脸 al Conference on Multimodal Interaction.New York,USA: 表情识别来说,实验中的数据集样本数量的多少 ACM.2015:433-442
(c) KLIEP 算法 0.56 0.2 0.14 0.04 0.05 0.01 0.18 0.58 0.12 0.01 0.1 0.01 0.14 0.12 0.48 0.08 0.09 0.09 0.04 0.04 0.18 0.68 0.03 0.03 0.16 0.19 0.1 0.01 0.52 0.02 0.08 0.09 0.07 0.06 0 0.7 1.0 0.8 0.6 0.4 0.2 0 预测标签 真实标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 生气 厌恶 恐惧 高兴 悲伤 惊讶 0.48 0.2 0.08 0.01 0.15 0.08 0.21 0.52 0.1 0.01 0.1 0.06 0.16 0.12 0.42 0.1 0.08 0.12 0.08 0.07 0.13 0.58 0.01 0.13 0.17 0.14 0.18 0.02 0.4 0.09 0.1 0.1 0.08 0.05 0.07 0.6 1.0 0.8 0.6 0.4 0.2 0 预测标签 (d) STM 算法 真实标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 生气 厌恶 恐惧 高兴 悲伤 惊讶 0.59 0.12 0.1 0.06 0.12 0.01 0.17 0.62 0.05 0.04 0.08 0.04 0.06 0.13 0.5 0.08 0.12 0.11 0.08 0.1 0.06 0.7 0.06 0.01 0.16 0.1 0.13 0.04 0.54 0.03 0.04 0.05 0.06 0.04 0.01 0.8 1.0 0.8 0.6 0.4 0.2 0 (e) DaL 算法 预测标签 真实标签 生气 厌恶 恐惧 高兴 悲伤 惊讶 生气 厌恶 恐惧 高兴 悲伤 惊讶 图 7 N&V 实验场景下各对比方法在 6 种表情上的识别 率混淆矩阵 Fig. 7 Confusion matrix of the recognition rate of each comparison method on six expressions in the N&V experimental scene 3 结束语 本文提出将一种基于分布对齐的迁移学习方 法应用到跨域人脸表情识别中,通过找到一个特 征变换矩阵,将源域和目标域样本映射到一个公 共子空间,引入无参数的最大均值差异 MMD 来 度量源域和目标域数据之间边缘分布和条件分布 的距离,在该子空间中最大化投影后源域和目标 域数据方差的同时,联合对齐边缘分布和条件分 布,最小化域之间的分布距离,然后对迁移后的 特征进行训练得到一个域适应分类器,来对目标 域中的数据标签进行预测,与 4 种基准方法在不 同实验场景下的实验结果表明,本文提出的算法 在跨域人脸表情识别上具有优势。但是还有一些 不足之处,需要进一步的研究:1) 对于跨域人脸 表情识别来说,实验中的数据集样本数量的多少 对于实验效果会产生很大的影响。因此,对于如 何建立大样本人脸表情数据库将会是下一步需要 进行的工作。2) 在本文中对条件分布进行对齐 时,由于目标域数据中没有标签数据,因此在实 验中通过目标域数据的伪标签来进行对齐。但由 于域之间的分布差异问题,这种方法预测的伪标 签可能不是很准确。因此,对于在条件分布对齐 时目标域中无标签数据的问题,需要进一步探索 新方法来解决。 参考文献: ZHENG Wenming, TANG Hao, HUANG T S. Emotion recognition from non-frontal facial images[M]//KONAR A, CHAKRABORTY A. Emotion Recognition: A Pattern Analysis Approach. Hoboken, USA: John Wiley & Sons, 2015: 183−213. [1] WANG Yongjin, GUAN Ling, VENETSANOPOULOS A N. Kernel cross-modal factor analysis for information fusion with application to bimodal emotion recognition[J]. IEEE transactions on multimedia, 2012, 14(3): 597–607. [2] YAN Jingjie, ZHENG Wenming, XU Guanming, et al. Sparse kernel reduced-rank regression for bimodal emotion recognition from facial expression and speech[J]. IEEE transactions on multimedia, 2016, 18(7): 1319–1329. [3] ZENG Zhihong, PANTIC M, ROISMAN G I, et al. A survey of affect recognition methods: audio, visual, and spontaneous expressions[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(1): 39–58. [4] CHU W S, DE LA TORRE F, COHN J F. Selective transfer machine for personalized facial expression analysis[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(3): 529–545. [5] ZHENG Wenming, ZHOU Xiaoyan, ZOU Cairong, et al. Facial expression recognition using kernel canonical correlation analysis (KCCA)[J]. IEEE transactions on neural networks, 2006, 17(1): 233–238. [6] UDDIN M Z. A local feature-based facial expression recognition system from depth video[M]//DELIGIANNIDIS L, ARABNIA H R. Emerging Trends in Image Processing, Computer Vision and Pattern Recognition. Amsterdam: Elsevier, 2015: 407−419. [7] YU Zhiding, ZHANG Cha. Image based static facial expression recognition with multiple deep network learning[C]//Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. New York, USA: ACM, 2015:433−442. [8] ·404· 智 能 系 统 学 报 第 16 卷
第3期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·405· [9]BACCOUCHE M,MAMALET F,WOLF C,et al.Spatio- European Conference on Computer Vision.Heraklion, temporal convolutional sparse auto-encoder for sequence Crete,Greece:Springer-Verlag,2010:566-579. classification[C]//Proceedings of the of British Machine [20]QIU Qiang,PATEL V M,TURAGA P,et al.Domain ad- Vision Conference.Guildford,UK:BMVA Press,2012:12. aptive dictionary learning[C]//Proceedings of the 12th [10]WANG Hua,NIE Feiping.HUANG Heng,et al.Dyadic European Conference on Computer Vision.Florence, transfer learning for cross-domain image classifica- Italy:Springer-Verlag,2012:631-645. tion[C]//IEEE International Conference on Computer Vis- [21]DAI Wenyuan,YANG Qiang,XUE Guirong,et al. ion.Barcelona,Spain:IEEE,2011:551-556 Boosting for transfer learning[C]//Proceedings of the 24th [11]LUO Jie,TOMMASI T,CAPUTO B.Multiclass transfer International Conference on Machine Learning.Corvalis, learning from unconstrained priors[C]//IEEE Internation- USA:ACM,2007:193-200. al Conference on Computer Vision.Barcelona,Spain: [22]PAN S J,TSANG I W,KWOK J T,et al.Domain adapta- IEEE,2011:1863-1870. tion via transfer component analysis[J].IEEE transac- [12]ROY S D.MEI Tao,ZENG Wenjun,et al.SocialTrans- tions on neural networks,2011,22(2):199-210. fer:cross-domain transfer learning from social streams for [23]GONG Boqing,SHI Yuan,SHA Fei,et al.Geodesic flow media applications[Cl//Proceedings of the 20th ACM in- kernel for unsupervised domain adaptation[C]//Proceed- ternational conference on Multimedia.Nara,Japan:ACM, ings of the 2012 IEEE Conference on Computer Vision 2012:649-658 and Pattern Recognition.Providence,USA:IEEE [13]WANG Shuhui,JIANG Shuqiang,HUANG Qingming,et 2012:2066-2073 al.Multi-feature metric learning with knowledge transfer [24]ZHONG Erheng,FAN Wei,PENG Jing,et al.Cross do- among semantics and social tagging[C]//Proceedings of main distribution adaptation via kernel mapping[C /Pro- 2012 IEEE Conference on Computer Vision and Pattern ceedings of the 15th ACM SIGKDD International Confer- Recognition.Providence:IEEE,2012:2240-2247. ence on Knowledge Discovery and Data Mining.Paris, [14]AYTAR Y,ZISSERMAN A.Tabula rasa:model transfer France:ACM,2009 for object category detection[C]//Proceedings of 2011 In- [25]BRUZZONE L,MARCONCINI M.Domain adaptation ternational Conference on Computer Vision.Barcelona, problems:A DASVM classification technique and a cir- Spain:EEE,2011:2252-2259. cular validation strategy[J].IEEE transactions on pattern [15]GOPALAN R,LI Ruonan,CHELLAPPA R.Domain ad- analysis and machine intelligence,2010,32(5):770-787. aptation for object recognition:an unsupervised [26]QUANZ B,HUAN J,MISHRA M.Knowledge transfer approach[C]//2011 International Conference on Com- with low-quality data:A feature extraction issue[J].IEEE puter Vision.Barcelona,Spain:IEEE,2011:999-1006. transactions on knowledge and data engineering,2012, [16]GUILLAUMIN M,FERRARI V.Large-scale knowledge 24(10):1789-1802. transfer for object localization in ImageNet[C]//Proceed- [27]LUCEY P,COHN J F,KANADE T,et al.The extended ings of 2012 IEEE Computer Vision and Pattern Recogni- Cohn-Kanade dataset (CK+):a complete dataset for ac- tion.Providence,USA:IEEE,2012:3202-3209 tion unit and emotion-specified expression[C]//Proceed- [17]LAMPERT C H,NICKISCH H,HARMELING S.Learn- ings of 2010 IEEE Computer Society Conference on ing to detect unseen object classes by between-class at- Computer Vision and Pattern Recognition-Workshops. tribute transfer[C]//2009 IEEE Conference on Computer San Francisco,USA:IEEE,2010:94-101. Vision and Pattern Recognition.Miami,USA:IEEE, [28]KANADE T,COHN J F,TIAN Yingli.Comprehensive 2009:951-958. database for facial expression analysis[C]//Proceedings of [18]JHUO I H,LIU D,LEE D T,et al.Robust visual domain the 4th IEEE International Conference on Automatic Face adaptation with low-rank reconstruction[C]//2012 IEEE and Gesture Recognition.Grenoble,France:IEEE.2020: Computer Vision and Pattern Recognition.Providence, 46-53. USA:IEEE,2012:2168-2175. [29]ZHAO Guoying,HUANG Xiaohua,TAINI M,et al.Fa- [19]LAMPERT C H,KROMER O.Weakly-paired maximum cial expression recognition from near-infrared videos[J]. covariance analysis for multimodal dimensionality reduc- Image and vision computing,2011,29(9):607-619. tion and transfer learning[C]//Proceedings of the 11th [30]HUANG J,GRETTON A,BORGWARDT K,et al.Cor-
BACCOUCHE M, MAMALET F, WOLF C, et al. Spatiotemporal convolutional sparse auto-encoder for sequence classification[C]//Proceedings of the of British Machine Vision Conference. Guildford, UK: BMVA Press, 2012:12. [9] WANG Hua, NIE Feiping, HUANG Heng, et al. Dyadic transfer learning for cross-domain image classification[C]//IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011:551−556. [10] LUO Jie, TOMMASI T, CAPUTO B. Multiclass transfer learning from unconstrained priors[C]//IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011:1863−1870. [11] ROY S D, MEI Tao, ZENG Wenjun, et al. SocialTransfer: cross-domain transfer learning from social streams for media applications[C]//Proceedings of the 20th ACM international conference on Multimedia. Nara, Japan: ACM, 2012:649−658. [12] WANG Shuhui, JIANG Shuqiang, HUANG Qingming, et al. Multi-feature metric learning with knowledge transfer among semantics and social tagging[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012:2240−2247. [13] AYTAR Y, ZISSERMAN A. Tabula rasa: model transfer for object category detection[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011:2252−2259. [14] GOPALAN R, LI Ruonan, CHELLAPPA R. Domain adaptation for object recognition: an unsupervised approach[C]//2011 International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011:999−1006. [15] GUILLAUMIN M, FERRARI V. Large-scale knowledge transfer for object localization in ImageNet[C]//Proceedings of 2012 IEEE Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012:3202−3209. [16] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009:951−958. [17] JHUO I H, LIU D, LEE D T, et al. Robust visual domain adaptation with low-rank reconstruction[C]//2012 IEEE Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012:2168−2175. [18] LAMPERT C H, KRÖMER O. Weakly-paired maximum covariance analysis for multimodal dimensionality reduction and transfer learning[C]//Proceedings of the 11th [19] European Conference on Computer Vision. Heraklion, Crete, Greece: Springer-Verlag, 2010:566−579. QIU Qiang, PATEL V M, TURAGA P, et al. Domain adaptive dictionary learning[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer-Verlag, 2012:631−645. [20] DAI Wenyuan, YANG Qiang, XUE Guirong, et al. Boosting for transfer learning[C]//Proceedings of the 24th International Conference on Machine Learning. Corvalis, USA: ACM, 2007:193−200. [21] PAN S J, TSANG I W, KWOK J T, et al. Domain adaptation via transfer component analysis[J]. IEEE transactions on neural networks, 2011, 22(2): 199–210. [22] GONG Boqing, SHI Yuan, SHA Fei, et al. Geodesic flow kernel for unsupervised domain adaptation[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012:2066−2073. [23] ZHONG Erheng, FAN Wei, PENG Jing, et al. Cross domain distribution adaptation via kernel mapping[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France: ACM, 2009. [24] BRUZZONE L, MARCONCINI M. Domain adaptation problems: A DASVM classification technique and a circular validation strategy[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(5): 770–787. [25] QUANZ B, HUAN J, MISHRA M. Knowledge transfer with low-quality data: A feature extraction issue[J]. IEEE transactions on knowledge and data engineering, 2012, 24(10): 1789–1802. [26] LUCEY P, COHN J F, KANADE T, et al. The extended Cohn-Kanade dataset (CK+): a complete dataset for action unit and emotion-specified expression[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, USA: IEEE, 2010: 94−101. [27] KANADE T, COHN J F, TIAN Yingli. Comprehensive database for facial expression analysis[C]//Proceedings of the 4th IEEE International Conference on Automatic Face and Gesture Recognition. Grenoble, France: IEEE, 2020: 46−53. [28] ZHAO Guoying, HUANG Xiaohua, TAINI M, et al. Facial expression recognition from near-infrared videos[J]. Image and vision computing, 2011, 29(9): 607–619. [29] [30] HUANG J, GRETTON A, BORGWARDT K, et al. Cor- 第 3 期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·405·
·406· 智能系统学报 第16卷 recting sample selection bias by unlabeled data[J].Ad- 作者简介: vances in neural information processing systems,2006, 莫宏伟,教授,博士生导师.博士 19:601-608 主要研究方向为类脑计算与人工智 [31]SUGIYAMA M.NAKAJIMA S,KASHIMA H,et al. 能、机器视觉与机器认知、人机混合智 能。主持国家自然科学基金等项目 Direct importance estimation with model selection and its 20余项。出版专著6部,发表学术论 application to covariate shift adaptation[C]//Proceedings 文80余篇。 of 21st Annual Conference on Advances in Neural In- formation Processing Systems.Vancouver,Canada: 傅智杰,硕士研究生,主要研究方 NIPS,2008:1433-1440. 向为深度学习、计算机视觉、医学影像。 [32]刘斌,米强,徐岩.LBP和MB-LBP加权融合的人脸识 别[.计算机工程与设计,2018,39(2):551-556 LIU Bin,MI Qiang,XU Yan.Face recognition based on weighted fusion of LBP and MB-LBP features[J].Com- puter engineering and design,2018,39(2):551-556 CAAI第六届全国大数据与社会计算学术会议 China National Conference on Dig Data and Social Computing 2021年8月21-22日,由中国人工智能学会主办,CAAI社会计算与社会智能专委会、重庆工商大学承 办的“CAAI第六届全国大数据与社会计算学术会议”(以下简称BDSC2021)将在重庆召开。 BDSC创建于2012年,旨在搭建全国大数据与社会计算学术交流平台,培育社会计算与社会智能学科发 展,助力社会计算与社会智能领域人才成长,建设“有仁、有信、有情”的学术共同体,已成为全国大数据与社 会计算领域的知名学术交流品牌。 本次会议的主题为“数字社会的重构与转型”,面向国家经济社会发展战略,立足数字社会构建,通过跨 学科交叉视野剖析数字社会的机遇与挑战。会议面向全国开展大数据与社会计算领域的学术征文,重点探 讨数字社会的基础性、前瞻性和战略性理论及其应用,讨论数字社会领域前沿进展,交流新的学术思想和新 方法,探索数字社会对人类发展的意义,展望数字社会未来的发展趋势。 本次大会将组织专家对所有投稿论文进行双盲评审,优秀论文将有机会被推荐到11本高水平期刊进入 期刊快速评审通道,所有录用论文在大会上进行墙报(poster)交流。 大会将邀请人工智能、I0T+5G网络、地理信息以及社会科学、系统科学等交叉领域的重量级学者做大 会报告,举办系统科学的前沿讲习班。大会致力于跨越传统学科分界,呈现大数据智能时代社会研究新境 界,将重磅发布极具创新性的大规模社会计算试验场和社会计算开放数据集,并举办全国社会计算大赛。 征文主题: 1)社会系统建模与仿真;2)人工智能与认知科学;3)社会网络与群体行为;4)社会地理与城市计算; 5)计算人口新范式、新方法;6)数字基础建设与智能社会;7)数据价值评估与流通服务;8)数字社会与公共 安全:9)数字政府与公共大数据:10)数字技术与社会韧性:11)数据与社会治理;12)数字平台建设与管理; 13)计算社会与系统工程:14)数据伦理与隐私保护。 重要时间: 投稿截止日期:2021年6月15日 审稿通知日期:2021年7月15日 审稿修改日期:2021年8月1日 录用通知日期:2021年8月7日 会议召开日期:2021年8月21-22日 投稿链接:https:/easychair..org/conferences/?conf=bdsc202l 大会网站:htp://idke.ruc.edu.cn/BDSC202l/
recting sample selection bias by unlabeled data[J]. Advances in neural information processing systems, 2006, 19: 601–608. SUGIYAMA M, NAKAJIMA S, KASHIMA H, et al. Direct importance estimation with model selection and its application to covariate shift adaptation[C]//Proceedings of 21st Annual Conference on Advances in Neural Information Processing Systems. Vancouver, Canada: NIPS, 2008: 1433−1440. [31] 刘斌, 米强, 徐岩. LBP 和 MB-LBP 加权融合的人脸识 别 [J]. 计算机工程与设计, 2018, 39(2): 551–556. LIU Bin, MI Qiang, XU Yan. Face recognition based on weighted fusion of LBP and MB-LBP features[J]. Computer engineering and design, 2018, 39(2): 551–556. [32] 作者简介: 莫宏伟,教授,博士生导师,博士, 主要研究方向为类脑计算与人工智 能、机器视觉与机器认知、人机混合智 能。主持国家自然科学基金等项目 20 余项。出版专著 6 部,发表学术论 文 80 余篇。 傅智杰,硕士研究生,主要研究方 向为深度学习、计算机视觉、医学影像。 CAAI 第六届全国大数据与社会计算学术会议 China National Conference on Dig Data and Social Computing 2021 年 8 月 21−22 日,由中国人工智能学会主办,CAAI 社会计算与社会智能专委会、重庆工商大学承 办的“CAAI 第六届全国大数据与社会计算学术会议”(以下简称 BDSC 2021)将在重庆召开。 BDSC 创建于 2012 年,旨在搭建全国大数据与社会计算学术交流平台,培育社会计算与社会智能学科发 展,助力社会计算与社会智能领域人才成长,建设“有仁、有信、有情”的学术共同体,已成为全国大数据与社 会计算领域的知名学术交流品牌。 本次会议的主题为“数字社会的重构与转型”,面向国家经济社会发展战略,立足数字社会构建,通过跨 学科交叉视野剖析数字社会的机遇与挑战。会议面向全国开展大数据与社会计算领域的学术征文,重点探 讨数字社会的基础性、前瞻性和战略性理论及其应用,讨论数字社会领域前沿进展,交流新的学术思想和新 方法,探索数字社会对人类发展的意义,展望数字社会未来的发展趋势。 本次大会将组织专家对所有投稿论文进行双盲评审,优秀论文将有机会被推荐到 11 本高水平期刊进入 期刊快速评审通道,所有录用论文在大会上进行墙报(poster)交流。 大会将邀请人工智能、IoT+5G 网络、地理信息以及社会科学、系统科学等交叉领域的重量级学者做大 会报告,举办系统科学的前沿讲习班。大会致力于跨越传统学科分界,呈现大数据智能时代社会研究新境 界,将重磅发布极具创新性的大规模社会计算试验场和社会计算开放数据集,并举办全国社会计算大赛。 征文主题: 1)社会系统建模与仿真;2)人工智能与认知科学;3)社会网络与群体行为;4)社会地理与城市计算; 5)计算人口新范式、新方法;6)数字基础建设与智能社会;7)数据价值评估与流通服务;8)数字社会与公共 安全;9)数字政府与公共大数据;10)数字技术与社会韧性;11)数据与社会治理;12)数字平台建设与管理; 13)计算社会与系统工程;14)数据伦理与隐私保护。 重要时间: 投稿截止日期:2021 年 6 月 15 日 审稿通知日期:2021 年 7 月 15 日 审稿修改日期:2021 年 8 月 1 日 录用通知日期:2021 年 8 月 7 日 会议召开日期:2021 年 8 月 21−22 日 投稿链接:https://easychair.org/conferences/?conf=bdsc2021 大会网站:http://idke.ruc.edu.cn/BDSC2021/ ·406· 智 能 系 统 学 报 第 16 卷