【机器学习】基于迁移学习的无监督跨域人脸表情识别

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：4.06MB

第16卷第3期智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0L:10.11992tis.202008034 基于迁移学习的无监督跨域人脸表情识别莫宏伟，傅智杰 (哈尔滨工程大学自动化学院，黑龙江哈尔滨150001) 摘要：本文主要研究了基于迁移学习的无监督跨域人脸表情识别。在过去的几年里，提出的许多方法在人脸表情识别方面取得了令人满意的识别效果。但这些方法通常认为训练和测试数据来自同一个数据集，因此其具有相同的分布。而在实际应用中，这一假设通常并不成立，特别当训练集和测试集来自不同的数据集时，即跨域人脸表情识别问题。为了解决这一问题，本文提出将一种基于联合分布对齐的迁移学习方法(domain align learning)应用于跨域人脸表情识别.该方法通过找到一个特征变换，将源域和目标域数据映射到一个公共子空间中，在该子空间中联合对齐边缘分布和条件分布来减小域之间的分布差异，然后对变换后的特征进行训练得到一个域适应分类器来预测目标域样本标签。为了验证提出算法的有效性，在CK+、Oulu-CASIA NIR和Oulu CASIA VIS这3个不同的数据库上做了大量实验，实验结果证明所提算法在跨域表情识别上是有效性的。关键词：表情识别；无监督；跨域；迁移学习；特征变换：联合对齐；公共子空间：域适应中图分类号：TP181文献标志码：A文章编号：1673-4785(2021)03-0397-10 中文引用格式：莫宏伟，傅智杰.基于迁移学习的无监督跨域人脸表情识别.智能系统学报，2021,16(3)：397-406. 英文引用格式：MO Hongwei,FU Zhijie.Unsupervised cross-domain expression recognition based on transfer learning.CAAI transactions on intelligent systems,2021,16(3):397-406. Unsupervised cross-domain expression recognition based on transfer learning MO Hongwei,FU Zhijie (Automation College,Harbin Engineering University,Harbin 150001,China) Abstract:This paper primarily studies unsupervised cross-domain facial expression recognition based on transfer learn- ing.In recent years,many proposed methods have achieved satisfactory results in facial expression recognition. However,these methods usually assume that the training and test data come from the same data set and therefore have the same distribution.In practical applications,this assumption is usually untrue,especially when the training and test sets come from different data sets,also known as the cross-domain facial expression recognition problem.To solve this problem,we propose a migration learning method(domain align learning)based on joint distributed alignment for cross- domain facial expression recognition.By determining a feature transform,the source and target domain data are mapped onto a common subspace,wherein edge distribution and conditional distribution are aligned jointly to reduce the distri- bution difference between domains,and then a domain adaptive classifier is obtained by training the transformed fea- tures to predict the target domain sample label.To verify the effectiveness of the proposed algorithm,many experiments are performed on three databases,CK+,Oulu-CASIA NIR,and Oulu-CASIA VIS.The experimental results show the ef- fectiveness of the proposed algorithm in cross-domain facial expression recognition. Keywords:expression recognition;unsupervised;cross-domain;transfer learning;feature transformation;joint align- ment;public subspace;domain adaptive 人脸表情自动识别是情感计算和计算机视觉收稿日期：2020-08-28. 基金项目：国家自然科学基金项目(60035117). 领域的研究热点之一。近年来，随着人工智能通信作者：莫宏伟.E-mail:honwei2004@126.com 的迅猛发展，人脸表情识别在多媒体娱乐、人机

DOI: 10.11992/tis.202008034 基于迁移学习的无监督跨域人脸表情识别莫宏伟，傅智杰（哈尔滨工程大学自动化学院，黑龙江哈尔滨 150001）摘要：本文主要研究了基于迁移学习的无监督跨域人脸表情识别。在过去的几年里，提出的许多方法在人脸表情识别方面取得了令人满意的识别效果。但这些方法通常认为训练和测试数据来自同一个数据集，因此其具有相同的分布。而在实际应用中，这一假设通常并不成立，特别当训练集和测试集来自不同的数据集时，即跨域人脸表情识别问题。为了解决这一问题，本文提出将一种基于联合分布对齐的迁移学习方法 (domain align learning) 应用于跨域人脸表情识别，该方法通过找到一个特征变换，将源域和目标域数据映射到一个公共子空间中，在该子空间中联合对齐边缘分布和条件分布来减小域之间的分布差异，然后对变换后的特征进行训练得到一个域适应分类器来预测目标域样本标签。为了验证提出算法的有效性，在 CK+、Oulu-CASIA NIR 和 OuluCASIA VIS 这 3 个不同的数据库上做了大量实验，实验结果证明所提算法在跨域表情识别上是有效性的。关键词：表情识别；无监督；跨域；迁移学习；特征变换；联合对齐；公共子空间；域适应中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2021)03−0397−10 中文引用格式：莫宏伟, 傅智杰. 基于迁移学习的无监督跨域人脸表情识别 [J]. 智能系统学报, 2021, 16(3): 397–406. 英文引用格式：MO Hongwei, FU Zhijie. Unsupervised cross-domain expression recognition based on transfer learning[J]. CAAI transactions on intelligent systems, 2021, 16(3): 397–406. Unsupervised cross-domain expression recognition based on transfer learning MO Hongwei，FU Zhijie (Automation College, Harbin Engineering University, Harbin 150001, China) Abstract: This paper primarily studies unsupervised cross-domain facial expression recognition based on transfer learning. In recent years, many proposed methods have achieved satisfactory results in facial expression recognition. However, these methods usually assume that the training and test data come from the same data set and therefore have the same distribution. In practical applications, this assumption is usually untrue, especially when the training and test sets come from different data sets, also known as the cross-domain facial expression recognition problem. To solve this problem, we propose a migration learning method (domain align learning) based on joint distributed alignment for crossdomain facial expression recognition. By determining a feature transform, the source and target domain data are mapped onto a common subspace, wherein edge distribution and conditional distribution are aligned jointly to reduce the distribution difference between domains, and then a domain adaptive classifier is obtained by training the transformed features to predict the target domain sample label. To verify the effectiveness of the proposed algorithm, many experiments are performed on three databases, CK+, Oulu-CASIA NIR, and Oulu-CASIA VIS. The experimental results show the effectiveness of the proposed algorithm in cross-domain facial expression recognition. Keywords: expression recognition; unsupervised; cross-domain; transfer learning; feature transformation; joint alignment; public subspace; domain adaptive 人脸表情自动识别是情感计算和计算机视觉领域的研究热点之一[1-5]。近年来，随着人工智能的迅猛发展，人脸表情识别在多媒体娱乐、人机收稿日期：2020−08−28. 基金项目：国家自然科学基金项目 (60035117). 通信作者：莫宏伟. E-mail：honwei2004@126.com. 第 16 卷第 3 期智能系统学报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021

·398· 智能系统学报第16卷交互、机器智能等领域有着广泛的应用前景。近需要解决的主要问题就是如何减小不同域之间的年来，许多研究者致力于人脸表情识别研究，并分布差异。近几年，一些研究者通过对源域和目提出了许多有效的方法。标域数据进行权重的重用来减小域之间的分布差 Zheng等I提出了核典型关联分析(kernel 异2，或者通过找到一个共享的特征表示在保留 canoncal correlation analysis,.KCCA)的人脸表情识原始数据属性的同时来减小域之间的分布差别方法，通过对输入图像中人面部34个关键点进异22。但是大多数存在的方法仅对齐了边缘分行定位，然后将这些关键点通过Gabor小波变换布而忽略了条件分布的重要性，且往往需要目标转换成带有标注信息的图向量(labeled graph, 域中有少量标签样本。 LG)来表示人脸特征。另外，针对每个训练人脸因此，为了解决源域和目标域数据来自2个表情图像，将6种表情类型的标签转化成一个六不同的数据集，服从不同的边缘分布和条件分维语义表达向量，进而学习LG向量与语义表达布，且目标域没有标记数据的无监督跨域表情识向量之间的相关关系，利用这种关系推断出测试别问题，本文提出将联合分布对齐的迁移学习方图像的语义表达。在不同人脸表情数据库上的实法应用于跨域表情识别。该方法通过找到一个特验结果表明了该方法的有效性。与目标检测等计征变换，将源域和目标域数据映射到一个公共子算机视觉任务相比，图像描述不仅需要检测图像空间中，在该子空间中联合对齐边缘分布和条件分中的内容，还需要理解图像中目标物体之间的具布来减小域之间的分布差异，然后对变换后的特体关系，并使用自然语言正确地表达出来。Uddin 征进行训练得到一个域适应分类器来预测目标域等提出了一种新的方法来对基于时间序列的视样本标签，提高跨域人脸表情识别的准确率。频中的人脸表情进行识别，首先从时间序列人脸 1提出方法中提取局部方向模式特征，然后进行主成分分析和线性判别分析，使特征具有较强的鲁棒性。最 1.1问题描述后，利用隐马尔可夫模型对不同的面部表情进行令X∈Rmm,表示源域样本集合，X,∈Rmm表局部特征建模和识别，取得了较好的识别效果。示目标域样本集合，P(X)和P(X)分别表示源域 Yu圆提出了一种基于图像的静态面部表情识别方数据和目标域数据的边缘分布，P,(YX)和法，该方法包含一个基于3个最先进的人脸检测 P(YX,)分别表示源域和目标域的条件分布。m 器集成的人脸检测模块，以及一个基于多层深度表示源域和目标域中样本的维度，n,和n,分别表卷积神经网络(convolutional neural network,.CNN) 示源域和目标域样本数据的个数。因此，给定一级联的分类模块。为了自动决定级联CNN的权个带有标签的源域数据D,={c,)烂1，x∈Rm,一重分配问题，提出了通过最小化对数似然损失和个无标签的目标域数据D,=(c)1,x∈Rm,源域最小化铰链损失2种自适应训练卷积神经网络权和目标域样本具有相同的特征空间和标签空间，值的优化方案。Baccouche等)设计了一种时空即X,=X,Y,=Y,。但源域和目标域样本服从不卷积稀疏自编码器，在不需要任何监督信息的情同的数据分布P(X)≠P,(X),P(YX)+P(YX)。况下学习稀疏移位不变表示。 1.2核心思想虽然上述人脸表情识别方法取得了较好的识分布对齐的核心思想是通过找到一个特征变别效果，但需要注意的是，这些方法通常认为训换矩阵，将源域和目标域样本映射到一个公共子练数据样本和测试数据样本的数据分布相同。而空间，即可再生核希尔伯特空间(reproducing ker- 在实际应用中，可能无法满足相同的分布假设。 nel Hilbert space,RKHS),通过引入无参数的最大特别是当训练数据和测试数据来自2个不同的数均值差异MMD来度量源域和目标域数据之间边据库，且这2个数据库是在不同的数据收集环境缘分布和条件分布的距离，在该子空间中在最大下收集的。对于这样的跨域人脸表情识别问题，化投影后源域和目标域数据方差的同时，联合对传统的人脸表情识别方法可能无法达到很好的识齐边缘分布和条件分布，最小化域之间的分布距别效果。近年来，迁移学习在图像分类101山和标离，即注2)、目标识别47和特征学习20等方面都有 Dist(D.D)Dist(P(X).P (X))+ 很好的应用前景。且在跨域识别问题上展现出较 Dist(P,(Y,X),P(YX)) (1) 大的优势，越来越受到研究者的关注。然后对变换后的特征进行训练得到一个域适在跨域人脸表情识别问题中，源域和目标域应分类器，来对目标域中的数据标签进行预测。来自不同的数据库，服从不同的数据分布，因此分布对齐原理示意图如图1所示

交互、机器智能等领域有着广泛的应用前景。近年来，许多研究者致力于人脸表情识别研究，并提出了许多有效的方法。 Zheng 等 [6] 提出了核典型关联分析 (kernel canoncal correlation analysis，KCCA) 的人脸表情识别方法，通过对输入图像中人面部 34 个关键点进行定位，然后将这些关键点通过 Gabor 小波变换转换成带有标注信息的图向量 (labeled graph, LG) 来表示人脸特征。另外，针对每个训练人脸表情图像，将 6 种表情类型的标签转化成一个六维语义表达向量，进而学习 LG 向量与语义表达向量之间的相关关系，利用这种关系推断出测试图像的语义表达。在不同人脸表情数据库上的实验结果表明了该方法的有效性。与目标检测等计算机视觉任务相比，图像描述不仅需要检测图像中的内容，还需要理解图像中目标物体之间的具体关系，并使用自然语言正确地表达出来。Uddin 等 [7] 提出了一种新的方法来对基于时间序列的视频中的人脸表情进行识别，首先从时间序列人脸中提取局部方向模式特征，然后进行主成分分析和线性判别分析，使特征具有较强的鲁棒性。最后，利用隐马尔可夫模型对不同的面部表情进行局部特征建模和识别，取得了较好的识别效果。 Yu[8] 提出了一种基于图像的静态面部表情识别方法，该方法包含一个基于 3 个最先进的人脸检测器集成的人脸检测模块，以及一个基于多层深度卷积神经网络 (convolutional neural network, CNN) 级联的分类模块。为了自动决定级联 CNN 的权重分配问题，提出了通过最小化对数似然损失和最小化铰链损失 2 种自适应训练卷积神经网络权值的优化方案。Baccouche 等 [9] 设计了一种时空卷积稀疏自编码器，在不需要任何监督信息的情况下学习稀疏移位不变表示。虽然上述人脸表情识别方法取得了较好的识别效果，但需要注意的是，这些方法通常认为训练数据样本和测试数据样本的数据分布相同。而在实际应用中，可能无法满足相同的分布假设。特别是当训练数据和测试数据来自 2 个不同的数据库，且这 2 个数据库是在不同的数据收集环境下收集的。对于这样的跨域人脸表情识别问题，传统的人脸表情识别方法可能无法达到很好的识别效果。近年来，迁移学习在图像分类[10-11] 和标注 [12-13] 、目标识别[14-17] 和特征学习[18-20] 等方面都有很好的应用前景。且在跨域识别问题上展现出较大的优势，越来越受到研究者的关注。在跨域人脸表情识别问题中，源域和目标域来自不同的数据库，服从不同的数据分布，因此需要解决的主要问题就是如何减小不同域之间的分布差异。近几年，一些研究者通过对源域和目标域数据进行权重的重用来减小域之间的分布差异 [21] ，或者通过找到一个共享的特征表示在保留原始数据属性的同时来减小域之间的分布差异 [22-23]。但是大多数存在的方法仅对齐了边缘分布而忽略了条件分布的重要性，且往往需要目标域中有少量标签样本。因此，为了解决源域和目标域数据来自 2 个不同的数据集，服从不同的边缘分布和条件分布，且目标域没有标记数据的无监督跨域表情识别问题，本文提出将联合分布对齐的迁移学习方法应用于跨域表情识别。该方法通过找到一个特征变换，将源域和目标域数据映射到一个公共子空间中，在该子空间中联合对齐边缘分布和条件分布来减小域之间的分布差异，然后对变换后的特征进行训练得到一个域适应分类器来预测目标域样本标签，提高跨域人脸表情识别的准确率。 1 提出方法 1.1 问题描述 Xs ∈ R m×ns Xt ∈ R m×nt Ps(Xs) Pt(Xt) Ps (Ys |Xs) Pt (Yt |Xt) m ns nt Ds = {(xi , yi)} ns i=1 , xi ∈ R m Dt = {(xj )}nt j=1 , xj ∈ R m Xs = Xt Ys = Yt Ps (Xs) , Pt (Xt) Ps (Ys |Xs) , Pt (Yt |Xt) 令表示源域样本集合，表示目标域样本集合，和分别表示源域数据和目标域数据的边缘分布，和分别表示源域和目标域的条件分布。表示源域和目标域中样本的维度，和分别表示源域和目标域样本数据的个数。因此，给定一个带有标签的源域数据，一个无标签的目标域数据，源域和目标域样本具有相同的特征空间和标签空间，即，。但源域和目标域样本服从不同的数据分布，。 1.2 核心思想分布对齐的核心思想是通过找到一个特征变换矩阵，将源域和目标域样本映射到一个公共子空间，即可再生核希尔伯特空间 (reproducing kernel Hilbert space, RKHS)，通过引入无参数的最大均值差异 MMD 来度量源域和目标域数据之间边缘分布和条件分布的距离，在该子空间中在最大化投影后源域和目标域数据方差的同时，联合对齐边缘分布和条件分布，最小化域之间的分布距离，即 Dist(Ds ,Dt) ≈ Dist(Ps(Xs),Pt(Xt))+ Dist(Ps(Ys |Xs),Pt(Yt |Xt)) (1) 然后对变换后的特征进行训练得到一个域适应分类器，来对目标域中的数据标签进行预测。分布对齐原理示意图如图 1 所示。 ·398· 智能系统学报第 16 卷

第3期莫宏伟，等：基于迁移学习的无监督跨域人脸表情识别 ·399· 源域数据目标域数据源域数据。 ◆ 缘分布差异。目标域数据公共子空间中原域数据· ◆ 1.5条件分布对齐公共子空间中目标域数据。◆◆ 减小边缘分布的差异通常并不能保证域之间原始空间公共子空间(RKHS) 的条件分布差异也随之减小。实际上最小化条件分特征变换布P(YX)和P(YX)之间的差异对于跨域识别 MMD 问题来说也是至关重要的。然而，对齐条件分布并不是很容易，在目标域没有标签数据，对条件图1分布对齐原理示意分布P(YX)直接进行求解是行不通的。因此可 Fig.1 Schematic diagram of the distribution alignment 以使用类条件分布的充分统计量P(XY,)来近似 1.3特征变换 P(Y,X,)。近来的一些工作开始通过内核映射空令X=[X,X]∈Rmx,+n)为输入矩阵，n和n 间中的样本选择、联合训练、循环验证、核密分别为源域和目标域中的样本个数，H=1-1 度估计26]等进行条件分布对齐。但是这些方法 n+n 往往都需要在目标域中有一些标签数据，所以这 1为中心矩阵，其中I∈R,+,+m)为单位矩阵，1是一个(n,+n,)×(m,+n)的全1矩阵，则输入数据的些方法并不能解决我们的问题。为了解决这一问题，提出利用目标域数据的协方差矩阵可以表示为XHXT。本文的主要目标伪标签，即通过将在有标签的源域数据上训练的就是找到一个正交变换矩阵W∈Rm使得源域和基分类器应用于无标签的目标域数据，可以很容目标域数据映射到公共子空间中的数据方差最易地预测目标域数据的伪标签。由于不同域之间大，即的分布差异，这些伪标签可能不是太准确，需要 max t(WXHXW) (2) 在实验中进行迭代优化。在源域带标签数据上训 1.4边缘分布对齐练的基分类器可以是标准的学习器，例如支持向在进行分布对齐之前，需要解决的主要问题量机(SVM)、NN等。就是找到一个合适的度量准则来计算2个域之间有了真实标签的源域数据和带有伪标签的目的分布差异。而在机器学习中存在很多度量准则标域数据之后，就可以在标签空间Y的每个类中可以度量不同分布之间的差异，例如欧氏距离、匹配类条件分布P(xy=c)和P,(xb,=c), 余弦相似度、KL散度等。但这些方法通常计算 c=(1,2,…,C。为了测量类条件分布P(xby,=c) 起来比较复杂。因此为了对齐边缘分布，减小边和P(xy,=c)之间的距离，本文对MMD进行了缘分布P(X)和P(X)之间的差异，采用无参数的最修改。因此，条件分布对齐的目标函数可以写成：大均值差异MMD来度量不同分布之间的距离。 MMD的主要目标就是在RKHS中计算经过 mi的 (6) 变换后的源域样本和目标域样本均值之间的距 XED 离。因此，边缘分布对齐的目标函数可以写成：式中：D9={::x:∈D,Ay()=c}是源域数据中属于第c类的样本集合；y(x)是数据：的真实标签； (3) n9=D是源域数据中属于第c类的样本个数。对应的，D9={x:x,∈D,Ax)=c是目标域数据中式中：x、x,分别为源域和目标域中的第i个样本属于第c类样本集合，x)是样本x的伪标签，和第j个样本；H表示可再生核希尔伯特空间。 m9=D是目标域数据中属于第c类样本的个数。通过矩阵技巧和迹优化，式(3)可以被改写为通过进一步优化，式(6)可以简化为 (WXLXW) (4) iu(WXL.XW) (7) 其中L是MMD矩阵，计算如下：式中：L是类标签的MMD矩阵，计算如下： xi,xi∈D n:n, nono rxj∈De Lo= x,xj∈D, (5) 1 nene xi,xjE De) 1 (8) 其他 (L)= n几 1 x∈De,xjEDI 因此，通过式(4)使得域之间的边缘分布 nonos xeDP,x,∈D PX)和P(X)尽可能地接近，减小了域之间的边 0 其他

原始空间 MMD 公共子空间 (RKHS) 源域数据目标域数据源域数据目标域数据公共子空间中源域数据公共子空间中目标域数据特征变换图 1 分布对齐原理示意 Fig. 1 Schematic diagram of the distribution alignment 1.3 特征变换 X = [Xs ,Xt] ∈ R m×(ns+nt) ns nt H = I− 1 ns +nt 1 I ∈ R (ns+nt)(ns+nt) 1 (ns +nt)×(ns +nt) XHXT W ∈ R m×k 令为输入矩阵，和分别为源域和目标域中的样本个数，为中心矩阵，其中为单位矩阵，是一个的全 1 矩阵，则输入数据的协方差矩阵可以表示为。本文的主要目标就是找到一个正交变换矩阵使得源域和目标域数据映射到公共子空间中的数据方差最大，即 max WTW=I tr(WTXHXTW) (2) 1.4 边缘分布对齐 P(Xs) P(Xt) 在进行分布对齐之前，需要解决的主要问题就是找到一个合适的度量准则来计算 2 个域之间的分布差异。而在机器学习中存在很多度量准则可以度量不同分布之间的差异, 例如欧氏距离、余弦相似度、KL 散度等。但这些方法通常计算起来比较复杂。因此为了对齐边缘分布，减小边缘分布和之间的差异，采用无参数的最大均值差异 MMD 来度量不同分布之间的距离。 MMD 的主要目标就是在 RKHS 中计算经过变换后的源域样本和目标域样本均值之间的距离。因此，边缘分布对齐的目标函数可以写成： min WTW=I 1 ns ∑ns i=1 WT xi − 1 nt ∑nt j=1 WT xj 2 H (3) xi xj i j H 式中：、分别为源域和目标域中的第个样本和第个样本；表示可再生核希尔伯特空间。通过矩阵技巧和迹优化，式 (3) 可以被改写为 min WTW=I tr(WTXLXTW) (4) 其中 L 是 MMD 矩阵，计算如下： Li j =    1 nsns , xi , xj ∈ Ds 1 ntnt , xi , xj ∈ Dt − 1 nsnt , 其他 (5) P(Xs) P(Xt) 因此，通过式 (4) 使得域之间的边缘分布和尽可能地接近，减小了域之间的边缘分布差异。 1.5 条件分布对齐 Ps (Ys |Xs) Pt(Yt |Xt) Pt(Yt |Xt) Pt(Xt |Yt) Pt(Yt |Xt) 减小边缘分布的差异通常并不能保证域之间的条件分布差异也随之减小。实际上最小化条件分布和之间的差异对于跨域识别问题来说也是至关重要的。然而，对齐条件分布并不是很容易，在目标域没有标签数据，对条件分布直接进行求解是行不通的。因此可以使用类条件分布的充分统计量来近似。近来的一些工作开始通过内核映射空间中的样本选择、联合训练[24] 、循环验证[25] 、核密度估计[26] 等进行条件分布对齐。但是这些方法往往都需要在目标域中有一些标签数据，所以这些方法并不能解决我们的问题。为了解决这一问题，提出利用目标域数据的伪标签，即通过将在有标签的源域数据上训练的基分类器应用于无标签的目标域数据，可以很容易地预测目标域数据的伪标签。由于不同域之间的分布差异，这些伪标签可能不是太准确，需要在实验中进行迭代优化。在源域带标签数据上训练的基分类器可以是标准的学习器，例如支持向量机 (SVM)、NN 等。 Y Ps (xs |ys = c) Pt (xt |yt = c) c = {1,2,··· ,C} Ps (xs |ys = c) Pt (xt |yt = c) 有了真实标签的源域数据和带有伪标签的目标域数据之后，就可以在标签空间的每个类中匹配类条件分布和，。为了测量类条件分布和之间的距离，本文对 MMD 进行了修改。因此，条件分布对齐的目标函数可以写成： min WTW=I 1 n (c) s ∑ xi∈D (c) s WT xi − 1 n (c) t ∑ xj∈D (c) t WT xj 2 H (6) D (c) s = {xi : xi ∈ Ds ∧y(xi) = c} y(xi) xi n (c) s = D (c) s D (c) t = {xj : xj ∈ Dt ∧yˆ(xj) = c} yˆ(xj) xj n (c) t = D (c) t 式中：是源域数据中属于第 c 类的样本集合；是数据的真实标签；是源域数据中属于第 c 类的样本个数。对应的，是目标域数据中属于第 c 类样本集合，是样本的伪标签，是目标域数据中属于第 c 类样本的个数。通过进一步优化，式 (6) 可以简化为 min WTW=I tr( WTXLcX TW ) (7) 式中： Lc 是类标签的 MMD 矩阵，计算如下： (Lc)i j =    1 n (c) s n (c) s , xi , xj ∈ D (c) s 1 n (c) t n (c) t , xi , xj ∈ D (c) t − 1 n (c) s n (c) t , { xi ∈ D (c) s , xj ∈ D (c) t xj ∈ D (c) s , xi ∈ D (c) t 0, 其他 (8) 第 3 期莫宏伟，等：基于迁移学习的无监督跨域人脸表情识别 ·399·

·400· 智能系统学报第16卷因此，通过式（⑦减小了域之间的条件分布差而来的。CK+数据库包含123名年龄在1850岁异。但是在本文要解决的问题中，目标同时是最来自不同人种的成年人，包括非裔美国人、亚洲小化域间的边缘分布和条件分布的差异。因此将以及拉丁美洲人的593个图像序列，如图2所式(4)、(7)与式(2)合并到一起得到DaL的优化问示。在CK数据库的基础上对视频序列和采集对题，即象进行扩充，分别增加了22%和27%，且在该数 m盟tr(WXLXW）+ t(WTXLXW)+lW 据库中的视频序列中包括生气、厌恶、恐惧、高 c=1 兴、难过、吃惊和中性等7种表情，每种表情均有 (9) 完整的面部编码。该数据库中表情图像的采集对式中：λ是正则化参数：W表示转换矩阵W的象中有65%是女性，35%是男性。 Frobenius范数。 1.6模型优化令p=diag(p1,p2,…,p)∈Rt为拉格朗日乘子，根据约束优化理论，可以推导出式(9)的拉格朗日函数，即 w(WXLXW)+∑(WXLXW)+ (10) t((I-WXHXW)) 图2CK+数据库部分表情样本令式(10)对变换矩阵W求偏导数，并令其等 Fig.2 Partial expression samples of CK+Database 于零可得到其广义特征分解： 2)Oulu-CASIA NIR&VIS Database数据库 (XLXT+X LXT+ADW=XHXTWO 该数据库主要由Oulu-CASIA NIR(近红外相 (11) c= 机)和Oulu-CASIA VIS(可见光相机)两部分组最后，选择式(11)的前k个最小特征值对应成，如图3、4所示，均通过对年龄范围为25~58岁的特征向量作为变换矩阵W的解。算法的伪代的80位测试者进行表情采集，其中男性和女性码如算法1所示。的比例分别为73.8%和26.2%。在80位测试者算法1分布对齐算法(DaL) 中，50位芬兰测试者由奥卢大学进行采集，剩输入数据矩阵X,标签矩阵y,子空间维度余的测试者由中国科学院模式识别实验室完成 k,以及正则化参数；采集整理。整个数据库包含的面部表情为高兴、输出变换矩阵W,域适应分类器f。生气、厌恶、惊讶、恐惧和悲伤，所有这些表情都 1)通过式(5)构建MMD矩阵L,并令是在3种不同光源条件（正常、强光、黑暗）下，分 (Le=011 别通过一个可见光摄像机和一个近红外摄像机获 2)通过对式(11)进行特征分解选择最小的k 得的。个特征向量构建变换矩阵W; 3)在{(Wxy),上训练一个标准分类器，并用其去更新目标域伪标签=f(Wx,),通过 (a)黑暗式(8)构造MMD矩阵L。 4)重复步骤2)、3)直至收敛： 5)在标注数据{(Wx,y)上训练的域适应 (b)正常分类器f。 2实验与分析 2.1数据库介绍 (c)强光 1)CK+数据库图3 Oulu-CASIA VIS分别在黑暗、正常、强光条件下数 CK+(the extended cohn-kanda dataset)数据库27 据库中表情样本 Fig.3 Expression samples of Oulu-CASIA VIS under 是美国的匹兹堡大学团队和卡内基梅隆大学团队 dark,normal and strong light conditions respect- 合作在CK(cohn-kanade)数据库2！上进行扩充 ively

因此，通过式 (7) 减小了域之间的条件分布差异。但是在本文要解决的问题中，目标同时是最小化域间的边缘分布和条件分布的差异。因此将式 (4)、(7) 与式 (2) 合并到一起得到 DaL 的优化问题，即 min WTXHXTW=I tr(WTXLXTW)+ ∑C c=1 tr(WTXLcX TW)+λ∥W∥ 2 F (9) λ ∥W∥ 2 式中：是正则化参数； F 表示转换矩阵 W 的 Frobenius 范数。 1.6 模型优化 φ = diag(φ1,φ2,··· ,φk) ∈ R 令 k×k 为拉格朗日乘子，根据约束优化理论，可以推导出式 (9) 的拉格朗日函数，即 tr(WTXLXTW)+ ∑C c=1 tr(WTXLcX TW)+ tr((I−WTXHXTW)φ) (10) 令式 (10) 对变换矩阵 W 求偏导数，并令其等于零可得到其广义特征分解： (XLXT + X ∑C c=1 LcX T +λI)W = XHXTWφ (11) k W 最后，选择式 (11) 的前个最小特征值对应的特征向量作为变换矩阵的解。算法的伪代码如算法 1 所示。算法 1 分布对齐算法 (DaL) X ys k λ 输入数据矩阵，标签矩阵，子空间维度，以及正则化参数；输出变换矩阵 W ，域适应分类器 f。 L {Lc = 0} C c=1 1 ) 通过式 ( 5 ) 构建 M M D 矩阵，并令。 k W 2) 通过对式 (11) 进行特征分解选择最小的个特征向量构建变换矩阵； {(WT xi , yi)} ns i=1 {yˆj = f(WT xj)} nt j=1 Lc 3) 在上训练一个标准分类器，并用其去更新目标域伪标签，通过式 (8) 构造 MMD 矩阵。 4) 重复步骤 2)、3) 直至收敛； {(WT xi , yi)} ns i=1 f 5) 在标注数据上训练的域适应分类器。 2 实验与分析 2.1 数据库介绍 1)CK+数据库 CK+(the extended cohn-kanda dataset) 数据库[27] 是美国的匹兹堡大学团队和卡内基梅隆大学团队合作在 CK(cohn–kanade) 数据库[28] 上进行扩充而来的。CK +数据库包含 123 名年龄在 18~50 岁来自不同人种的成年人，包括非裔美国人、亚洲以及拉丁美洲人的 593 个图像序列，如图 2 所示。在 CK 数据库的基础上对视频序列和采集对象进行扩充，分别增加了 22% 和 27%，且在该数据库中的视频序列中包括生气、厌恶、恐惧、高兴、难过、吃惊和中性等 7 种表情，每种表情均有完整的面部编码。该数据库中表情图像的采集对象中有 65% 是女性，35% 是男性。图 2 CK+数据库部分表情样本 Fig. 2 Partial expression samples of CK + Database 2)Oulu-CASIA NIR & VIS Database 数据库[29] 该数据库主要由 Oulu-CASIA NIR(近红外相机) 和 Oulu-CASIA VIS(可见光相机) 两部分组成，如图 3、4 所示，均通过对年龄范围为 25~58 岁的 80 位测试者进行表情采集，其中男性和女性的比例分别为 73.8% 和 26.2%。在 80 位测试者中，50 位芬兰测试者由奥卢大学进行采集，剩余的测试者由中国科学院模式识别实验室完成采集整理。整个数据库包含的面部表情为高兴、生气、厌恶、惊讶、恐惧和悲伤，所有这些表情都是在 3 种不同光源条件 (正常、强光、黑暗) 下，分别通过一个可见光摄像机和一个近红外摄像机获得的。 (a) 黑暗 (b) 正常 (c) 强光图 3 Oulu-CASIA VIS 分别在黑暗、正常、强光条件下数据库中表情样本 Fig. 3 Expression samples of Oulu-CASIA VIS under dark, normal and strong light conditions respectively ·400· 智能系统学报第 16 卷

第3期莫宏伟，等：基于迁移学习的无监督跨域人脸表情识别 ·401· 集)，因此可以得到6组对比实验，即 I)CK+作为源域，Oulu-CASIA NIR作为目标 (a)黑暗域，用C&N表示； 2)Oulu-CASIA NIR作为源域，CK+作为目标域，用N&C表示； 3)CK+作为源域，Oulu-CASIA VIS作为目标 (b)正常域，用C&V表示； 4)Oulu-CASIA VIS作为源域，CK+作为目标域，用V&C表示； (⊙)强光 5)Oulu-CASIA NIR作为源域，Oulu-CASIA 图4Oulu-CASIA NIR分别在黑暗、正常、强光条件下数 VIS作为目标域，用N&V表示；据库中表情样本 6)Oulu-CASIA VIS作为源域，Oulu-CASIA Fig.4 Expression samples of Oulu CASIA NIR under NIR作为目标域，用V&N表示。 dark,normal and strong light conditions respect- 在本文实验中所用到的3个数据库中的表情 ively 样本构成如表1所示。实验中所有方法采用的参 2.2实验设置数设置及评价指标如下：在实验中，线性支持向量机为了比较，本文选择了近年来在跨域人脸表 (SVM以固定的C=0.2,且在实验过程中，为了公情识别中常使用的迁移学习算法，包括核均值匹平对比，所有方法均采用线性核函数。对于 (kernel mean matching,KMM)301 Kullback-Lei- KMM来说主要有2个参数B和E,分别设置为 bler重要性估计过程(kullback-leibler importance 1 estimation process,.KLIEP)B)、选择性迁移机 B=1000,8=m- 而，其中n为训练样本的个 (selective transfer machine,.STM)等与本文提出的数。STM中的参数B和ε设置和KMM一样。分布对齐（①aL)进行对比，这些方法的参数设置在DL中主要包括2个参数子空间维度k和正则将在后面进行介绍。此外，使用线性支持向量机化参数A,在实验中设置为k=100,A=0.1,迭代次 (SVM)作为这4种基准对比方法的分类器，即数N=20。在本文中，使用测试数据的分类精度作 KLIEP+SVM、KMM+SVM、STM+SVM和DaL+SVM, 为评价指标，即同时将无迁移的SVM作为基准方法与这4种算 A=:xED,A)=y() (12) 法进行对比。 x:x∈D.l 在本文中，采用圆形LBP特征提取算子来式中：A表示准确率；D,表示目标域样本；(x)表提取表情特征，在实验中选择2种不同的半径和示各对比算法预测的目标域样本标签；(x)表示周围像素点的圆形LBP算子，即R=1,P=8和目标域样本的真实标签。 R=2,P=16,分别用LBPI和LBPI6表示。选择表1实验所用数据库样本构成 CK+,Oulu-CASIA NIR和Oulu-CASIA VIS这3个 Table 1 Composition of database samples used in the ex- 数据库进行验证本文提出算法的有效性，在这 periment 3个数据库中采集的表情样本来自不同的人种，实验数据库愤怒厌恶恐惧高兴悲伤吃惊且是在不同的实验环境下使用不同的设备进行采 CK+ 45 60 25 70 28 85 集的，因此这3个数据库中表情样本具有不同的 Ouu-CASIA NIR240240240240240240 特征分布。在进行实验之前，首先对这3个数据 Oulu-CASIA VIS240240240240240240 库中的表情图像进行预处理，将这3个数据库中的表情图像大小进行归一化，统一调整为64×64， 2.3 实验结果与分析并选用这3个数据库中共有的惊讶(surprise)、高不同对比方法在本文设置的6种实验场景下兴(happy)、悲伤(sad)、愤怒(angy)、恐惧(fear)和的平均准确率分别如表2、3所示。从实验结果可厌恶(disgust)等6种表情类型的样本进行实验，以看出：因此在这3个数据库中的表情图像具有相同的特 1)本文提出的DaL在不同场景下的识别效征空间和标签空间。果相对于无迁移学习的传统机器学习算法SVM 在实验过程中，每次选取这3个数据库中的有大幅提升，且均高于KMM、KLIEP和STM,表任意2个分别作为源域（训练集）和目标域（测试明DaL在跨域人脸表情识别的有效性

(a) 黑暗 (b) 正常 (c) 强光图 4 Oulu-CASIA NIR 分别在黑暗、正常、强光条件下数据库中表情样本 Fig. 4 Expression samples of Oulu CASIA NIR under dark, normal and strong light conditions respectively 2.2 实验设置为了比较,本文选择了近年来在跨域人脸表情识别中常使用的迁移学习算法，包括核均值匹配 (kernel mean matching, KMM)[30] 、Kullback-Leibler 重要性估计过程 (kullback-leibler importance estimation process, KLIEP)[ 3 1 ] 、选择性迁移机 (selective transfer machine, STM)[5] 等与本文提出的分布对齐 (DaL) 进行对比，这些方法的参数设置将在后面进行介绍。此外，使用线性支持向量机 (SVM) 作为这 4 种基准对比方法的分类器，即 KLIEP+SVM、KMM+SVM、STM+SVM 和 DaL+SVM，同时将无迁移的 SVM 作为基准方法与这 4 种算法进行对比。 R= 1 P= 8 R= 2 P= 16 LBP| 8 1 LBP| 16 2 64×64 在本文中，采用圆形 LBP[32] 特征提取算子来提取表情特征，在实验中选择 2 种不同的半径和周围像素点的圆形 LBP 算子，即，和，，分别用和表示。选择 CK+，Oulu-CASIA NIR 和 Oulu-CASIA VIS 这 3 个数据库进行验证本文提出算法的有效性，在这 3 个数据库中采集的表情样本来自不同的人种，且是在不同的实验环境下使用不同的设备进行采集的，因此这 3 个数据库中表情样本具有不同的特征分布。在进行实验之前，首先对这 3 个数据库中的表情图像进行预处理，将这 3 个数据库中的表情图像大小进行归一化，统一调整为，并选用这 3 个数据库中共有的惊讶 (surprise)、高兴 (happy)、悲伤 (sad)、愤怒 (angry)、恐惧 (fear) 和厌恶 (disgust) 等 6 种表情类型的样本进行实验，因此在这 3 个数据库中的表情图像具有相同的特征空间和标签空间。在实验过程中，每次选取这 3 个数据库中的任意 2 个分别作为源域 (训练集) 和目标域 (测试集)，因此可以得到 6 组对比实验，即 1) CK+作为源域，Oulu-CASIA NIR 作为目标域，用 C&N 表示； 2) Oulu-CASIA NIR 作为源域，CK+作为目标域，用 N&C 表示； 3) CK+作为源域，Oulu-CASIA VIS 作为目标域，用 C&V 表示； 4) Oulu-CASIA VIS 作为源域，CK+作为目标域，用 V&C 表示； 5) Oulu-CASIA NIR 作为源域，Oulu-CASIA VIS 作为目标域，用 N&V 表示； 6) Oulu-CASIA VIS 作为源域，Oulu-CASIA NIR 作为目标域，用 V&N 表示。在本文实验中所用到的 3 个数据库中的表情样本构成如表 1 所示。实验中所有方法采用的参数设置及评价指标如下：在实验中，线性支持向量机 C= 0.2 B ε B = 1 000 ε = √ n− 1 √ n n B ε k λ k λ (SVM) 以固定的，且在实验过程中，为了公平对比，所有方法均采用线性核函数。对于 KMM 来说主要有 2 个参数和，分别设置为，，其中为训练样本的个数。STM 中的参数和设置和 KMM 一样。在 DaL 中主要包括 2 个参数子空间维度和正则化参数，在实验中设置为 =100， =0.1，迭代次数 N=20。在本文中，使用测试数据的分类精度作为评价指标，即 A = |x : x ∈ Dt ∧yˆ(x) = y(x)| |x : x ∈ Dt | (12) A Dt yˆ(x) y(x) 式中：表示准确率；表示目标域样本；表示各对比算法预测的目标域样本标签；表示目标域样本的真实标签。表 1 实验所用数据库样本构成 Table 1 Composition of database samples used in the experiment 实验数据库愤怒厌恶恐惧高兴悲伤吃惊 CK+ 45 60 25 70 28 85 Oulu-CASIA NIR 240 240 240 240 240 240 Oulu-CASIA VIS 240 240 240 240 240 240 2.3 实验结果与分析不同对比方法在本文设置的 6 种实验场景下的平均准确率分别如表 2、3 所示。从实验结果可以看出： 1) 本文提出的 DaL 在不同场景下的识别效果相对于无迁移学习的传统机器学习算法 SVM 有大幅提升，且均高于 KMM、KLIEP 和 STM，表明 DaL 在跨域人脸表情识别的有效性。第 3 期莫宏伟，等：基于迁移学习的无监督跨域人脸表情识别 ·401·

·402· 智能系统学报第16卷 2)从表2和表3的1、2和3、4四组实验中可表3不同方法在6种不同实验场景下的平均准确率以看出，在源域为CK+而目标域分别为Oulu- (LBP) Table 3 CASIA VIS和Oulu-CASIA NIR时的识别准确率 Average accuracy of different methods in six different experimental scenarios LBP6 % 均低于在源域分别为Oulu-CASIA VIS和Oulu- CASIA NIR而目标域为CK+时的识别准确率，并序号实验场景 SVM KMM KLIEP STM DaL 结合表1可以看出，出现这种情况的原因：1)可能是因为CK+数据库中的表情样本数量较少：2) C&N 19.32 25.46 36.84 28.76 45.24 可能是因为CK+数据库中样本数量不均衡造 N&C 26.79 38.64 43.5 30.2652.38 成的。 3)通过表2和3中5、6两组实验可以看出， C&V 21.25 34.3 31.5 29.3246.18 在源域为Oulu-CASIA VIS,目标域为Oulu-CASIA V&C 30.2843.64 46.78 33.2654.13 NIR上的识别效果要高于在源域为Oulu-CASIA NIR,目标域为Oulu-CASIA VIS上的识别效果， N&V 54.2 57.5 54.7850.2461.64 出现这种现象的原因可能是由于Oulu-CASIA VIS和Oulu-CASIA NIR数据库中表情图像使用 6 V&N 62.568.7663.5461.4574.58 的采集设备不同，在Oulu-CASIA VIS和Oulu- CASIA NIR数据库中的表情图像分别是通过可见为了更加直观地表示各对比算法的识别效光相机和近红外相机拍摄的，表明模型从由可见果，给出了这5种算法在不同场景下的平均准确光相机拍摄的表情图像上提取的特征要比近红外率曲线，如图5所示。从图5中可以清晰看出，本图像上提取的质量更高。文提出的DaL方法在跨域人脸表情识别上的有 4)通过对比表2和表3中6组实验可以看效性。出，通过圆形LBP特征提取方法在R=2,P=16时提取特征的识别效果均高于R=1,P=8时的识别 70 效果，这一现象表明，在扩大特征提取半径和增加临近像素点时，LBP提取的特征相对较好。 50 5)通过对比表2和3中的6组实验可以看出，SVM在5、6两组实验上的识别效果相对于 40 -SVM 前4组实验来说有了较大提升。这是因为，Oulu- KMM 一KLIEP CASIA VIS和Oulu-CASIA NIR数据库中的样本 20 STM 之间的差异，要小于CK+中样本与Oulu-CASIA 6 VIS和Oulu-CASIA NIR之间的差异。在Oulu- 序号 CASIA VIS和Oulu-CASIA NIR中样本的采集对 (a)R=l,P=8时的识别准确率象相同，因此样本间的特征差异相对较小。所 80 以，对于无迁移学习的传统机器学习算法SVM 70 来说，在5、6两组上的识别率相对较好。 0 表2不同方法在6种不同实验场景下的平均准确率 50 (LBP) 40 Table 2 Average accuracy of different methods in six -SVM 30 KMM different experimental scenarios LBP % KLIEP STM 序号实验场景一DaL SVM KMM KLIEP STM DaL 10 2 3 4 5 6 C&N 17.6824.35 34.26 23.540.76 序号 (b)R=2,P=16时的识别准确率 2 N&C 24.65 36.52 42.3 28.6449.48 3 C&V 20.32 32.68 30.49 27.56 44.35 图5各对比算法在不同实验场景下的平均准确率曲线 Fig.5 Average accuracy curve of each comparison al- 4 V&C 28.6 40.18 45.24 32.1552.74 gorithm in different experimental scenarios 5 N&V 49.35 51.4 48.54 46.756.78 为了进一步验证提出方法的有效性，本文选 6 V&N 58.4 65.64 60.48 56.569.74 择表3中序号为3和5的这一组对比实验进行分

2) 从表 2 和表 3 的 1、2 和 3、4 四组实验中可以看出，在源域为 CK+而目标域分别为 OuluCASIA VIS 和 Oulu-CASIA NIR 时的识别准确率均低于在源域分别为 Oulu-CASIA VIS 和 OuluCASIA NIR 而目标域为 CK+时的识别准确率，并结合表 1 可以看出，出现这种情况的原因：1）可能是因为 CK+数据库中的表情样本数量较少；2）可能是因为 CK+数据库中样本数量不均衡造成的。 3) 通过表 2 和 3 中 5、6 两组实验可以看出，在源域为 Oulu-CASIA VIS，目标域为 Oulu-CASIA NIR 上的识别效果要高于在源域为 Oulu-CASIA NIR，目标域为 Oulu-CASIA VIS 上的识别效果，出现这种现象的原因可能是由于 Oulu-CASIA VIS 和 Oulu-CASIA NIR 数据库中表情图像使用的采集设备不同，在 Oulu-CASIA VIS 和 OuluCASIA NIR 数据库中的表情图像分别是通过可见光相机和近红外相机拍摄的，表明模型从由可见光相机拍摄的表情图像上提取的特征要比近红外图像上提取的质量更高。 R P R P 4) 通过对比表 2 和表 3 中 6 组实验可以看出，通过圆形 LBP 特征提取方法在 =2， =16 时提取特征的识别效果均高于 =1， =8 时的识别效果，这一现象表明，在扩大特征提取半径和增加临近像素点时，LBP 提取的特征相对较好。 5) 通过对比表 2 和 3 中的 6 组实验可以看出，SVM 在 5、6 两组实验上的识别效果相对于前 4 组实验来说有了较大提升。这是因为，OuluCASIA VIS 和 Oulu-CASIA NIR 数据库中的样本之间的差异，要小于 CK+中样本与 Oulu-CASIA VIS 和 Oulu-CASIA NIR 之间的差异。在 OuluCASIA VIS 和 Oulu-CASIA NIR 中样本的采集对象相同，因此样本间的特征差异相对较小。所以，对于无迁移学习的传统机器学习算法 SVM 来说，在 5、6 两组上的识别率相对较好。 LBP| 8 1 表 2 不同方法在 6 种不同实验场景下的平均准确率 ( ) LBP| 8 1 Table 2 Average accuracy of different methods in six different experimental scenarios % 序号实验场景 SVM KMM KLIEP STM DaL 1 C&N 17.68 24.35 34.26 23.5 40.76 2 N&C 24.65 36.52 42.3 28.64 49.48 3 C&V 20.32 32.68 30.49 27.56 44.35 4 V&C 28.6 40.18 45.24 32.15 52.74 5 N&V 49.35 51.4 48.54 46.7 56.78 6 V&N 58.4 65.64 60.48 56.5 69.74 LBP| 16 2 表 3 不同方法在 6 种不同实验场景下的平均准确率 ( ) LBP| 16 2 Table 3 Average accuracy of different methods in six different experimental scenarios % 序号实验场景 SVM KMM KLIEP STM DaL 1 C&N 19.32 25.46 36.84 28.76 45.24 2 N&C 26.79 38.64 43.5 30.26 52.38 3 C&V 21.25 34.3 31.5 29.32 46.18 4 V&C 30.28 43.64 46.78 33.26 54.13 5 N&V 54.2 57.5 54.78 50.24 61.64 6 V&N 62.5 68.76 63.54 61.45 74.58 为了更加直观地表示各对比算法的识别效果，给出了这 5 种算法在不同场景下的平均准确率曲线，如图 5 所示。从图 5 中可以清晰看出，本文提出的 DaL 方法在跨域人脸表情识别上的有效性。 70 60 50 准确率/% 40 30 20 10 80 70 60 50 准确率/% 40 30 20 10 1 2 3 序号 (a) R=1, P=8 时的识别准确率 (b) R=2, P=16 时的识别准确率 SVM KMM KLIEP STM DaL 4 5 6 1 2 3 序号 4 5 6 SVM KMM KLIEP STM DaL 图 5 各对比算法在不同实验场景下的平均准确率曲线 Fig. 5 Average accuracy curve of each comparison algorithm in different experimental scenarios 为了进一步验证提出方法的有效性，本文选择表 3 中序号为 3 和 5 的这一组对比实验进行分 ·402· 智能系统学报第 16 卷

第3期莫宏伟，等：基于迁移学习的无监督跨域人脸表情识别 ·403· 析，并给出了在C&V和N&V两种实验场景下各生气0.410.140.150.080.210.01 1.0 对比算法在6种表情上的识别率混淆矩阵，分别厌恶0.20.450.070.080.160.04 0.8 如图6和图7所示。整8根080.1403201402012 40.6 通过图6和图7可以看出，在CK+作为源域，警高兴.010.120.060601002 0.4 Oulu-CASIA VIS作为目标域时，在DaL中各种表悲伤0.20.130.180.070.360.06 0.2 情的识别率均高于各基准对比算法，并且不同算惊讶0.050.070.10.030.03072 .0 法在6种表情上的识别率差异相对较大。例如， g 在DaL中“惊讶”、“高兴”这2种表情的识别率相预测标签 (e)DaL算法对较高，分别为72%、60%，而“悲伤”和“恐惧”这 2种表情的识别率较低，分别为36%、32%。图6 C&V实验场景下各对比方法在6种表情上的识别率混淆矩阵 Fig.6 -1.0 Confusion matrix of the recognition rate of each 生气023020.050.090.060.37 comparison method on six expressions in the C&V 厌恶0.210.60.160.080.02027 0.8 experimental scene 整恐惧020240120.13006024 0.6 结合表2可知，出现这种现象主要是因为在变商兴090150680320203/ CK+数据库中“吃惊”表情的样本数量最多，有 0.4 85张表情图像，而“恐惧”仅有25张表情图像。悲伤0.220.280.120.060.140.18 02 另外，还可以看到，“愤怒”、“厌恶”和“悲伤”这惊讶0.230250.020.1700.33 0 3种表情比较容易误判，结合图4中各表情样本， e 出现这种情况原因可能是因为受试者在表达这预测标签 3种表情时的面部运动变化不大，因此提取的特 (a)SVM算法生气0.320.120.160.030.350.02 1.0 征较为相似，不易于区分。此外，当源域为Oulu- CASIA NIR,目标域为Oulu-CASIA VIS时，“悲厌恶0.170.350.10.050.310.02 0.8 伤”和“恐惧”这2种表情的识别准确率有了大幅 0.6 提升，平均提高了22%左右，且其他4种表情的 0.4 识别率也有较大提升。这进一步说明了，数据库悲伤0.210.050.350.030280.08 02 中样本数量的多少对跨域人脸表情识别的效果具惊讶0.030.040.080.030.260.56 有一定的影响。但无论CK+和Oulu-CASIA 0 NIR哪个数据库作为源域，DaL的识别准确率均预测标签高于各基准对比算法，验证了该算法在跨域人脸 (b)KMM算法表情识别上的有效性。 1.0 生气0.320.360.020.050.130.12 1.0 生气0430.210.130.010.140.08 厌恶0.280.380.020.060.210.12 0.8 厌恶0.20.480.120.020150.03 0.8 邕恐惧0.20.080240.080.230.17 0.6 整恐惧0.110.140.340.140.20.08 0.6 毫高兴0.090080.1604200602 0.4 室高兴08090.14050902 0.4 悲伤0.280.160.060.040.280.18 0.2 悲伤0.20.130.170.080.380.04 0.2 惊讶0.10.040.120.080.090.57 0 惊讶0.10.120.110.10.030.54 ” 0 预测标签 (c)KLIEP算法预测标签 1.0 (a)SVM算法生气0270.20.150.110.140.13 1.0 生气0580.220.10.020.050.03 厌恶0.180.30.140.120.110.15 0.8 厌恶0.160.60.100.120.02 0.8 恐惧0.150.170.180.10.18022 0.6 菱有兴015020c8A40c0 恐惧0.140.120.480.080.090.09 0.6 0.4 室商兴00400202□0105 0.4 悲伤0240.150.220.040.20.15 0.2 悲伤0.180.170.120.010.50.02 0.2 惊讶0.210.060.160.060.140.36 惊讶0.060.080.080.020.04072 .0 预测标签 (dSTM算法预测标签 (b)KMM算法

析，并给出了在 C&V 和 N&V 两种实验场景下各对比算法在 6 种表情上的识别率混淆矩阵，分别如图 6 和图 7 所示。通过图 6 和图 7 可以看出，在 CK+作为源域， Oulu-CASIA VIS 作为目标域时，在 DaL 中各种表情的识别率均高于各基准对比算法，并且不同算法在 6 种表情上的识别率差异相对较大。例如，在 DaL 中 “惊讶”、“高兴”这 2 种表情的识别率相对较高，分别为 72%、60%，而“悲伤”和“恐惧”这 2 种表情的识别率较低，分别为 36%、32%。 0.27 0.2 0.15 0.11 0.14 0.13 0.18 0.3 0.14 0.12 0.11 0.15 0.15 0.17 0.18 0.1 0.18 0.22 0.15 0.22 0.08 0.34 0.08 0.13 0.24 0.15 0.22 0.04 0.2 0.15 0.21 0.06 0.16 0.06 0.14 0.36 1.0 0.8 0.6 0.4 0.2 0 预测标签真实标签生气厌恶恐惧高兴悲伤惊讶生气厌恶恐惧高兴悲伤惊讶 (d) STM 算法预测标签 (a) SVM 算法真实标签生气 1.0 0.23 0.2 0.05 0.09 0.06 0.37 0.21 0.6 0.16 0.08 0.02 0.27 0.2 0.240.12 0.13 0.06 0.24 0.09 0.150.08 0.32 0.02 0.34 0.22 0.280.12 0.06 0.14 0.18 0.23 0.250.02 0.17 0 0.33 0.8 0.6 0.4 0.2 0 厌恶恐惧高兴悲伤惊讶生气厌恶恐惧高兴悲伤惊讶 (b) KMM 算法 0.32 0.12 0.16 0.03 0.35 0.02 0.17 0.35 0.1 0.05 0.31 0.02 0.05 0.04 0.26 0.12 0.43 0.10 0.02 0.05 0.08 0.52 0.3 0.03 0.21 0.05 0.35 0.03 0.28 0.08 0.03 0.04 0.08 0.03 0.26 0.56 1.0 0.8 0.6 0.4 0.2 0 预测标签生气厌恶恐惧高兴悲伤惊讶真实标签生气厌恶恐惧高兴悲伤惊讶 (c) KLIEP 算法 0.32 0.36 0.02 0.05 0.13 0.12 0.28 0.38 0.02 0.06 0.21 0.12 0.2 0.08 0.24 0.08 0.23 0.17 0.09 0.08 0.16 0.42 0.06 0.2 0.28 0.16 0.06 0.04 0.28 0.18 0.1 0.04 0.12 0.08 0.09 0.57 1.0 0.8 0.6 0.4 0.2 0 预测标签生气厌恶恐惧高兴悲伤惊讶真实标签生气厌恶恐惧高兴悲伤惊讶 0.41 0.14 0.15 0.08 0.21 0.01 0.2 0.45 0.07 0.08 0.16 0.04 0.08 0.14 0.32 0.14 0.2 0.12 0.1 0.12 0.06 0.6 0.1 0.02 0.2 0.13 0.18 0.07 0.36 0.06 0.05 0.07 0.1 0.03 0.03 0.72 1.0 0.8 0.6 0.4 0.2 0 预测标签真实标签生气厌恶恐惧高兴悲伤惊讶生气厌恶恐惧高兴悲伤惊讶 (e) DaL 算法图 6 C&V 实验场景下各对比方法在 6 种表情上的识别率混淆矩阵 Fig. 6 Confusion matrix of the recognition rate of each comparison method on six expressions in the C&V experimental scene 结合表 2 可知，出现这种现象主要是因为在 CK+数据库中 “吃惊”表情的样本数量最多，有 85 张表情图像，而“恐惧”仅有 25 张表情图像。另外，还可以看到，“愤怒”、“厌恶”和“悲伤”这 3 种表情比较容易误判，结合图 4 中各表情样本，出现这种情况原因可能是因为受试者在表达这 3 种表情时的面部运动变化不大，因此提取的特征较为相似，不易于区分。此外，当源域为 OuluCASIA NIR，目标域为 Oulu-CASIA VIS 时，“悲伤”和“恐惧”这 2 种表情的识别准确率有了大幅提升，平均提高了 22% 左右，且其他 4 种表情的识别率也有较大提升。这进一步说明了，数据库中样本数量的多少对跨域人脸表情识别的效果具有一定的影响。但无论 CK+和 Oulu-CASIA NIR 哪个数据库作为源域，DaL 的识别准确率均高于各基准对比算法，验证了该算法在跨域人脸表情识别上的有效性。预测标签 (a) SVM 算法真实标签生气 1.0 0.43 0.21 0.13 0.01 0.14 0.08 0.2 0.48 0.12 0.02 0.15 0.03 0.11 0.14 0.34 0.14 0.2 0.08 0.08 0.09 0.14 0.5 0.09 0.12 0.2 0.13 0.17 0.08 0.38 0.04 0.1 0.12 0.11 0.1 0.03 0.54 0.8 0.6 0.4 0.2 0 厌恶恐惧高兴悲伤惊讶生气厌恶恐惧高兴悲伤惊讶 (b) KMM 算法 0.58 0.22 0.1 0.02 0.05 0.03 0.16 0.6 0.1 0 0.12 0.02 0.14 0.12 0.48 0.08 0.09 0.09 0.04 0.02 0.2 0.7 0.01 0.05 0.18 0.17 0.12 0.01 0.5 0.02 0.06 0.08 0.08 0.02 0.04 0.72 1.0 0.8 0.6 0.4 0.2 0 预测标签真实标签生气厌恶恐惧高兴悲伤惊讶生气厌恶恐惧高兴悲伤惊讶第 3 期莫宏伟，等：基于迁移学习的无监督跨域人脸表情识别 ·403·

·404· 智能系统学报第16卷 1.0 生气0.56020.140.040.050.01 对于实验效果会产生很大的影响。因此，对于如厌恶0.180.580.120.010.10.01 0.8 何建立大样本人脸表情数据库将会是下一步需要整恐惧0.140120480080.0909 0.6 进行的工作。2)在本文中对条件分布进行对齐室高兴004040.18060303 时，由于目标域数据中没有标签数据，因此在实 0.4 悲伤0.160.190.10.010.520.02 验中通过目标域数据的伪标签来进行对齐。但由 .0.2 惊讶0.080.090.070.0600.7 于域之间的分布差异问题，这种方法预测的伪标 0 多产签可能不是很准确。因此，对于在条件分布对齐预测标签时目标域中无标签数据的问题，需要进一步探索 (c)KLIEP算法新方法来解决。生气0.480.20.080.010.150.08 1.0 0.8 参考文献：厌恶0.210520.10.010.10.06 恐惧0.160.120420.10.080.12 0.6 [1]ZHENG Wenming,TANG Hao,HUANG T S.Emotion re- 警商兴0080.070.1B058010.13 0.4 cognition from non-frontal facial images[M]//KONAR A, 悲伤0.170.140.180.020.40.09 0.2 CHAKRABORTY A.Emotion Recognition:A Pattern 惊讶0.10.10.080.050.070.6 0 Analysis Approach.Hoboken,USA:John Wiley Sons, ☆ 2015:183-213 预测标签 [2]WANG Yongjin,GUAN Ling,VENETSANOPOULOS A (d)STM算法 ▣10 N.Kernel cross-modal factor analysis for information fu- 生气0.590.120.10.060.120.01 厌恶0.170.620.050.040.080.04 08 sion with application to bimodal emotion recognition[J]. 整恐惧0.060.13050.080,120.1 IEEE transactions on multimedia,2012,14(3):597-607. 0.6 室高兴0801060☑00601 [3]YAN Jingjie,ZHENG Wenming,XU Guanming,et al. 0.4 悲伤0.160.10.130.040.540.03 Sparse kernel reduced-rank regression for bimodal emo- -02 惊讶0.040.050.060.040.010.8 tion recognition from facial expression and speech[J] .0 IEEE transactions on multimedia,2016,18(7):1319-1329 预测标签 [4]ZENG Zhihong,PANTIC M,ROISMAN G I,et al.A sur- (e)DaL算法 vey of affect recognition methods:audio,visual,and spon- 图7N&V实验场景下各对比方法在6种表情上的识别 taneous expressions[J].IEEE transactions on pattern ana- 率混淆矩阵 lysis and machine intelligence,2009,31(1):39-58. Fig.7 Confusion matrix of the recognition rate of each [5]CHU W S.DE LA TORRE F.COHN J F.Selective trans- comparison method on six expressions in the N&V experimental scene fer machine for personalized facial expression analysis[]. IEEE transactions on pattern analysis and machine intelli- 3结束语 gence,2017,39(3):529-545. [6]ZHENG Wenming,ZHOU Xiaoyan,ZOU Cairong,et al. 本文提出将一种基于分布对齐的迁移学习方 Facial expression recognition using kernel canonical cor- 法应用到跨域人脸表情识别中，通过找到一个特征变换矩阵，将源域和目标域样本映射到一个公 relation analysis(KCCA)[J].IEEE transactions on neural 共子空间，引入无参数的最大均值差异MMD来 networks..2006,171):233-238 度量源域和目标域数据之间边缘分布和条件分布 [7]UDDIN M Z.A local feature-based facial expression re- 的距离，在该子空间中最大化投影后源域和目标 cognition system from depth video[MV//DELIGIANNIDIS 域数据方差的同时，联合对齐边缘分布和条件分 L,ARABNIA H R.Emerging Trends in Image Processing, 布，最小化域之间的分布距离，然后对迁移后的 Computer Vision and Pattern Recognition.Amsterdam:El- 特征进行训练得到一个域适应分类器，来对目标 sevier,.2015:407-419 域中的数据标签进行预测，与4种基准方法在不 [8]YU Zhiding,ZHANG Cha.Image based static facial ex- 同实验场景下的实验结果表明，本文提出的算法 pression recognition with multiple deep network 在跨域人脸表情识别上具有优势。但是还有一些 learning[C]//Proceedings of the 2015 ACM on Internation- 不足之处，需要进一步的研究：1)对于跨域人脸 al Conference on Multimodal Interaction.New York,USA: 表情识别来说，实验中的数据集样本数量的多少 ACM.2015:433-442

(c) KLIEP 算法 0.56 0.2 0.14 0.04 0.05 0.01 0.18 0.58 0.12 0.01 0.1 0.01 0.14 0.12 0.48 0.08 0.09 0.09 0.04 0.04 0.18 0.68 0.03 0.03 0.16 0.19 0.1 0.01 0.52 0.02 0.08 0.09 0.07 0.06 0 0.7 1.0 0.8 0.6 0.4 0.2 0 预测标签真实标签生气厌恶恐惧高兴悲伤惊讶生气厌恶恐惧高兴悲伤惊讶 0.48 0.2 0.08 0.01 0.15 0.08 0.21 0.52 0.1 0.01 0.1 0.06 0.16 0.12 0.42 0.1 0.08 0.12 0.08 0.07 0.13 0.58 0.01 0.13 0.17 0.14 0.18 0.02 0.4 0.09 0.1 0.1 0.08 0.05 0.07 0.6 1.0 0.8 0.6 0.4 0.2 0 预测标签 (d) STM 算法真实标签生气厌恶恐惧高兴悲伤惊讶生气厌恶恐惧高兴悲伤惊讶 0.59 0.12 0.1 0.06 0.12 0.01 0.17 0.62 0.05 0.04 0.08 0.04 0.06 0.13 0.5 0.08 0.12 0.11 0.08 0.1 0.06 0.7 0.06 0.01 0.16 0.1 0.13 0.04 0.54 0.03 0.04 0.05 0.06 0.04 0.01 0.8 1.0 0.8 0.6 0.4 0.2 0 (e) DaL 算法预测标签真实标签生气厌恶恐惧高兴悲伤惊讶生气厌恶恐惧高兴悲伤惊讶图 7 N&V 实验场景下各对比方法在 6 种表情上的识别率混淆矩阵 Fig. 7 Confusion matrix of the recognition rate of each comparison method on six expressions in the N&V experimental scene 3 结束语本文提出将一种基于分布对齐的迁移学习方法应用到跨域人脸表情识别中，通过找到一个特征变换矩阵，将源域和目标域样本映射到一个公共子空间，引入无参数的最大均值差异 MMD 来度量源域和目标域数据之间边缘分布和条件分布的距离，在该子空间中最大化投影后源域和目标域数据方差的同时，联合对齐边缘分布和条件分布，最小化域之间的分布距离，然后对迁移后的特征进行训练得到一个域适应分类器，来对目标域中的数据标签进行预测，与 4 种基准方法在不同实验场景下的实验结果表明，本文提出的算法在跨域人脸表情识别上具有优势。但是还有一些不足之处，需要进一步的研究：1) 对于跨域人脸表情识别来说，实验中的数据集样本数量的多少对于实验效果会产生很大的影响。因此，对于如何建立大样本人脸表情数据库将会是下一步需要进行的工作。2) 在本文中对条件分布进行对齐时，由于目标域数据中没有标签数据，因此在实验中通过目标域数据的伪标签来进行对齐。但由于域之间的分布差异问题，这种方法预测的伪标签可能不是很准确。因此，对于在条件分布对齐时目标域中无标签数据的问题，需要进一步探索新方法来解决。参考文献： ZHENG Wenming, TANG Hao, HUANG T S. Emotion recognition from non-frontal facial images[M]//KONAR A, CHAKRABORTY A. Emotion Recognition: A Pattern Analysis Approach. Hoboken, USA: John Wiley & Sons, 2015: 183−213. [1] WANG Yongjin, GUAN Ling, VENETSANOPOULOS A N. Kernel cross-modal factor analysis for information fusion with application to bimodal emotion recognition[J]. IEEE transactions on multimedia, 2012, 14(3): 597–607. [2] YAN Jingjie, ZHENG Wenming, XU Guanming, et al. Sparse kernel reduced-rank regression for bimodal emotion recognition from facial expression and speech[J]. IEEE transactions on multimedia, 2016, 18(7): 1319–1329. [3] ZENG Zhihong, PANTIC M, ROISMAN G I, et al. A survey of affect recognition methods: audio, visual, and spontaneous expressions[J]. IEEE transactions on pattern analysis and machine intelligence, 2009, 31(1): 39–58. [4] CHU W S, DE LA TORRE F, COHN J F. Selective transfer machine for personalized facial expression analysis[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(3): 529–545. [5] ZHENG Wenming, ZHOU Xiaoyan, ZOU Cairong, et al. Facial expression recognition using kernel canonical correlation analysis (KCCA)[J]. IEEE transactions on neural networks, 2006, 17(1): 233–238. [6] UDDIN M Z. A local feature-based facial expression recognition system from depth video[M]//DELIGIANNIDIS L, ARABNIA H R. Emerging Trends in Image Processing, Computer Vision and Pattern Recognition. Amsterdam: Elsevier, 2015: 407−419. [7] YU Zhiding, ZHANG Cha. Image based static facial expression recognition with multiple deep network learning[C]//Proceedings of the 2015 ACM on International Conference on Multimodal Interaction. New York, USA: ACM, 2015:433−442. [8] ·404· 智能系统学报第 16 卷

第3期莫宏伟，等：基于迁移学习的无监督跨域人脸表情识别 ·405· [9]BACCOUCHE M,MAMALET F,WOLF C,et al.Spatio- European Conference on Computer Vision.Heraklion, temporal convolutional sparse auto-encoder for sequence Crete,Greece:Springer-Verlag,2010:566-579. classification[C]//Proceedings of the of British Machine [20]QIU Qiang,PATEL V M,TURAGA P,et al.Domain ad- Vision Conference.Guildford,UK:BMVA Press,2012:12. aptive dictionary learning[C]//Proceedings of the 12th [10]WANG Hua,NIE Feiping.HUANG Heng,et al.Dyadic European Conference on Computer Vision.Florence, transfer learning for cross-domain image classifica- Italy:Springer-Verlag,2012:631-645. tion[C]//IEEE International Conference on Computer Vis- [21]DAI Wenyuan,YANG Qiang,XUE Guirong,et al. ion.Barcelona,Spain:IEEE,2011:551-556 Boosting for transfer learning[C]//Proceedings of the 24th [11]LUO Jie,TOMMASI T,CAPUTO B.Multiclass transfer International Conference on Machine Learning.Corvalis, learning from unconstrained priors[C]//IEEE Internation- USA:ACM,2007:193-200. al Conference on Computer Vision.Barcelona,Spain: [22]PAN S J,TSANG I W,KWOK J T,et al.Domain adapta- IEEE,2011:1863-1870. tion via transfer component analysis[J].IEEE transac- [12]ROY S D.MEI Tao,ZENG Wenjun,et al.SocialTrans- tions on neural networks,2011,22(2):199-210. fer:cross-domain transfer learning from social streams for [23]GONG Boqing,SHI Yuan,SHA Fei,et al.Geodesic flow media applications[Cl//Proceedings of the 20th ACM in- kernel for unsupervised domain adaptation[C]//Proceed- ternational conference on Multimedia.Nara,Japan:ACM, ings of the 2012 IEEE Conference on Computer Vision 2012:649-658 and Pattern Recognition.Providence,USA:IEEE [13]WANG Shuhui,JIANG Shuqiang,HUANG Qingming,et 2012:2066-2073 al.Multi-feature metric learning with knowledge transfer [24]ZHONG Erheng,FAN Wei,PENG Jing,et al.Cross do- among semantics and social tagging[C]//Proceedings of main distribution adaptation via kernel mapping[C /Pro- 2012 IEEE Conference on Computer Vision and Pattern ceedings of the 15th ACM SIGKDD International Confer- Recognition.Providence:IEEE,2012:2240-2247. ence on Knowledge Discovery and Data Mining.Paris, [14]AYTAR Y,ZISSERMAN A.Tabula rasa:model transfer France:ACM,2009 for object category detection[C]//Proceedings of 2011 In- [25]BRUZZONE L,MARCONCINI M.Domain adaptation ternational Conference on Computer Vision.Barcelona, problems:A DASVM classification technique and a cir- Spain:EEE,2011:2252-2259. cular validation strategy[J].IEEE transactions on pattern [15]GOPALAN R,LI Ruonan,CHELLAPPA R.Domain ad- analysis and machine intelligence,2010,32(5):770-787. aptation for object recognition:an unsupervised [26]QUANZ B,HUAN J,MISHRA M.Knowledge transfer approach[C]//2011 International Conference on Com- with low-quality data:A feature extraction issue[J].IEEE puter Vision.Barcelona,Spain:IEEE,2011:999-1006. transactions on knowledge and data engineering,2012, [16]GUILLAUMIN M,FERRARI V.Large-scale knowledge 24(10):1789-1802. transfer for object localization in ImageNet[C]//Proceed- [27]LUCEY P,COHN J F,KANADE T,et al.The extended ings of 2012 IEEE Computer Vision and Pattern Recogni- Cohn-Kanade dataset (CK+):a complete dataset for ac- tion.Providence,USA:IEEE,2012:3202-3209 tion unit and emotion-specified expression[C]//Proceed- [17]LAMPERT C H,NICKISCH H,HARMELING S.Learn- ings of 2010 IEEE Computer Society Conference on ing to detect unseen object classes by between-class at- Computer Vision and Pattern Recognition-Workshops. tribute transfer[C]//2009 IEEE Conference on Computer San Francisco,USA:IEEE,2010:94-101. Vision and Pattern Recognition.Miami,USA:IEEE, [28]KANADE T,COHN J F,TIAN Yingli.Comprehensive 2009:951-958. database for facial expression analysis[C]//Proceedings of [18]JHUO I H,LIU D,LEE D T,et al.Robust visual domain the 4th IEEE International Conference on Automatic Face adaptation with low-rank reconstruction[C]//2012 IEEE and Gesture Recognition.Grenoble,France:IEEE.2020: Computer Vision and Pattern Recognition.Providence, 46-53. USA:IEEE,2012:2168-2175. [29]ZHAO Guoying,HUANG Xiaohua,TAINI M,et al.Fa- [19]LAMPERT C H,KROMER O.Weakly-paired maximum cial expression recognition from near-infrared videos[J]. covariance analysis for multimodal dimensionality reduc- Image and vision computing,2011,29(9):607-619. tion and transfer learning[C]//Proceedings of the 11th [30]HUANG J,GRETTON A,BORGWARDT K,et al.Cor-

BACCOUCHE M, MAMALET F, WOLF C, et al. Spatiotemporal convolutional sparse auto-encoder for sequence classification[C]//Proceedings of the of British Machine Vision Conference. Guildford, UK: BMVA Press, 2012:12. [9] WANG Hua, NIE Feiping, HUANG Heng, et al. Dyadic transfer learning for cross-domain image classification[C]//IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011:551−556. [10] LUO Jie, TOMMASI T, CAPUTO B. Multiclass transfer learning from unconstrained priors[C]//IEEE International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011:1863−1870. [11] ROY S D, MEI Tao, ZENG Wenjun, et al. SocialTransfer: cross-domain transfer learning from social streams for media applications[C]//Proceedings of the 20th ACM international conference on Multimedia. Nara, Japan: ACM, 2012:649−658. [12] WANG Shuhui, JIANG Shuqiang, HUANG Qingming, et al. Multi-feature metric learning with knowledge transfer among semantics and social tagging[C]//Proceedings of 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence: IEEE, 2012:2240−2247. [13] AYTAR Y, ZISSERMAN A. Tabula rasa: model transfer for object category detection[C]//Proceedings of 2011 International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011:2252−2259. [14] GOPALAN R, LI Ruonan, CHELLAPPA R. Domain adaptation for object recognition: an unsupervised approach[C]//2011 International Conference on Computer Vision. Barcelona, Spain: IEEE, 2011:999−1006. [15] GUILLAUMIN M, FERRARI V. Large-scale knowledge transfer for object localization in ImageNet[C]//Proceedings of 2012 IEEE Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012:3202−3209. [16] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA: IEEE, 2009:951−958. [17] JHUO I H, LIU D, LEE D T, et al. Robust visual domain adaptation with low-rank reconstruction[C]//2012 IEEE Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012:2168−2175. [18] LAMPERT C H, KRÖMER O. Weakly-paired maximum covariance analysis for multimodal dimensionality reduction and transfer learning[C]//Proceedings of the 11th [19] European Conference on Computer Vision. Heraklion, Crete, Greece: Springer-Verlag, 2010:566−579. QIU Qiang, PATEL V M, TURAGA P, et al. Domain adaptive dictionary learning[C]//Proceedings of the 12th European Conference on Computer Vision. Florence, Italy: Springer-Verlag, 2012:631−645. [20] DAI Wenyuan, YANG Qiang, XUE Guirong, et al. Boosting for transfer learning[C]//Proceedings of the 24th International Conference on Machine Learning. Corvalis, USA: ACM, 2007:193−200. [21] PAN S J, TSANG I W, KWOK J T, et al. Domain adaptation via transfer component analysis[J]. IEEE transactions on neural networks, 2011, 22(2): 199–210. [22] GONG Boqing, SHI Yuan, SHA Fei, et al. Geodesic flow kernel for unsupervised domain adaptation[C]//Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012:2066−2073. [23] ZHONG Erheng, FAN Wei, PENG Jing, et al. Cross domain distribution adaptation via kernel mapping[C]//Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Paris, France: ACM, 2009. [24] BRUZZONE L, MARCONCINI M. Domain adaptation problems: A DASVM classification technique and a circular validation strategy[J]. IEEE transactions on pattern analysis and machine intelligence, 2010, 32(5): 770–787. [25] QUANZ B, HUAN J, MISHRA M. Knowledge transfer with low-quality data: A feature extraction issue[J]. IEEE transactions on knowledge and data engineering, 2012, 24(10): 1789–1802. [26] LUCEY P, COHN J F, KANADE T, et al. The extended Cohn-Kanade dataset (CK+): a complete dataset for action unit and emotion-specified expression[C]//Proceedings of 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops. San Francisco, USA: IEEE, 2010: 94−101. [27] KANADE T, COHN J F, TIAN Yingli. Comprehensive database for facial expression analysis[C]//Proceedings of the 4th IEEE International Conference on Automatic Face and Gesture Recognition. Grenoble, France: IEEE, 2020: 46−53. [28] ZHAO Guoying, HUANG Xiaohua, TAINI M, et al. Facial expression recognition from near-infrared videos[J]. Image and vision computing, 2011, 29(9): 607–619. [29] [30] HUANG J, GRETTON A, BORGWARDT K, et al. Cor- 第 3 期莫宏伟，等：基于迁移学习的无监督跨域人脸表情识别 ·405·

·406· 智能系统学报第16卷 recting sample selection bias by unlabeled data[J].Ad- 作者简介： vances in neural information processing systems,2006, 莫宏伟，教授，博士生导师.博士 19:601-608 主要研究方向为类脑计算与人工智 [31]SUGIYAMA M.NAKAJIMA S,KASHIMA H,et al. 能、机器视觉与机器认知、人机混合智能。主持国家自然科学基金等项目 Direct importance estimation with model selection and its 20余项。出版专著6部，发表学术论 application to covariate shift adaptation[C]//Proceedings 文80余篇。 of 21st Annual Conference on Advances in Neural In- formation Processing Systems.Vancouver,Canada: 傅智杰，硕士研究生，主要研究方 NIPS,2008:1433-1440. 向为深度学习、计算机视觉、医学影像。 [32]刘斌，米强，徐岩.LBP和MB-LBP加权融合的人脸识别[.计算机工程与设计，2018,39(2)：551-556 LIU Bin,MI Qiang,XU Yan.Face recognition based on weighted fusion of LBP and MB-LBP features[J].Com- puter engineering and design,2018,39(2):551-556 CAAI第六届全国大数据与社会计算学术会议 China National Conference on Dig Data and Social Computing 2021年8月21-22日，由中国人工智能学会主办，CAAI社会计算与社会智能专委会、重庆工商大学承办的“CAAI第六届全国大数据与社会计算学术会议”（以下简称BDSC2021)将在重庆召开。 BDSC创建于2012年，旨在搭建全国大数据与社会计算学术交流平台，培育社会计算与社会智能学科发展，助力社会计算与社会智能领域人才成长，建设“有仁、有信、有情”的学术共同体，已成为全国大数据与社会计算领域的知名学术交流品牌。本次会议的主题为“数字社会的重构与转型”，面向国家经济社会发展战略，立足数字社会构建，通过跨学科交叉视野剖析数字社会的机遇与挑战。会议面向全国开展大数据与社会计算领域的学术征文，重点探讨数字社会的基础性、前瞻性和战略性理论及其应用，讨论数字社会领域前沿进展，交流新的学术思想和新方法，探索数字社会对人类发展的意义，展望数字社会未来的发展趋势。本次大会将组织专家对所有投稿论文进行双盲评审，优秀论文将有机会被推荐到11本高水平期刊进入期刊快速评审通道，所有录用论文在大会上进行墙报(poster)交流。大会将邀请人工智能、I0T+5G网络、地理信息以及社会科学、系统科学等交叉领域的重量级学者做大会报告，举办系统科学的前沿讲习班。大会致力于跨越传统学科分界，呈现大数据智能时代社会研究新境界，将重磅发布极具创新性的大规模社会计算试验场和社会计算开放数据集，并举办全国社会计算大赛。征文主题： 1)社会系统建模与仿真；2)人工智能与认知科学；3)社会网络与群体行为；4)社会地理与城市计算； 5)计算人口新范式、新方法；6)数字基础建设与智能社会；7)数据价值评估与流通服务；8)数字社会与公共安全：9)数字政府与公共大数据：10)数字技术与社会韧性：11)数据与社会治理；12)数字平台建设与管理； 13)计算社会与系统工程：14)数据伦理与隐私保护。重要时间：投稿截止日期：2021年6月15日审稿通知日期：2021年7月15日审稿修改日期：2021年8月1日录用通知日期：2021年8月7日会议召开日期：2021年8月21-22日投稿链接：https:/easychair..org/conferences/?conf=bdsc202l 大会网站：htp://idke.ruc.edu.cn/BDSC202l/

recting sample selection bias by unlabeled data[J]. Advances in neural information processing systems, 2006, 19: 601–608. SUGIYAMA M, NAKAJIMA S, KASHIMA H, et al. Direct importance estimation with model selection and its application to covariate shift adaptation[C]//Proceedings of 21st Annual Conference on Advances in Neural Information Processing Systems. Vancouver, Canada: NIPS, 2008: 1433−1440. [31] 刘斌, 米强, 徐岩. LBP 和 MB-LBP 加权融合的人脸识别 [J]. 计算机工程与设计, 2018, 39(2): 551–556. LIU Bin, MI Qiang, XU Yan. Face recognition based on weighted fusion of LBP and MB-LBP features[J]. Computer engineering and design, 2018, 39(2): 551–556. [32] 作者简介：莫宏伟，教授，博士生导师，博士，主要研究方向为类脑计算与人工智能、机器视觉与机器认知、人机混合智能。主持国家自然科学基金等项目 20 余项。出版专著 6 部，发表学术论文 80 余篇。傅智杰，硕士研究生，主要研究方向为深度学习、计算机视觉、医学影像。 CAAI 第六届全国大数据与社会计算学术会议 China National Conference on Dig Data and Social Computing 2021 年 8 月 21−22 日，由中国人工智能学会主办，CAAI 社会计算与社会智能专委会、重庆工商大学承办的“CAAI 第六届全国大数据与社会计算学术会议”（以下简称 BDSC 2021）将在重庆召开。 BDSC 创建于 2012 年，旨在搭建全国大数据与社会计算学术交流平台，培育社会计算与社会智能学科发展，助力社会计算与社会智能领域人才成长，建设“有仁、有信、有情”的学术共同体，已成为全国大数据与社会计算领域的知名学术交流品牌。本次会议的主题为“数字社会的重构与转型”，面向国家经济社会发展战略，立足数字社会构建，通过跨学科交叉视野剖析数字社会的机遇与挑战。会议面向全国开展大数据与社会计算领域的学术征文，重点探讨数字社会的基础性、前瞻性和战略性理论及其应用，讨论数字社会领域前沿进展，交流新的学术思想和新方法，探索数字社会对人类发展的意义，展望数字社会未来的发展趋势。本次大会将组织专家对所有投稿论文进行双盲评审，优秀论文将有机会被推荐到 11 本高水平期刊进入期刊快速评审通道，所有录用论文在大会上进行墙报（poster）交流。大会将邀请人工智能、IoT+5G 网络、地理信息以及社会科学、系统科学等交叉领域的重量级学者做大会报告，举办系统科学的前沿讲习班。大会致力于跨越传统学科分界，呈现大数据智能时代社会研究新境界，将重磅发布极具创新性的大规模社会计算试验场和社会计算开放数据集，并举办全国社会计算大赛。征文主题： 1）社会系统建模与仿真；2）人工智能与认知科学；3）社会网络与群体行为；4）社会地理与城市计算； 5）计算人口新范式、新方法；6）数字基础建设与智能社会；7）数据价值评估与流通服务；8）数字社会与公共安全；9）数字政府与公共大数据；10）数字技术与社会韧性；11）数据与社会治理；12）数字平台建设与管理； 13）计算社会与系统工程；14）数据伦理与隐私保护。重要时间：投稿截止日期：2021 年 6 月 15 日审稿通知日期：2021 年 7 月 15 日审稿修改日期：2021 年 8 月 1 日录用通知日期：2021 年 8 月 7 日会议召开日期：2021 年 8 月 21−22 日投稿链接：https://easychair.org/conferences/?conf=bdsc2021 大会网站：http://idke.ruc.edu.cn/BDSC2021/ ·406· 智能系统学报第 16 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录