正在加载图片...
第3期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·399· 源域数据目标域数据 源域数据。 ◆ 缘分布差异。 目标域数据 公共子空间中 原域数据· ◆ 1.5条件分布对齐 公共子空间中目标域数据。◆◆ 减小边缘分布的差异通常并不能保证域之间 原始空间 公共子空间(RKHS) 的条件分布差异也随之减小。实际上最小化条件分 特征变换 布P(YX)和P(YX)之间的差异对于跨域识别 MMD 问题来说也是至关重要的。然而,对齐条件分布 并不是很容易,在目标域没有标签数据,对条件 图1分布对齐原理示意 分布P(YX)直接进行求解是行不通的。因此可 Fig.1 Schematic diagram of the distribution alignment 以使用类条件分布的充分统计量P(XY,)来近似 1.3特征变换 P(Y,X,)。近来的一些工作开始通过内核映射空 令X=[X,X]∈Rmx,+n)为输入矩阵,n和n 间中的样本选择、联合训练、循环验证、核密 分别为源域和目标域中的样本个数,H=1-1 度估计26]等进行条件分布对齐。但是这些方法 n+n 往往都需要在目标域中有一些标签数据,所以这 1为中心矩阵,其中I∈R,+,+m)为单位矩阵,1是 一个(n,+n,)×(m,+n)的全1矩阵,则输入数据的 些方法并不能解决我们的问题。 为了解决这一问题,提出利用目标域数据的 协方差矩阵可以表示为XHXT。本文的主要目标 伪标签,即通过将在有标签的源域数据上训练的 就是找到一个正交变换矩阵W∈Rm使得源域和 基分类器应用于无标签的目标域数据,可以很容 目标域数据映射到公共子空间中的数据方差最 易地预测目标域数据的伪标签。由于不同域之间 大,即 的分布差异,这些伪标签可能不是太准确,需要 max t(WXHXW) (2) 在实验中进行迭代优化。在源域带标签数据上训 1.4边缘分布对齐 练的基分类器可以是标准的学习器,例如支持向 在进行分布对齐之前,需要解决的主要问题 量机(SVM)、NN等。 就是找到一个合适的度量准则来计算2个域之间 有了真实标签的源域数据和带有伪标签的目 的分布差异。而在机器学习中存在很多度量准则 标域数据之后,就可以在标签空间Y的每个类中 可以度量不同分布之间的差异,例如欧氏距离、 匹配类条件分布P(xy=c)和P,(xb,=c), 余弦相似度、KL散度等。但这些方法通常计算 c=(1,2,…,C。为了测量类条件分布P(xby,=c) 起来比较复杂。因此为了对齐边缘分布,减小边 和P(xy,=c)之间的距离,本文对MMD进行了 缘分布P(X)和P(X)之间的差异,采用无参数的最 修改。因此,条件分布对齐的目标函数可以写成: 大均值差异MMD来度量不同分布之间的距离。 MMD的主要目标就是在RKHS中计算经过 mi的 (6) 变换后的源域样本和目标域样本均值之间的距 XED 离。因此,边缘分布对齐的目标函数可以写成: 式中:D9={::x:∈D,Ay()=c}是源域数据中属 于第c类的样本集合;y(x)是数据:的真实标签; (3) n9=D是源域数据中属于第c类的样本个数。对 应的,D9={x:x,∈D,Ax)=c是目标域数据中 式中:x、x,分别为源域和目标域中的第i个样本 属于第c类样本集合,x)是样本x的伪标签, 和第j个样本;H表示可再生核希尔伯特空间。 m9=D是目标域数据中属于第c类样本的个数。 通过矩阵技巧和迹优化,式(3)可以被改写为 通过进一步优化,式(6)可以简化为 (WXLXW) (4) iu(WXL.XW) (7) 其中L是MMD矩阵,计算如下: 式中:L是类标签的MMD矩阵,计算如下: xi,xi∈D n:n, nono rxj∈De Lo= x,xj∈D, (5) 1 nene xi,xjE De) 1 (8) 其他 (L)= n几 1 x∈De,xjEDI 因此,通过式(4)使得域之间的边缘分布 nonos xeDP,x,∈D PX)和P(X)尽可能地接近,减小了域之间的边 0 其他原始空间 MMD 公共子空间 (RKHS) 源域数据 目标域数据 源域数据 目标域数据 公共子空间中源域数据 公共子空间中目标域数据 特征变换 图 1 分布对齐原理示意 Fig. 1 Schematic diagram of the distribution alignment 1.3 特征变换 X = [Xs ,Xt] ∈ R m×(ns+nt) ns nt H = I− 1 ns +nt 1 I ∈ R (ns+nt)(ns+nt) 1 (ns +nt)×(ns +nt) XHXT W ∈ R m×k 令 为输入矩阵, 和 分别为源域和目标域中的样本个数, 为中心矩阵,其中 为单位矩阵, 是 一个 的全 1 矩阵,则输入数据的 协方差矩阵可以表示为 。本文的主要目标 就是找到一个正交变换矩阵 使得源域和 目标域数据映射到公共子空间中的数据方差最 大,即 max WTW=I tr(WTXHXTW) (2) 1.4 边缘分布对齐 P(Xs) P(Xt) 在进行分布对齐之前,需要解决的主要问题 就是找到一个合适的度量准则来计算 2 个域之间 的分布差异。而在机器学习中存在很多度量准则 可以度量不同分布之间的差异, 例如欧氏距离、 余弦相似度、KL 散度等。但这些方法通常计算 起来比较复杂。因此为了对齐边缘分布,减小边 缘分布 和 之间的差异,采用无参数的最 大均值差异 MMD 来度量不同分布之间的距离。 MMD 的主要目标就是在 RKHS 中计算经过 变换后的源域样本和目标域样本均值之间的距 离。因此,边缘分布对齐的目标函数可以写成: min WTW=I 1 ns ∑ns i=1 WT xi − 1 nt ∑nt j=1 WT xj 2 H (3) xi xj i j H 式中: 、 分别为源域和目标域中的第 个样本 和第 个样本; 表示可再生核希尔伯特空间。 通过矩阵技巧和迹优化,式 (3) 可以被改写为 min WTW=I tr(WTXLXTW) (4) 其中 L 是 MMD 矩阵,计算如下: Li j =    1 nsns , xi , xj ∈ Ds 1 ntnt , xi , xj ∈ Dt − 1 nsnt , 其他 (5) P(Xs) P(Xt) 因此,通过式 (4) 使得域之间的边缘分布 和 尽可能地接近,减小了域之间的边 缘分布差异。 1.5 条件分布对齐 Ps (Ys |Xs) Pt(Yt |Xt) Pt(Yt |Xt) Pt(Xt |Yt) Pt(Yt |Xt) 减小边缘分布的差异通常并不能保证域之间 的条件分布差异也随之减小。实际上最小化条件分 布 和 之间的差异对于跨域识别 问题来说也是至关重要的。然而,对齐条件分布 并不是很容易,在目标域没有标签数据,对条件 分布 直接进行求解是行不通的。因此可 以使用类条件分布的充分统计量 来近似 。近来的一些工作开始通过内核映射空 间中的样本选择、联合训练[24] 、循环验证[25] 、核密 度估计[26] 等进行条件分布对齐。但是这些方法 往往都需要在目标域中有一些标签数据,所以这 些方法并不能解决我们的问题。 为了解决这一问题,提出利用目标域数据的 伪标签,即通过将在有标签的源域数据上训练的 基分类器应用于无标签的目标域数据,可以很容 易地预测目标域数据的伪标签。由于不同域之间 的分布差异,这些伪标签可能不是太准确,需要 在实验中进行迭代优化。在源域带标签数据上训 练的基分类器可以是标准的学习器,例如支持向 量机 (SVM)、NN 等。 Y Ps (xs |ys = c) Pt (xt |yt = c) c = {1,2,··· ,C} Ps (xs |ys = c) Pt (xt |yt = c) 有了真实标签的源域数据和带有伪标签的目 标域数据之后,就可以在标签空间 的每个类中 匹配类条件分布 和 , 。为了测量类条件分布 和 之间的距离,本文对 MMD 进行了 修改。因此,条件分布对齐的目标函数可以写成: min WTW=I 1 n (c) s ∑ xi∈D (c) s WT xi − 1 n (c) t ∑ xj∈D (c) t WT xj 2 H (6) D (c) s = {xi : xi ∈ Ds ∧y(xi) = c} y(xi) xi n (c) s = D (c) s D (c) t = {xj : xj ∈ Dt ∧yˆ(xj) = c} yˆ(xj) xj n (c) t = D (c) t 式中: 是源域数据中属 于第 c 类的样本集合; 是数据 的真实标签; 是源域数据中属于第 c 类的样本个数。对 应的, 是目标域数据中 属于第 c 类样本集合, 是样本 的伪标签, 是目标域数据中属于第 c 类样本的个数。 通过进一步优化,式 (6) 可以简化为 min WTW=I tr( WTXLcX TW ) (7) 式中: Lc 是类标签的 MMD 矩阵,计算如下: (Lc)i j =    1 n (c) s n (c) s , xi , xj ∈ D (c) s 1 n (c) t n (c) t , xi , xj ∈ D (c) t − 1 n (c) s n (c) t , { xi ∈ D (c) s , xj ∈ D (c) t xj ∈ D (c) s , xi ∈ D (c) t 0, 其他 (8) 第 3 期 莫宏伟,等:基于迁移学习的无监督跨域人脸表情识别 ·399·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有