第16卷第6期 智能系统学报 Vol.16 No.6 2021年11月 CAAI Transactions on Intelligent Systems Now.2021 D0:10.11992tis.202010020 网络出版地址:https:/kns.cnki.net/kcms/detail/23.1538.TP.20210831.1640.008.html 基于分类差异与信息熵对抗的无监督域适应算法 李庆勇',何军2,张春晓 (1.南京信息工程大学电子与信息工程学院,江苏南京210044,2.南京信息工程大学人工智能学院,江苏南 京210044)) 摘要:采用对抗训练的方式成为域适应算法的主流,通过域分类器将源域和目标域的特征分布对齐,诚小不 同域之间的特征分布差异。但是,现有的域适应方法仅将不同域数据之间的距离缩小,而没有考虑目标域数据 分布与决策边界之间的关系,这会降低目标域内不同类别的特征的域内可区分性。针对现有方法的缺点,提出 一种基于分类差异与信息嫡对抗的无监督域适应算法(adversarial training on classification discrepancy and informa- tion entropy for unsupervised domain adaptation,.ACDIE)。该算法利用两个分类器之间的不一致性对齐域间差异, 同时利用最小化信息嫡的方式降低不确定性,使目标域特征远离决策边界,提高了不同类别的可区分性。在数 字标识数据集和Office-31数据集上的实验结果表明,ACDIE算法可以学习到更优的特征表示,域适应分类准 确率有明显提高。 关键词:域适应:对抗训练:神经网络:无监督学习:迁移学习:分类差异:信息嫡:决策边界 中图分类号:TP391 文献标志码:A文章编号:1673-4785(2021)06-0999-08 中文引用格式:李庆勇,何军,张春晓.基于分类差异与信息嫡对抗的无监督域适应算法.智能系统学报,2021,16(6): 999-1006. 英文引用格式:LI Qingyong,.HEJun,ZHANG Chunxiao..Unsupervised domain adaptation algorithm based on classification dis- crepancy and information entropyJ.CAAI transactions on intelligent systems,2021,16(6):999-1006. Unsupervised domain adaptation algorithm based on classification discrepancy and information entropy LI Qingyong',HE Jun,ZHANG Chunxiao (1.School of Electronics and Information Engineering,Nanjing University of Information Science and Technology,Nanjing 210044. China;2.School of Artificial Intelligence,Nanjing University of Information Science and Technology,Nanjing 210044,China) Abstract:The adversarial training method has become the mainstream of the domain adaptation algorithm.The feature distributions of the source and target domains are aligned by a domain classifier to reduce the feature distribution dis- crepancy among different domains.However,existing domain adaptation methods only reduce the distance between dif- ferent domain data without considering the relationship between the data distribution of the target domain and decision boundaries,thus decreasing the intradomain distinguishability of different categories in the target domain.Considering the shortcomings of the existing methods,an unsupervised domain adaptation algorithm based on classification discrep- ancy and information entropy confrontation(ACDIE)is proposed in this study.The algorithm uses the discrepancy and the domain aligning discrepancy between two classifiers and minimizes the information entropy to reduce uncertainty. Consequently,the proposed method makes the target domain feature far away from the decision boundaries and im- proves the distinguishability of different categories.The experimental results of the digital identification and Office-31 datasets show that the ACDIE algorithm can learn better feature representation.Moreover,the accuracy of the domain adaptation classification is considerably improved. Keywords:domain adaptation;confrontation training;neural network;unsupervised learning;transfer learning;classi- fication discrepancy;information entropy;decision boundary 在大数据时代的背景下,数据呈爆炸式增长, 收稿日期:2020-10-19.网络出版日期:2021-09-01. 基金项目:国家自然科学基金项目(61601230). 但大部分数据缺失有效的标注信息。由于数据标 通信作者:何军.E-mail:jhe@nuist.edu.cn. 注任务的成本较高,通过无监督学习的方式进行
DOI: 10.11992/tis.202010020 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210831.1640.008.html 基于分类差异与信息熵对抗的无监督域适应算法 李庆勇1 ,何军1,2,张春晓1 (1. 南京信息工程大学 电子与信息工程学院,江苏 南京 210044; 2. 南京信息工程大学 人工智能学院,江苏 南 京 210044) 摘 要:采用对抗训练的方式成为域适应算法的主流,通过域分类器将源域和目标域的特征分布对齐,减小不 同域之间的特征分布差异。但是,现有的域适应方法仅将不同域数据之间的距离缩小,而没有考虑目标域数据 分布与决策边界之间的关系,这会降低目标域内不同类别的特征的域内可区分性。针对现有方法的缺点,提出 一种基于分类差异与信息熵对抗的无监督域适应算法 (adversarial training on classification discrepancy and information entropy for unsupervised domain adaptation, ACDIE)。该算法利用两个分类器之间的不一致性对齐域间差异, 同时利用最小化信息熵的方式降低不确定性,使目标域特征远离决策边界,提高了不同类别的可区分性。在数 字标识数据集和 Office-31 数据集上的实验结果表明,ACDIE 算法可以学习到更优的特征表示,域适应分类准 确率有明显提高。 关键词:域适应;对抗训练;神经网络;无监督学习;迁移学习;分类差异;信息熵;决策边界 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)06−0999−08 中文引用格式:李庆勇, 何军, 张春晓. 基于分类差异与信息熵对抗的无监督域适应算法 [J]. 智能系统学报, 2021, 16(6): 999–1006. 英文引用格式:LI Qingyong, HE Jun, ZHANG Chunxiao. Unsupervised domain adaptation algorithm based on classification discrepancy and information entropy[J]. CAAI transactions on intelligent systems, 2021, 16(6): 999–1006. Unsupervised domain adaptation algorithm based on classification discrepancy and information entropy LI Qingyong1 ,HE Jun1,2 ,ZHANG Chunxiao1 (1. School of Electronics and Information Engineering, Nanjing University of Information Science and Technology, Nanjing 210044, China; 2. School of Artificial Intelligence, Nanjing University of Information Science and Technology, Nanjing 210044, China) Abstract: The adversarial training method has become the mainstream of the domain adaptation algorithm. The feature distributions of the source and target domains are aligned by a domain classifier to reduce the feature distribution discrepancy among different domains. However, existing domain adaptation methods only reduce the distance between different domain data without considering the relationship between the data distribution of the target domain and decision boundaries, thus decreasing the intradomain distinguishability of different categories in the target domain. Considering the shortcomings of the existing methods, an unsupervised domain adaptation algorithm based on classification discrepancy and information entropy confrontation (ACDIE) is proposed in this study. The algorithm uses the discrepancy and the domain aligning discrepancy between two classifiers and minimizes the information entropy to reduce uncertainty. Consequently, the proposed method makes the target domain feature far away from the decision boundaries and improves the distinguishability of different categories. The experimental results of the digital identification and Office-31 datasets show that the ACDIE algorithm can learn better feature representation. Moreover, the accuracy of the domain adaptation classification is considerably improved. Keywords: domain adaptation; confrontation training; neural network; unsupervised learning; transfer learning; classification discrepancy; information entropy; decision boundary 在大数据时代的背景下,数据呈爆炸式增长, 但大部分数据缺失有效的标注信息。由于数据标 注任务的成本较高,通过无监督学习的方式进行 收稿日期:2020−10−19. 网络出版日期:2021−09−01. 基金项目:国家自然科学基金项目 (61601230). 通信作者:何军. E-mail:jhe@nuist.edu.cn. 第 16 卷第 6 期 智 能 系 统 学 报 Vol.16 No.6 2021 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2021
·1000· 智能系统学报 第16卷 模型训练可以大大减少投入的人力、物力和时间 类效果。Saito等7通过训练两个分类器以最大 成本,所以无监督学习成为机器学习领域一个重 化分类差异,但其方法只是减少源域和目标域之 要的研究方向。其次,传统机器学习算法中存 间的距离,而未增大目标域不同类之间的距离, 在用训练集数据进行训练得到的模型无法适应现 这会使目标域样本靠近决策边界,使分类不确定 实场景的问题,这是由训练集数据与实际测试数 性增加。 据的特征分布不同导致的。 为此,本文提出一种基于分类差异和信息嫡 针对以上问题,迁移学习(transfer learning, 对抗的无监督域适应模型。利用两个分类器之间 TL)方法被提出,域适应学习(domain adaptation 的不一致性对齐域间差异,使源域和目标域数据 learning,DAL)作为一种同构迁移学习方法,在 之间的距离最小,同时利用最小化熵的方式降低 源域与目标域样本特征分布不同但相似的前提 不确定性,使目标域特征远离决策边界,提高了 下,将源域样本分类模型迁移到目标域,使模型 目标域样本的类间差异。 适应目标域数据。无监督域适应模型通过带标签 源域数据和无标签目标域数据进行训练,即使训 1分类差异和信息熵对抗 练过程中不包含目标域标注信息,也可以在目标 假设给定带标签的源域数据集D=(X,Y}, 域数据中实现很好的识别效果。 源域图像x,对应标签为y,同时给定无标签目标 Ghifary等利用传统DAL思想,使用自编码 域数据集D,={X,目标域图像为x。本文模型包 器学习共享编码以获得域不变特征,实现在特征 括特征生成网络G和分类器网络F、F2,G网络 向量空间中,不同域样本特征之间的距离减小的 接收图像x,或x的输入,经过特征提取输出特征 目的,从而使无标签目标域样本得到正确分类。 向量∫,分类器F,和F2将特征向量分为K类,即 Sener等m提出利用聚类和伪标签的方法来获取 输出K维向量,对向量应用Softmax函数得到类 分类特征,从而实现在无标签目标域上的分类。 别概率。本文使用符号pOyx、P2Ox)来分别表示 卷积神经网络中间特征的分布匹配被认为是实现 由F,和F2获得的输入图像x的K维概率输出。 域适应的有效方法I。最大均值差异(maximum 相比于其他域适应算法,本文算法在最小化 mean discrepancy,.MMD)使用核函数映射特征来 域间差异的同时,可以使目标域内不同类别样本 度量两不同分布之间的距离,通过最小化源域与 之间的差异最大化。如图1所示,对于目标域数 目标域之间的距离得到域共享特征。Tzeng等uo 据,其他方法因为仅对齐域间差异,缩小源域和 在分类损失的基础上加了一层适配层,通过在适 目标域数据之间的距离,所以特征生成器会在分 配层上引入MMD距离来度量最小化两个领域的 类边界附近生成模糊特征。本文模型方法利用对 分布差异。Long等在MMD方法的基础上改 抗训练思想,最小化源域与目标域数据之间的距 进,采用多层适配和多核MMD使域差异最小化, 离,同时使目标域不同类别远离分类边界,获得 实现源域和目标域特征具有相似的特征分布。借 更加具有区分性的特征,从而提高域适应分类的 鉴生成对抗网络(generative adversarial network, 准确率。 GAN]独特的对抗训练方式,Ganin等提出包 城适应前 域适应后 域适应前 域适应后 含特征生成器和域分类器结构的模型DANN,利 用特征生成器生成欺骗域分类器的特征,从而将 源域和目标域数据映射到相似的概率分布上。王 格格等]通过联合使用生成对抗网络和多核最 大均值差异度量准则优化域间差异,以学习源域 …源域目标域 ,源域目标域 一分类器决策边界 一分类器决策边界 分布和目标域分布之间的共享特征。Sankaranara- (a)其他方法 (b)本文方法 yanan等16提出了一个能够直接学习联合特征空 图1不同方法特征分布对比 间的对抗图像生成的无监督域适应方法GTA,利 Fig.1 Comparison of the feature distribution of different 用图像生成的对抗过程学习一个源域和目标域特 methods 征分布最小化的特征空间。但由于上述使用GAN 1.1 信息熵对抗 或MMD的分布对齐方法仅将不同域之间的距离 分类器的输出为经过Softmax函数得到的不 拉近,没有考虑目标样本与决策边界之间的关系, 同类别概率,根据信息嫡的定义,可以得到该分 因此无法优化域内类间差异,从而影响域适应分 类器结果的信息嫡大小,信息熵越大表示不同类
模型训练可以大大减少投入的人力、物力和时间 成本,所以无监督学习成为机器学习领域一个重 要的研究方向[1-2]。其次,传统机器学习算法中存 在用训练集数据进行训练得到的模型无法适应现 实场景的问题,这是由训练集数据与实际测试数 据的特征分布不同导致的[3]。 针对以上问题,迁移学习 (transfer learning, TL) 方法被提出[4] ,域适应学习 (domain adaptation learning,DAL) 作为一种同构迁移学习方法[5] ,在 源域与目标域样本特征分布不同但相似的前提 下,将源域样本分类模型迁移到目标域,使模型 适应目标域数据。无监督域适应模型通过带标签 源域数据和无标签目标域数据进行训练,即使训 练过程中不包含目标域标注信息,也可以在目标 域数据中实现很好的识别效果。 Ghifary 等 [6] 利用传统 DAL 思想,使用自编码 器学习共享编码以获得域不变特征,实现在特征 向量空间中,不同域样本特征之间的距离减小的 目的,从而使无标签目标域样本得到正确分类。 Sener 等 [7] 提出利用聚类和伪标签的方法来获取 分类特征,从而实现在无标签目标域上的分类。 卷积神经网络中间特征的分布匹配被认为是实现 域适应的有效方法[8]。最大均值差异 (maximum mean discrepancy,MMD)[9] 使用核函数映射特征来 度量两不同分布之间的距离,通过最小化源域与 目标域之间的距离得到域共享特征。Tzeng 等 [10] 在分类损失的基础上加了一层适配层,通过在适 配层上引入 MMD 距离来度量最小化两个领域的 分布差异。Long 等 [11-12] 在 MMD 方法的基础上改 进,采用多层适配和多核 MMD 使域差异最小化, 实现源域和目标域特征具有相似的特征分布。借 鉴生成对抗网络 (generative adversarial network, GAN)[13] 独特的对抗训练方式,Ganin 等 [14] 提出包 含特征生成器和域分类器结构的模型 DANN,利 用特征生成器生成欺骗域分类器的特征,从而将 源域和目标域数据映射到相似的概率分布上。王 格格等[15] 通过联合使用生成对抗网络和多核最 大均值差异度量准则优化域间差异,以学习源域 分布和目标域分布之间的共享特征。Sankaranarayanan 等 [16] 提出了一个能够直接学习联合特征空 间的对抗图像生成的无监督域适应方法 GTA,利 用图像生成的对抗过程学习一个源域和目标域特 征分布最小化的特征空间。但由于上述使用 GAN 或 MMD 的分布对齐方法仅将不同域之间的距离 拉近,没有考虑目标样本与决策边界之间的关系, 因此无法优化域内类间差异,从而影响域适应分 类效果。Saito 等 [17] 通过训练两个分类器以最大 化分类差异,但其方法只是减少源域和目标域之 间的距离,而未增大目标域不同类之间的距离, 这会使目标域样本靠近决策边界,使分类不确定 性增加。 为此,本文提出一种基于分类差异和信息熵 对抗的无监督域适应模型。利用两个分类器之间 的不一致性对齐域间差异,使源域和目标域数据 之间的距离最小,同时利用最小化熵的方式降低 不确定性,使目标域特征远离决策边界,提高了 目标域样本的类间差异。 1 分类差异和信息熵对抗 Ds = {Xs ,Ys} xs ys Dt = {Xt} xt G F1 F2 G xs xt f F1 F2 p1(y|x) p2(y|x) F1 F2 x 假设给定带标签的源域数据集 , 源域图像 对应标签为 ,同时给定无标签目标 域数据集 ,目标域图像为 。本文模型包 括特征生成网络 和分类器网络 、 , 网络 接收图像 或 的输入,经过特征提取输出特征 向量 ,分类器 和 将特征向量分为 K 类,即 输出 K 维向量,对向量应用 Softmax 函数得到类 别概率。本文使用符号 、 来分别表示 由 和 获得的输入图像 的 K 维概率输出。 相比于其他域适应算法,本文算法在最小化 域间差异的同时,可以使目标域内不同类别样本 之间的差异最大化。如图 1 所示,对于目标域数 据,其他方法因为仅对齐域间差异,缩小源域和 目标域数据之间的距离,所以特征生成器会在分 类边界附近生成模糊特征。本文模型方法利用对 抗训练思想,最小化源域与目标域数据之间的距 离,同时使目标域不同类别远离分类边界,获得 更加具有区分性的特征,从而提高域适应分类的 准确率。 (a) 其他方法 (b) 本文方法 域适应前 域适应后 源域 目标域 分类器决策边界 源域 目标域 分类器决策边界 域适应前 域适应后 图 1 不同方法特征分布对比 Fig. 1 Comparison of the feature distribution of different methods 1.1 信息熵对抗 分类器的输出为经过 Softmax 函数得到的不 同类别概率,根据信息熵的定义,可以得到该分 类器结果的信息熵大小,信息熵越大表示不同类 ·1000· 智 能 系 统 学 报 第 16 卷
第6期 李庆勇,等:基于分类差异与信息嫡对抗的无监督域适应算法 ·1001· 别的概率值越接近,表明分类边界越模糊,反之, 量分类器差异的H距离和常数A,其中H距离 信息嫡越小,表明分类边界越清晰。如图2所示, 用来度量区分不同域分类器的差异,入表示理想 借鉴对抗训练思想、特征生成器最小化信息熵、 假设的共享误差,通常被认为是一个极小的值。 分类器最大化信息熵,实现使生成的特征向量∫ 使用H表示分类器假设空间,对于给定的源域 远离分类边界的目的,其中不同形状的标志点代 和目标域T,则: 表不同类别的样本。 YheH,R,≤R,+idS,TD+人 (1) 分类器最大化 特征生成器 原特征分布 信息嫡 最小化信息嫡 dH(S,T)=2supE[h)≠h(-EIh)≠h(w] (hH (2) a=min[Rs(h)+R(h)] (3) 式中:[a是一个二值函数,当预测a正确时函数 值为1,否则为0。对于d4(S,T),通过对带标签的 图2信息熵对抗过程 源域数据的监督学习,可以认为预测函数h和 Fig.2 Information entropy confrontation process 可以对源域数据实现很好地分类,所以Eh(x)≠ 1.2算法分析 (x】部分值极小,因此可以近似认为: 本文算法的目标是利用特定任务的分类器作 dn(S.T)=sup E I[h(x)h(x] (4) (hh)EH护一 为判别器来减小源域和目标域特征的距离,以考 式(4)表示两个分类器对目标域样本预测差 虑类边界和目标样本之间的关系。为实现这个目 异的极限值。将h用特征提取器G的函数G(x)和 标,必须检测到靠近分类边界的目标域样本,本 分类器F,的函数F表示,用特征提取器G的函 文算法利用了两种分类器在目标样本预测上的不 数G(x)和分类器F2的函数F2表示,用符号“。”表示 一致性。由于源域数据带标签,所以分类器可以 不同网络结构之间输入输出的连接,则可以得到 对源域样本正确分类,两分类器F和F2的初始 955,oG(≠E,oG (5) 化不同必然使决策边界不同。如图3所示,处于 阴影处的目标域样本会被错误分类,如果能够测 引人对抗训练的方式,实现对特征提取器G 量两个分类器分类结果之间的不一致,并训练生 的优化: 成器使之最小化,则生成器将避免生成错误分类 minmx EFG≠FoG (6) 的目标域特征。同时分类器输出结果pOx)和 本文算法的目标是获得一个特征生成器,这 P2O)的信息熵越小,表示预测结果越具有确定 个特征生成器可以将目标样本的分类不确定性最 性,所以训练生成器使分类结果信息熵最小化, 小化,并且可以使目标域样本与源域样本的距离 则特征生成器将生成远离分类器决策边界的更加 最小化。 具有区分性的特征。 13 Softmax交叉熵损失 域适应前 最大化分类 最小化分类 域适应后 本文使用Softmax交叉嫡损失来优化有标注 距离和信息熵距离和信息嫡 源域数据集上的监督学习分类任务,通过对源域 数据的监督学习可以保证特征生成器在先验特 征空间上有合理的构造。Softmax交叉熵损失定 义为 目标域源域分类差异 类别1○ 一分类器决策边界 L(X,Y)=- 116=y91ogp.9) (7) 类别2○⊙ -一一.模糊决策边界 i=1 式中:i=)是一个二值函数,当i与相等 图3本文算法特征分布对齐过程 时,其值为1,否则为0;P:是经过映射函数得到 Fig.3 Alignment process of the feature distribution is presented in this paper 的分类概率输出,p,=Softmax oFoG。 使用距离d(px),P2Ox》度量分类器F和 1.4 分类差异损失 F2之间的差异,其中d表示计算两概率分布散度 将两个分类器的概率输出之差的绝对值之和 的函数。根据Ben-David等8提出的目标域样本 定义为分类距离损失: 误差限的计算理论,目标域样本的误差限Rh) 1 La(X )d(pi(yx,),p2(x,))= Elpu-pal (8) 与3个因素有关,包括源域样本误差限R()、度
f 别的概率值越接近,表明分类边界越模糊,反之, 信息熵越小,表明分类边界越清晰。如图 2 所示, 借鉴对抗训练思想、特征生成器最小化信息熵、 分类器最大化信息熵,实现使生成的特征向量 远离分类边界的目的,其中不同形状的标志点代 表不同类别的样本。 原特征分布 分类器最大化 信息熵 特征生成器 最小化信息熵 图 2 信息熵对抗过程 Fig. 2 Information entropy confrontation process 1.2 算法分析 F1 F2 p1(y|x) p2(y|x) 本文算法的目标是利用特定任务的分类器作 为判别器来减小源域和目标域特征的距离,以考 虑类边界和目标样本之间的关系。为实现这个目 标,必须检测到靠近分类边界的目标域样本,本 文算法利用了两种分类器在目标样本预测上的不 一致性。由于源域数据带标签,所以分类器可以 对源域样本正确分类,两分类器 和 的初始 化不同必然使决策边界不同。如图 3 所示,处于 阴影处的目标域样本会被错误分类,如果能够测 量两个分类器分类结果之间的不一致,并训练生 成器使之最小化,则生成器将避免生成错误分类 的目标域特征。同时分类器输出结果 和 的信息熵越小,表示预测结果越具有确定 性,所以训练生成器使分类结果信息熵最小化, 则特征生成器将生成远离分类器决策边界的更加 具有区分性的特征。 最大化分类 距离和信息熵 最小化分类 距离和信息熵 域适应前 域适应后 目标域 源域 分类器决策边界 分类差异 F1 F1 F1 F1 F2 F2 F2 F2 模糊决策边界 类别 1 类别 2 图 3 本文算法特征分布对齐过程 Fig. 3 Alignment process of the feature distribution is presented in this paper d(p1(y|xt), p2(y|xt)) F1 F2 RT (h) RS (h) 使用距离 度量分类器 和 之间的差异,其中 d 表示计算两概率分布散度 的函数。根据 Ben-David 等 [18] 提出的目标域样本 误差限的计算理论,目标域样本的误差限 与 3 个因素有关,包括源域样本误差限 、度 H λ H λ H 量分类器差异的 距离和常数 ,其中 距离 用来度量区分不同域分类器的差异, 表示理想 假设的共享误差,通常被认为是一个极小的值。 使用 表示分类器假设空间,对于给定的源域 S 和目标域 T,则: ∀h ∈ H,RT (h) ⩽ RS (h)+ 1 2 dH (S,T)+λ (1) dH (S,T) = 2 sup (h,h ′ )∈H2 E x∼S I[h(x) , h ′ (x)]− E x∼T I[h(x) , h ′ (x)] (2) λ = min[RS (h)+RT (h)] (3) I[a] a dH (S,T) h h ′ E x∼S I[h(x) , h ′ (x)] 式中: 是一个二值函数,当预测 正确时函数 值为 1,否则为 0。对于 ,通过对带标签的 源域数据的监督学习,可以认为预测函数 和 可以对源域数据实现很好地分类,所以 部分值极小,因此可以近似认为: dH (S,T) = sup (h,h ′ )∈H2 E x∼T I[h(x) , h ′ (x)] (4) h G G(x) F1 F1 h ′ G G(x) F2 F2 ◦ 式 (4) 表示两个分类器对目标域样本预测差 异的极限值。将 用特征提取器 的函数 和 分类器 的函数 表示, 用特征提取器 的函 数 和分类器 的函数 表示,用符号“ ”表示 不同网络结构之间输入输出的连接,则可以得到 sup F1 ,F2 E x∼T I[F1 ◦G(x) , F2 ◦G(x)] (5) 引入对抗训练的方式,实现对特征提取器 G 的优化: min G max F1,F2 E x∼T I[F1 ◦G(x) , F2 ◦G(x)] (6) 本文算法的目标是获得一个特征生成器,这 个特征生成器可以将目标样本的分类不确定性最 小化,并且可以使目标域样本与源域样本的距离 最小化。 1.3 Softmax 交叉熵损失 本文使用 Softmax 交叉熵损失来优化有标注 源域数据集上的监督学习分类任务,通过对源域 数据的监督学习可以保证特征生成器在先验特 征空间上有合理的构造。Softmax 交叉熵损失定 义为 Lcl(Xs ,Ys) = − 1 K ∑K i=1 I(i = y (i) s )log ps(x (i) s ) (7) I(i = y (i) s ) i y (i) s ps ps = Softmax ◦ F ◦G 式中: 是一个二值函数,当 与 相等 时,其值为 1,否则为 0; 是经过映射函数得到 的分类概率输出, 。 1.4 分类差异损失 将两个分类器的概率输出之差的绝对值之和 定义为分类距离损失: Ld(Xt) = d(p1(y|xt), p2(y|xt))= 1 K ∑K k=1 |p1k − p2k | (8) 第 6 期 李庆勇,等:基于分类差异与信息熵对抗的无监督域适应算法 ·1001·
·1002· 智能系统学报 第16卷 式中Pu和P2x分别表示第k类p1和p2的概率输出。 征,首先通过监督学习的方式训练特征生成器和 1.5信息熵损失 分类器以正确地对源域样本进行分类。训练网络 在目标域中,一个理想的特征向量∫输入分 G、F,和F2,以最小化Softmax交叉嫡优化目标, 类器得到的概率输出应该集中于某一类上。由于 如式(10)所示: 目标域数据没有标注信息,无法知道样本的类 min Le(.,Y.) (10) G.FF 别,因此本文通过最小化信息熵的方法来促使目 标域样本分类概率集中于某一类上,使得到的分 类结果更加具有确定性。定义嫡损失如下: 目标域数据 Len(X)=H(X,)= 2-FG2nEFG》o 特征 提取器G d(p vx).p)) 分类器 源域由于有标注信息,其样本的分类概率往 源域数据 往集中在所标注的类别上;而目标域由于存在域 间差异,其在分类概率上往往不够集中。训练特 征提取器最小化信息熵可以在特征向量层减小源 图4 ACDIE模型流程 域和目标域的域间差异,即使特征提取器具有更 Fig.4 ACDIE model flow 强的泛化能力。 2)训练分类器 1.6算法流程 固定特征生成器G的参数,利用目标域数据 Le,和Le分别表示分类器F,和F2的Softmax 训练分类器F,和F2,使分类概率输出的差异增 交叉嫡损失,Lmm和Leme分别表示分类器F,和F2 大,同时最大化分类输出的信息嫡,优化目标,如 的信息熵损失。输入源域数据集D,={X,Y,目标 式(11)所示: 域数据集D,=(X,批次大小为m,特征提取器训练 iLaXY)-L(X)-Lm(X)-LeX) (11) 次数为n。ACDE模型训练的整体算法流程为: 3)训练特征生成器 I)从D,中采样m个有标注数据{xym,记 固定分类器F,和F2的参数,利用目标域数据 为{Xm,Ym;从D,中采样m个无标注数据{x, 训练特征生成器G,最小化分类差异和分类概率 记为{Xm: 信息熵,使目标域特征靠近相似类别的源域特 2)通过有标注数据进行监督训练: 征,同时远离决策边界,使特征更加具有区分 3)计算损失函数L=Len+Le2: 性。优化目标如式(12)所示: 4)反向传播梯度信号,更新G、F,和F2中的 min La(X,)+Lem(X)+Lm2(X,) (12) 参数; 在训练过程中,将不断重复上述3个步骤,以 5)通过无标注数据进行域适应训练: 实现特征生成器和分类器关于分类距离和信息嫡 6计算损失函数L2=L+Len-L.(Xm)-Lea(Xm)- 的对抗训练。 Len2(Xm); 7)计算损失函数L=La(Xm)+Let1(Xm)+Lem2(Xm: 3实验设计与结果分析 8)反向传播梯度信号,更新G中的参数; 为了评价ACDIE算法的性能和效果,本文设 9)重复训练步骤7)~8)n次。 计了4种实验:数字标识域适应实验、实物域适 2训练步骤 应实验、t-SNE图可视化实验、信息熵损失对比实 验。特征生成器G采用包括卷积层、池化层的卷 分类器F,和F2接收特征生成器G生成的特 积神经网络进行特征提取,分类器F1和F2采用 征向量作为输入,F,和F2需要最大化分类距离差 具有相同网络结构的全连接神经网络进行分类。 异d(pOx),P2Gx,》和信息嫡H(x),而特征生成器 在G、F、F2网络中加入批次归一化(batch normal-. 最小化分类距离和信息熵。由此形成特征生成器 ization,.BN)层来提高网络的训练和收敛的速度, G与分类器F的关于分类距离和信息嫡的对抗训 防止梯度爆炸和梯度消失的发生,同时通过Dro- 练。ACDIE模型训练流程如图4所示,ACDIE模 pout层来防止模型过拟合。本文实验基于pyt- 型的训练可以分为以下3步。 orch深度学习框架,Ubuntul6.04操作系统,采用 1)模型预训练 E5-2670处理器,GPU为GeForce GTX1080Ti,内 为了使特征生成器获得特定任务的区分特 存32GB
式中 p1k 和 p2k 分别表示第 k 类 p1 和 p2 的概率输出。 1.5 信息熵损失 在目标域中,一个理想的特征向量 f 输入分 类器得到的概率输出应该集中于某一类上。由于 目标域数据没有标注信息,无法知道样本的类 别,因此本文通过最小化信息熵的方法来促使目 标域样本分类概率集中于某一类上,使得到的分 类结果更加具有确定性。定义熵损失如下: Lent(Xt) = H(Xt) = 1 K ∑K i=1 −F(G(x (i) t ))logF(G(x (i) t )) (9) 源域由于有标注信息,其样本的分类概率往 往集中在所标注的类别上;而目标域由于存在域 间差异,其在分类概率上往往不够集中。训练特 征提取器最小化信息熵可以在特征向量层减小源 域和目标域的域间差异,即使特征提取器具有更 强的泛化能力。 1.6 算法流程 Lcl1 Lcl2 F1 F2 Lent1 Lent2 F1 F2 Ds = {Xs ,Ys} Dt = {Xt} 和 分别表示分类器 和 的 Softmax 交叉熵损失, 和 分别表示分类器 和 的信息熵损失。输入源域数据集 ,目标 域数据集 ,批次大小为 m,特征提取器训练 次数为 n。ACDIE 模型训练的整体算法流程为: Ds {xsi, ysi} m i=1 {Xsm,Ysm} Dt {xti} m i=1 {Xtm} 1) 从 中采样 m 个有标注数据 ,记 为 ;从 中采样 m 个无标注数据 , 记为 ; 2) 通过有标注数据进行监督训练; 3) 计算损失函数 L1 = Lcl1 + Lcl2; 4) 反向传播梯度信号,更新 G、F1 和 F2 中的 参数; 5) 通过无标注数据进行域适应训练; L2 =Lcl1+Lcl2−Ld(Xtm)−Lent1(Xtm)− Lent2(Xtm) 6) 计算损失函数 ; 7) 计算损失函数 L3 =Ld(Xtm)+Lent1(Xtm)+Lent2(Xtm) ; 8) 反向传播梯度信号,更新 G 中的参数; 9) 重复训练步骤 7)~8)n 次。 2 训练步骤 F1 F2 G F1 F2 d(p1(y|xt), p2(y|xt)) H(xt) G F 分类器 和 接收特征生成器 生成的特 征向量作为输入, 和 需要最大化分类距离差 异 和信息熵 ,而特征生成器 最小化分类距离和信息熵。由此形成特征生成器 与分类器 的关于分类距离和信息熵的对抗训 练。ACDIE 模型训练流程如图 4 所示,ACDIE 模 型的训练可以分为以下 3 步。 1) 模型预训练 为了使特征生成器获得特定任务的区分特 G F1 F2 征,首先通过监督学习的方式训练特征生成器和 分类器以正确地对源域样本进行分类。训练网络 、 和 ,以最小化 Softmax 交叉熵优化目标, 如式 (10) 所示: min G,F1 ,F2 Lcl(Xs ,Ys) (10) 特征 提取器 G Softmax 分类器 F1 分类器 F2 Softmax 目标域数据 源域数据 ... ... ... ... Ler/1 Lc/1 d (p1 (y xt ), p2 (y xt )) Ler/2 Lc/2 图 4 ACDIE 模型流程 Fig. 4 ACDIE model flow 2) 训练分类器 G F1 F2 固定特征生成器 的参数,利用目标域数据 训练分类器 和 ,使分类概率输出的差异增 大,同时最大化分类输出的信息熵,优化目标,如 式 (11) 所示: min F1 ,F2 Lcl(Xs ,Ys)− Ld(Xt)− Lent1(Xt)− Lent2(Xt) (11) 3) 训练特征生成器 F1 F2 G 固定分类器 和 的参数,利用目标域数据 训练特征生成器 ,最小化分类差异和分类概率 信息熵,使目标域特征靠近相似类别的源域特 征,同时远离决策边界,使特征更加具有区分 性。优化目标如式 (12) 所示: min G Ld(Xt)+ Lent1(Xt)+ Lent2(Xt) (12) 在训练过程中,将不断重复上述 3 个步骤,以 实现特征生成器和分类器关于分类距离和信息熵 的对抗训练。 3 实验设计与结果分析 G F1 F2 G F1 F2 为了评价 ACDIE 算法的性能和效果,本文设 计了 4 种实验:数字标识域适应实验、实物域适 应实验、t-SNE 图可视化实验、信息熵损失对比实 验。特征生成器 采用包括卷积层、池化层的卷 积神经网络进行特征提取,分类器 和 采用 具有相同网络结构的全连接神经网络进行分类。 在 、 、 网络中加入批次归一化 (batch normalization, BN) 层来提高网络的训练和收敛的速度, 防止梯度爆炸和梯度消失的发生,同时通过 Dropout 层来防止模型过拟合。本文实验基于 pytorch 深度学习框架,Ubuntu16.04 操作系统,采用 E5-2 670 处理器,GPU 为 GeForce GTX1080Ti,内 存 32 GB。 ·1002· 智 能 系 统 学 报 第 16 卷
第6期 李庆勇,等:基于分类差异与信息嫡对抗的无监督域适应算法 ·1003· 3.1数字标识域适应实验 对于5种不同的域适应情况,ACDIE算法的准确 3.1.1数据集 率都为最高值。特别是,在MNIST-USPS的实 选择机器学习领域常用数据集进行域适应实 验中,ACDIE模型的域适应分类准确率可以达到 验,包括MNISTU9)、USPS2o1、SVHN2)、SYN 97.4%,相较于MCD的分类准确率提高了3.2%。 SIG22和GTSRB2,示例图片如图5所示。SVHN 另外,在其他4种域适应情况下,相较于其他最好 是现实生活中的街道门牌号数字数据集,包含99289 的域适应算法,ACDE模型的分类准确率也提高 张32像素x32像素的彩色图片;MNIST为手写数 了2.1%~2.6%。对比MNIST→USPS和 字识别数据集,包含65000张32像素×32像素的 MNIST→USPS*的准确率结果,可以发现通过更 灰度图片;USPS为美国邮政服务手写数字识别 多的目标域数据可以进一步提高域适应效果。 数据集,包含6562张28像素×28像素的灰度图 表1数字标识数据集域适应准确率对比 像,这些数据集共计10个类别的图像;SYN SIG Table 1 Comparison of the domain adaptation ac- 是合成的交通标志数据集;GTSRB是真实世界的 curacies of digital ID datasets % 标志数据集,共计43个类别的图像。 SVHN,SYNSIG-,MNIST→MNIST,USPS→ 算法 MNIST GTSRB USPS USPS*MNIST Source 67.1 85.1 76.7 79.4 63.4 Only (a)SVHN (b)MNIST MMD 71.1 91.1 81.1 DANN 76.0 88.7 77.1 85.1 73.2 (c)USPS (d)SYN SIG DSN 82.7 93.1 91.3 ADDA 76.0 89.4 90.1 CoGAN 91.2 89.1 (e)GTSRB GTA 92.4 92.8 95.3 90.8 图5数字标识数据集示例 MCD 96.2 94.4 94.2 96.5 94.1 Fig.5 Digital ID dataset example 对于这5个域的数据样本,设置5种不同的 ACDIE 98.8 96.7 97.4 98.6 96.2 域适应情况:SVHN→MNIST、SYNSIG→GTSRB、 3.2实物域适应实验 MNIST→USPS、MNIST→USPS和USPS→MNIST. 3.2.1 Office-.31数据集 在本文实验中,USPS表示使用1800张USPS数据 为了测试模型对于实际物体图片的域适应效 集样本,USPS*表示使用全部的USPS数据集样本 果,设计在Ofice-.31数据集的域适应实验。Oice-31 来训练模型,数据集样本数量设置与文献[17相同。 数据集含有31类不同物品的图片,共计4652张, 3.1.2实验超参数 是测试域适应算法的通用数据集。该数据集的图 使用mini-batch随机梯度下降的优化器算法, 片分别来自3种不同的数据域,包括在亚马逊网 batch size设置为128,随机种子值设置为1,Learn- 站收集的样本数据Amazon(A)、通过电脑摄像头 ing rate设置为0.0002,通过Adam优化器实现网 拍摄得到的样本数据Webcam(W)、利用单反相机 络参数更新,weight decay设置为0.0005。 拍摄得到的样本数据DSLR(D)。图6分别为A、 3.13对比实验结果 D、W这3个不同域的图片数据。对于这3个域 将本文算法与其他在域适应领域有代表性的 的数据样本,设置6种不同的域适应情况:A→D、 方法进行比较,包括MMD9、DANN、分离域共 A→W、DA、DW、WA、WD 享特征和域独有特征的DSNP,、基于域鉴别器对 抗训练的ADDAP阿、学习多域联合分布的CoGAN!胸 利用图像生成的对抗过程学习源域和目标域特征 分布差异最小化的GTA6,以及最大化决策分类 器差异的MCDm。表1展示了不同方法在5种实 验设置情况下的域适应准确率,其中:Source Only (a)A域 (b)D域 (c)W域 表示只使用源域数据进行训练而不进行域适应; 图6 Office-31数据集示例 分类精度最高的值用粗体表示。根据实验结果! Fig.6 Office-31 dataset example
3.1 数字标识域适应实验 3.1.1 数据集 × × × 选择机器学习领域常用数据集进行域适应实 验,包括 MNIST[ 1 9 ] 、USPS[ 2 0 ] 、SVHN[ 2 1 ] 、SYN SIG[22] 和 GTSRB[23] ,示例图片如图 5 所示。SVHN 是现实生活中的街道门牌号数字数据集,包含 99289 张 32 像素 32 像素的彩色图片;MNIST 为手写数 字识别数据集,包含 65 000 张 32 像素 32 像素的 灰度图片;USPS 为美国邮政服务手写数字识别 数据集,包含 6 562 张 28 像素 28 像素的灰度图 像,这些数据集共计 10 个类别的图像;SYN SIG 是合成的交通标志数据集;GTSRB 是真实世界的 标志数据集,共计 43 个类别的图像。 (a) SVHN (b) MNIST (c) USPS (d) SYN SIG (e) GTSRB 图 5 数字标识数据集示例 Fig. 5 Digital ID dataset example SVHN → MNIST SYN SIG → GTSRB MNIST → USPS MNIST → USPS∗ USPS → MNIST 对于这 5 个域的数据样本,设置 5 种不同的 域适应情况: 、 、 、 和 。 在本文实验中,USPS 表示使用 1800 张 USPS 数据 集样本,USPS*表示使用全部的 USPS 数据集样本 来训练模型,数据集样本数量设置与文献 [17] 相同。 3.1.2 实验超参数 使用 mini-batch 随机梯度下降的优化器算法, batch size 设置为 128,随机种子值设置为 1,Learning rate 设置为 0.000 2,通过 Adam 优化器实现网 络参数更新,weight decay 设置为 0.0005。 3.1.3 对比实验结果 将本文算法与其他在域适应领域有代表性的 方法进行比较,包括 MMD[9] 、DANN[14] 、分离域共 享特征和域独有特征的 DSN[24] 、基于域鉴别器对 抗训练的 ADDA[25] 、学习多域联合分布的 CoGAN[26] 、 利用图像生成的对抗过程学习源域和目标域特征 分布差异最小化的 GTA[16] ,以及最大化决策分类 器差异的 MCD[17]。表 1 展示了不同方法在 5 种实 验设置情况下的域适应准确率,其中:Source Only 表示只使用源域数据进行训练而不进行域适应; 分类精度最高的值用粗体表示。根据实验结果, → → → 对于 5 种不同的域适应情况,ACDIE 算法的准确 率都为最高值。特别是,在 MNIST USPS 的实 验中,ACDIE 模型的域适应分类准确率可以达到 97.4%,相较于 MCD 的分类准确率提高了 3.2%。 另外,在其他 4 种域适应情况下,相较于其他最好 的域适应算法,ACDIE 模型的分类准确率也提高 了 2.1%~2.6% 。 对 比 MNIST USP S 和 MNIST USPS*的准确率结果,可以发现通过更 多的目标域数据可以进一步提高域适应效果。 表 1 数字标识数据集域适应准确率对比 Table 1 Comparison of the domain adaptation accuracies of digital ID datasets % 算法 SVHN→ MNIST SYNSIG→ GTSRB MNIST→ USPS MNIST→ USPS* USPS→ MNIST Source Only 67.1 85.1 76.7 79.4 63.4 MMD 71.1 91.1 — 81.1 — DANN 76.0 88.7 77.1 85.1 73.2 DSN 82.7 93.1 91.3 — — ADDA 76.0 — 89.4 — 90.1 CoGAN — — 91.2 — 89.1 GTA 92.4 — 92.8 95.3 90.8 MCD 96.2 94.4 94.2 96.5 94.1 ACDIE 98.8 96.7 97.4 98.6 96.2 3.2 实物域适应实验 3.2.1 Office-31 数据集 → → → → → → 为了测试模型对于实际物体图片的域适应效 果,设计在 Ofiice-31 数据集的域适应实验。Ofiice-31 数据集含有 31 类不同物品的图片,共计 4 652 张, 是测试域适应算法的通用数据集。该数据集的图 片分别来自 3 种不同的数据域,包括在亚马逊网 站收集的样本数据 Amazon(A)、通过电脑摄像头 拍摄得到的样本数据 Webcam(W)、利用单反相机 拍摄得到的样本数据 DSLR(D)。图 6 分别为 A、 D、W 这 3 个不同域的图片数据。对于这 3 个域 的数据样本,设置 6 种不同的域适应情况:A D、 A W、D A、D W、W A、W D。 (a) A 域 (b) D 域 (c) W 域 图 6 Office-31 数据集示例 Fig. 6 Office-31 dataset example 第 6 期 李庆勇,等:基于分类差异与信息熵对抗的无监督域适应算法 ·1003·
·1004· 智能系统学报 第16卷 3.2.2实验超参数 征分布的变化情况。每种颜色代表一个类别,左 使用mini-batch随机梯度下降的优化器算法, 边为进行域适应前不同类别样本的可视化,右边 batch size设置为32,随机种子值设置为2020。 为进行域适应后不同样本的可视化。通过t-SNE 特征提取器G采用预训练的ResNet-50网络,使 图发现,在域适应前目标域数据不同类别之间的 用SGD优化器进行梯度更新,学习率设置为 距离较小,且决策边界较为模糊。通过ACDIE模 0.001,权重衰减参数为0.0005。分类器F采用两 型的域适应后,目标域相同种类的数据更加集 层全连接的网络结构,使用$GD优化器进行梯度 中,不同种类的数据之间的距离增大,这使得分 更新,学习率设置为0.001,权重衰减参数为0.0005 类器更加容易实现对目标域数据的分类。 ,momentum值设置为0.9。 3.2.3对比实验结果 为了对比实验的合理性,所有方法在同等条 件下进行对比实验,选取ResNet-50网络作为特 征提取网络,对比方法包括DANN4I、GTAI6和 使用条件对抗域适应的CDAN27。表2展示了不 同方法在6种实验设置情况下的域适应准确率, (a)域适应前 b)域适应后 其中ResNet-50表示使用ResNet-50作为特征提取 图7SVHN→MNIST的t-SNE图 器对源域数据进行训练而不进行域适应。 Fig.7 t-SNE diagram of SVHN-MNIST 表2 Office-.31数据集域适应准确率对比 Table 2 Comparison of the domain adaptation ac- curacies of Office-31 dataset % 算法ADA→WD→AD→WW→AW→D平均值 ResNet-5068.968.4 62.596.7 60.799.3 76.1 DANN 79.782.068.2 96.967.4 99.1 82.2 (a)域适应前 (b)域适应后 GTA 87.7 89.572.897.9 71.4 99.8 86.5 图8 USPS→MNIST的t-SNE图 CDAN 89.893.170.198.268.099.9 86.5 Fig.8 t-SNE diagram of USPS-MNIST ACDIE89.293.173.098.671.7100.087.6 3.4信息熵损失对比实验 为了验证将信息熵损失加入对抗训练的有效 从实验结果可以看出,相较于现有的算法模 性,以基于分类差异的域适应模型为基础,设置 型,本文所提出的ACDE模型在不同域适应情况 4组对比实验:1)不加入信息嫡损失;2)仅在优化 下的分类准确率都有不同程度的提高。在D→W F时加入信息嫡损失;3)仅在优化G时加入信息 和W→D的情况下的域适应结果分别达到98.6% 嫡损失;4)信息熵损失对抗训练,即ACDE模型。 和100%,因为D与W两个域之间的图片差异较 从表3的对比实验结果可以看出,在实验 小,所以可以达到一个很高的分类准确率。在 3的情况下,通过在优化特征生成器G时加入信 A→D和A→W的情况下准确率较GTA算法分别 息熵损失,使信息熵损失减小,可以使生成的特 提高了1.5%和3.6%,说明ACDIE模型在两个域 征远离决策边界,从而达到更高的域适应准确 之间的差异较大的情况下仍能达到较好的域适应 率,证明引入信息嫡损失的有效性。在实验2的 效果。ACDIE模型在Office-31数据集上的平均 情况下,通过在优化分类器F时加入信息嫡损 域适应准确率达到87.6%。 失,使信息熵损失增大,实验结果与实验1大致相 3.3t-SNE图可视化实验 同,在MNIST.→USPS(p)和USPS→MNIST下准确 为了更加直观地看到经过域适应后特征向量 率有所下降,因为分类器F信息熵增加,决策边 的变化,本文采用t-SNE2I方法将高维特征向量 界更加模糊,一部分靠近边界的样本数据会被错 映射到适合观察的二维向量,进而实现数据的可 误分类。在实验4中,即ACDIE模型,通过对抗 视化。 训练的方式实现特征生成器G的信息嫡损失最 图7和图8分别是在SVHN→MNIST和 小化,域适应准确率相较于实验3进一步提高,证 USPS→MNIST两种域适应情况下,目标域样本特 明了将信息嫡损失加入对抗训练的有效性
3.2.2 实验超参数 G F 使用 mini-batch 随机梯度下降的优化器算法, batch size 设置为 32,随机种子值设置为 2 020。 特征提取器 采用预训练的 ResNet-50 网络,使 用 SGD 优化器进行梯度更新,学习率设置为 0.001,权重衰减参数为 0.000 5。分类器 采用两 层全连接的网络结构,使用 SGD 优化器进行梯度 更新,学习率设置为 0.001,权重衰减参数为 0.0005 ,momentum 值设置为 0.9。 3.2.3 对比实验结果 为了对比实验的合理性,所有方法在同等条 件下进行对比实验,选取 ResNet-50 网络作为特 征提取网络,对比方法包括 DANN[14] 、GTA[16] 和 使用条件对抗域适应的 CDAN[27]。表 2 展示了不 同方法在 6 种实验设置情况下的域适应准确率, 其中 ResNet-50 表示使用 ResNet-50 作为特征提取 器对源域数据进行训练而不进行域适应。 表 2 Office-31 数据集域适应准确率对比 Table 2 Comparison of the domain adaptation accuracies of Office-31 dataset % 算法 A→D A→W D→A D→W W→A W→D 平均值 ResNet-50 68.9 68.4 62.5 96.7 60.7 99.3 76.1 DANN 79.7 82.0 68.2 96.9 67.4 99.1 82.2 GTA 87.7 89.5 72.8 97.9 71.4 99.8 86.5 CDAN 89.8 93.1 70.1 98.2 68.0 99.9 86.5 ACDIE 89.2 93.1 73.0 98.6 71.7 100.0 87.6 → → → → 从实验结果可以看出,相较于现有的算法模 型,本文所提出的 ACDIE 模型在不同域适应情况 下的分类准确率都有不同程度的提高。在 D W 和 W D 的情况下的域适应结果分别达到 98.6% 和 100%,因为 D 与 W 两个域之间的图片差异较 小,所以可以达到一个很高的分类准确率。在 A D 和 A W 的情况下准确率较 GTA 算法分别 提高了 1.5% 和 3.6%,说明 ACDIE模型在两个域 之间的差异较大的情况下仍能达到较好的域适应 效果。ACDIE 模型在 Office-31 数据集上的平均 域适应准确率达到 87.6%。 3.3 t-SNE 图可视化实验 为了更加直观地看到经过域适应后特征向量 的变化,本文采用 t-SNE[28] 方法将高维特征向量 映射到适合观察的二维向量,进而实现数据的可 视化。 → → 图 7 和 图 8 分别是 在 SVHN MNIST 和 USPS MNIST 两种域适应情况下,目标域样本特 征分布的变化情况。每种颜色代表一个类别,左 边为进行域适应前不同类别样本的可视化,右边 为进行域适应后不同样本的可视化。通过 t-SNE 图发现,在域适应前目标域数据不同类别之间的 距离较小,且决策边界较为模糊。通过 ACDIE 模 型的域适应后,目标域相同种类的数据更加集 中,不同种类的数据之间的距离增大,这使得分 类器更加容易实现对目标域数据的分类。 (a) 域适应前 (b) 域适应后 图 7 SVHN→MNIST 的 t-SNE 图 Fig. 7 t-SNE diagram of SVHN→MNIST (a) 域适应前 (b) 域适应后 图 8 USPS→MNIST 的 t-SNE 图 Fig. 8 t-SNE diagram of USPS→MNIST 3.4 信息熵损失对比实验 F G 为了验证将信息熵损失加入对抗训练的有效 性,以基于分类差异的域适应模型为基础,设置 4 组对比实验:1) 不加入信息熵损失;2) 仅在优化 时加入信息熵损失;3) 仅在优化 时加入信息 熵损失;4) 信息熵损失对抗训练,即 ACDIE 模型。 G F → → F G 从表 3 的对比实验结果可以看出,在实验 3 的情况下,通过在优化特征生成器 时加入信 息熵损失,使信息熵损失减小,可以使生成的特 征远离决策边界,从而达到更高的域适应准确 率,证明引入信息熵损失的有效性。在实验 2 的 情况下,通过在优化分类器 时加入信息熵损 失,使信息熵损失增大,实验结果与实验 1 大致相 同,在 MNIST USPS(p) 和 USPS MNIST 下准确 率有所下降,因为分类器 信息熵增加,决策边 界更加模糊,一部分靠近边界的样本数据会被错 误分类。在实验 4 中,即 ACDIE 模型,通过对抗 训练的方式实现特征生成器 的信息熵损失最 小化,域适应准确率相较于实验 3 进一步提高,证 明了将信息熵损失加入对抗训练的有效性。 ·1004· 智 能 系 统 学 报 第 16 卷
第6期 李庆勇,等:基于分类差异与信息嫡对抗的无监督域适应算法 ·1005· 表3信息熵损失对比实验 [4]PAN S J,YANG Qiang.A survey on transfer learning[J]. Table 3 Comparative experiment of information en- IEEE transactions on knowledge and data engineering, tropy loss % 2010,22(10):1345-1359. 实验 SVHN→ MNIST→ MNIST USPS [5]ROZANTSEV A.SALZMANN M.FUA P.Bevond shar- 设置 MNIST USPS USPS(p) MNIST ing weights for deep domain adaptation[J].IEEE transac- 96.3 94.5 96.6 94.3 tions on pattern analysis and machine intelligence,2019. 2 96.7 94.8 95.7 92.4 41(4:801-814. 2 97.9 96.6 98.2 95.5 [6] GHIFARY M,KLEIJN W B,ZHANG Mengjie,et al. 98.8 97.4 98.6 96.2 Deep reconstruction-classification networks for unsuper- vised domain adaptation[C]//Proceedings of the 14th 4结束语 European Conference on Computer Vision.Amsterdam, The Netherlands:Springer,2016:597-613. 现有无监督域适应算法仅将不同域之间的距 [7] SENER O,SONG H O,SAXENA A,et al.Learning 离拉近,没有考虑目标样本与决策边界之间的关 transferrable representations for unsupervised domain ad- 系,没有扩大目标域内不同类别样本之间的距 aptation[Cl//Proceedings of the 30th International Confer- 离。针对上述问题,本文提出利用两个分类器之 ence on Neural Information Processing Systems.Bar- 间的不一致性对齐域间差异,减小源域和目标域 celona,Spain:Curran Associates Inc.,2016:2110-2118. 之间的距离,同时通过最小化信息熵来降低分类 [8] SUN Baochen,FENG Jiashi,SAENKO K.Return of frus- 不确定性的ACDIE模型。最小化信息熵能使相 tratingly easy domain adaptation[C]//Proceedings of the 同类别的数据更加聚集,不同类别数据之间的距 Thirtieth AAAI Conference on Artificial Intelligence. 离更大,而且可以使目标域样本与源域样本在语 Phoenix,Arizona:AAAI Press,2016:2058-2065 义空间上分布更加对齐。大量的实验表明,本文 [9]GRETTON A,BORGWARDT K M,RASCH M J,et al. 提出的的模型相比于领域内其他模型取得了更优 A kernel two-sample test[J].The journal of machine 的性能,验证了所提改进算法的有效性。 learning research,2012,13:723-773. [10]TZENG E,HOFFMAN J,ZHANG Ning,et al.Deep do- 尽管ACDIE模型在多个数据集中都有不错 main confusion:maximizing for domain invariance[J. 的表现,但它仍存在一些提升空间。在今后的工 Computer science,2014. 作中,将进一步从信息论的角度思考,考虑互信 [11] LONG Mingsheng,CAO Yue,WANG Jianmin,et al. 息等因素对模型的影响,以提升模型的准确率和 Learning transferable features with deep adaptation net- 鲁棒性。同时将进一步探究不同距离分布度量对 works[Cl//Proceedings of the 32nd International Confer- 域适应结果的影响。 ence on Machine Learning.Lille,France:JMLR,2015: 参考文献: 97-105. [12]LONG Mingsheng,ZHU Han,WANG Jianmin,et al. [1]WANG Xiaolong,GUPTA A.Unsupervised learning of Unsupervised domain adaptation with residual transfer visual representations using videos[Cl//Proceedings of the networks[Cl//Proceedings of the 30th International Con- IEEE International Conference on Computer Vision.San- ference on Neural Information Processing Systems.Bar- tiago,Chile:IEEE,2015:2794-2802. celona,Spain:Curran Associates Inc.,2016:136-144. [2]MAHJOURIAN R,WICKE M,ANGELOVA A.Unsu- [13]GOODFELLOW IJ,POUGET-ABADIE J,MIRZA M. pervised learning of depth and ego-motion from monocu- et al.Generative adversarial nets[C]//Proceedings of the lar video using 3D geometric constraints[C]//Proceedings 27th International Conference on Neural Information of 2018 IEEE/CVF Conference on Computer Vision and Processing Systems.Montreal,Canada:MIT Press, Pattern Recognition.Salt Lake City,USA:IEEE,2018: 2014:2672-2680. 5667-5675. [14]GANIN Y,USTINOVA E.AJAKAN H,et al.Domain- [3]刘建伟,孙正康,罗雄麟域自适应学习研究进展).自 adversarial training of neural networks[J].The journal of 动化学报,2014,40(8):1576-1600. machine learning research,2016,17(1):2096-2030. LIU Jianwei,SUN Zhengkang,LUO Xionglin.Review [15]王格格,郭涛,余游,等.基于生成对抗网络的无监督 and research development on domain adaptation 域适应分类模型[J].电子学报,2020,48(6): learning[J].Acta automatica sinica,2014,40(8): 1190-1197. 1576-1600 WANG Gege,GUO Tao,YU You,et al.Unsupervised
表 3 信息熵损失对比实验 Table 3 Comparative experiment of information entropy loss % 实验 设置 SVHN→ MNIST MNIST→ USPS MNIST→ USPS(p) USPS→ MNIST 1 96.3 94.5 96.6 94.3 2 96.7 94.8 95.7 92.4 3 97.9 96.6 98.2 95.5 4 98.8 97.4 98.6 96.2 4 结束语 现有无监督域适应算法仅将不同域之间的距 离拉近,没有考虑目标样本与决策边界之间的关 系,没有扩大目标域内不同类别样本之间的距 离。针对上述问题,本文提出利用两个分类器之 间的不一致性对齐域间差异,减小源域和目标域 之间的距离,同时通过最小化信息熵来降低分类 不确定性的 ACDIE 模型。最小化信息熵能使相 同类别的数据更加聚集,不同类别数据之间的距 离更大,而且可以使目标域样本与源域样本在语 义空间上分布更加对齐。大量的实验表明,本文 提出的的模型相比于领域内其他模型取得了更优 的性能,验证了所提改进算法的有效性。 尽管 ACDIE 模型在多个数据集中都有不错 的表现,但它仍存在一些提升空间。在今后的工 作中,将进一步从信息论的角度思考,考虑互信 息等因素对模型的影响,以提升模型的准确率和 鲁棒性。同时将进一步探究不同距离分布度量对 域适应结果的影响。 参考文献: WANG Xiaolong, GUPTA A. Unsupervised learning of visual representations using videos[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 2794−2802. [1] MAHJOURIAN R, WICKE M, ANGELOVA A. Unsupervised learning of depth and ego-motion from monocular video using 3D geometric constraints[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 5667−5675. [2] 刘建伟, 孙正康, 罗雄麟. 域自适应学习研究进展 [J]. 自 动化学报, 2014, 40(8): 1576–1600. LIU Jianwei, SUN Zhengkang, LUO Xionglin. Review and research development on domain adaptation learning[J]. Acta automatica sinica, 2014, 40(8): 1576–1600. [3] PAN S J, YANG Qiang. A survey on transfer learning[J]. IEEE transactions on knowledge and data engineering, 2010, 22(10): 1345–1359. [4] ROZANTSEV A, SALZMANN M, FUA P. Beyond sharing weights for deep domain adaptation[J]. IEEE transactions on pattern analysis and machine intelligence, 2019, 41(4): 801–814. [5] GHIFARY M, KLEIJN W B, ZHANG Mengjie, et al. Deep reconstruction-classification networks for unsupervised domain adaptation[C]//Proceedings of the 14th European Conference on Computer Vision. Amsterdam, The Netherlands: Springer, 2016: 597−613. [6] SENER O, SONG H O, SAXENA A, et al. Learning transferrable representations for unsupervised domain adaptation[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016: 2110−2118. [7] SUN Baochen, FENG Jiashi, SAENKO K. Return of frustratingly easy domain adaptation[C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix, Arizona: AAAI Press, 2016: 2058−2065. [8] GRETTON A, BORGWARDT K M, RASCH M J, et al. A kernel two-sample test[J]. The journal of machine learning research, 2012, 13: 723–773. [9] TZENG E, HOFFMAN J, ZHANG Ning, et al. Deep domain confusion: maximizing for domain invariance[J]. Computer science, 2014. [10] LONG Mingsheng, CAO Yue, WANG Jianmin, et al. Learning transferable features with deep adaptation networks[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR, 2015: 97−105. [11] LONG Mingsheng, ZHU Han, WANG Jianmin, et al. Unsupervised domain adaptation with residual transfer networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016: 136−144. [12] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal, Canada: MIT Press, 2014: 2672−2680. [13] GANIN Y, USTINOVA E, AJAKAN H, et al. Domainadversarial training of neural networks[J]. The journal of machine learning research, 2016, 17(1): 2096–2030. [14] 王格格, 郭涛, 余游, 等. 基于生成对抗网络的无监督 域适应分类模型 [J]. 电子学报, 2020, 48(6): 1190–1197. WANG Gege, GUO Tao, YU You, et al. Unsupervised [15] 第 6 期 李庆勇,等:基于分类差异与信息熵对抗的无监督域适应算法 ·1005·
·1006· 智能系统学报 第16卷 domain adaptation classification model based on gener- 30th International Conference on Neural Information ative adversarial network[J].Acta electronica sinica, Processing Systems.Barcelona,Spain:Curran Asso- 2020,48(6):1190-1197 ciates Inc..,2016:343-351 [16]SANKARANARAYANAN S.BALAJI Y.CASTILLO [25]TZENG E,HOFFMAN J,SAENKO K,et al.Adversari- C D,et al.Generate to adapt:aligning domains using al discriminative domain adaptation[C]//Proceedings of generative adversarial networks[C]//Proceedings of 2018 2017 IEEE Conference on Computer Vision and Pattern IEEE/CVF Conference on Computer Vision and Pattern Recognition.Honolulu,USA:IEEE,2017:7167- Recognition.Salt Lake City,USA:IEEE,2018: 7176. 8503-8512. [26]LIU Mingyu,TUZEL O.Coupled generative adversarial [17]SAITO K,WATANABE K,USHIKU Y,et al.Maxim- networks[Cl//Proceedings of the 30th International Con- um classifier discrepancy for unsupervised domain ad- ference on Neural Information Processing Systems.Bar- aptation[C]//Proceedings of 2018 IEEE/CVF Confer- celona,Spain:Curran Associates Inc.,2016:469-477. ence on Computer Vision and Pattern Recognition.Salt [27]LONG Mingsheng,CAO Zhangjie,WANG Jianmin,et Lake City,USA:IEEE,2018:3723-3732. al.Conditional adversarial domain adaptation[Cl//Pro- [18]BEN-DAVID S,BLITZER J,CRAMMER K,et al.A ceedings of the 32nd International Conference on Neur- theory of learning from different domains[J].Machine al Information Processing Systems.Montreal,Canada: learning.2010,791/2)151-175. Curran Associates Inc.,2018:1647-1657. [19]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient- [28]VAN DER MAATEN L,HINTON G.Visualizing data based learning applied to document recognition[J].Pro- using t-SNE[J].Journal of machine learning research, ceedings of the IEEE,1998,86(11):2278-2324 2008,9(2605):2579-2605. [20]HULL J J.A database for handwritten text recognition 作者简介: research[J].IEEE transactions on pattern analysis and 李庆勇,硕士研究生,主要研究方 machine intelligence,1994,16(5):550-554 向为无监督学习和计算机视觉。 [21]NETZER Y,WANG T,COATES A,et al.Reading di- gits in natural images with unsupervised feature learning [C]//Proceedings of the NIPS Workshop on Deep Learn- ing and Unsupervised Feature Learning.Granada,Spain, 2011:5-16. [22]MOISEEV B,KONEV A,CHIGORIN A,et al.Evalu- 何军,副教授,主要研究方向为机 ation of traffic sign recognition methods trained on syn- 器学习、计算机视觉、最优化方法。获 thetically generated data[C]//Proceedings of the 15th In- 发明专利授权4项,发表学术论文 30余篇。 ternational Conference on Advanced Concepts for Intel- ligent Vision Systems.Poznan,Poland:Springer,2013: 576-583. [23]STALLKAMP J.SCHLIPSING M.SALMEN J,et al The German traffic sign recognition benchmark:a multi- 张春晓,硕土研究生,主要研究方 class classification competition[C]//Proceedings of 2011 向为无监督学习和计算机视觉。 International Joint Conference on Neural Networks.San Jose,USA:IEEE,2011:1453-1460. [24]BOUSMALIS K,TRIGEORGIS G,SILBERMAN N,et al.Domain separation networks[C]//Proceedings of the
domain adaptation classification model based on generative adversarial network[J]. Acta electronica sinica, 2020, 48(6): 1190–1197. SANKARANARAYANAN S, BALAJI Y, CASTILLO C D, et al. Generate to adapt: aligning domains using generative adversarial networks[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 8503−8512. [16] SAITO K, WATANABE K, USHIKU Y, et al. Maximum classifier discrepancy for unsupervised domain adaptation[C]//Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 3723−3732. [17] BEN-DAVID S, BLITZER J, CRAMMER K, et al. A theory of learning from different domains[J]. Machine learning, 2010, 79(1/2): 151–175. [18] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradientbased learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. [19] HULL J J. A database for handwritten text recognition research[J]. IEEE transactions on pattern analysis and machine intelligence, 1994, 16(5): 550–554. [20] NETZER Y, WANG T, COATES A, et al. Reading digits in natural images with unsupervised feature learning [C]//Proceedings of the NIPS Workshop on Deep Learning and Unsupervised Feature Learning. Granada, Spain, 2011: 5−16. [21] MOISEEV B, KONEV A, CHIGORIN A, et al. Evaluation of traffic sign recognition methods trained on synthetically generated data[C]//Proceedings of the 15th International Conference on Advanced Concepts for Intelligent Vision Systems. Poznań, Poland: Springer, 2013: 576−583. [22] STALLKAMP J, SCHLIPSING M, SALMEN J, et al. The German traffic sign recognition benchmark: a multiclass classification competition[C]//Proceedings of 2011 International Joint Conference on Neural Networks. San Jose, USA: IEEE, 2011: 1453−1460. [23] BOUSMALIS K, TRIGEORGIS G, SILBERMAN N, et al. Domain separation networks[C]//Proceedings of the [24] 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016: 343−351. TZENG E, HOFFMAN J, SAENKO K, et al. Adversarial discriminative domain adaptation[C]//Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 7167− 7176. [25] LIU Mingyu, TUZEL O. Coupled generative adversarial networks[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain: Curran Associates Inc., 2016: 469−477. [26] LONG Mingsheng, CAO Zhangjie, WANG Jianmin, et al. Conditional adversarial domain adaptation[C]//Proceedings of the 32nd International Conference on Neural Information Processing Systems. Montréal, Canada: Curran Associates Inc., 2018: 1647−1657. [27] VAN DER MAATEN L, HINTON G. Visualizing data using t-SNE[J]. Journal of machine learning research, 2008, 9(2605): 2579–2605. [28] 作者简介: 李庆勇,硕士研究生,主要研究方 向为无监督学习和计算机视觉。 何军,副教授,主要研究方向为机 器学习、计算机视觉、最优化方法。获 发明专利授权 4 项,发表学术论文 30 余篇。 张春晓,硕士研究生,主要研究方 向为无监督学习和计算机视觉。 ·1006· 智 能 系 统 学 报 第 16 卷