正在加载图片...
第6期 姜义,等:基于生成对抗网络的人脸口罩图像合成 ·1075· 层的卷积核大小为K,,…,K,C:对应输入的特 式(4)、(5)所示: 征维度,而对应的输出特征维度为C1,C2,… G=-Ex-PD(x) (4) Cm。C。是输出特征维度的总和,C。和参数量N D=E-p [D(X)]-E-P,[D(x)] (5) 如式(1)、式(2)所示。 Col+Co2+…+Cam=C。 (1) 2人脸图像与口罩图像的合成 N=K2XCon× 9 +…十 本文的目标是对输入的未戴口罩人脸图像 I、口罩图像IM以及掩膜M的情况下进行图像合 C (2) +…+KxCol 成。对口罩图像进行空间变换,校正其视角、位 置及方向,使得合成的照片更加自然,合成的过 K 程表示如式(6)所示: 在构建过程中,PyConv的每一层的通道数应 Icomposite =IMM+IF(1-M) (6) 当是相同的,这也要求输入通道数必须是2的指 2.1网络结构设计 数次幂。 相较于通过将标注好的口罩图像通过关键 点定位叠加到识别出的人脸上的方法,本文提 出一种使用金字塔卷积改进的WGAN-div神经网 络与空间变换网络相结合的图像合成模型(Py WGAN-div),该模型在训练时不需要对待合成的 人脸及口罩图像做任何提前标注。模型以生成对 抗网络为主体,并分别对生成器和判别器的神经 网络部分进行了改进,其结构如图2所示。 图1 PyConv结构 PyCon 变换参数 PyCon Q Fig.1 Structure of PyConv l.3 Wasserstein GAN网络 Relu Relu 生成对抗网络由于在训练中需要达到纳什均 yConv 衡,一直存在着训练困难以及不稳定的问题。不 判 得分 稳定的问题也会导致模式坍塌,造成样本生成缺 矩阵 Relu Relu 乏多样性,即使增加训练时间也很难改善。而 Wasserstein GAN(WGAN)较好地解决了训练不稳 图2网络整体结构 定的问题,不再需要小心地对生成器和判别器的 Fig.2 Overall neural network structure 训练程度进行平衡,确保了生成结果的多样性。 在生成器部分,原始的生成对抗网络是通过 原始GAN采用的JS距离衡量的是两个分布之间 一个随机噪声来生成新的图像。但是直接生成的 的差异,通过将JS散度作为优化目标最终得到优 图像会有很多问题,例如生成的人脸分辨率低 化的生成网络。但是这只能在两个分布有重叠部 口罩错误的被作为肤色合成到人脸上。而本文的 分时才成立,如果原始图像和生成的图像在分布 目的是能构建成对的人脸数据(包含未戴口罩与 上没有重叠部分或重叠部分可忽略不计,则对应 戴口罩的人脸图像对),而不是产生随机的人脸。 的JS散度就是一个固定值,这样无论如何训练都 因此本文方法中的生成器生成的是一组更新的变 无法得到优化的生成器。WGAN则采用W距离, 形参数△p(且该变形参数随着优化的进行不断进 其定义如式(3): 行更新)。修正的变换参数如式(7)所示: EM(p.Py(Z))=inf Es)[llx-yll](3) △p=G.(Lw(p-i),Ie) en(PnPa) (7) P:=p-1+△pi 式中:P,、P(Z②)分别表示真实样本分布和生成样 式中:I为未佩戴口罩的人脸图像;M为通过变 本的分布;y∈(P,Pr(Z)中,y表示联合分布,后 形参数变形后的口罩图片;P-表示上一次的变 面表示联合分布的集合;x-则是样本x、y之 形参数;G表示生成器。 间的距离。W距离是计算所有联合分布中能够对 多尺度卷积与标准单一卷积相比,能在没有 期望值取到的下界。为了最小化W距离,分别为 额外参数的情况下,扩大卷积核的感受野,并且 生成器和判别器设计了两个损失函数G和D,如 由于使用不同大小的卷积核而获得不同的空间分K 2 1 ,K 2 2 ,··· ,K 2 n Ci Co1,Co2,··· , Con Co Co N 层的卷积核大小为 , 对应输入的特 征维度,而对应的输出特征维度为 。 是输出特征维度的总和, 和参数量 如式 (1)、式 (2) 所示。 Co1 +Co2 +···+Con = Co (1) N = K 2 n ×Con × Ci ( K 2 n K 2 1 ) +···+ K 2 4 ×Co4 × Ci ( K 2 4 K 2 1 ) +···+K 2 1 ×Co1 (2) 在构建过程中,PyConv 的每一层的通道数应 当是相同的,这也要求输入通道数必须是 2 的指 数次幂。 . . . Kn K3 K2 K1 C H W Co Co1 Co2 Co3 ... Con 图 1 PyConv 结构 Fig. 1 Structure of PyConv 1.3 Wasserstein GAN 网络 生成对抗网络由于在训练中需要达到纳什均 衡,一直存在着训练困难以及不稳定的问题。不 稳定的问题也会导致模式坍塌,造成样本生成缺 乏多样性,即使增加训练时间也很难改善。而 Wasserstein GAN(WGAN) 较好地解决了训练不稳 定的问题,不再需要小心地对生成器和判别器的 训练程度进行平衡,确保了生成结果的多样性。 原始 GAN 采用的 JS 距离衡量的是两个分布之间 的差异,通过将 JS 散度作为优化目标最终得到优 化的生成网络。但是这只能在两个分布有重叠部 分时才成立,如果原始图像和生成的图像在分布 上没有重叠部分或重叠部分可忽略不计,则对应 的 JS 散度就是一个固定值,这样无论如何训练都 无法得到优化的生成器。WGAN 则采用 W 距离, 其定义如式 (3): EM( pr , pf (Z) ) = inf γ∈ ∏ (pr,pf (Z)) E(x,y)∼γ [ ∥x−y∥ ] (3) pr pf(Z) γ ∈ ∏( pr , pf (Z) ) γ ∥x−y∥ x y G D 式中: 、 分别表示真实样本分布和生成样 本的分布; 中, 表示联合分布,后 面表示联合分布的集合; 则是样本 、 之 间的距离。W 距离是计算所有联合分布中能够对 期望值取到的下界。为了最小化 W 距离,分别为 生成器和判别器设计了两个损失函数 和 ,如 式 (4)、(5) 所示: G = −Ex∼Pf [D(x)] (4) D = Ex∼pf [D(x)]− Ex∼Pr [D(x)] (5) 2 人脸图像与口罩图像的合成 IF IM M 本文的目标是对输入的未戴口罩人脸图像 、口罩图像 以及掩膜 的情况下进行图像合 成。对口罩图像进行空间变换,校正其视角、位 置及方向,使得合成的照片更加自然,合成的过 程表示如式 (6) 所示: Icomposite = IM ⊙ M + IF ⊙(1− M) (6) 2.1 网络结构设计 相较于通过将标注好的口罩图像通过关键 点定位叠加到识别出的人脸上的方法,本文提 出一种使用金字塔卷积改进的 WGAN-div 神经网 络与空间变换网络相结合的图像合成模型 (Py￾WGAN-div),该模型在训练时不需要对待合成的 人脸及口罩图像做任何提前标注。模型以生成对 抗网络为主体,并分别对生成器和判别器的神经 网络部分进行了改进,其结构如图 2 所示。 生 成 器 判 别 器 7×7 PyConv 3×3 5×5 7×7 9×9 Relu PyConv 3×3 5×5 7×7 9×9 Relu PyConv 3×3 Relu PyConv 3×3 Relu PyConv 3×3 5×5 7×7 Relu PyConv 3×3 5×5 Relu PyConv 3×3 5×5 7×7 Relu PyConv 3×3 5×5 Relu 256 8 3×3 7×7 得分 矩阵 变换参数 p + 图 2 网络整体结构 Fig. 2 Overall neural network structure ∆p 在生成器部分,原始的生成对抗网络是通过 一个随机噪声来生成新的图像。但是直接生成的 图像会有很多问题,例如生成的人脸分辨率低、 口罩错误的被作为肤色合成到人脸上。而本文的 目的是能构建成对的人脸数据 (包含未戴口罩与 戴口罩的人脸图像对),而不是产生随机的人脸。 因此本文方法中的生成器生成的是一组更新的变 形参数 (且该变形参数随着优化的进行不断进 行更新)。修正的变换参数如式 (7) 所示: ∆pi = Gi(IM(pi−1),IF) pi = pi−1 + ∆pi (7) IF IM pi−1 Gi 式中: 为未佩戴口罩的人脸图像; 为通过变 形参数变形后的口罩图片; 表示上一次的变 形参数; 表示生成器。 多尺度卷积与标准单一卷积相比,能在没有 额外参数的情况下,扩大卷积核的感受野,并且 由于使用不同大小的卷积核而获得不同的空间分 第 6 期 姜义,等:基于生成对抗网络的人脸口罩图像合成 ·1075·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有