正在加载图片...
第5期 师亚亭,等:基于嘴巴状态约束的人脸特征点定位算法 ·581· 彩色的现象,仅仅以牙齿露出时呈现白色这一先验 表1基于CNN的嘴巴状态分类器 信息作为分析并不完备。近年来,卷积神经网络 Table 1 Mouth state classifier based on CNN (convolutional neural network,CNN)在目标识别、图 名称 类型 滤波器大小/步长输出 像分类等图像处理领域取得了十分显著的效果,有 Input输入 16×32×3 着越来越深入的研究和应用。相对SVM等传统的 分类方法,卷积神经网络是一种端到端的模型,即直 Conl,卷积层 Convolution 5x5/1 12×28×20 卷积 接将最初的数据作为网络的输入,通过网络自构建 的复杂函数进行特征提取、分类、回归等操作。 Pool max pooling 2×2/2 6×14×20 最大池化 本文设计了一个基于CNN的嘴巴状态分类器。 池化层 将训练样本中的嘴巴分为张开、闭合和微张3种状 Convl2 Convolution 3×3/1 4×12×50 态,分类标准为嘴巴对称线上真实特征点的垂直距 卷积层 卷积 离。如图7所示,对于长矩形框内的4个关键点,令 Pool max pooling 2×2/2 2×6×50 小圆圈内的两个外边缘特征点的垂直距离为D, 池化层 最大池化 小方框内两个内边缘特征点的垂直距离为D。当 Fer fully connection 300 D与D比值大于0.35时,将嘴巴标定为张开;小于 全连接层 全连接 0.1时标定为闭合:否则标定为微张。由于问题并 Fez fully connection 不复杂且输人图像不大,参考LeNet--51s]架构设计 全连接层 全连接 网络,网络结构如表1所示,使用ReLU(rectified lin- Cost Softmaxwithloss ear units)[16函数作为激活函数,除最后一个全连接 损失层 Softmax损失层 层fc2外,卷积层conv1、conv2和全连接层fc,都接有 2.4 强形状约束定位 激活函数。对于训练样本(嘴巴图像),使用平移和 在人脸对齐算法中,不同部位人脸特征点之间 旋转实现简单的对齐,然后将尺寸调整为16×32并 的位置关系(形状约束)作为一个隐含的先验用于 将像素值归一化到[0,1]。训练数据按9:1划分为 特征点的估计中。这种形状约束是人脸固有的特 训练集和验证集,使用随机梯度下降法训练网络,初 征,如眼晴位置应在眉毛的下方,鼻子应在嘴巴上 始学习率为0.01,随着迭代次数的增加按比例衰减, 方,这里,称其为弱形状约束。然而,对于具体的状 当网络在验证集上的分类准确率不再上升时停止训 态细节,例如眼晴睁闭、嘴巴张闭时,局部区域特征 练。网络训练完成后,输入嘴巴图像,在网络中进行 点之间的位置应满足怎样的距离关系,弱形状约束 一次前传获取嘴巴状态标签。该嘴巴状态分类器的 并未涉及。在2.3节中使用嘴巴状态分类器得到了 具体设计参数以及数据流(每个层的输出)均在表1 嘴巴状态标签,针对不同的嘴巴状态,可以在人脸形 中展示。 状估计过程中对嘴巴区域特征点进行强形状约束。 52 算法流程如图8所示。 50 将测试图像以及嘴巴状态标签作为输入,并加 米 载训练好的模型,然后在形状回归估计过程中为每 49 米 米 62 6 米65 米55 6 6 66 一个回归器的形状更新添加如式(5)所示的强形状 米 约束: S=S-1+8S-1,t={1,2,…,T} 9 > S.tD。>入.Dm,A。∈(0,1) (5) 58 S.tDm<入.Dm,入。∈(0,1) 图7嘴巴特征点示意图 式中:D。、D分别表示上下嘴唇内边缘特征点对之 Fig.7 Mouth keypoints 间的垂直距离和外边缘特征点对之间的垂直距离。彩色的现象,仅仅以牙齿露出时呈现白色这一先验 信息作为分析并不完备。 近年来,卷积神经网络 (convolutional neural network,CNN) 在目标识别、图 像分类等图像处理领域取得了十分显著的效果,有 着越来越深入的研究和应用。 相对 SVM 等传统的 分类方法,卷积神经网络是一种端到端的模型,即直 接将最初的数据作为网络的输入,通过网络自构建 的复杂函数进行特征提取、分类、回归等操作。 本文设计了一个基于 CNN 的嘴巴状态分类器。 将训练样本中的嘴巴分为张开、闭合和微张 3 种状 态,分类标准为嘴巴对称线上真实特征点的垂直距 离。 如图 7 所示,对于长矩形框内的 4 个关键点,令 小圆圈内的两个外边缘特征点的垂直距离为 Dou , 小方框内两个内边缘特征点的垂直距离为 Din 。 当 Din与 Dou比值大于 0.35 时,将嘴巴标定为张开;小于 0.1 时标定为闭合;否则标定为微张。 由于问题并 不复杂且输入图像不大,参考 LeNet⁃5 [15] 架构设计 网络,网络结构如表 1 所示,使用 ReLU(rectified lin⁃ ear units) [16]函数作为激活函数,除最后一个全连接 层 fc2 外,卷积层 conv1 、conv2 和全连接层 fc1 都接有 激活函数。 对于训练样本(嘴巴图像),使用平移和 旋转实现简单的对齐,然后将尺寸调整为 16×32 并 将像素值归一化到[0,1]。 训练数据按 9:1 划分为 训练集和验证集,使用随机梯度下降法训练网络,初 始学习率为 0.01,随着迭代次数的增加按比例衰减, 当网络在验证集上的分类准确率不再上升时停止训 练。 网络训练完成后,输入嘴巴图像,在网络中进行 一次前传获取嘴巴状态标签。 该嘴巴状态分类器的 具体设计参数以及数据流(每个层的输出)均在表 1 中展示。 图 7 嘴巴特征点示意图 Fig.7 Mouth keypoints 表 1 基于 CNN 的嘴巴状态分类器 Table 1 Mouth state classifier based on CNN 名称 类型 滤波器大小/ 步长 输出 Input 输入 — — 16×32×3 Convl 1 卷积层 Convolution 卷积 5×5 / 1 12×28×20 Pool 1 池化层 max pooling 最大池化 2×2 / 2 6×14×20 Convl 2 卷积层 Convolution 卷积 3×3 / 1 4×12×50 Pool 2 池化层 max pooling 最大池化 2×2 / 2 2×6×50 Fc1 全连接层 fully connection 全连接 — 300 Fc2 全连接层 fully connection 全连接 — 3 Cost 损失层 Softmaxwithloss Softmax 损失层 — 1 2.4 强形状约束定位 在人脸对齐算法中,不同部位人脸特征点之间 的位置关系(形状约束)作为一个隐含的先验用于 特征点的估计中。 这种形状约束是人脸固有的特 征,如眼睛位置应在眉毛的下方,鼻子应在嘴巴上 方,这里,称其为弱形状约束。 然而,对于具体的状 态细节,例如眼睛睁闭、嘴巴张闭时,局部区域特征 点之间的位置应满足怎样的距离关系,弱形状约束 并未涉及。 在 2.3 节中使用嘴巴状态分类器得到了 嘴巴状态标签,针对不同的嘴巴状态,可以在人脸形 状估计过程中对嘴巴区域特征点进行强形状约束。 算法流程如图 8 所示。 将测试图像以及嘴巴状态标签作为输入,并加 载训练好的模型,然后在形状回归估计过程中为每 一个回归器的形状更新添加如式(5)所示的强形状 约束: S t = S t-1 + δ S t-1 ,t = {1,2,…,T} S.t.D t in > λoD t ou ,λo ∈ (0,1) S.t.D t in < λcD t ou ,λc ∈ (0,1) (5) 式中:Din 、Dout分别表示上下嘴唇内边缘特征点对之 间的垂直距离和外边缘特征点对之间的垂直距离。 第 5 期 师亚亭,等:基于嘴巴状态约束的人脸特征点定位算法 ·581·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有