第16卷第2期 智能系统学报 Vol.16 No.2 2021年3月 CAAI Transactions on Intelligent Systems Mar.2021 D0:10.11992/tis.201910020 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.TP.20200717.1718.006.html 基于改进的Faster RCNN面部表情检测算法 伍锡如,凌星雨 (桂林电子科技大学电子工程与自动化学院,广西桂林541004) 摘要:针对真实环境下多目标表情分类识别算法准确率低的问题,提出一种基于改进的快速区域卷积神经网 络(Faster RCNN)面部表情检测算法。该算法利用二阶检测网络实现表情识别中的多目标识别与定位,使用密 集连接模块替代原始的特征提取模块,该模块能够融合多层次特征信息,增加网络深度并避免网络梯度消失。 采用柔性非极大抑制(sof-NMS)改进候选框合并策略,设计衰减函数替换传统非极大抑制(NMS)贪心算法, 避免相邻或重叠目标漏检,提高网络在多目标情况下的检测准确率。通过构建真实环境下的表情数据集,基于 改进的Faster RCNN进行实验测试,在不同场景中能够检测出目标的面部表情,检测准确率相比原始检测模型 提高5%,取得较好的检测精度。 关键词:目标检测:深度学习:表情识别:快速区域卷积神经网络:特征提取;分类识别:多目标识别:多目标定位 中图分类号:TP391.4 文献标志码:A文章编号:1673-4785(2021)02-0210-08 中文引用格式:伍锡如,凌星雨.基于改进的Faster RCNN面部表情检测算法.智能系统学报,2021,16(2):210-217. 英文引用格式:WU Xiru,LING Xingyu.Facial expression recognition based on improved Faster RCNNIJ.CAAI transactions on intelligent systems,2021,16(2):210-217. Facial expression recognition based on improved Faster RCNN WU Xiru,LING Xingyu (College of Electronic Engineering and Automation,Guilin University of Electronic Technology,Guilin 541004,China) Abstract:To address the problem of the low accuracy rate of the multi-target facial expression classification and recog- nition algorithm in real environments,in this paper we propose a facial expression detection algorithm based on an im- proved faster region-based convolutional neural network(RCNN).The proposed algorithm uses a two-stage detection network to accomplish multi-target recognition and location in facial expression recognition.Instead of the original fea- ture extraction module,densely connected convolutional networks are used,which can fuse multi-level feature informa- tion,increase network depth,and prevent network gradient disappearance.Soft non-maximum suppression (NMS)is used to improve the candidate-box merging strategy,and the attenuation function is designed to replace the traditional NMS greedy algorithm,thereby preventing the missed detection of adjacent or overlapping targets and improving the detection accuracy of the network under multi-target conditions.Through the construction of an expression data set in a real environment and an experiment based on the improved Faster RCNN,the facial expression of the target was detec- ted in different scenes with a detection accuracy rate 5%higher than that of the original detection model.Therefore, good accuracy is achieved by the proposed algorithm. Keywords:target detection,deep learning;expression recognition;Faster RCNN;feature extraction;classification and recognition;multi-target recognition;multi-target location 面部表情包含了丰富的信息,直接反映了人 们的心理特征,是表达情感的重要途径之一。面 收稿日期:2019-10-07.网络出版日期:2020-07-17. 部表情检测可应用于人机交互、安防监视、医疗 基金项目:国家自然科学基金项目(61863007):广西自然科学 及认知科学等多个领域,是计算机视觉研究热点 基金项目(2020 GXNSFDA238029):广西研究生教育 创新计划项目(YCSW2020I59):桂林电子科技大学 之一。面部表情的表达通常分为愤怒、厌恶、恐 研究生教育创新计划项目(C20YJM00BX0M, 2021YCXS122). 惧、开心、悲伤和惊讶6类12。面部表情检测任 通信作者:凌星雨.E-mail:lingxychina@163.com, 务的重点是从面部图像中提取面部表情特征,并
DOI: 10.11992/tis.201910020 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20200717.1718.006.html 基于改进的 Faster RCNN 面部表情检测算法 伍锡如,凌星雨 (桂林电子科技大学 电子工程与自动化学院,广西 桂林 541004) 摘 要:针对真实环境下多目标表情分类识别算法准确率低的问题,提出一种基于改进的快速区域卷积神经网 络(Faster RCNN)面部表情检测算法。该算法利用二阶检测网络实现表情识别中的多目标识别与定位,使用密 集连接模块替代原始的特征提取模块,该模块能够融合多层次特征信息,增加网络深度并避免网络梯度消失。 采用柔性非极大抑制(soft-NMS)改进候选框合并策略,设计衰减函数替换传统非极大抑制(NMS)贪心算法, 避免相邻或重叠目标漏检,提高网络在多目标情况下的检测准确率。通过构建真实环境下的表情数据集,基于 改进的 Faster RCNN 进行实验测试,在不同场景中能够检测出目标的面部表情,检测准确率相比原始检测模型 提高 5%,取得较好的检测精度。 关键词:目标检测;深度学习;表情识别;快速区域卷积神经网络;特征提取;分类识别;多目标识别;多目标定位 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2021)02−0210−08 中文引用格式:伍锡如, 凌星雨. 基于改进的 Faster RCNN 面部表情检测算法 [J]. 智能系统学报, 2021, 16(2): 210–217. 英文引用格式:WU Xiru, LING Xingyu. Facial expression recognition based on improved Faster RCNN[J]. CAAI transactions on intelligent systems, 2021, 16(2): 210–217. Facial expression recognition based on improved Faster RCNN WU Xiru,LING Xingyu (College of Electronic Engineering and Automation, Guilin University of Electronic Technology, Guilin 541004, China) Abstract: To address the problem of the low accuracy rate of the multi-target facial expression classification and recognition algorithm in real environments, in this paper we propose a facial expression detection algorithm based on an improved faster region-based convolutional neural network (RCNN). The proposed algorithm uses a two-stage detection network to accomplish multi-target recognition and location in facial expression recognition. Instead of the original feature extraction module, densely connected convolutional networks are used, which can fuse multi-level feature information, increase network depth, and prevent network gradient disappearance. Soft non-maximum suppression (NMS) is used to improve the candidate-box merging strategy, and the attenuation function is designed to replace the traditional NMS greedy algorithm, thereby preventing the missed detection of adjacent or overlapping targets and improving the detection accuracy of the network under multi-target conditions. Through the construction of an expression data set in a real environment and an experiment based on the improved Faster RCNN, the facial expression of the target was detected in different scenes with a detection accuracy rate 5% higher than that of the original detection model. Therefore, good accuracy is achieved by the proposed algorithm. Keywords: target detection; deep learning; expression recognition; Faster RCNN; feature extraction; classification and recognition; multi-target recognition; multi-target location 面部表情包含了丰富的信息,直接反映了人 们的心理特征,是表达情感的重要途径之一。面 部表情检测可应用于人机交互、安防监视、医疗 及认知科学等多个领域,是计算机视觉研究热点 之一。面部表情的表达通常分为愤怒、厌恶、恐 惧、开心、悲伤和惊讶 6 类 [1-2]。面部表情检测任 务的重点是从面部图像中提取面部表情特征,并 收稿日期:2019−10−07. 网络出版日期:2020−07−17. 基金项目:国家自然科学基金项目(61863007);广西自然科学 基金项目(2020GXNSFDA238029);广西研究生教育 创新计划项目(YCSW2020159);桂林电子科技大学 研究生教育创新计划项目( C20YJM00BX0M, 2021YCXS122). 通信作者:凌星雨. E-mail:lingxychina@163.com. 第 16 卷第 2 期 智 能 系 统 学 报 Vol.16 No.2 2021 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2021
第2期 伍锡如,等:基于改进的Faster RCNN面部表情检测算法 ·211· 使用经过训练的分类器识别不同的面部表情。传 题,本文创新性地引入Faster RCNN网络对面部 统的表情识别依赖手工提取特征,特征提取方法 表情进行识别及定位。根据表情检测特点在 主要分为3类:基于外观的特征提取、基于几何 Faster RCNN网络框架基础上进行改进,使用密集 的特征提取和基于运动的特征提取。常用的外观 连接网络代替原有特征提取模块,提取融合目标 特征提取包括像素强度、Gabor滤波、局部二 多层次特征,使特征更具表达力。采用Sof-NMS 值模式LBP(local binary patterns)及方向梯度直 替换原有候选框合并策略,设计衰减函数提高目 方图,其中Gabor特征提取计算成本高昂,而 标框定位精度。采集制作真实环境下的表情数据 LBP具有良好性能,被广泛用于面部表情识别-。 集,通过训练最终实现野外环境下各表情的识别 在基于几何的特征提取方法中,提取人眼、眉毛、 与定位,在精度上取得了很好的效果。 嘴角等面部器官的位置和形状,形成能够代表人 脸几何的特征向量9o。基于运动的特征提取方 1 Faster RCNN网络结构 法提取动态图像序列为运动特征,根据特征部位 Faster RCNN是目前主流的二阶段检测网络, 的运动变化对面部表情进行识别。由于光照 变化、遮挡等多种因素,表情识别仍具有挑战性) 是由RPN和Fast RCNN合并而来,每一阶段的网 络都可以输出检测类别与边框定位,以网络结构 这些因素会影响识别精度,手工提取特征不适用 分析,Faster RCNN网络可以分为3个部分,基础 于具有干扰的面部表情检测任务,深度学习的提 特征提取网络、区域建议网络RPN和Fast RCNN 出为这些问题提供了解决方案。 深度学习概念由Hinton在2006年提出4-1] 检测网络,算法的具体步骤如下,算法框架如图1 比传统的网络具有更强的特征表达能力和泛化能 所示。 力,近几年在面部表情检测中得到大量应用。如 基础特征提取 Fast RCNN Yang等i使用VGGl6网络及DNN(deep neural networks))形成双通道对不同特征进行提取来完成 全连接层 表情识别。Wu等)使用遗传算法优化神经网络 来进行表情识别任务。Salmam等1s]使用CNN 卷积特征图 RoI池化层 (convolutional neural networks)提取外观特征,使 特有卷积层 共享卷积层 Ro特征向量 用DNN提取几何特征点,合并为CNN-DNN模型 卷积层 进行表情识别任务。 在目标检测任务中,Girshick11提出的R- CNN(Region-CNN)方法是目标检测中重要的参考 区域得分 RPN网络 方法,目标检测系列算法很多都借鉴了R-CNN的 卷积特征图滑动窗口特征向量 思路。R-CNN模型是将目标区域建议与CNN分 类相结合,使用Selective Search算法在输入图像 图1 Faster RCNN网络结构 Fig.1 Faster RCNN architectures 中提取2O00个候选区域,经过CNN网络进行特 征提取,通过训练好的分类器来判断候选区域中 1.1 特征提取网络 是否含有目标,再使用回归器对候选框进行调 特征提取网络部分由卷积神经网络CNN构 整。Girshick等2o结合SPp-net网络的思想对R- 成,CNN基本结构包括卷积层、池化层、全连接 CNN进行了改进,提出Fast R-CNN模型。相比 层及softmax分类层。使用不同的CNN会对检测 R-CNN,Fast R-CNN对整幅图仅进行一次特征提 精度、检测时间等造成不同的影响。 取,再与候选框映射,避免候选框重复提取特征 Faster RCNN常采用的特征提取网络有3个, 而浪费时间。Fast RCNN采用Softmax分类与边 分别是ZFNet、VGG-16、ResNet,其中 框回归一起进行训练,省去特征存储,提高空间 1)ZFNet2是在AlexNet的基础上进行细节改动, 和时间利用率,同时分类和回归任务也可以共享 减少卷积核数量及步长大小,保留更多的特征, 卷积特征。Ren等提出用深度学习方法来进行 从中也可推理出网络深度增加,网络特征提取性 区域建议即区域建议网络RPN(region proposal net- 能越好,特征提取效果也越优秀;2)VGG-1621验 work),把RPN与Fast R-CNN结合,形成新的网络 证了卷积神经网络深度与性能之间的关系,通过 模型Faster RCNN,提高整体检测性能。 反复堆叠3×3的卷积核与2×2的最大池化层而 针对多目标复杂场景下的面部表情检测问 来。VGG-16网络结构简单,特征提取效果好,但
使用经过训练的分类器识别不同的面部表情。传 统的表情识别依赖手工提取特征,特征提取方法 主要分为 3 类:基于外观的特征提取、基于几何 的特征提取和基于运动的特征提取。常用的外观 特征提取包括像素强度[3] 、Gabor 滤波[4] 、局部二 值模式 LBP(local binary patterns)[5] 及方向梯度直 方图[6] ,其中 Gabor 特征提取计算成本高昂,而 LBP 具有良好性能,被广泛用于面部表情识别[7-8]。 在基于几何的特征提取方法中,提取人眼、眉毛、 嘴角等面部器官的位置和形状,形成能够代表人 脸几何的特征向量[9-10]。基于运动的特征提取方 法提取动态图像序列为运动特征,根据特征部位 的运动变化对面部表情进行识别[11-12]。由于光照 变化、遮挡等多种因素,表情识别仍具有挑战性[13] , 这些因素会影响识别精度,手工提取特征不适用 于具有干扰的面部表情检测任务,深度学习的提 出为这些问题提供了解决方案。 深度学习概念由 Hinton 在 2006 年提出[14-15] , 比传统的网络具有更强的特征表达能力和泛化能 力,近几年在面部表情检测中得到大量应用。如 Yang 等 [16] 使用 VGG16 网络及 DNN(deep neural networks) 形成双通道对不同特征进行提取来完成 表情识别。Wu 等 [17] 使用遗传算法优化神经网络 来进行表情识别任务。Salmam 等 [18] 使用 CNN (convolutional neural networks) 提取外观特征,使 用 DNN 提取几何特征点,合并为 CNN-DNN 模型 进行表情识别任务。 在目标检测任务中,Girshick[ 1 9 ] 提出的 RCNN(Region-CNN) 方法是目标检测中重要的参考 方法,目标检测系列算法很多都借鉴了 R-CNN 的 思路。R-CNN 模型是将目标区域建议与 CNN 分 类相结合,使用 Selective Search 算法在输入图像 中提取 2 000 个候选区域,经过 CNN 网络进行特 征提取,通过训练好的分类器来判断候选区域中 是否含有目标,再使用回归器对候选框进行调 整。Girshick 等 [20] 结合 SPP-net 网络的思想对 RCNN 进行了改进,提出 Fast R-CNN 模型。相比 R-CNN,Fast R-CNN 对整幅图仅进行一次特征提 取,再与候选框映射,避免候选框重复提取特征 而浪费时间。Fast RCNN 采用 Softmax 分类与边 框回归一起进行训练,省去特征存储,提高空间 和时间利用率,同时分类和回归任务也可以共享 卷积特征。Ren 等 [21] 提出用深度学习方法来进行 区域建议即区域建议网络 RPN(region proposal network),把 RPN 与 Fast R-CNN 结合,形成新的网络 模型 Faster RCNN,提高整体检测性能。 针对多目标复杂场景下的面部表情检测问 题,本文创新性地引入 Faster RCNN 网络对面部 表情进行识别及定位。根据表情检测特点在 Faster RCNN 网络框架基础上进行改进,使用密集 连接网络代替原有特征提取模块,提取融合目标 多层次特征,使特征更具表达力。采用 Soft-NMS 替换原有候选框合并策略,设计衰减函数提高目 标框定位精度。采集制作真实环境下的表情数据 集,通过训练最终实现野外环境下各表情的识别 与定位,在精度上取得了很好的效果。 1 Faster RCNN 网络结构 Faster RCNN 是目前主流的二阶段检测网络, 是由 RPN 和 Fast RCNN 合并而来,每一阶段的网 络都可以输出检测类别与边框定位,以网络结构 分析,Faster RCNN 网络可以分为 3 个部分,基础 特征提取网络、区域建议网络 RPN 和 Fast RCNN 检测网络,算法的具体步骤如下,算法框架如图 1 所示。 基础特征提取 卷积层 卷积特征图 特有卷积层 共享卷积层 滑动窗口 特征向量 RPN 网络 RoI 池化层 RoI 特征向量 Bbox Fast RCNN 回归 卷积特征图 全连接层 全连接层 区域得分 候选 区域 分类 得分 图 1 Faster RCNN 网络结构 Fig. 1 Faster RCNN architectures 1.1 特征提取网络 特征提取网络部分由卷积神经网络 CNN 构 成,CNN 基本结构包括卷积层、池化层、全连接 层及 softmax 分类层。使用不同的 CNN 会对检测 精度、检测时间等造成不同的影响。 Faster RCNN 常采用的特征提取网络有 3 个, 分 别 是 ZFNet 、 VGG-16 、 ResNet , 其 中 1)ZFNet[22] 是在 AlexNet 的基础上进行细节改动, 减少卷积核数量及步长大小,保留更多的特征, 从中也可推理出网络深度增加,网络特征提取性 能越好,特征提取效果也越优秀;2)VGG-16[23] 验 证了卷积神经网络深度与性能之间的关系,通过 反复堆叠 3×3 的卷积核与 2×2 的最大池化层而 来。VGG-16 网络结构简单,特征提取效果好,但 第 2 期 伍锡如,等:基于改进的 Faster RCNN 面部表情检测算法 ·211·
·212· 智能系统学报 第16卷 是参数大,训练的特征数量多,对硬件要求高: 1==,4=y 3)ResNet'2又称为残差网络,设计一种残差模块, Wa ha 解决网络深度增加时带来的梯度消失问题,实现 -og(g)a=log无) h 单位映射之间的连接路线,能够提取目标更深层 Wa (2) 次的特征,实现很好的识别效果。 Was ha 1.2区域建议网络RPN RPN用来提取候选区域,结构如图2。接收 log 来自基础特征提取网络传入的卷积特征图,通过 x、xa、xry,w,h同理)分别表示建议框、an 卷积核将每一个3×3的滑动窗口(sliding chor框和标定框的位置参数。 window)卷积成为256维的特征向量。对每一个 分类损失L是目标和非目标的对数损失: 滑动窗口通过1×1的卷积输出为两个全连接层, Les(pi,p)=-log[pip+(1-p)(1-pi)] (3) 即边框分类层cls layer(box-classification layer)和 回归损失Le(,)=Rt,-),其中 边框回归层reg layer(box-regression layer))。cls lay- 0.5(4-)2,-<1 er输出属于前景和背景的概率,reg layer输出预 Rt-)= -=0.5,其他 (4) 测区域的中心点坐标:x,y和长宽:w,h4个参 RPN通过损失函数对边框进行回归,并对检 数。滑动窗口中心对应的感受野来判断是否存在 测器输出的预测框进行非极大值抑制方法合并, 目标,由于目标长宽大小不一,以16为基准窗口 作为输入连接到Fast RCNN中。RPN产生的候选 大小,通过(8,16,32)3种窗口尺度和(1:2,1:1, 区域与特征提取网络输出的特征图相映射,ROI 2:I)3种长宽比生成k个anchor对特征图进行多 池化层对于不同大小的候选区域输入都能得到固 尺度多点位采样。 定维度的输出,再通过cls layer和reg layer得到最 类别:2k 边框:4 终的结果。 分类层 回归层 2改进的Faster RCNN 256维 2.1密集连接网络 采用更深的特征提取网络能够提取更深层次 的语义信息,但是随着网络加深,参数不可避免 地加大,这给网络优化和实验硬件带来一系列问 题,在本文的面部表情检测算法中,单独制作出 来的数据集样本数量少,网络训练容易造成过拟 合,采用DenseNet密集连接网络作为特征提取网 络可以解决上述问题。 滑动窗口:3×3 卷积特征图 DenseNet借鉴了ResNet的思想,与ResNet网 图2RPN结构 络不同,是全新的网络结构。两种网络结构最直 Fig.2 Region proposal networks structure 观的区别在于每一个网络模块的传递函数不同。 RPN的损失函数定义为 x=H(x-1)+-1 (5) Lpl.》= x=H(x0,x,…,x-i]D (6) 式(6)为ResNet网络传递函数,可以看出该 (1) 网络第1层的输出是一1层输出的非线性变化加 I-l层的输出。而DenseNet一个网络模块第I层 式中:角标i表示anchor的索引;p:表示每一个 的输出是前面所有层输出的非线性变换集合,网 anchor中对应k+1类(k个类别+1个背景)的概率 络模块(Dense Block)如图3所示。 分布;p表示是否含有目标(有目标则为1,反之 每一个Dense Block内的卷积都互相连接, 为0):Ncs为mini-batch大小(一般为256);Neg为 H表示对每个输入使用Batch Norm、ReLU,用 anchor数量;d为平衡权重,取值为l;是建议框 k维的3×3卷积核进行卷积,保证每个节点输出 坐标{亿,,t,;是标记框的坐标,具体参数值 同样维度的特征图。k表示每一层卷积输出特征 如下: 图的厚度,相比其他网络输出特征图厚度能够达
是参数大,训练的特征数量多,对硬件要求高; 3)ResNet[24] 又称为残差网络,设计一种残差模块, 解决网络深度增加时带来的梯度消失问题,实现 单位映射之间的连接路线,能够提取目标更深层 次的特征,实现很好的识别效果。 1.2 区域建议网络 RPN RPN 用来提取候选区域,结构如图 2。接收 来自基础特征提取网络传入的卷积特征图,通过 卷积核将每一 个 3 × 3 的滑动窗 口 (sliding window) 卷积成为 256 维的特征向量。对每一个 滑动窗口通过 1×1 的卷积输出为两个全连接层, 即边框分类层 cls layer(box-classification layer) 和 边框回归层 reg layer(box-regression layer)。cls layer 输出属于前景和背景的概率,reg layer 输出预 测区域的中心点坐标:x, y 和长宽:w, h 4 个参 数。滑动窗口中心对应的感受野来判断是否存在 目标,由于目标长宽大小不一,以 16 为基准窗口 大小,通过 (8,16,32)3 种窗口尺度和 (1∶2,1∶1, 2∶1)3 种长宽比生成 k 个 anchor 对特征图进行多 尺度多点位采样。 类别: 2k 滑动窗口: 3×3 卷积特征图 256 维 分类层 回归层 边框: 4k 图 2 RPN 结构 Fig. 2 Region proposal networks structure RPN 的损失函数定义为 L({pi},{ti}) = 1 Ncls ∑ i Lcls(pi , p ∗ i )+ λ 1 Nreg ∑ i p ∗ i Lreg(ti ,t ∗ i ) (1) pi p ∗ i Ncls Nreg λ ti {tx ,ty ,tw,th} t ∗ i 式中:角标 i 表示 anchor 的索引; 表示每一个 anchor 中对应 k+1 类 (k 个类别+1 个背景) 的概率 分布; 表示是否含有目标 (有目标则为 1,反之 为 0); 为 mini-batch 大小 (一般为 256); 为 anchor 数量; 为平衡权重,取值为 1; 是建议框 坐标 ; 是标记框的坐标,具体参数值 如下: tx = x− xa wa ,ty = (y−ya) ha tw = log( w wa ) ,th = log( h ha ) t ∗ x = x ∗ − xa wa, ,t ∗ y = y ∗ −ya ha t ∗ w = log( w ∗ wa ) ,t ∗ h = log( h ∗ ha ) (2) x xa x ∗ 、 、 (y, w, h 同理) 分别表示建议框、anchor 框和标定框的位置参数。 分类损失 Lcls 是目标和非目标的对数损失: Lcls(pi , p ∗ i ) = −log[pi p ∗ i +(1− p ∗ i )(1− pi)] (3) Lreg(ti ,t ∗ i ) = R(ti −t ∗ i 回归损失 ) ,其中 R(ti −t ∗ i ) = 0.5(ti −t ∗ i ) 2 , ti −t ∗ i < 1 ti −t ∗ i = 0.5,其他 (4) RPN 通过损失函数对边框进行回归,并对检 测器输出的预测框进行非极大值抑制方法合并, 作为输入连接到 Fast RCNN 中。RPN 产生的候选 区域与特征提取网络输出的特征图相映射,ROI 池化层对于不同大小的候选区域输入都能得到固 定维度的输出,再通过 cls layer 和 reg layer 得到最 终的结果。 2 改进的 Faster RCNN 2.1 密集连接网络 采用更深的特征提取网络能够提取更深层次 的语义信息,但是随着网络加深,参数不可避免 地加大,这给网络优化和实验硬件带来一系列问 题,在本文的面部表情检测算法中,单独制作出 来的数据集样本数量少,网络训练容易造成过拟 合,采用 DenseNet 密集连接网络作为特征提取网 络可以解决上述问题。 DenseNet 借鉴了 ResNet 的思想,与 ResNet 网 络不同,是全新的网络结构。两种网络结构最直 观的区别在于每一个网络模块的传递函数不同。 xl = Hl(xl−1)+ xl−1 (5) xl = Hl([x0, x1,··· , xl−1]) (6) 式 (6) 为 ResNet 网络传递函数,可以看出该 网络第 l 层的输出是 l−1 层输出的非线性变化加 l−1 层的输出。而 DenseNet 一个网络模块第 l 层 的输出是前面所有层输出的非线性变换集合,网 络模块 (Dense Block) 如图 3 所示。 每一个 Dense Block 内的卷积都互相连接, H 表示对每个输入使用 Batch Norm、ReLU,用 k 维的 3×3 卷积核进行卷积,保证每个节点输出 同样维度的特征图。k 表示每一层卷积输出特征 图的厚度,相比其他网络输出特征图厚度能够达 ·212· 智 能 系 统 学 报 第 16 卷
第2期 伍锡如,等:基于改进的Faster RCNN面部表情检测算法 ·213· 到几百甚至上千,DenseNet整体厚度仅为32。因 sion)是检测流程中重要的组成部分,本质是搜索 为网络中每个模块的密集连接能够有效利用浅层 局部极大值,抑制非极大值元素。Faster RCNN会 与深层特征,能够使网络高效而狭窄,并且大幅 在图片中生成一系列检测框B=b1,b2,·,bw}和对 度减少网络复杂程度与计算量,连接节点出的参 应的检测框得分集合S,NMS算法将选出最大得 数如图4。 分前的物体检测流程中的检测框M,与其余的检 测框进行重叠度IoU(Intersection over Union)计 脉 算,如果计算结果大于设定阈值N,则此检测框将 被抑制。NMS算法公式如下: (S:IoU(M,b)<N, S:={0IoUM,b)≥N (7) 式中1oU计算公式如下: IoU=(AnB)/(AUB) (8) 个特征图 其中A、B为两个重叠的检测框: 图3 Dense Block结构 从式(7)中可以看出NMS算法会将与检测 Fig.3 Dense Block architectures 框M相邻并大于阈值的检测框归零,如果一个待 检测目标在重叠区域出现,NMS算法则会导致该 目标检测失败,降低检测模型的准确率。 针对这个问题,本文使用Sof-NMS算法替代 图4节点H参数 传统的NMS算法。在该算法中,相邻检测框基 Fig.4 Node H parameter 于重叠部分的大小设置一个衰减函数而非将其分 本文采用4个Dense Block网络121层作为特 数置为零,保证相邻目标能够准确识别。Soft- 征提取网络,去除全连接层和分类层,再连接 NMS公示表示如下: RPN及RoI池化层,完成目标识别与定位。4层 S IoU(M,b;)<N Dense Block结构参数如表1所示。 S= (9) Si(1-IoU(M.bi)IoU(M.bi)N, 表1 DenseNet结构参数 Table 1 DenseNet structure parameters 本文改进Faster RCNN检测算法的前端特征 提取网络及末端回归器,用于完成真实环境下面 结构 参数 部表情检测,算法流程如下所示: 卷积层 7x7 conv,stride 2 算法改进Faster RCNN流程 池化层 3x3 max pool,stride 2 1)输入图像A,调整图像尺寸,输出为规定尺 1×1conv Dense block(1) ×6 寸MxN的图B: 3×3conv 2)B作为特征提取模块的输人,通过DenseN- 1×1 conv 连接层1 t得到多层次融合特征图C; 2x2 average pool,stride 2 3)C作为区域建议(RPN)的输入,采用滑动 1×1conv 窗口的方法得到300个proposals:D。RPN使用 Dense block(2) ×12 3x3conv 边框回归改变生成的anchors,使之更加接近标 1×1conv 记框; 连接层2 2x2 average pool,stride 2 4)C与D作为感兴区域(Ro)的输入,得到建 [1x1conv 议框与特征图之间的映射图E。 Dense block(3) 3×3conv ×24 5)把E分别输出到分类器与回归器两个分支 中。分类器采用Softmax对E进行分类识别,回 1×1 conv 连接层4 归器采用边框回归So-NMS进一步纠正边框,最 2x2 average pool,stride 2 终分类目标并定位。 1×1conv Dense block(4) ×16 3×3cony 3实验 2.2 非极大值抑制 3.1数据集制作及处理 非极大值抑制NMS(non-maximum suppres- 为验证所提出Faster RCNN面部表情检测算
Hl 到几百甚至上千,DenseNet 整体厚度仅为 32。因 为网络中每个模块的密集连接能够有效利用浅层 与深层特征,能够使网络高效而狭窄,并且大幅 度减少网络复杂程度与计算量,连接节点 的参 数如图 4。 k 个特征图 x0 x1 x2 x3 H1 H2 H3 图 3 Dense Block 结构 Fig. 3 Dense Block architectures s1−µB σB 2+ε ReLu (s3 ) 3×3 conv h1 s3 s2 s1 γ·s x0 Wh2 ·x0 2+β 图 4 节点 Hl 参数 Fig. 4 Node Hl parameter 本文采用 4 个 Dense Block 网络 121 层作为特 征提取网络,去除全连接层和分类层,再连接 RPN 及 RoI 池化层,完成目标识别与定位。4 层 Dense Block 结构参数如表 1 所示。 表 1 DenseNet 结构参数 Table 1 DenseNet structure parameters 结构 参数 卷积层 7×7 conv, stride 2 池化层 3×3 max pool, stride 2 Dense block(1) 1×1conv 3×3conv ×6 连接层1 1×1 conv 2×2 average pool,stride 2 Dense block(2) 1×1conv 3×3conv ×12 连接层2 1×1 conv 2×2 average pool,stride 2 Dense block(3) 1×1conv 3×3conv ×24 连接层4 1×1 conv 2×2 average pool,stride 2 Dense block(4) 1×1conv 3×3conv ×16 2.2 非极大值抑制 非极大值抑制 NMS(non-maximum suppresB={b1,b2,··· ,bN} S i Nt sion) 是检测流程中重要的组成部分,本质是搜索 局部极大值,抑制非极大值元素。Faster RCNN 会 在图片中生成一系列检测框 和对 应的检测框得分集合 ,NMS 算法将选出最大得 分前的物体检测流程中的检测框 M,与其余的检 测框进行重叠度 IoU(Intersection over Union) 计 算,如果计算结果大于设定阈值 则此检测框将 被抑制。NMS 算法公式如下: S i = { S i IoU(M,bi) <Nt 0 IoU(M,bi) ⩾ Nt (7) 式中 IoU 计算公式如下: IoU = (A∩ B)/(A∪ B) (8) 其中 A、B 为两个重叠的检测框: 从式 (7) 中可以看出 NMS 算法会将与检测 框 M 相邻并大于阈值的检测框归零,如果一个待 检测目标在重叠区域出现,NMS 算法则会导致该 目标检测失败,降低检测模型的准确率。 针对这个问题,本文使用 Soft-NMS 算法替代 传统的 NMS 算法。在该算法中,相邻检测框基 于重叠部分的大小设置一个衰减函数而非将其分 数置为零,保证相邻目标能够准确识别。SoftNMS 公示表示如下: S i = S iIoU(M,bi) <Nt S i(1−IoU(M,bi))IoU(M,bi) ⩾ Nt (9) 本文改进 Faster RCNN 检测算法的前端特征 提取网络及末端回归器,用于完成真实环境下面 部表情检测,算法流程如下所示: 算法 改进 Faster RCNN 流程 1) 输入图像 A,调整图像尺寸,输出为规定尺 寸 M×N 的图 B; 2) B 作为特征提取模块的输入,通过 DenseNet 得到多层次融合特征图 C; 3) C 作为区域建议 (RPN) 的输入,采用滑动 窗口的方法得到 300 个 proposals:D。RPN 使用 边框回归改变生成的 anchors,使之更加接近标 记框; 4) C 与 D 作为感兴区域 (RoI) 的输入,得到建 议框与特征图之间的映射图 E。 5) 把 E 分别输出到分类器与回归器两个分支 中。分类器采用 Softmax 对 E 进行分类识别,回 归器采用边框回归 Soft-NMS 进一步纠正边框,最 终分类目标并定位。 3 实验 3.1 数据集制作及处理 为验证所提出 Faster RCNN 面部表情检测算 第 2 期 伍锡如,等:基于改进的 Faster RCNN 面部表情检测算法 ·213·
·214 智能系统学报 第16卷 法的有效性,本文独自采集愤怒、厌恶、恐惧、开 集中6类相关表情进行验证。 心、悲伤和惊讶6类表情数据集,共4152张3.2实验参数及评价指标 图片。 由于DenseNet在传输过程中需要融合当前 为保证检测模型能够完成日常生活情况下的 阶段所有特征图,对显存要求巨大,因此采用密 面部表情检测,数据具有不同的光照强度、不同 集连接网络的高效内存实现方法。提出两个预先 的人物位姿、复杂的背景及多个目标,包含不同 分配的共享内存存储位置,存放用来连接的共享 肤色、年龄、种族等,并对数据中50%的数据集采 特征图。在正向传递期间,将所有中间输出分配 取镜像扩充,50%数据集采取平移扩充,通过La 给这些存储器块:在反向传递期间,根据需要即 bellmg软件对数据进行标注,如图5所示。扩充 时重新计算更新传递函数。采用这种策略使得 后的数据集为8304张图片,其中90%作为训练 DenseNet在增加较少的计算开销下能够在单块显 集,10%作为测试集,数据集数量分布如表2所示。 卡中工作。 实验基于Tensorflow框架,采用I76700处理 器,内存为32G,显卡GeForce RTX2080Ti,显存 为11G进行训练。实验数据由个人采集,有生活 照、剧照等不同场景下的人物表情,并由Labellmg 软件进行人工标注。 总数据训练迭代10万次,批大小Batchs为 图5数据扩充及标注 Fig.5 Data expansion and labeling 64,初始学习率设置为0.001,并且在训练时期总 数的75%后设置为0.0001。 表2数据参数 Table 2 Data parameters 评价指标为平均精度AP(Average-.Precision), 是Precision-recall(P-R)曲线所围成的面积。在P- 数据集 愤怒 厌恶 恐惧 开心 悲伤 惊讶 R曲线中,P表示精确率,R表示召回率,计算如 总数 1506 10341398 1430 1456 1480 下式: 训练集 1204 8271118 11441164 1184 P=TP/(TP+FP) (10) 测试集151 103 140143147 148 R=TP/(TP+FN) (11) 式中:TP(True positives)为正确样本被识别为正样 从测试数据集中挑选出困难样本用于对比改 本的数量;FP(False positives)为负样本被错误识 进算法在复杂背景下的准确率。其中困难样本的 别为正样本的数量:FN为正样本被错误识别为负 选取范围为图片中检测目标多于4个,面部有光 样本的数量。AP值表示单个类别的识别准确率, 照影响,面部遮挡及侧面情况。困难样本测试数 越高表示网络模型性能越好。mAP(mean Aver- 据如表3所示。在困难样本中,部分图像具备多 age-Preision)表示所有类别总体识别准确率,与 个困难属性,下文介绍。图像存在多个人物表情 AP值之间的关系如式(12)所示。 且存在属于黑夜拍摄,该图像既属于多目标类别 样本也属于光照影响样本。 mAP= (12) 表3。不同场景的数据 C Table 3 Test sets of different scenarios 3.3结果比较及分析 困难样本 多目标 光照影响 遮挡 侧面 分别用ResNet和DenseNet作为特征提取网 数量 143 73 61 39 络进行训练,使用测试集对网络模型进行测试, 得到每类表情的AP值如表4所示,困难样本的 考虑算法在不同环境下的有效性,本文添加 检测对比结果如表5所示。 日本女性面部表情JAFFE(Japanese Female Facial 表4不同网络模型的测试结果 Expressions)数据集2进行对照实验。JAFFE数 Table 4 Test results of different network models 据由10名女性的7种表情构成,包括6种基本情 网络 愤怒厌恶恐惧开心悲伤惊讶 绪和一种中性情绪,总共213副图像,原始图像 ResNet 76.272.879.381.879.883.1 为256像素×256像素大小,数据都已经进行过裁 DenseNet 80.174.883.687.484.386.9 剪和调整,人物面部居中,仅有少量光照差别,是 DenseNet+SoftNMS80.174.883.688.884.688.2 个质量较高的面部表情数据集。试验选取数据
法的有效性,本文独自采集愤怒、厌恶、恐惧、开 心、悲伤和惊 讶 6 类表情数据集, 共 4 1 5 2 张 图片。 为保证检测模型能够完成日常生活情况下的 面部表情检测,数据具有不同的光照强度、不同 的人物位姿、复杂的背景及多个目标,包含不同 肤色、年龄、种族等,并对数据中 50% 的数据集采 取镜像扩充,50% 数据集采取平移扩充,通过 LabelImg 软件对数据进行标注,如图 5 所示。扩充 后的数据集为 8 304 张图片,其中 90% 作为训练 集,10% 作为测试集,数据集数量分布如表 2 所示。 图 5 数据扩充及标注 Fig. 5 Data expansion and labeling 表 2 数据参数 Table 2 Data parameters 数据集 愤怒 厌恶 恐惧 开心 悲伤 惊讶 总数 1 506 1 034 1398 1430 1456 1 480 训练集 1 204 827 1118 1144 1164 1 184 测试集 151 103 140 143 147 148 从测试数据集中挑选出困难样本用于对比改 进算法在复杂背景下的准确率。其中困难样本的 选取范围为图片中检测目标多于 4 个,面部有光 照影响,面部遮挡及侧面情况。困难样本测试数 据如表 3 所示。在困难样本中,部分图像具备多 个困难属性,下文介绍。图像存在多个人物表情 且存在属于黑夜拍摄,该图像既属于多目标类别 样本也属于光照影响样本。 表 3 不同场景的数据 Table 3 Test sets of different scenarios 困难样本 多目标 光照影响 遮挡 侧面 数量 143 73 61 39 考虑算法在不同环境下的有效性,本文添加 日本女性面部表情 JAFFE(Japanese Female Facial Expressions) 数据集[25] 进行对照实验。JAFFE 数 据由 10 名女性的 7 种表情构成,包括 6 种基本情 绪和一种中性情绪,总共 213 副图像,原始图像 为 256 像素×256 像素大小,数据都已经进行过裁 剪和调整,人物面部居中,仅有少量光照差别,是 一个质量较高的面部表情数据集。试验选取数据 集中 6 类相关表情进行验证。 3.2 实验参数及评价指标 由于 DenseNet 在传输过程中需要融合当前 阶段所有特征图,对显存要求巨大,因此采用密 集连接网络的高效内存实现方法。提出两个预先 分配的共享内存存储位置,存放用来连接的共享 特征图。在正向传递期间,将所有中间输出分配 给这些存储器块;在反向传递期间,根据需要即 时重新计算更新传递函数。采用这种策略使得 DenseNet 在增加较少的计算开销下能够在单块显 卡中工作。 实验基于 Tensorflow 框架,采用 I76 700 处理 器,内存为 32G,显卡 GeForce RTX2080Ti,显存 为 11G 进行训练。实验数据由个人采集,有生活 照、剧照等不同场景下的人物表情,并由 LabelImg 软件进行人工标注。 总数据训练迭代 10 万次,批大小 Batchs 为 64,初始学习率设置为 0.001,并且在训练时期总 数的 75% 后设置为 0.0001。 评价指标为平均精度 AP(Average-Precision), 是 Precision-recall(P-R) 曲线所围成的面积。在 PR 曲线中,P 表示精确率,R 表示召回率,计算如 下式: P = TP/(TP+FP) (10) R = TP/(TP+FN) (11) 式中:TP(True positives) 为正确样本被识别为正样 本的数量;FP(False positives) 为负样本被错误识 别为正样本的数量;FN 为正样本被错误识别为负 样本的数量。AP 值表示单个类别的识别准确率, 越高表示网络模型性能越好。mAP(mean Average-Preision) 表示所有类别总体识别准确率,与 AP 值之间的关系如式 (12) 所示。 mAP = ∑C i=1 APi C (12) 3.3 结果比较及分析 分别用 ResNet 和 DenseNet 作为特征提取网 络进行训练,使用测试集对网络模型进行测试, 得到每类表情的 AP 值如表 4 所示,困难样本的 检测对比结果如表 5 所示。 表 4 不同网络模型的测试结果 Table 4 Test results of different network models 网络 愤怒 厌恶 恐惧 开心 悲伤 惊讶 ResNet 76.2 72.8 79.3 81.8 79.8 83.1 DenseNet 80.1 74.8 83.6 87.4 84.3 86.9 DenseNet +SoftNMS 80.1 74.8 83.6 88.8 84.6 88.2 ·214· 智 能 系 统 学 报 第 16 卷
第2期 伍锡如,等:基于改进的Faster RCNN面部表情检测算法 ·215· 表5困难样本测试结果 检测结果提高较多,因为这3类表情的测试集存 Table 5 Test results of difficult sample 在多目标、有遮挡及复杂背景的样本,DenseN- 网络 多目标 光照影响 遮挡 侧面 et能够提取目标更多的特征,达到更好的效果。 原始算法 75.6 75.3 67.2 68.3 采用Sof-NMS对检测框进行改进,准确率分别在 改进算法 79.7 76.7 72.4 71.8 开心、悲伤、惊讶3类存在多目标样本的数据集 中提高了一个百分点,说明Soft-NMS在多目标及 从检测结果可以看出,采用ResNet的Faster 目标重叠情况下能够避免检测框重复度高于阈值 RCNN在各类表情检测中mAP达到78%以上,部 导致的候选框归零的错误,达到更好的检测效 分检测结果如图6所示。图6(a)中目标特征明 果。通过表5则可以看出,改进的检测网络在困 显,光照充足,模型能够达到很好的检测结果, 难样本中相比原版具有更高的鲁棒性,其中在多 图6(b)中脸部特征有部分遮挡,且含有不同表情 目标、遮挡及侧面3类样本中提高较为明显。采 类型,检测效果令人满意,而图6(c)中存在漏检 用改进Faster RCNN算法与原始Faster RCNN在 情况,可以看出使用ResNet具有一定的检测能 多目标复杂背景下的效果对比如图7。 力,但依旧存在一些漏检和误检情况。这是因为 数据量过小,ResNet无法充分训练,在复杂情况 下鲁棒性不高。 (a)复杂环境下漏检 (a)无遮挡 (b)错检 (c)漏检 图7原始网络与改进网络对比 (b)有遮挡 Fig.7 Comparison of accuracy with different backbone 图7中选取多目标、多位姿及黑夜情况下的 样本进行检测,第1行为原始网络检测结果,第 2行为改进网络的检测结果。结果表明,原始网 络在复杂情况下普遍存在漏检情况。图7b)中原 始网络出现错误检测,表情类型应为悲伤,而检 测结果为恐惧。图7(©)中出现漏检,并且检测框 并未准确包含面部目标。对比可以看出采用DenseNet (c)漏检 及Soft-NMS改进的Faster RCNN在检测结果上优 图6 ResNet-.Faster RCNN检测效果 于原始的Faster RCNN.,能够检测到更多的目标表 Fig.6 ResNet-Faster RCNN detection result 情,并在相邻目标距离过近的情况下准确地框选 从表4可以看出采用DenseNet-l21作为特征 出独立个体。在背景复杂及多目标情况下改进 提取网络mAP能够达到83%,相比ResNet提高 的Faster RCNN性能提高更为明显。 5%。其中在开心、悲伤、惊讶这3类表情中,模型 考虑制作的数据集具有相似的环境特性,试
表 5 困难样本测试结果 Table 5 Test results of difficult sample 网络 多目标 光照影响 遮挡 侧面 原始算法 75.6 75.3 67.2 68.3 改进算法 79.7 76.7 72.4 71.8 从检测结果可以看出,采用 ResNet 的 Faster RCNN 在各类表情检测中 mAP 达到 78% 以上,部 分检测结果如图 6 所示。图 6(a) 中目标特征明 显,光照充足,模型能够达到很好的检测结果, 图 6(b) 中脸部特征有部分遮挡,且含有不同表情 类型,检测效果令人满意,而图 6(c) 中存在漏检 情况,可以看出使用 ResNet 具有一定的检测能 力,但依旧存在一些漏检和误检情况。这是因为 数据量过小,ResNet 无法充分训练,在复杂情况 下鲁棒性不高。 (a) 无遮挡 (b) 有遮挡 (c) 漏检 图 6 ResNet-Faster RCNN 检测效果 Fig. 6 ResNet-Faster RCNN detection result 从表 4 可以看出采用 DenseNet-121 作为特征 提取网络 mAP 能够达到 83%,相比 ResNet 提高 5%。其中在开心、悲伤、惊讶这 3 类表情中,模型 检测结果提高较多,因为这 3 类表情的测试集存 在多目标、有遮挡及复杂背景的样本,DenseNet 能够提取目标更多的特征,达到更好的效果。 采用 Soft-NMS 对检测框进行改进,准确率分别在 开心、悲伤、惊讶 3 类存在多目标样本的数据集 中提高了一个百分点,说明 Soft-NMS 在多目标及 目标重叠情况下能够避免检测框重复度高于阈值 导致的候选框归零的错误,达到更好的检测效 果。通过表 5 则可以看出,改进的检测网络在困 难样本中相比原版具有更高的鲁棒性,其中在多 目标、遮挡及侧面 3 类样本中提高较为明显。采 用改进 Faster RCNN 算法与原始 Faster RCNN 在 多目标复杂背景下的效果对比如图 7。 (a) 复杂环境下漏检 (b) 错检 (c) 漏检 图 7 原始网络与改进网络对比 Fig. 7 Comparison of accuracy with different backbone 图 7 中选取多目标、多位姿及黑夜情况下的 样本进行检测,第 1 行为原始网络检测结果,第 2 行为改进网络的检测结果。结果表明,原始网 络在复杂情况下普遍存在漏检情况。图 7(b) 中原 始网络出现错误检测,表情类型应为悲伤,而检 测结果为恐惧。图 7(c) 中出现漏检,并且检测框 并未准确包含面部目标。对比可以看出采用 DenseNet 及 Soft-NMS 改进的 Faster RCNN 在检测结果上优 于原始的 Faster RCNN,能够检测到更多的目标表 情,并在相邻目标距离过近的情况下准确地框选 出独立个体。在背景复杂及多目标情况下改进 的 Faster RCNN 性能提高更为明显。 考虑制作的数据集具有相似的环境特性,试 第 2 期 伍锡如,等:基于改进的 Faster RCNN 面部表情检测算法 ·215·
·216· 智能系统学报 第16卷 验加入JAFFE数据集来验证网络模型在不同环 化候选框合并策略,使候选框更加精确。制作真 境下的检测性能。试验将已训练好的网络模型 实环境下的表情数据集,并进行扩充,提高训练 在JAFFE数据中测试,用来比较原版网络与改进 模型的鲁棒性。本文提出的检测算法能够实现日 网络在新数据集中的泛化性。将JAFFE数据的 常生活中的多目标面部表情检测,在黑夜、部分 50%纳入训练集作为第3组对照实验,对比数据 遮挡、佩戴饰品等复杂情况下取得较好的精度, 集对实验结果造成的影响,对比结果如图8所示。 达到了良好的检测效果。 JAFFE数据集实验 100 参考文献: 80 60 [1]CALVO R A.D'MELLO S.Affect detection:an interdis- ciplinary review of models,methods,and their applica- tions[J].IEEE transactions on affective computing,2010, 0 1(1):18-37 愤怒 厌恶恐惧开心悲伤惊讶 [2]IZARD C E.Innate and universal facial expressions:evid- ■原版网络 ■改进网络 ■加入训练集 ence from developmental and cross-cultural research[J]. 图8原始网络与改进网络对比 Psychological bulletin.1994,115(2):288-299 Fig.8 Comparison of test results [3]SUN Zhe,HU Zhengping,ZHAO Mengyao.Automatic- 由于JAFFE数据集为单目标高质量数据集, ally query active features based on pixel-level for facial ex- 光照影响小、背景单一,与原数据集差异较大,因 pression recognition[J].IEEE access,2019,7: 此算法的提高不如在原数据集中明显,但依旧可 104630-104641 以看出改进算法较原始算法具有一定优势。将 [4]ALPHONSE A S,STARVIN M S.A novel maximum and 50%数据集加入训练集后,算法模型在JAFFE数 minimum response-based Gabor(MMRG)feature extrac- 据集中性能有明显提高,部分检测结果如图9所 tion method for facial expression recognition[J].Multime- 示,可以看出数据集对算法具有较大影响。如果 dia tools and applications,2019,78(16):23369-23397 进一步扩充数据集的多样性,算法的鲁棒性将进 [S]童莹.一种方向性的局部二值模式在人脸表情识别中的 一步提高。 应用)智能系统学报,2015,10(3):422-428。 TONG Ying.Local binary pattern based on the directions and its application in facial expression recognition[J]. CAAI transactions on intelligent systems,2015,10(3): 422-428. [6]SADEGHI H,RAIE AA.Histogram distance metric learn- ing for facial expression recognition[J].Journal of visual (a)惊讶 (b)悲伤 (c)开心 communication and image representation,2019,62 图9 JAFFE数据集检测结果 152-165. Fig.9 Test results of JAFFE dataset [7]HAPPY S L.ROUTRAY A.Automatic facial expression 通过一系列实验对比,可以看出改进的Faster recognition using features of salient facial patches[J].IEEE RCNN算法在面部表情检测任务中具有较高的检 transactions on affective computing,2015,6(1):1-12 测精度,同时在不同环境中具备良好的鲁棒性, [8]BEJAOUI H,GHAZOUANI H,BARHOUMI W.Sparse 提高了算法的应用范围,更有实际应用价值。 coding-based representation of LBP difference for 3D/4D facial expression recognition[J].Multimedia tools and ap- 4结束语 plications,2019,78(16):22773-22796 [9]LI Ruiqi,TIAN Jing,CHUA M C H.Facial expressi on 针对传统表情检测算法对于环境光线不同、 classification using salient pattern driven integrated geo- 背景多样及位姿角度变化等情况下无法发挥有效 metric and textual features[J].Multimedia tools and applic- 作用的问题,提出深度学习表情检测算法,以 ations..2019,78(20):28971-28983 Faster RCNN为基础改进,使用密集连接网络作为 [10]ZANGENEH E,MORADI A.Facial expression recogni- 特征提取模块,每个模块的密集连接能够有效利 tion by using differential geometric featuresfJ].The ima- 用浅层与深层特征,提高网络对面部表情检测的 ging science journal,2018,66(8):463-470. 准确率,采用Soft-NMS替换原有的NMS算法,优 [11]HAPPY S L.ROUTRAY A.Fuzzy histogram of optical
验加入 JAFFE 数据集来验证网络模型在不同环 境下的检测性能。试验将已训练好的网络模型 在 JAFFE 数据中测试,用来比较原版网络与改进 网络在新数据集中的泛化性。将 JAFFE 数据的 50% 纳入训练集作为第 3 组对照实验,对比数据 集对实验结果造成的影响,对比结果如图 8 所示。 100 80 60 40 20 0 平均准确度 JAFFE 数据集实验 愤怒 厌恶 恐惧 开心 悲伤 惊讶 原版网络 改进网络 加入训练集 图 8 原始网络与改进网络对比 Fig. 8 Comparison of test results 由于 JAFFE 数据集为单目标高质量数据集, 光照影响小、背景单一,与原数据集差异较大,因 此算法的提高不如在原数据集中明显,但依旧可 以看出改进算法较原始算法具有一定优势。将 50% 数据集加入训练集后,算法模型在 JAFFE 数 据集中性能有明显提高,部分检测结果如图 9 所 示,可以看出数据集对算法具有较大影响。如果 进一步扩充数据集的多样性,算法的鲁棒性将进 一步提高。 (a) 惊讶 (b) 悲伤 (c) 开心 图 9 JAFFE 数据集检测结果 Fig. 9 Test results of JAFFE dataset 通过一系列实验对比,可以看出改进的 Faster RCNN 算法在面部表情检测任务中具有较高的检 测精度,同时在不同环境中具备良好的鲁棒性, 提高了算法的应用范围,更有实际应用价值。 4 结束语 针对传统表情检测算法对于环境光线不同、 背景多样及位姿角度变化等情况下无法发挥有效 作用的问题,提出深度学习表情检测算法,以 Faster RCNN 为基础改进,使用密集连接网络作为 特征提取模块,每个模块的密集连接能够有效利 用浅层与深层特征,提高网络对面部表情检测的 准确率,采用 Soft-NMS 替换原有的 NMS 算法,优 化候选框合并策略,使候选框更加精确。制作真 实环境下的表情数据集,并进行扩充,提高训练 模型的鲁棒性。本文提出的检测算法能够实现日 常生活中的多目标面部表情检测,在黑夜、部分 遮挡、佩戴饰品等复杂情况下取得较好的精度, 达到了良好的检测效果。 参考文献: CALVO R A, D'MELLO S. Affect detection: an interdisciplinary review of models, methods, and their applications[J]. IEEE transactions on affective computing, 2010, 1(1): 18–37. [1] IZARD C E. Innate and universal facial expressions: evidence from developmental and cross-cultural research[J]. Psychological bulletin, 1994, 115(2): 288–299. [2] SUN Zhe, HU Zhengping, ZHAO Mengyao. Automatically query active features based on pixel-level for facial expression recognition[J]. IEEE access, 2019, 7: 104630–104641. [3] ALPHONSE A S, STARVIN M S. A novel maximum and minimum response-based Gabor (MMRG) feature extraction method for facial expression recognition[J]. Multimedia tools and applications, 2019, 78(16): 23369–23397. [4] 童莹. 一种方向性的局部二值模式在人脸表情识别中的 应用 [J]. 智能系统学报, 2015, 10(3): 422–428. TONG Ying. Local binary pattern based on the directions and its application in facial expression recognition[J]. CAAI transactions on intelligent systems, 2015, 10(3): 422–428. [5] SADEGHI H, RAIE A A. Histogram distance metric learning for facial expression recognition[J]. Journal of visual communication and image representation, 2019, 62: 152–165. [6] HAPPY S L, ROUTRAY A. Automatic facial expression recognition using features of salient facial patches[J]. IEEE transactions on affective computing, 2015, 6(1): 1–12. [7] BEJAOUI H, GHAZOUANI H, BARHOUMI W. Sparse coding-based representation of LBP difference for 3D/4D facial expression recognition[J]. Multimedia tools and applications, 2019, 78(16): 22773–22796. [8] LI Ruiqi, TIAN Jing, CHUA M C H. Facial expressi on classification using salient pattern driven integrated geometric and textual features[J]. Multimedia tools and applications, 2019, 78(20): 28971–28983. [9] ZANGENEH E, MORADI A. Facial expression recognition by using differential geometric features[J]. The imaging science journal, 2018, 66(8): 463–470. [10] [11] HAPPY S L, ROUTRAY A. Fuzzy histogram of optical ·216· 智 能 系 统 学 报 第 16 卷
第2期 伍锡如,等:基于改进的Faster RCNN面部表情检测算法 ·217· flow orientations for micro-expression recognition[J]. CV).Santiago,Chile,2015:1440-1448 IEEE transactions on affective computing,2019,10(3): [21]REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster 394-406. R-CNN:towards real-time object detection with region [12]LU Hua.KPALMA K.RONSIN J.Motion descriptors for proposal networks[J].IEEE transactions on pattern ana- micro-expression recognition[J].Signal processing:im- lysis and machine intelligence,2017,39(6):1137-1149. age communication,2018,67:108-117. [22]ZEILER M D,FERGUS R.Visualizing and understand- [13】刘帅师,郭文燕,张言,等.鲁棒的正则化编码随机遮挡 ing convolutional networks[C]//Proceedings of the 13th 表情识别).智能系统学报,2018,13(2)261-268. European Conference on Computer Vision(ECCV). LIU Shuaishi,GUO Wenyan,ZHANG Yan,et al.Recog- Zurich,Switzerland:Springer,2014:818-833. nition of facial expression in case of random shielding [23]SIMONYAN K.ZISSERMAN A.Very deep convolu- based on ro-bust regularized coding[J].CAAI transac- tional networks for large-scale image recognition tions on intelligent systems,2018,13(2):261-268. [EB/OL].[2019-12-12]http/∥:arXiv:1409.1556,2014 [14]HINTON G E,SALAKHUTDINOV RR.Reducing the [24]HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al. dimensionality of data with neural networks[J].Science, Deep residual learning for image recognition[Cl/Proceed- 2006,313(5786):504-507. ings of 2016 IEEE Conference on Computer Vision and [15]HINTON G E,OSINDERO S,TEH Y W.A fast learning Pattern Recognition.Las Vegas,NV,USA,2016: algorithm for deep belief nets[J].Neural computation, 770-778. 2006,18(7):1527-1554. [25]LYONS M.AKAMATSU S.KAMACHI M.et al.Cod- [16]YANG Biao,CAO Jinmeng,NI Rongrong,et al.Facial ing facial expressions with Gabor wavelets[C/OL].Pro- expression recognition using weighted mixture deep neur- ceedings of the 3rd IEEE International Conference on al network based on double-channel facial images[J]. Automatic Face and Gesture Recognition.Nara,Japan: IEEE access,.2017,6:4630-4640. IEEE,1998.[2012-12-05].http:/www.doc88.com/p- [17]WU Min,SU Wanjuan,CHEN Luefeng,et al.Weight-ad- 6921152816768.html apted convolution neural network for facial expression re- cognition in Human-robot interaction[J].IEEE transac- 作者简介: tions on systems,man,and cybernetics:systems,2019, 伍锡如,教授,博士,主要研究方 51(3:1473-1484. 向为深度学习、神经网络、机器人控 [18]SALMAM F Z,MADANI A,KISSI M.Fusing multi- 制。主持国家自然科学基金项目 2项,主持广西省自然科学基金项目 stream deep neural networks for facial expression recog- 3项,获国家发明专利10余项。出版 nition[J].Signal,image and video processing,2019, 专著1部、教材1部,发表学术论文 13(3)609-616. 40篇。 [19]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich feature hierarchies for accurate object detection and se- 凌星雨,硕土研究生,主要研究方 向为深度学习、计算机视觉。 mantic segmentation[C]//Proceedings of 2014 IEEE Con- ference on Computer Vision and Pattern Recognition (CVPR).Columbus,Ohio,USA,2014:580-587 [20]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision(IC-
flow orientations for micro-expression recognition[J]. IEEE transactions on affective computing, 2019, 10(3): 394–406. LU Hua, KPALMA K, RONSIN J. Motion descriptors for micro-expression recognition[J]. Signal processing: image communication, 2018, 67: 108–117. [12] 刘帅师, 郭文燕, 张言, 等. 鲁棒的正则化编码随机遮挡 表情识别 [J]. 智能系统学报, 2018, 13(2): 261–268. LIU Shuaishi, GUO Wenyan, ZHANG Yan, et al. Recognition of facial expression in case of random shielding based on ro-bust regularized coding[J]. CAAI transactions on intelligent systems, 2018, 13(2): 261–268. [13] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504–507. [14] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527–1554. [15] YANG Biao, CAO Jinmeng, NI Rongrong, et al. Facial expression recognition using weighted mixture deep neural network based on double-channel facial images[J]. IEEE access, 2017, 6: 4630–4640. [16] WU Min, SU Wanjuan, CHEN Luefeng, et al. Weight-adapted convolution neural network for facial expression recognition in Human-robot interaction[J]. IEEE transactions on systems, man, and cybernetics: systems, 2019, 51(3): 1473–1484. [17] SALMAM F Z, MADANI A, KISSI M. Fusing multistream deep neural networks for facial expression recognition[J]. Signal, image and video processing, 2019, 13(3): 609–616. [18] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Columbus, Ohio, USA, 2014: 580−587 [19] GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision (IC- [20] CV). Santiago, Chile, 2015: 1440−1448. REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137–1149. [21] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks[C]//Proceedings of the 13th European Conference on Computer Vision (ECCV). Zurich, Switzerland: Springer, 2014: 818−833. [22] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2019-12-12].http//:arXiv:1409.1556, 2014. [23] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770−778. [24] LYONS M, AKAMATSU S, KAMACHI M, et al. Coding facial expressions with Gabor wavelets[C/OL]. Proceedings of the 3rd IEEE International Conference on Automatic Face and Gesture Recognition. Nara, Japan: IEEE, 1998.[2012-12-05]. http://www.doc88.com/p- 6921152816768.html. [25] 作者简介: 伍锡如,教授,博士,主要研究方 向为深度学习、神经网络、机器人控 制。主持国家自然科学基金项目 2 项,主持广西省自然科学基金项目 3 项,获国家发明专利 10 余项。出版 专著 1 部、教材 1 部,发表学术论文 40 篇。 凌星雨,硕士研究生,主要研究方 向为深度学习、计算机视觉。 第 2 期 伍锡如,等:基于改进的 Faster RCNN 面部表情检测算法 ·217·