第13卷第4期 智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201701020 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170703.1601.006html 基于双目视觉的人脸三维重建 林琴23,李卫军2,董肖莉23,宁欣2,3,陈鹏2 (1.中国科学院半导体研究所高速电路与神经网络实验室,北京100083;2.中国科学院大学电子学院,北京 100029,3.认知计算技术威富联合实验室,北京100083) 摘要:基于双目立体匹配算法PatchMatch算法,提出了一种获取人脸三维点云的算法。该算法对局部立体匹 配算法PatchMatch进行了优化。该方法既不需要昂贵的设备,也不需要通用的人脸三维模型,而是结合了人脸 的拓扑结构信息以及立体视觉局部优化算法。此方法采用非接触式的双目视觉采集技术获取左右视角的人脸 图像,利用回归树集合(ensemble of regression trees,.ERT)算法对人脸图像进行关键点定位,恢复人脸稀疏的视 差估计,运用线性插值方法初步估计脸部的稠密视差值,并结合局部立体匹配算法对得到的视差结果进行平滑 处理,重建人脸的三维点云信息。实验结果表明,这种算法能够还原出光滑的稠密人脸三维点云信息,在人脸 Bosphorus数据库上取得了更加准确的人脸重建结果。 关键词:人脸拓扑结构;立体匹配;线性插值;稠密视差 中图分类号:TP391文献标志码:A文章编号:1673-4785(2018)04-0534-09 中文引用格式:林琴,李卫军,董肖莉,等.基于双目视觉的人脸三维重建J,智能系统学报,2018,13(4):534-542. 英文引用格式:LIN Qin,LI Weijun,DONG Xiaoli,,etal.Face reconstruction based on binocular stereo visionJl..CAAI transac-. tions on intelligent systems,2018,13(4):534-542. Face reconstruction based on binocular stereo vision LIN Qin'2,LI Weijun'3,DONG Xiaoli23,NING Xin'23,CHEN Peng'2 (1.Laboratory of Artificial Neural Networks and High-peed Circuits,Institute of Semiconductors,Chinese Academy of Sciences, Beijing 100083,China;2.School of Microelectronics,University of Chinese Academy of Sciences,Beijing 100029,China;3.Cognit- ive Computing Technology Wei Fu Joint Lab,Beijing 100083,China) Abstract:In this paper,we propose a binocular stereo algorithm called PatchMatch for generating a 3D dense point cloud of the human face.The proposed algorithm optimizes a local stereo matching method,also known as PatchMatch, which combines topological information of the human face with a local optimization algorithm for stereo vision and re- quires neither expensive equipment nor generic face models.With this method,by applying a non-contact binocular vis- ion selection technology,face images at both left and right visual angles are obtained.We use an ensemble of regression trees(ERT)algorithm to position key points of a face image and estimate the sparse disparity of facial landmarks.Then, we use a linear interpolation method to make a preliminarily estimation of the dense facial disparity,and by using the local stereo matching algorithm,we can smooth the obtained visual disparity results and use the three-dimensional point cloud information to rebuild the human face.The experimental results with the Bosphorus database show that the pro- posed algorithm can recover dense facial three-dimensional point cloud information and obtain more accurate face re- construction results than other methods on Bosphorus database. Keywords:facial topological information:stereo matching:linear interpolation;dense correspondence 人脸的三维结构信息广泛地应用在人脸图像脸表情识别等方面。在过去几年,国内外研究者 处理中,例如人脸识别、人脸跟踪、人脸对齐、人提出了许多人脸三维重建的方法,一类方法是基 收稿日期:2017-01-22.网络出版日期:2017-07-03. 于额外的硬件设备进行三维人脸结构的采集,如 基金项目:国家自然科学基金项目(90920013):国家公派留学 基金项目(201404910237). 使用三维激光扫描仪、结构光扫描仪等。这类方 通信作者:李卫军.E-mail:wjli@semi.ac.cn 法能够获得精度较高的人脸三维结构数据,但是
DOI: 10.11992/tis.201701020 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170703.1601.006.html 基于双目视觉的人脸三维重建 林琴1,2,3,李卫军1,2,3,董肖莉1,2,3,宁欣1,2,3,陈鹏1,2,3 (1. 中国科学院半导体研究所 高速电路与神经网络实验室,北京 100083; 2. 中国科学院大学 电子学院,北京 100029; 3. 认知计算技术威富联合实验室,北京 100083) 摘 要:基于双目立体匹配算法 PatchMatch 算法,提出了一种获取人脸三维点云的算法。该算法对局部立体匹 配算法 PatchMatch 进行了优化。该方法既不需要昂贵的设备,也不需要通用的人脸三维模型,而是结合了人脸 的拓扑结构信息以及立体视觉局部优化算法。此方法采用非接触式的双目视觉采集技术获取左右视角的人脸 图像,利用回归树集合 (ensemble of regression trees,ERT) 算法对人脸图像进行关键点定位,恢复人脸稀疏的视 差估计,运用线性插值方法初步估计脸部的稠密视差值,并结合局部立体匹配算法对得到的视差结果进行平滑 处理,重建人脸的三维点云信息。实验结果表明,这种算法能够还原出光滑的稠密人脸三维点云信息,在人脸 Bosphorus 数据库上取得了更加准确的人脸重建结果。 关键词:人脸拓扑结构;立体匹配;线性插值;稠密视差 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2018)04−0534−09 中文引用格式:林琴, 李卫军, 董肖莉, 等. 基于双目视觉的人脸三维重建[J]. 智能系统学报, 2018, 13(4): 534–542. 英文引用格式:LIN Qin, LI Weijun, DONG Xiaoli, et al. Face reconstruction based on binocular stereo vision[J]. CAAI transactions on intelligent systems, 2018, 13(4): 534–542. Face reconstruction based on binocular stereo vision LIN Qin1,2,3 ,LI Weijun1,2,3 ,DONG Xiaoli1,2,3 ,NING Xin1,2,3 ,CHEN Peng1,2,3 (1. Laboratory of Artificial Neural Networks and High-peed Circuits, Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100083, China; 2. School of Microelectronics, University of Chinese Academy of Sciences, Beijing 100029, China; 3. Cognitive Computing Technology Wei Fu Joint Lab, Beijing 100083, China) Abstract: In this paper, we propose a binocular stereo algorithm called PatchMatch for generating a 3D dense point cloud of the human face. The proposed algorithm optimizes a local stereo matching method, also known as PatchMatch, which combines topological information of the human face with a local optimization algorithm for stereo vision and requires neither expensive equipment nor generic face models. With this method, by applying a non-contact binocular vision selection technology, face images at both left and right visual angles are obtained. We use an ensemble of regression trees (ERT) algorithm to position key points of a face image and estimate the sparse disparity of facial landmarks. Then, we use a linear interpolation method to make a preliminarily estimation of the dense facial disparity, and by using the local stereo matching algorithm, we can smooth the obtained visual disparity results and use the three-dimensional point cloud information to rebuild the human face. The experimental results with the Bosphorus database show that the proposed algorithm can recover dense facial three-dimensional point cloud information and obtain more accurate face reconstruction results than other methods on Bosphorus database. Keywords: facial topological information; stereo matching; linear interpolation; dense correspondence 人脸的三维结构信息广泛地应用在人脸图像 处理中,例如人脸识别、人脸跟踪、人脸对齐、人 脸表情识别等方面。在过去几年,国内外研究者 提出了许多人脸三维重建的方法,一类方法是基 于额外的硬件设备进行三维人脸结构的采集,如 使用三维激光扫描仪、结构光扫描仪等。这类方 法能够获得精度较高的人脸三维结构数据,但是 收稿日期:2017−01−22. 网络出版日期:2017−07−03. 基金项目:国家自然科学基金项目 (90920013);国家公派留学 基金项目 (201404910237). 通信作者:李卫军. E-mail: wjli@semi.ac.cn 第 13 卷第 4 期 智 能 系 统 学 报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018
第4期 林琴,等:基于双目视觉的人脸三维重建 ·535· 需要使用硬件设备,使得此方法具有造价高、不 较差。 灵活、复杂度高等诸多限制,并不适合应用于普 本文提出了一种通过普通的双目摄像头获取 通场合。另一类方法是基于视频或者基于多 精度较高的三维人脸结构的方法。本文通过立体 角度照片的三维人脸重建方法,这类方法成本 匹配得到脸部的视差值,从而恢复出脸部对应三 低,使用灵活,能够应用在日常生活中。 维结构。该方法结合脸部具有的拓扑结构,通过 第二类人脸三维重建的方法主要包含基于立 获取脸部稀疏点的视差值,进行线性插值,初始 体视觉的56人脸三维重建方法,基于明暗恢复形 化出脸部稠密的视差值,再利用局部匹配方法 状(shape from shading,SFS)-的人脸三维重建方 PatchMatch对脸部的视差值进行平滑处理,更好 法,基于运动的SFM(structure from motion)人脸三 地恢复出脸部的曲面特征。 维重建方法,和基于三维形变模型(3-D morph- able model,.3DMM)的人脸三维重建的方法等。 1双目深度测量原理 SFS方法假设图像中的样本与参考样本间具 在双目视觉系统中,通过立体匹配算法,找到 有大致相似的形状和反射率,从单幅图像中物体 左右两幅图中相匹配的点,如图1所示。 表面的明暗变化来恢复其表面各点的相对高度或 表面法向量等参数。虽然该方法使用了不同的限 制,但其所求得的解的存在性和唯一性仍然是一 个问题-。SFM方法根据包含局部运动信号的 二维图像序列来估计三维结构信息。王琨等例提 出了根据两幅正面人脸图像和一幅侧面图像重建 人脸三维模型,虽然此方法能够重建出三维人 脸,但是结果并不够准确。H.S.K00等提出了 对一组不同姿态的人脸图像进行相似变换从而恢 复人脸的三维结构的方法,但是该方法计算复 杂,运算效率低。Z.L.Sun等1o-1提出了基于非线 图1校正后的立体视觉系统的几何模型 性最小方差(non-linear least-squares,NLS)模型和 Fig.1 Rectified stereo vision system 基于带约束的独立成分分析(constrained independ- 根据相似三角形原理,可以得到式(1),由此 ent component analysis,clCA)的方法,通过使用一 变换后,得到式(2),从而求得此点对应的深度值。 个正面人脸照片和非正面人脸照片来估计人脸特 T-- z-f (1) 征点的深度值,该方法提高了运算效率。3-D形 变模型2是以人脸空间的基向量为基础,建立 由式(1)经过交叉相乘并化简可得式(2),其 三维人脸的表示模型,通过将形变模型与输人图 中-x定义为视差d。 像匹配的方式来实现对输入图像的三维重建。这 z=LI_f.T (2) 类方法在恢复人脸细节特征方面效果不够理想, x-x d 式中:Z代表深度值,T代表两个摄像机之间的基 并且需要使用通用的模型进行训练。 线长度,∫代表摄像机的焦距,、x分别代表左右 然而如何使用双目立体图像来重建人脸的三 摄像机的列坐标,d代表视差值。 维结构仍然是一个有挑战的问题,这种方法只使 由此可知,空间的一点,投射在左右摄像机平 用一对图像,它们来自双目摄像头的左摄像头和 右摄像头,从而对人脸的三维信息进行恢复。目 面上,该点在左边摄像机的图像平面上具有图像 前存在很多双目匹配的方法,如BM算法、SGMa 点pP,其坐标为(x,y),同样此空间点在右边摄像机 算法、Meshstereo!算法等。但是人脸区域的低纹 的图像平面具有图像点坐标P,其坐标为(x,y), 理问题是人脸结构三维重建需要解决的主要问 因为对相机平面进行了校正,使得”=y,视差值 题。因此,提出了专门针对人脸结构的双目立体 为左右匹配点的横坐标之差(x-x,)。 匹配方法,如基于人脸先验的块匹配方法81、基 在已知两个对应点的坐标的前提下,根据式 于种子点增长法6等进行三维人脸结构的恢复, (2)就可以获取对应点的深度值。 这类方法采用高分辨率(1380×1030)的摄像头采 2基于人脸结构的立体匹配算法 集设备,获得较高准确的结果,或者采取普通分 辨率(640×480)的摄像头,但是获得的人脸精度比 由于人脸具有较多的弱纹理区域,使用常用
需要使用硬件设备,使得此方法具有造价高、不 灵活、复杂度高等诸多限制,并不适合应用于普 通场合[1-2]。另一类方法是基于视频[3]或者基于多 角度照片[4]的三维人脸重建方法,这类方法成本 低,使用灵活,能够应用在日常生活中。 第二类人脸三维重建的方法主要包含基于立 体视觉的[5-6]人脸三维重建方法,基于明暗恢复形 状 (shape from shading,SFS)[7-9]的人脸三维重建方 法,基于运动的 SFM(structure from motion) 人脸三 维重建方法,和基于三维形变模型 (3-D morphable model,3DMM) 的人脸三维重建的方法等。 SFS 方法假设图像中的样本与参考样本间具 有大致相似的形状和反射率,从单幅图像中物体 表面的明暗变化来恢复其表面各点的相对高度或 表面法向量等参数。虽然该方法使用了不同的限 制,但其所求得的解的存在性和唯一性仍然是一 个问题[7-8]。SFM 方法根据包含局部运动信号的 二维图像序列来估计三维结构信息。王琨等[9]提 出了根据两幅正面人脸图像和一幅侧面图像重建 人脸三维模型,虽然此方法能够重建出三维人 脸,但是结果并不够准确。H. S. Koo 等 [4]提出了 对一组不同姿态的人脸图像进行相似变换从而恢 复人脸的三维结构的方法,但是该方法计算复 杂,运算效率低。Z. L. Sun 等 [10-11]提出了基于非线 性最小方差 (non-linear least-squares,NLS) 模型和 基于带约束的独立成分分析 (constrained independent component analysis,cICA) 的方法,通过使用一 个正面人脸照片和非正面人脸照片来估计人脸特 征点的深度值,该方法提高了运算效率。3-D 形 变模型[12-14]是以人脸空间的基向量为基础,建立 三维人脸的表示模型,通过将形变模型与输入图 像匹配的方式来实现对输入图像的三维重建。这 类方法在恢复人脸细节特征方面效果不够理想, 并且需要使用通用的模型进行训练。 然而如何使用双目立体图像来重建人脸的三 维结构仍然是一个有挑战的问题,这种方法只使 用一对图像,它们来自双目摄像头的左摄像头和 右摄像头,从而对人脸的三维信息进行恢复。目 前存在很多双目匹配的方法,如 BM[15]算法、SGM[16] 算法、Meshstereo[17]算法等。但是人脸区域的低纹 理问题是人脸结构三维重建需要解决的主要问 题。因此,提出了专门针对人脸结构的双目立体 匹配方法,如基于人脸先验的块匹配方法[18] 、基 于种子点增长法[6]等进行三维人脸结构的恢复, 这类方法采用高分辨率 (1 380×1 030) 的摄像头采 集设备,获得较高准确的结果,或者采取普通分 辨率 (640×480) 的摄像头,但是获得的人脸精度比 较差。 本文提出了一种通过普通的双目摄像头获取 精度较高的三维人脸结构的方法。本文通过立体 匹配得到脸部的视差值,从而恢复出脸部对应三 维结构。该方法结合脸部具有的拓扑结构,通过 获取脸部稀疏点的视差值,进行线性插值,初始 化出脸部稠密的视差值,再利用局部匹配方法 PatchMatch[19]对脸部的视差值进行平滑处理,更好 地恢复出脸部的曲面特征。 1 双目深度测量原理 在双目视觉系统中,通过立体匹配算法,找到 左右两幅图中相匹配的点,如图 1 所示。 Pr f xl xr Z Pl T 图 1 校正后的立体视觉系统的几何模型 Fig. 1 Rectified stereo vision system 根据相似三角形原理,可以得到式 (1),由此 变换后,得到式 (2),从而求得此点对应的深度值。 T −(xl − xr) Z − f = T Z (1) xl − xr 由式 (1) 经过交叉相乘并化简可得式 (2),其 中 定义为视差 d。 Z = f ·T xl − xr = f ·T d (2) xl xr 式中:Z 代表深度值,T 代表两个摄像机之间的基 线长度,f 代表摄像机的焦距, 、 分别代表左右 摄像机的列坐标,d 代表视差值。 pl (xl , yl) pr (xr , yr) yl = yr (xl − xr) 由此可知,空间的一点,投射在左右摄像机平 面上,该点在左边摄像机的图像平面上具有图像 点 ,其坐标为 ,同样此空间点在右边摄像机 的图像平面具有图像点坐标 ,其坐标为 , 因为对相机平面进行了校正,使得 ,视差值 为左右匹配点的横坐标之差 。 在已知两个对应点的坐标的前提下,根据式 (2) 就可以获取对应点的深度值。 2 基于人脸结构的立体匹配算法 由于人脸具有较多的弱纹理区域,使用常用 第 4 期 林琴,等:基于双目视觉的人脸三维重建 ·535·
·536· 智能系统学报 第13卷 的立体匹配算法来恢复人脸的三维结构具有一定 利用以下两个步骤来计算脸部的稠密视差:1)结 难度,所以本文利用人脸结构的特殊性,通过人 合得到的脸部关键点的位置及视差值,对脸部进 脸检测技术和关键点定位技术,匹配出左右两幅 行Delaunay三角剖分并对三角形内的点进行视 图像中的人脸关键点,获得人脸稀疏的视差值, 差插值,得到脸部稠密的视差初始值;2)通过 进而通过插值算法得到整个脸部的粗略的视差 PatchMatch算法对得到的初始视差值进行平滑 值。接着将此视差值作为初值应用到稠密匹配方 处理 法Patchmath算法中,调整整个脸部视差值。最后 首先利用脸部定位出的关键点对脸部进行 通过三角测量原理恢复出对应点的三维坐标。 Delaunay三角剖分,如图3(a)所示,将脸部划分 为了定位出人脸的关键点信息,本算法采用 成n个三角形,此处假设,位于同一三角形内的点 回归树集合(ensemble of regression trees,ERT)2ol算 的视差与三角形3个顶点的视差成线性关系,从 法获取人脸的初始形状的关键点。通过ERT算 而通过一个三角形的3个顶点视差值获得三角形 法进行初始定位后,能够得到左右两幅图上的脸 内点的视差值。如果三角形的3个顶点为p、p2、 部关键点的拓扑结构,计算相应的视差值,再对 P3,对于三角形内的任意点p,都存在一个和v,使 脸部稀疏的视差值进行线性插值,得到脸部整体 得p点与p1、p2、p3存在如式(4)的关系: 的初始视差值,保证了脸部初始结构连续性且有 p=(1-u-v)p1+P2+vp3 (4) 一定的平滑性。通过初始化脸部的视差值,可以 p点的坐标为(P,P),P1点的坐标为(p1,P1,), 减小PatchMatch的迭代次数,使得算法更加快速 P2点的坐标为(P2,P2,P3点的坐标为(P3,P3,)它们 地计算出准确值。 满足式(⑤)的关系,此时就能解出u和v参数。 2.1脸部稀疏视差计算 p.=(1--v)p1.+P2+v…P3. (5) 为了获得脸部区域的初始视差值,本文首先 p,=(1-u-)P1,+uP2,+v…P3 计算了脸部稀疏的视差值。本文在左右两个图像 从而由式(6)进行插值运算得到对p点的视 上分别采用E℉T算法定位出关键点,建立脸部关 差D(p: 键点的匹配。此算法利用线下训练得到模型,定 D(p)=(1-u-v)D(p1)+uD(P2)+vDP3)(6) 位检测图像中关键点的位置,恢复人脸的稀疏结 插值后的脸部视差的伪彩色图如图3(b)所 构。至此,获得人脸先验的稀疏拓扑信息,得到 示,图中中间区域代表距离摄像头近,边缘区域 左图人脸形状SL和右边人脸形状SR,其中包含 代表距离摄像头远。从图中可以看出脸部鼻子区 的左脸特征点坐标{l,),i∈[1,h,n代表特征点 域比眼睛区域距离摄像头更近,脸部轮廓的区域 的总数。右脸特征点坐标{(,),i∈[1,}。如图2 比眼睛区域距离摄像头更远。获得的结构与人脸 所示,由于左右图像是经过立体校正的,所以左 结构基本符合。 右的匹配点位于同一行。点P的视差D(P:)的计算 如式(3)所示: D(p)=(s-r:)=abs(ls -rs) (3) 至此得到了n个特征点的视差值,但是对于 人脸的结构来说,这样的视差值太过稀疏,不能 够很好地描述人脸的结构。 (a)脸部的三角剖分图(b)初始化视差图的伪彩色图 图3脸部的三角剖分及视差图的伪彩色图集合 Fig.3 Face triangulation and Pseudo color image of dis- parity maps 图4(a)和图4(b)分别是未经过初始化和经过 插值初始化的视差恢复的三维结构图,图4(b)中 的人脸额头部分由于没有关键点,不能通过上述 (a)左脸 (b)右脸 步骤得到,所以采取使用眉毛部位的视差值对其 图2脸部关键点定位 进行初始化。可以看出没有经过初始化的脸部三 Fig.2 Facial landmark 维结构是一些随机点,而经过插值初始化后的人 2.2脸部稠密视差计算 脸三维结构已经初步具有人脸的基本形状信息 以上述稀疏的脸部关键点的视差值为基础, 但是仅经过线性初始化的方法得到的人脸三维结
的立体匹配算法来恢复人脸的三维结构具有一定 难度,所以本文利用人脸结构的特殊性,通过人 脸检测技术和关键点定位技术,匹配出左右两幅 图像中的人脸关键点,获得人脸稀疏的视差值, 进而通过插值算法得到整个脸部的粗略的视差 值。接着将此视差值作为初值应用到稠密匹配方 法 Patchmath 算法中,调整整个脸部视差值。最后 通过三角测量原理恢复出对应点的三维坐标。 为了定位出人脸的关键点信息,本算法采用 回归树集合 (ensemble of regression trees,ERT)[20]算 法获取人脸的初始形状的关键点。通过 ERT 算 法进行初始定位后,能够得到左右两幅图上的脸 部关键点的拓扑结构,计算相应的视差值,再对 脸部稀疏的视差值进行线性插值,得到脸部整体 的初始视差值,保证了脸部初始结构连续性且有 一定的平滑性。通过初始化脸部的视差值,可以 减小 PatchMatch 的迭代次数,使得算法更加快速 地计算出准确值。 2.1 脸部稀疏视差计算 {(lxi ,lyi ),i ∈ [1,n]} {(rxi ,ryi ),i ∈ [1,n]} pi D(pi) 为了获得脸部区域的初始视差值,本文首先 计算了脸部稀疏的视差值。本文在左右两个图像 上分别采用 ERT 算法定位出关键点,建立脸部关 键点的匹配。此算法利用线下训练得到模型,定 位检测图像中关键点的位置,恢复人脸的稀疏结 构。至此,获得人脸先验的稀疏拓扑信息,得到 左图人脸形状 SL 和右边人脸形状 SR,其中包含 的左脸特征点坐标 ,n 代表特征点 的总数。右脸特征点坐标 。如图 2 所示,由于左右图像是经过立体校正的,所以左 右的匹配点位于同一行。点 的视差 的计算 如式 (3) 所示: D(pi) = √ (lxi −rxi ) 2 = abs(lxi −rxi ) (3) 至此得到了 n 个特征点的视差值,但是对于 人脸的结构来说,这样的视差值太过稀疏,不能 够很好地描述人脸的结构。 (a) 左脸 (b) 右脸 图 2 脸部关键点定位 Fig. 2 Facial landmark 2.2 脸部稠密视差计算 以上述稀疏的脸部关键点的视差值为基础, 利用以下两个步骤来计算脸部的稠密视差:1) 结 合得到的脸部关键点的位置及视差值,对脸部进 行 Delaunay 三角剖分并对三角形内的点进行视 差插值,得到脸部稠密的视差初始值; 2) 通过 PatchMatch 算法对得到的初始视差值进行平滑 处理。 p1 p2 p3 p u v p p1 p2 p3 首先利用脸部定位出的关键点对脸部进行 Delaunay 三角剖分,如图 3(a) 所示,将脸部划分 成 n 个三角形,此处假设,位于同一三角形内的点 的视差与三角形 3 个顶点的视差成线性关系,从 而通过一个三角形的 3 个顶点视差值获得三角形 内点的视差值。如果三角形的 3 个顶点为 、 、 ,对于三角形内的任意点 ,都存在一个 和 ,使 得 点与 、 、 存在如式 (4) 的关系: p = (1−u−v)· p1 +u · p2 +v · p3 (4) p (px , py) p1 (p1x , p1y ) p2 (p2x , p2y ) p3 (p3x , p3y ) 点的坐标为 , 点的坐标为 , 点的坐标为 , 点的坐标为 ,它们 满足式 (5) 的关系,此时就能解出 u 和 v 参数。 px = (1−u−v)· p1x +u · p2x +v · p3x py = (1−u−v)· p1y +u · p2y +v · p3x (5) 从而由式 (6) 进行插值运算得到对 p 点的视 差 D(p): D(p) = (1−u−v)· D(p1)+u · D(p2)+v · D(p3) (6) 插值后的脸部视差的伪彩色图如图 3(b) 所 示,图中中间区域代表距离摄像头近,边缘区域 代表距离摄像头远。从图中可以看出脸部鼻子区 域比眼睛区域距离摄像头更近,脸部轮廓的区域 比眼睛区域距离摄像头更远。获得的结构与人脸 结构基本符合。 (a) 脸部的三角剖分图 (b) 初始化视差图的伪彩色图 图 3 脸部的三角剖分及视差图的伪彩色图集合 Fig. 3 Face triangulation and Pseudo color image of disparity maps 图 4(a) 和图 4(b) 分别是未经过初始化和经过 插值初始化的视差恢复的三维结构图,图 4(b) 中 的人脸额头部分由于没有关键点,不能通过上述 步骤得到,所以采取使用眉毛部位的视差值对其 进行初始化。可以看出没有经过初始化的脸部三 维结构是一些随机点,而经过插值初始化后的人 脸三维结构已经初步具有人脸的基本形状信息, 但是仅经过线性初始化的方法得到的人脸三维结 ·536· 智 能 系 统 学 报 第 13 卷
第4期 林琴,等:基于双目视觉的人脸三维重建 ·537· 构不平滑所以需要通过2.3部分的内容进行进一 w(p.q)=e (9) 步优化。 式中:y是定义的参数,p-I表示p和q的 RGB颜色空间的L,范数。 对于某个像素点选用具有最小的聚合匹配代 价的平面作为当前点的最优平面,如式(10)所示: fo=arg min m(p,f) (10) feF ∫代表所有的视差平面,所对应的解是无穷多 的。通过下面的方式找到较优的平面参数。 (a)随机初始化 (b)插值初始化 首先初始化平面参数和视差参数,Patch- 图4脸部三维效果图 Match方法采用的是随机初始化方式,但是人脸 Fig.4 Face 3-D renderings 重建与场景重建之间存在差别,人脸可以通过检 2.3基于PatchMatch算法的人脸三维结构优化 测方法确定其所在区域,并且通过关键点检测技 传统的局部的立体算法以整数视差作为支持 术,初步匹配出左右图像人脸的关键点,从而获 窗,此处假设,位于同一个支持窗区域内的像素 得稀疏的视差值,结合线性插值方法恢复稠密的 具有相同的视差值,但是该假设不适用于倾斜的 视差,为视差提供更好的初始化方式,从而使得 平面,所以会导致重建的前向平行的表面出现一 算法能够更快地收敛到正确的视差值。本文采 定的偏差。PatchMatch立体算法提出使用倾斜的 用2.1和2.2中的方法得到的脸部视差值进行初 支持窗策略来解决该问题。因此,对于脸部这样 始化,图片其余部分视差值进行随机初始化。平 的曲型平面,PatchMatch方法能够较好地恢复。 面参数采用随机初始化方式。通过迭代步骤和后 该算法通过对每个像素构造一个平面,然后 处理步骤来更新最优平面参数。迭代步骤中包括 找到局部最优平面,再以此平面来描述此点的视 空间传播、视角传播和平面细化3个步骤。 差值。该算法与其他的局部立体匹配算法一致, 3实验结果及分析 包含代价匹配、代价聚合、代价计算和后处理4 个步骤。本文采用的代价匹配算法是census2算 该部分中对提出的方法从定性和定量两个方 法。对于图片上的像素(xoo),对应的视差为d, 面进行分析。首先,使用双目立体相机采集人脸 对应的视差平面f,a、b,、c表示平面f,单位向 图像,获取的图像分辨率为640像素×480像素, 量n=(nx,n,)表示平面的法向量。对于某一个像 构建实验室自主人脸数据库,后文用数据库1表 素点的聚合视差代价,如式(): 示,由于该数据库上缺乏人脸的基准三维坐标, mp,f=∑p,9pg,g-d) (7) 因此,仅从定性方面进行分析。然后在公开的人 脸数据库Bosphorus!2上进行了脸部深度的定性 式中:w,代表像素p的方形窗口,d,=arq.+brA,+c 分析和定量分析。Bosphorus数据库提供了人脸 代表像素q点的视差值。平面参数ar、br、c可通 图像和对应点的三维坐标,有利于对人脸三维重 过式(8)转换成平面单位法向量: 建结果做评估,并且与其他在该库上进行的人脸 a=-2,b=-2 三维重建1算法进行比较。 n. nx0+n%+n:20 (8) 3.1数据库1评估 CI= n: 数据库1包含20人的不同图像对,图像通过 p(p,q)代表像素p、q之间的匹配代价。定义 双目相机采集,图片大小为640像素×480像素。 为:p(p,q)=H(census(p)-census(q)o其中,censuse(p, 将该算法与局部立体匹配算法BM和半全局立体 census(q)分别代表对像素p和g进行census编码,然 匹配算法SGBM(semi-global block matching)进行 后计算编码后的哈明距离,以此值作为最终的匹 比较。SGBM是opencv基于SGM算法改进得到 配代价。 的算法。从图5可以看出,BM算法虽然能够得 权重函数w(p,q)考虑到方形窗口内的边缘问 到人脸的总体轮廓,但人脸三维点云很稀疏,说 题,利用两点的颜色相似度来定义权值函数,如 明该算法对弱纹理区域重建较差;SGBM算法相 果颜色相近则赋予高权重,反之,则赋予低权重, 比较BM算法,能够得到更加稠密的点云,但是人 表示如式(9): 脸的下巴与人脸分离,连续性较差,出现了分层现象
构不平滑所以需要通过 2.3 部分的内容进行进一 步优化。 (a) 随机初始化 (b) 插值初始化 图 4 脸部三维效果图 Fig. 4 Face 3-D renderings 2.3 基于 PatchMatch 算法的人脸三维结构优化 传统的局部的立体算法以整数视差作为支持 窗,此处假设,位于同一个支持窗区域内的像素 具有相同的视差值,但是该假设不适用于倾斜的 平面,所以会导致重建的前向平行的表面出现一 定的偏差。PatchMatch 立体算法提出使用倾斜的 支持窗策略来解决该问题。因此,对于脸部这样 的曲型平面,PatchMatch 方法能够较好地恢复。 (x0, y0) f,af、bf、cf f n = (nx ,ny ,nz) 该算法通过对每个像素构造一个平面,然后 找到局部最优平面,再以此平面来描述此点的视 差值。该算法与其他的局部立体匹配算法一致, 包含代价匹配、代价聚合、代价计算和后处理 4 个步骤。本文采用的代价匹配算法是 census [21]算 法。对于图片上的像素 ,对应的视差为 d, 对应的视差平面 表示平面 ,单位向 量 表示平面的法向量。对于某一个像 素点的聚合视差代价,如式 (7): m(p, f) = ∑ q∈Wp w(p,q)· ρ(q,q−dq) (7) wp p dq = af qx +bf qy +cf q af、bf、cf 式中: 代表像素 的方形窗口, 代表像素 点的视差值。平面参数 可通 过式 (8) 转换成平面单位法向量: af = − nx nz ,bf = − ny nz , cf = nx x0 +nyy0 +nzz0 nz (8) ρ(p,q) ρ(p,q) = H(census(p)−census(q)) census(p) census(q) p q 代表像素 p、q 之间的匹配代价。定义 为: 。其中, , 分别代表对像素 和 进行 census 编码,然 后计算编码后的哈明距离,以此值作为最终的匹 配代价。 权重函数 w(p,q) 考虑到方形窗口内的边缘问 题,利用两点的颜色相似度来定义权值函数,如 果颜色相近则赋予高权重,反之,则赋予低权重, 表示如式 (9): w(p,q) = e −∥Ip−Iq ∥ γ (9) γ Ip − Iq 式中: 是定义的参数 , 表 示 p 和 q 的 RGB 颜色空间的 L1 范数。 对于某个像素点选用具有最小的聚合匹配代 价的平面作为当前点的最优平面,如式 (10) 所示: fp = argminm(p, f) f ∈F (10) f 代表所有的视差平面,所对应的解是无穷多 的。通过下面的方式找到较优的平面参数。 首先初始化平面参数和视差参数, PatchMatch 方法采用的是随机初始化方式,但是人脸 重建与场景重建之间存在差别,人脸可以通过检 测方法确定其所在区域,并且通过关键点检测技 术,初步匹配出左右图像人脸的关键点,从而获 得稀疏的视差值,结合线性插值方法恢复稠密的 视差,为视差提供更好的初始化方式,从而使得 算法能够更快地收敛到正确的视差值。本文采 用 2.1 和 2.2 中的方法得到的脸部视差值进行初 始化,图片其余部分视差值进行随机初始化。平 面参数采用随机初始化方式。通过迭代步骤和后 处理步骤来更新最优平面参数。迭代步骤中包括 空间传播、视角传播和平面细化 3 个步骤。 3 实验结果及分析 该部分中对提出的方法从定性和定量两个方 面进行分析。首先,使用双目立体相机采集人脸 图像,获取的图像分辨率为 640 像素×480 像素, 构建实验室自主人脸数据库,后文用数据库 1 表 示,由于该数据库上缺乏人脸的基准三维坐标, 因此,仅从定性方面进行分析。然后在公开的人 脸数据库 Bosphorus[22]上进行了脸部深度的定性 分析和定量分析。Bosphorus 数据库提供了人脸 图像和对应点的三维坐标,有利于对人脸三维重 建结果做评估,并且与其他在该库上进行的人脸 三维重建[10-11, 15]算法进行比较。 3.1 数据库 1 评估 数据库 1 包含 20 人的不同图像对,图像通过 双目相机采集,图片大小为 640 像素×480 像素。 将该算法与局部立体匹配算法 BM 和半全局立体 匹配算法 SGBM(semi-global block matching) 进行 比较。SGBM 是 opencv 基于 SGM 算法改进得到 的算法。从图 5 可以看出,BM 算法虽然能够得 到人脸的总体轮廓,但人脸三维点云很稀疏,说 明该算法对弱纹理区域重建较差;SGBM 算法相 比较 BM 算法,能够得到更加稠密的点云,但是人 脸的下巴与人脸分离,连续性较差,出现了分层现象。 第 4 期 林琴,等:基于双目视觉的人脸三维重建 ·537·
·538· 智能系统学报 第13卷 而本文提出的算法能够得到更加稠密的人脸点云 利用每一个模型的照片对应的三维坐标,计算了 信息,而且得到的人脸结构也更加真实。可以看 每个照片对应的视差图,从而合成了每一个照片 出针对人脸结构的双目立体匹配的算法能够更加 对应的双目图像,即下文提及的左图和右图。其 准确地恢复出人脸的三维结构。 中bs003人物对应的双目图像和对应的视差图像 如图7所示。图7中展示了数据库中人物4(命名 为bs003人物)5个姿态下(不同列)的图像,第 1行图像是数据库中的原图,将此作为双目立体 视觉系统中的左摄像头获取的数据;第2行是通 过双目立体视觉原理模拟得到的右摄像头获取的 (a)BM算法 (b)SGBM算法 (c)本文算法 数据;第3行是对应双目立体视觉系统下的左图 图5不同算法对人脸的三维重建效果 视差值。此值作为后续估计的基准值。 Fig.5 Face 3-D renderings on different algorithms 图6展现了本文提出的方法对数据库1中的 部分人脸的三维结构恢复,由于侧面信息能够更 加直观地展现出人脸的深度信息,所以通过展示 人脸的侧脸深度信息来进行比较,前5张图是真 实人脸的三维点云效果图,最后一张是人脸照片 所得到的三维点云效果图。从图中可以看出,对 于不同的人都具有能够区分的三维结构,而人脸 照片并不具有人脸结构,说明重建的效果具有一 定的区分性。 3.2 Bosphorus数据库评估 现在大多数基于双目视觉进行人脸三维重建 的方法都只进行了定性分析,为了对本文提出的 算法进行定量分析,使用Bosphorus数据库进行 实验,但是数据库中只提供了一个摄像头采集的 照片,需要对图像进行双目合成。实验中,使用 数据库中每个人物的5个模型,这5个模型对应 不同的姿态(被命名为PRD、PRSD、PRSU、 PRU和YRR1O,分别代表向下倾斜,轻微向下 图6不同人物的人脸深度图 倾斜,轻微向上倾斜,向上倾斜,向右偏转10)。 Fig.6 Face 3-D renderings on different person (a)PRD姿态 (b)PRSD姿态 (c)PRSU姿态 (d)PRU姿态 (e)YRR1O姿态 图7bs003人物不同姿态 Fig.7 Different poses of bs003
而本文提出的算法能够得到更加稠密的人脸点云 信息,而且得到的人脸结构也更加真实。可以看 出针对人脸结构的双目立体匹配的算法能够更加 准确地恢复出人脸的三维结构。 (a) BM算法 (b) SGBM算法 (c) 本文算法 图 5 不同算法对人脸的三维重建效果 Fig. 5 Face 3-D renderings on different algorithms 图 6 展现了本文提出的方法对数据库 1 中的 部分人脸的三维结构恢复,由于侧面信息能够更 加直观地展现出人脸的深度信息,所以通过展示 人脸的侧脸深度信息来进行比较,前 5 张图是真 实人脸的三维点云效果图,最后一张是人脸照片 所得到的三维点云效果图。从图中可以看出,对 于不同的人都具有能够区分的三维结构,而人脸 照片并不具有人脸结构,说明重建的效果具有一 定的区分性。 3.2 Bosphorus 数据库评估 现在大多数基于双目视觉进行人脸三维重建 的方法都只进行了定性分析,为了对本文提出的 算法进行定量分析,使用 Bosphorus 数据库进行 实验,但是数据库中只提供了一个摄像头采集的 照片,需要对图像进行双目合成。实验中,使用 数据库中每个人物的 5 个模型,这 5 个模型对应 不同的姿态 (被命名为 PR_D、PR_SD、PR_SU、 PR_U 和 YR_R10,分别代表向下倾斜,轻微向下 倾斜,轻微向上倾斜,向上倾斜,向右偏转 10°)。 利用每一个模型的照片对应的三维坐标,计算了 每个照片对应的视差图,从而合成了每一个照片 对应的双目图像,即下文提及的左图和右图。其 中 bs003 人物对应的双目图像和对应的视差图像 如图 7 所示。图 7 中展示了数据库中人物 4(命名 为 bs003 人物)5 个姿态下 (不同列) 的图像,第 1 行图像是数据库中的原图,将此作为双目立体 视觉系统中的左摄像头获取的数据;第 2 行是通 过双目立体视觉原理模拟得到的右摄像头获取的 数据;第 3 行是对应双目立体视觉系统下的左图 视差值。此值作为后续估计的基准值。 图 6 不同人物的人脸深度图 Fig. 6 Face 3-D renderings on different person (a) PR_D姿态 (b) PR_SD姿态 (c) PR_SU姿态 (d) PR_U姿态 (e) YR_R10姿态 图 7 bs003 人物不同姿态 Fig. 7 Different poses of bs003 ·538· 智 能 系 统 学 报 第 13 卷
第4期 林琴,等:基于双目视觉的人脸三维重建 ·539· 3.2.1定性分析 的改进方法:第4行是基准图。图8展现了同一个 使用数据库中的人物7(命名为bs006人物) 人脸在不同的姿态下人脸视差的恢复,可以看出 5个姿态下的图像为例,将本文方法与其他方法进 本文所提出的方法在不同的旋转角度下都最接近 行比较,(取迭代次数为3),定性分析如图8所示, 基准图,对于同样的迭代次数,按照脸部结构初 第1行是Meshstereo的方法,是一个全局的算法; 始化视差的方法使得算法更快地收敛到正确的人 第2行是原PatchMatch方法;第3行是本文提出 脸视差值,使得人脸区域更加接近真实的深度值。 (a)PRD姿态 b)PRSD姿态(C)PRSU姿态 (dPRU姿态 (e)YRR10姿态 图8不同方法在不同姿态下的视差图效果 Fig.8 Disparity renderings of different face pose on different methods 图9中展现了不同方法对不同姿态人脸进行 多绿色区域,说明视差误差为2个像素的区域偏 三维重建后的脸部误差分布图。第I行是Meshs- 多,而PatchMatch算法和提出的算法有较多的蓝 tereo的方法,第2行是原PatchMatch方法,第3 色区域,说明能获得更准确的视差区域。还可以 行是本文提出的方法。图中蓝色区域为正确匹配 看出3个算法在鼻子区域和脸部轮廓区域出现了 的区域(即视差误差小于等于1个像素),绿色区 较大误差的区域,这些区域都是遮挡区域,说明 域表示视差误差小于2像素大于1个像素,红色 算法不能很好地对遮挡区域进行视差的恢复,但 区域表示视差误差小于3个像素大于2个像素, 是比起前两个方法,本文算法能够减少误差较大 黄色区域为视差误差大于3个像素。从错误点的 区域的面积,从而提高算法的准确率。可以看出 分布来看,Meshstereo蓝色区域比较小,参杂了很 结合人脸结构算法有助于人脸区域的重构。 (a)PRD姿态 (b)PRSD姿态 (c)PRSU姿态 (d)PRU姿态 (e)YRRI0姿态 图9不同方法在不同姿态下的脸部误差分布图 Fig.9 Error map of different face pose on different methods
3.2.1 定性分析 使用数据库中的人物 7(命名为 bs006 人物) 5 个姿态下的图像为例,将本文方法与其他方法进 行比较,(取迭代次数为 3),定性分析如图 8 所示, 第 1 行是 Meshstereo 的方法,是一个全局的算法; 第 2 行是原 PatchMatch 方法;第 3 行是本文提出 的改进方法;第 4 行是基准图。图 8 展现了同一个 人脸在不同的姿态下人脸视差的恢复,可以看出 本文所提出的方法在不同的旋转角度下都最接近 基准图,对于同样的迭代次数,按照脸部结构初 始化视差的方法使得算法更快地收敛到正确的人 脸视差值,使得人脸区域更加接近真实的深度值。 (a) PR_D༫ᔭ (b) PR_SD༫ᔭ (c) PR_SU༫ᔭ (d) PR_U༫ᔭ (e) YR_R10༫ᔭ 图 8 不同方法在不同姿态下的视差图效果 Fig. 8 Disparity renderings of different face pose on different methods 图 9 中展现了不同方法对不同姿态人脸进行 三维重建后的脸部误差分布图。第 1 行是 Meshstereo 的方法,第 2 行是原 PatchMatch 方法,第 3 行是本文提出的方法。图中蓝色区域为正确匹配 的区域 (即视差误差小于等于 1 个像素),绿色区 域表示视差误差小于 2 像素大于 1 个像素,红色 区域表示视差误差小于 3 个像素大于 2 个像素, 黄色区域为视差误差大于 3 个像素。从错误点的 分布来看,Meshstereo 蓝色区域比较小,参杂了很 多绿色区域,说明视差误差为 2 个像素的区域偏 多,而 PatchMatch 算法和提出的算法有较多的蓝 色区域,说明能获得更准确的视差区域。还可以 看出 3 个算法在鼻子区域和脸部轮廓区域出现了 较大误差的区域,这些区域都是遮挡区域,说明 算法不能很好地对遮挡区域进行视差的恢复,但 是比起前两个方法,本文算法能够减少误差较大 区域的面积,从而提高算法的准确率。可以看出 结合人脸结构算法有助于人脸区域的重构。 (a) PR_D༫ᔭ (b) PR_SD༫ᔭ (c) PR_SU༫ᔭ (d) PR_U༫ᔭ (e) YR_R10༫ᔭ 图 9 不同方法在不同姿态下的脸部误差分布图 Fig. 9 Error map of different face pose on different methods 第 4 期 林琴,等:基于双目视觉的人脸三维重建 ·539·
·540· 智能系统学报 第13卷 3.2.2定量分析 1.05 ◆本文提出的算法 --cICA MI 文献1刀提出的方法 -NLSI R MI 将提出的方法与M.Bleyer等提出的Patch- 1.00 Match方法进行比较,如图10所示。可以看出当 0.95 迭代次数为4时,两个算法基本收敛,并且迭代次 0.90 数等于3与等于4差大概3%,差距减小的速度小 X0.85 了很多。本文提出的方法比原方法在同样的迭代 0.80 次数下能够减小5%的错误率。 0.75 50 0.70 13579111315171921 人物 40 图11不同方法对应的前20个人物的相关系数 原Patchmatch算法 Fig.11 The correlation coefficient of the top 20 individu- 本文改进算法 als corresponding to different methods L20 以人物1(bs000的PRD姿态)为例,比较人 物真实的22个特征点的深度值与本文算法重建 10 所得到的值。为了进行比较,将深度值进行了归 0123456789 一化,归一化到[0,1]。通过式(13)对估计的深度 选代次数 值进行归一化叫: 图10 PatchMatch与本文方法的错误率比较 M:-Mmin (13) Fig.10 Error rate of PatchMatch and proposed method M.=M -Mi 表1展示了数据库中前20个人物对应5个 式中:M:是M,的归一化深度值,Mm和M是最小 姿态下PBM(percentage of bad matching pixel)的平 深度和最大深度。 均值,PBM表示错误匹配点的百分比,计算如式 从图12中可以看出,人脸特征点中的大部分 (1I)所示,PBM值越小表示重建得越准确。可以 的点得到了正确的估计。可以看出算法能够较好 看出,在每个姿态下,本文提出的方法具有最高 地恢复出人脸的三维深度。 的PBM值。 1 1.2「◆真实的深度值 PBM=x∑ D(x,y) (11) ■一本文算法估计的深度值 1.0 np (ty) 式中Dx,y)计算如式(12): ∫0,ldE(x,y)-dT(x,y≤6adl Dx)=1,其他 (12) 0.6 0.4 式中6取值为1。 0.2 表1不同方法在人脸不同姿态下的PBM值 Table 1 PBM of different face pose on different methods 7911131517192123 PBM值 PR D PR SD PR SU PR U YR RI0 脸部特征点的编号 Meshstereo 50.73 46.70 44.29 43.13 46.44 图12 真实人脸特征点的深度值与本文方法估计的人脸 PatchMatch 21.73 特征点深度值的比较 20.87 20.25 20.27 19.13 Fig.12 Comparison of depth of face key points between 本文算法15.7814.5814.5414.92 14.27 ground truth and estimated value by proposed method 图11将本文所提出的算法与NLS11方法、 综上所述,无论是与双目匹配算法比较,还是 ICA算法(被称为CICA MI算法),以及基于块 匹配算法的双目匹配的算法进行比较。为了与 与人脸重建算法进行比较,本文提出的算法都表 这些算法进行比较,计算脸部基准图中的22个关 现出了较好的性能。 键点的深度值与本文提出算法建立的深度图中对 4结束语 应点的相关系数。图11比较了数据库中的前 20个人物的相关系数。从图7中可以看出,本文 本文通过分析人脸的拓扑结构,结合双目立 算法的相关系数普遍高于另外3种算法,只有人 体视觉系统,提出了一种新颖的人脸稠密三维点 物2的相关性低于别的算法,根据测试结果,分析 云的三维重建方法。通过对人脸进行关键点检 发现是22点中的右眼内角点与实际差别较大。 测,获取稀疏的人脸视差值,然后结合线性插值
3.2.2 定量分析 将提出的方法与 M. Bleyer 等提出的 PatchMatch 方法进行比较,如图 10 所示。可以看出当 迭代次数为 4 时,两个算法基本收敛,并且迭代次 数等于 3 与等于 4 差大概 3%,差距减小的速度小 了很多。本文提出的方法比原方法在同样的迭代 次数下能够减小 5% 的错误率。 50 40 30 20 10 0 error >1像素/% 1 2 3 4 5 6 7 8 9 迭代次数 原Patchmatch算法 本文改进算法 图 10 PatchMatch 与本文方法的错误率比较 Fig. 10 Error rate of PatchMatch and proposed method 表 1 展示了数据库中前 20 个人物对应 5 个 姿态下 PBM(percentage of bad matching pixel) 的平 均值,PBM 表示错误匹配点的百分比,计算如式 (11) 所示,PBM 值越小表示重建得越准确。可以 看出,在每个姿态下,本文提出的方法具有最高 的 PBM 值。 PBM = 1 np × ∑ (x,y) D(x, y) (11) 式中 D(x, y) 计算如式 (12): D(x, y) = { 0, |dE(x, y)−dT(x, y) ⩽ δd| 1, 其他 (12) 式中 δd取值为 1。 表 1 不同方法在人脸不同姿态下的 PBM 值 Table 1 PBM of different face pose on different methods % PBM 值 PR_D PR_SD PR_SU PR_U YR_R10 Meshstereo 50.73 46.70 44.29 43.13 46.44 PatchMatch 21.73 20.87 20.25 20.27 19.13 本文算法 15.78 14.58 14.54 14.92 14.27 图 11 将本文所提出的算法与 NLS[10]方法、 ICA 算法[11] (被称为 cICA_MI 算法),以及基于块 匹配算法[18]的双目匹配的算法进行比较。为了与 这些算法进行比较,计算脸部基准图中的 22 个关 键点的深度值与本文提出算法建立的深度图中对 应点的相关系数。图 11 比较了数据库中的前 20 个人物的相关系数。从图 7 中可以看出,本文 算法的相关系数普遍高于另外 3 种算法,只有人 物 2 的相关性低于别的算法,根据测试结果,分析 发现是 22 点中的右眼内角点与实际差别较大。 0.70 0.75 0.80 0.85 0.90 0.95 1.00 1.05 1 3 5 7 9 11 13 15 17 19 21 相关系数 人物 本文提出的算法 文献[17]提出的方法 cICA_MI NLS1_R_MI 图 11 不同方法对应的前 20 个人物的相关系数 Fig. 11 The correlation coefficient of the top 20 individuals corresponding to different methods 以人物 1(bs000 的 PR_D 姿态) 为例,比较人 物真实的 22 个特征点的深度值与本文算法重建 所得到的值。为了进行比较,将深度值进行了归 一化,归一化到[0,1]。通过式 (13) 对估计的深度 值进行归一化[11] : M′ z = Mz − Mmin z Mmax z − Mmin z (13) M′ z Mz Mmin z Mmax 式中: 是 的归一化深度值 z , 和 是最小 深度和最大深度。 从图 12 中可以看出,人脸特征点中的大部分 的点得到了正确的估计。可以看出算法能够较好 地恢复出人脸的三维深度。 0 0.2 0.4 0.6 0.8 1.0 1.2 1 3 5 7 9 11 13 15 17 19 21 23 归一化的深度值 脸部特征点的编号 真实的深度值 本文算法估计的深度值 图 12 真实人脸特征点的深度值与本文方法估计的人脸 特征点深度值的比较 Fig. 12 Comparison of depth of face key points between ground truth and estimated value by proposed method 综上所述,无论是与双目匹配算法比较,还是 与人脸重建算法进行比较,本文提出的算法都表 现出了较好的性能。 4 结束语 本文通过分析人脸的拓扑结构,结合双目立 体视觉系统,提出了一种新颖的人脸稠密三维点 云的三维重建方法。通过对人脸进行关键点检 测,获取稀疏的人脸视差值,然后结合线性插值 ·540· 智 能 系 统 学 报 第 13 卷
第4期 林琴,等:基于双目视觉的人脸三维重建 ·541· 获得初始的稠密视差初始值,最后使用立体稠密 [10]SUN Z L.LAM K M.GAO Q W.Depth estimation of 匹配算法PatchMatch对获得的值进行了平滑处 face images using the nonlinear least-squares model[J] 理。实验结果证明,本文算法能够得到光滑稠密 IEEE transactions on image processing,2013,22(1): 的三维人脸重建点云模型。下一步研究的问题是 17-30. 人脸的曲面重建工作及其在人脸识别的应用。 [11]SUN Z L,LAM K M.Depth estimation of face images based on the constrained ICA model[J].IEEE Transac- 参考文献: tions on information forensics and security,2011,6(2): 360-370. [1]易唐唐,董朝贤.基于面部表情GEM和稀疏立方矩阵的 [12]CHOI J,MEDIONI G,LIN Y,et al.3D face reconstruc- 三维人脸识别方法几.重庆邮电大学学报:自然科学版 tion using a single or multiple views[C]//Proceedings of 2017,29(2):257-264. International Conference on Pattern Recognition 2010. YI Tangtang,DONG Chaoxian.3D face recognition meth- Istanbul IEEE Conference Publications,2010: od based on facial expression generic elastic model and 3959-3962. sparse cubic matrix[J].Journal of Chongqing university of [13]LIU F.ZENG D,ZHAO Q,et al.Joint face alignment and posts and telecommunications:natural science edition, 3D face reconstruction[C]//Proceedings of European 2017,29(2):257-264. Conference on Computer Vision.Springer International [2]赵军,赵艳,杨勇,等.基于降维的堆积降噪自动编码机 Publishing,2016:545-560. 的表情识别方法[J].重庆邮电大学学报:自然科学版, [14]HUBER P,HU G,TENA R,et al.A multiresolution 3D 2016,28(6:844-848. Morphable Face Model and fitting framework[C]//Pro- ZHAO Jun,ZHAO Yan,YANG Yong,et al.Facial expres- ceedings of the 11th International Joint Conference on sion recognition method based on stacked denoising auto- Computer Vision,Imaging and Computer Graphics The- encoders and feature reduction[J].Journal of Chongqing ory and Applications.[S.1.],2016:151-155 university of posts and telecommunications:natural sci- [15]HIRSCHMULLER H.Improvements in real-time correla- ence edition,2016,28(6:844-848. tion-based stereo vision[C]//Proceedings of Stereo and [3]ROY-CHOWDHURY A K,CHELLAPPA R.Statistical Multi-Baseline Vision.Kauai,Hawaii:IEEE Computer bias in 3-D reconstruction from a monocular video[J]. Society,2001:0141. IEEE transactions on image processing,2005,14(8): [16]HIRSCHMULLER H.Stereo processing by semiglobal 1057-1062 matching and mutual information[J].IEEE transactions on [4]KOO H S,LAM K M.Recovering the 3D shape and poses pattern analysis and machine intelligence,2008,30(2): of face images based on the similarity transform[J].Pat- 328-341. tern recognition letters,2008,29(6):712-723. [17]ZHANG C.LI Z.CHENG Y,et al.Meshstereo:lobal ste [5]AISSAOUI A.AUGUSTE R,YAHIAOUI T,et al.Fast reo model with mesh alignment regularization for view stereo matching method based on optimized correlation al- interpolation[C]//Proceedings of International Confer- gorithm for face depth estimation[C //Proceedings of Inter- ence on Computer Vision.Santiago,Chile:the IEEE, national Conference on Image Processing.Orlando,Flor- 2015:2057-2065. ida:IEEE Signal Processing Society,2012:377-380 [18]AISSAOUI A,MARTINET J,DJERABA C.Rapid and [6]DA F,SUI Y.3D reconstruction of human face based on accurate face depth estimation in passive stereo systems an improved seeds-growing algorithm[J.Machine vision [J].Multimedia tools and applications,2014,72(3): and applications,2011,22(5):879-887 2413-2438. [7]ZHANG R.TSAI P S,CRYER J E,et al.Shape-from- [19]BLEYER M.RHEMANN C.ROTHER C.PatchMatch shading:a survey[J].IEEE transactions on pattern analysis stereo-stereo matching with slanted support windows and machine intelligence,1999,21(8):690-706 [C]//Proceedings of British Machine Vision Conference. [8]HORN B K P.Obtaining shape from shading information Dundee:Warwick Print,2011,11:1-11. [C]//Shape from shading.New York:MIT press,1989: [20]KAZEMI V,SULLIVAN J.One millisecond face align- 123-171. ment with an ensemble of regression trees[C]//Proceed- [9]王琨,郑南宁.基于SFM算法的三维人脸模型重建[): ings of Computer Vision and Pattern Recognition.Boston, 计算机学报,2005,28(6):1048-1053. Massachusetts:IEEE,2014:1867-1874. WANG Kun,ZHANG Nanning.3D Face modeling based [21]ZABIH R,WOODFILL J.Non-parametric local trans- on SFM algorithm[J].Chinese journal of computer,2005, forms for computing visual correspondence[M]//Com- 28(6):1048-1053 puter Vision-ECCV94.Springer Berlin Heidelberg
获得初始的稠密视差初始值,最后使用立体稠密 匹配算法 PatchMatch 对获得的值进行了平滑处 理。实验结果证明,本文算法能够得到光滑稠密 的三维人脸重建点云模型。下一步研究的问题是 人脸的曲面重建工作及其在人脸识别的应用。 参考文献: 易唐唐, 董朝贤. 基于面部表情 GEM 和稀疏立方矩阵的 三维人脸识别方法[J]. 重庆邮电大学学报: 自然科学版, 2017, 29(2): 257–264. YI Tangtang, DONG Chaoxian. 3D face recognition method based on facial expression generic elastic model and sparse cubic matrix[J]. Journal of Chongqing university of posts and telecommunications: natural science edition, 2017, 29(2): 257–264. [1] 赵军, 赵艳, 杨勇, 等. 基于降维的堆积降噪自动编码机 的表情识别方法[J]. 重庆邮电大学学报: 自然科学版, 2016, 28(6): 844–848. ZHAO Jun, ZHAO Yan, YANG Yong, et al. Facial expression recognition method based on stacked denoising autoencoders and feature reduction[J]. Journal of Chongqing university of posts and telecommunications: natural science edition, 2016, 28(6): 844–848. [2] ROY-CHOWDHURY A K, CHELLAPPA R. Statistical bias in 3-D reconstruction from a monocular video[J]. IEEE transactions on image processing, 2005, 14(8): 1057–1062. [3] KOO H S, LAM K M. Recovering the 3D shape and poses of face images based on the similarity transform[J]. Pattern recognition letters, 2008, 29(6): 712–723. [4] AISSAOUI A, AUGUSTE R, YAHIAOUI T, et al. Fast stereo matching method based on optimized correlation algorithm for face depth estimation[C]//Proceedings of International Conference on Image Processing. Orlando, Florida: IEEE Signal Processing Society, 2012: 377–380. [5] DA F, SUI Y. 3D reconstruction of human face based on an improved seeds-growing algorithm[J]. Machine vision and applications, 2011, 22(5): 879–887. [6] ZHANG R, TSAI P S, CRYER J E, et al. Shape-fromshading: a survey[J]. IEEE transactions on pattern analysis and machine intelligence, 1999, 21(8): 690–706. [7] HORN B K P. Obtaining shape from shading information [C]//Shape from shading. New York: MIT press, 1989: 123–171. [8] 王琨, 郑南宁. 基于 SFM 算法的三维人脸模型重建[J]. 计算机学报, 2005, 28(6): 1048–1053. WANG Kun, ZHANG Nanning. 3D Face modeling based on SFM algorithm[J]. Chinese journal of computer, 2005, 28(6): 1048–1053. [9] SUN Z L, LAM K M, GAO Q W. Depth estimation of face images using the nonlinear least-squares model[J]. IEEE transactions on image processing, 2013, 22(1): 17–30. [10] SUN Z L, LAM K M. Depth estimation of face images based on the constrained ICA model[J]. IEEE Transactions on information forensics and security, 2011, 6(2): 360–370. [11] CHOI J, MEDIONI G, LIN Y, et al. 3D face reconstruction using a single or multiple views[C]//Proceedings of International Conference on Pattern Recognition 2010. Istanbul : IEEE Conference Publications, 2010: 3959–3962. [12] LIU F, ZENG D, ZHAO Q, et al. Joint face alignment and 3D face reconstruction[C]// Proceedings of European Conference on Computer Vision. Springer International Publishing, 2016: 545–560. [13] HUBER P, HU G, TENA R, et al. A multiresolution 3D Morphable Face Model and fitting framework[C]//Proceedings of the 11th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. [S.l.], 2016: 151–155. [14] HIRSCHMULLER H. Improvements in real-time correlation-based stereo vision[C]//Proceedings of Stereo and Multi-Baseline Vision. Kauai, Hawaii: IEEE Computer Society, 2001: 0141. [15] HIRSCHMULLER H. Stereo processing by semiglobal matching and mutual information[J]. IEEE transactions on pattern analysis and machine intelligence, 2008, 30(2): 328–341. [16] ZHANG C, LI Z, CHENG Y, et al. Meshstereo: lobal stereo model with mesh alignment regularization for view interpolation[C]//Proceedings of International Conference on Computer Vision. Santiago, Chile: the IEEE, 2015: 2057–2065. [17] AISSAOUI A, MARTINET J, DJERABA C. Rapid and accurate face depth estimation in passive stereo systems [J]. Multimedia tools and applications, 2014, 72(3): 2413–2438. [18] BLEYER M, RHEMANN C, ROTHER C. PatchMatch stereo-stereo matching with slanted support windows [C]//Proceedings of British Machine Vision Conference. Dundee: Warwick Print, 2011, 11: 1–11. [19] KAZEMI V, SULLIVAN J. One millisecond face alignment with an ensemble of regression trees[C]//Proceedings of Computer Vision and Pattern Recognition. Boston, Massachusetts: IEEE, 2014: 1867–1874. [20] ZABIH R, WOODFILL J. Non-parametric local transforms for computing visual correspondence[M]//Computer Vision—ECCV'94. Springer Berlin Heidelberg, [21] 第 4 期 林琴,等:基于双目视觉的人脸三维重建 ·541·
·542· 智能系统学报 第13卷 1994:151-158 李卫军,男,1975年生,研究员, [22]SAVRAN A,ALYUZ N,DIBEKLIOGLU H,et al.Bos- 博士,主要研究方向为仿生图像处理 技术、仿生模式识别理论与方法、近红 phorus database for 3D faceanalysis[C]//Proceedings of 外光谱定性分析技术、高维信息计 European Workshop on Biometrics and Identity Manage- 算。发表学术论文30余篇。 ment.Springer Berlin Heidelberg,2008:47-56. 作者简介: 林琴,女,1992年生,硕士研究 董肖莉,女,1985年生,助理研究 生,主要研究方向为图像处理、模式识 员,主要研究方向为图像处理、模式识 别、计算机视觉。 别及智能信息处理。 第三届机器人与自动化工程国际会议(ICRAE2018) 2018 3rd International Conference on Robotics and Automation Engineering (ICRAE 2018) 2018 3rd International Conference on Robotics and Automation Engineering(ICRAE 2018)will be held in Guang- zhou,China during November 17-19,2018.ICRAE conference has been held successfully in Jeju Island,South Korea in 2016,East China University of Science and Technology,Shanghai,China in 2017,respectively.Topics of interest in- clude,but are not limited to: Robot design,development and control Reasoning about action for intelligent Human-robots interfaces robots Network robotics Natural language dialogue with robots Mobile robots and autonomous systems Speech recognition Signal Human augmentation and shared reconstruction control Computer and microprocessor-based ·Cybernetics control Space and underwater robots Hierarchical control Intelligent transportation technologies Instrumentation networks and software and systems Real-time syst;ems control Time series .Vehicle control applications and system modeling .Telerobotics and Teleoperation Environmental monitoring and control Industrial networks and automation Information-based models for control Intelligent warehouses Time-frequency analysis Modeling,simulation and architectures ·Feature extraction Vision,recognition and reconstruction Discrete event systems Hybrid Virtual Reality Image processing dynamical systems System Surveillance identification Web-based control Autonomous Hybrid dynamical systems agents Adaptive signal processing and control Petri nets (system design/verification Nonlinear signals and systems with nets,protocols and networks) Website:http://www.icrae.org/cfp.html
1994: 151–158. SAVRAN A, ALYÜZ N, DIBEKLIOĞLU H, et al. Bosphorus database for 3D faceanalysis[C] //Proceedings of European Workshop on Biometrics and Identity Management. Springer Berlin Heidelberg, 2008: 47–56. [22] 作者简介: 林琴,女,1992 年生,硕士研究 生,主要研究方向为图像处理、模式识 别、计算机视觉。 李卫军,男,1975 年生,研究员, 博士,主要研究方向为仿生图像处理 技术、仿生模式识别理论与方法、近红 外光谱定性分析技术、高维信息计 算。发表学术论文 30 余篇。 董肖莉,女,1985 年生,助理研究 员,主要研究方向为图像处理、模式识 别及智能信息处理。 第三届机器人与自动化工程国际会议(ICRAE 2018) 2018 3rd International Conference on Robotics and Automation Engineering (ICRAE 2018) 2018 3rd International Conference on Robotics and Automation Engineering (ICRAE 2018) will be held in Guangzhou, China during November 17-19, 2018. ICRAE conference has been held successfully in Jeju Island, South Korea in 2016, East China University of Science and Technology, Shanghai, China in 2017, respectively. Topics of interest include, but are not limited to: • Robot design, development and control • Reasoning about action for intelligent • Human-robots interfaces robots • Network robotics • Natural language dialogue with robots • Mobile robots and autonomous systems • Speech recognition & Signal • Human augmentation and shared reconstruction control • Computer and microprocessor-based • Cybernetics control • Space and underwater robots • Hierarchical control • Intelligent transportation technologies • Instrumentation networks and software and systems • Real-time syst;ems control & Time series • Vehicle control applications and system modeling • Telerobotics and Teleoperation • Environmental monitoring and control & • Industrial networks and automation Information-based models for control • Intelligent warehouses • Time-frequency analysis • Modeling, simulation and architectures • Feature extraction • Vision, recognition and reconstruction • Discrete event systems & Hybrid • Virtual Reality & Image processing & dynamical systems & System Surveillance identification • Web-based control & Autonomous • Hybrid dynamical systems agents • Adaptive signal processing and control • Petri nets (system design/verification • Nonlinear signals and systems with nets, protocols and networks) Website:http://www.icrae.org/cfp.html ·542· 智 能 系 统 学 报 第 13 卷