正在加载图片...
第4期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·755· 多任务级联卷积网络(multi-task cascaded con- volutional networks,MTCNN)9是目前速度与精度 (6) 最好的人脸检测器之一。MTCNN由3个卷积网 同理,相机坐标系下对应的参考点可以表示为 络级联构成,分类器级联可以大幅提升检测速 度,利用卷积网络提取的更加高级的特征可以提 A=2时 (7) 高分类的准确性,此外由于卷积网络更好的区分 能力,级联框架的层数也会相应地减少,从而降 根据相机成像投影关系,每个控制点c的三 低整体的计算开销。同时利用卷积神经网络的多 维坐标(,,与其在图像平面上的投影点 任务学习能力,实现人脸及特征点的联合检测, (4,v)满足 网络输出脸部边框坐标和左眼中心、右眼中心、 0 鼻尖和嘴巴两端5个特征点的坐标。 Vi (8) 在计算机视觉中,物体姿态是指其相对相机 式中w.为比例投影系数。进一步可以得到 的方向与位置。由于安置在车内的相机镜头正对 驾驶员面部,因而根据头部姿态可以判断驾驶员 ∑fx+a(C:-4)=0 的注意方向。头部姿态估计可以视为多点透视 (9) (perspective-n-point,PnP)问题,根据2D-3D特征点 afx+aif(cy-vi=0 间的投影关系求解头部姿态参数。 针孔相机模型如图4所示。O-YZ为相机坐 考虑n个参考点,式(9)可以表示为线性方程 标系,F0-UVW为世界坐标系坐标,F:为头部三维 组Mx=0,其中4个虚拟控制点共12个未知变 模型上的某个特征点,其对应于图像平面上的特 量,M为2n×12矩阵,x=[c,c5,c,cT为12维未 征点为p(,)。f、£为相机焦距,(cx,c)为相机 知向量。式(9)的解为矩阵M的核空间,表示为 光心。相机坐标系与世界坐标系之间的对应关系 x=By,n=1,2,3,4,式中y:为矩阵M的右奇异 如下所示: 向量,可由12×12MTM矩阵的零特征向量求得,B U 的取值由使得逆投影误差最小的N值确定。得 12 3 N 到虚拟控制点坐标后便可恢复出参考点在相机坐 W 1 T22 31 T32 r33 标系中的坐标,利用SVD分解可以得到旋转矩阵。 式中:R为旋转矩阵,可以表示头部姿态;T为平 将旋转矩阵转换为姿态角pitch、yaw和roll, 移向量。 可以直观地表示头部朝向,其变换关系如下: pitch=arctan2(r32,r33) 世界坐标系 yaw arctan2(-r31,+) (10) F roll arctan2(r2i.r) 本文使用MTCNN输出的左右眼中心、鼻 尖、左右嘴角5个特征点作为参考点,估计驾驶 员头部姿态角,结果如图5所示。 相机坐标系 图像坐标系 图4头部三维模型到图像平面特征点的投影 Fig.4 Projection of 3D model of the head to the feature points of image plane 本文使用EPnP算法I求解姿态参数。EPnP 算法利用4个虚拟控制点的线性加权表示实际参 考点在相机坐标系下的坐标,4个虚拟控制点为 c,=1,2,3,4,则世界坐标系中的参考点F:可以表 图5驾驶员头部姿态估计 示为 Fig.5 Head pose estimation of the driver多任务级联卷积网络 (multi-task cascaded con￾volutional networks, MTCNN)[9] 是目前速度与精度 最好的人脸检测器之一。MTCNN 由 3 个卷积网 络级联构成,分类器级联可以大幅提升检测速 度,利用卷积网络提取的更加高级的特征可以提 高分类的准确性,此外由于卷积网络更好的区分 能力,级联框架的层数也会相应地减少,从而降 低整体的计算开销。同时利用卷积神经网络的多 任务学习能力,实现人脸及特征点的联合检测, 网络输出脸部边框坐标和左眼中心、右眼中心、 鼻尖和嘴巴两端 5 个特征点的坐标。 在计算机视觉中,物体姿态是指其相对相机 的方向与位置。由于安置在车内的相机镜头正对 驾驶员面部,因而根据头部姿态可以判断驾驶员 的注意方向。头部姿态估计可以视为多点透视 (perspective-n-point, PnP) 问题,根据 2D-3D 特征点 间的投影关系求解头部姿态参数。 Fi pi(ui , vi) fx、fy (cx , cy) 针孔相机模型如图 4 所示。O-XYZ 为相机坐 标系,F0-UVW 为世界坐标系坐标, 为头部三维 模型上的某个特征点,其对应于图像平面上的特 征点为 。 为相机焦距, 为相机 光心。相机坐标系与世界坐标系之间的对应关系 如下所示:   X Y Z   = [R| T ]   U V W 1   , R =   r11 r12 r13 r21 r22 r23 r31 r32 r33   , T =   tx ty tz   (5) 式中:R 为旋转矩阵,可以表示头部姿态; T 为平 移向量。 F0 Fi O X Z Y pi x y R, T c 相机坐标系 图像坐标系 世界坐标系 U V W 图 4 头部三维模型到图像平面特征点的投影 Fig. 4 Projection of 3D model of the head to the feature points of image plane cj = 1,2,3,4 Fi 本文使用 EPnP 算法[15] 求解姿态参数。EPnP 算法利用 4 个虚拟控制点的线性加权表示实际参 考点在相机坐标系下的坐标,4 个虚拟控制点为 ,则世界坐标系中的参考点 可以表 示为 Fi = ∑4 j=1 αi jc F j , ∑4 j=1 αi j = 1 (6) 同理,相机坐标系下对应的参考点可以表示为 pi = ∑4 j=1 αi jc p j (7) c p j (x p j , y p j , z p j ) (ui , vi) 根据相机成像投影关系,每个控制点 的三 维坐标 与其在图像平面上的投影点 满足 ωn   ui vi 1   =   fx 0 cx 0 fy cy 0 0 1   ∑4 j=1 αi j   x p j y p j z p j   (8) 式中 ωn 为比例投影系数。进一步可以得到    ∑4 j=1 αi j fx x p j +αi j(cx −ui)z p j = 0 ∑4 j=1 αi j fy x p j +αi j(cy −vi)z p j = 0 (9) Mx = 0 x = [c p 1 , c p 2 , c p 3 , c p 4 ] T x = ∑n i=1 βivi , n = 1,2,3,4 vi MTM βi 考虑 n 个参考点,式 (9) 可以表示为线性方程 组 ,其中 4 个虚拟控制点共 12 个未知变 量,M 为 2n×12 矩阵, 为 12 维未 知向量。式 (9) 的解为矩阵 M 的核空间,表示为 ,式中 为矩阵 M 的右奇异 向量,可由 12×12 矩阵的零特征向量求得, 的取值由使得逆投影误差最小的 N 值确定。得 到虚拟控制点坐标后便可恢复出参考点在相机坐 标系中的坐标,利用 SVD 分解可以得到旋转矩阵。 将旋转矩阵转换为姿态角 pitch、yaw 和 roll, 可以直观地表示头部朝向,其变换关系如下:    pitch = arctan2(r32, r33) yaw = arctan2(−r31, √ r 2 32 +r 2 33) roll = arctan2(r21, r11) (10) 本文使用 MTCNN 输出的左右眼中心、鼻 尖、左右嘴角 5 个特征点作为参考点,估计驾驶 员头部姿态角,结果如图 5 所示。 Pitch=−8.07 Yaw=2.56 Roll=−1.85 图 5 驾驶员头部姿态估计 Fig. 5 Head pose estimation of the driver 第 4 期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·755·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有