【机器感知与模式识别】基于车内外视觉信息的行人碰撞预警方法

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：1.48MB

第14卷第4期智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201801016 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180628.1622.004html 基于车内外视觉信息的行人碰撞预警方法杨会成，朱文博，童英 (安徽工程大学电气工程学院，安徽芜湖241000) 摘要：行人碰撞预警系统通常依据行人检测与碰撞时间判断的方式为驾驶员提供预警信息。为了提供更加可靠的危险判断依据，本文提出一种同时分析道路状况与驾驶员头部姿态的行人碰撞预警方法，用两个单目相机分别获取车辆内外环境图像。通道特征检测器用于定位行人，根据单目视觉距离测量方法估计出行人与自车间的纵向与横向距离。多任务级联卷积网络用于定位驾驶员面部特征点，通过求解多点透视问题获取头部方向角以反映驾驶员注意状态。结合行人位置信息与驾驶员状态信息，本文构建模糊推理系统判断碰撞风险等级。在实际路况下的实验结果表明.根据模糊系统输出的风险等级可以为预防碰撞提供有效的指导。关键词：碰撞预警：内外信息：行人定位：驾驶员状态；单目视觉：通道特征：多任务级联卷积网络：模糊推理系统中图分类号：TP181文献标志码：A文章编号：1673-4785(2019)04-0752-09 中文引用格式：杨会成，朱文博，童英.基于车内外视觉信息的行人碰撞预警方法智能系统学报，2019,14(4)：752-760. 英文引用格式：YANG Huicheng,ZHU Wenbo,TONG Ying..Pedestrian collision warning system based on looking-in and looking out visual information analysis[J.CAAI transactions on intelligent systems,2019,14(4):752-760. Pedestrian collision warning system based on looking-in and looking-out visual information analysis YANG Huicheng,ZHU Wenbo,TONG Ying (College of Electrical Engineering,Anhui Polytechnic University,Wuhu 241000,China) Abstract:Pedestrian collision warning systems usually provide early warning for drivers based on the technologies of pedestrian detection and collision time measurement.To provide a more reliable basis for risk assessment,a pedestrian collision warning method that involves analyzing the road condition and driver's head pose simultaneously is proposed in this paper.Two monocular cameras are used to capture vehicle exterior and interior images,and a channel features detector is applied to locate pedestrians.The vertical and horizontal distances between pedestrians and ego-vehicle are estimated based on monocular vision distance measurement.The multi-task cascaded convolutional network is utilized for facial landmark detection.By solving a perspective-n-point(PnP)problem,the estimated head angles can reflect driver's attention states.By combining both pedestrian location information and driver's attention information,we im- plemented a fuzzy inference system to assess collision risk level.An experiment in real-world driving conditions demon- strated that the risk levels obtained from the fuzzy system are reliable and can provide guidance for collision avoidance. Keywords:collision warning;internal and external information;pedestrian positioning;driver states;monocular vision; channel features;multi-task cascaded convolutional network;fuzzy inference system 高级驾驶辅助系统(advanced driver assistance碰撞预警是ADAS的一个重要功能，碰撞预警系 system,ADAS)是目前车辆安全领域的研究热点，统通常根据传感器获取的前方障碍物相对距离和该系统通过车载传感器收集并分析车内外环境数速度计算碰撞时间(time to collision.,TTC),可靠的据，为驾驶员提供辅助信息并对危险进行提醒。预警一般设置为潜在的碰撞前约2s的时间。目收稿日期：2018-01-08.网络出版日期：2018-06-29 前应用的碰撞保护系统大多针对车辆间的碰撞，基金项目：安徽省高校自然科学研究重点项目(KJ2018A0122) 通信作者：朱文博.E-mail:vembozhu@l63.com. 然而在人车碰撞事故中，没有保护装置的行人更

DOI: 10.11992/tis.201801016 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180628.1622.004.html 基于车内外视觉信息的行人碰撞预警方法杨会成，朱文博，童英（安徽工程大学电气工程学院，安徽芜湖 241000）摘要：行人碰撞预警系统通常依据行人检测与碰撞时间判断的方式为驾驶员提供预警信息。为了提供更加可靠的危险判断依据，本文提出一种同时分析道路状况与驾驶员头部姿态的行人碰撞预警方法，用两个单目相机分别获取车辆内外环境图像。通道特征检测器用于定位行人，根据单目视觉距离测量方法估计出行人与自车间的纵向与横向距离。多任务级联卷积网络用于定位驾驶员面部特征点，通过求解多点透视问题获取头部方向角以反映驾驶员注意状态。结合行人位置信息与驾驶员状态信息，本文构建模糊推理系统判断碰撞风险等级。在实际路况下的实验结果表明，根据模糊系统输出的风险等级可以为预防碰撞提供有效的指导。关键词：碰撞预警；内外信息；行人定位；驾驶员状态；单目视觉；通道特征；多任务级联卷积网络；模糊推理系统中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2019)04−0752−09 中文引用格式：杨会成, 朱文博, 童英. 基于车内外视觉信息的行人碰撞预警方法 [J]. 智能系统学报, 2019, 14(4): 752–760. 英文引用格式：YANG Huicheng, ZHU Wenbo, TONG Ying. Pedestrian collision warning system based on looking-in and lookingout visual information analysis[J]. CAAI transactions on intelligent systems, 2019, 14(4): 752–760. Pedestrian collision warning system based on looking-in and looking-out visual information analysis YANG Huicheng，ZHU Wenbo，TONG Ying (College of Electrical Engineering, Anhui Polytechnic University, Wuhu 241000, China) Abstract: Pedestrian collision warning systems usually provide early warning for drivers based on the technologies of pedestrian detection and collision time measurement. To provide a more reliable basis for risk assessment, a pedestrian collision warning method that involves analyzing the road condition and driver’s head pose simultaneously is proposed in this paper. Two monocular cameras are used to capture vehicle exterior and interior images, and a channel features detector is applied to locate pedestrians. The vertical and horizontal distances between pedestrians and ego-vehicle are estimated based on monocular vision distance measurement. The multi-task cascaded convolutional network is utilized for facial landmark detection. By solving a perspective-n-point (PnP) problem, the estimated head angles can reflect driver’s attention states. By combining both pedestrian location information and driver’s attention information, we implemented a fuzzy inference system to assess collision risk level. An experiment in real-world driving conditions demonstrated that the risk levels obtained from the fuzzy system are reliable and can provide guidance for collision avoidance. Keywords: collision warning; internal and external information; pedestrian positioning; driver states; monocular vision; channel features; multi-task cascaded convolutional network; fuzzy inference system 高级驾驶辅助系统 (advanced driver assistance system, ADAS) 是目前车辆安全领域的研究热点，该系统通过车载传感器收集并分析车内外环境数据，为驾驶员提供辅助信息并对危险进行提醒。碰撞预警是 ADAS 的一个重要功能，碰撞预警系统通常根据传感器获取的前方障碍物相对距离和速度计算碰撞时间 (time to collision, TTC)，可靠的预警一般设置为潜在的碰撞前约 2 s 的时间。目前应用的碰撞保护系统大多针对车辆间的碰撞，然而在人车碰撞事故中，没有保护装置的行人更收稿日期：2018−01−08. 网络出版日期：2018−06−29. 基金项目：安徽省高校自然科学研究重点项目 (KJ2018A0122). 通信作者：朱文博. E-mail：vembozhu@163.com. 第 14 卷第 4 期智能系统学报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019

第4期杨会成，等：基于车内外视觉信息的行人碰撞预警方法 ·753· 容易受到致命的伤害。统计数据表明，在我国城归森林的方法和基于深度学习的方法o 市道路中，每年死于交通事故的人口中有接近车辆的行驶状态很大程度上取决于驾驶员是 50%为身处车外的行人。因此研究行人碰撞预警否注意到行人，通过监控驾驶员的注意状态，可系统，在可能的碰撞发生前对驾驶员做出提醒，以更加准确地衡量碰撞危险。结合对经验丰富的具有重要的现实意义。驾驶员驾车行为的研究，本文提出一种基于车内行人碰撞预警的实现广泛采用视觉传感器获外视觉信息的行人碰撞预警方法，将行人状态分取行人位置信息，根据相对距离和车速做出判析和驾驶员状态分析同时加入模糊决策过程。本断。由于姿态与外形的多样性，行人检测一直是文的方法使用两个单目相机分别获取车外行人方计算机视觉领域的一个重要研究课题。行人检测位信息和车内驾驶员头部姿态信息，其中外部信的经典方法有Viola等提出的Haar-like特征和息处理使用通道特征检测器定位行人，根据单目级联分类器，Dalal等21提出的HOG特征结合视觉测距原理估计距离与角度，内部信息处理使 SVM分类器，以及Felzenszwalb等I)提出的可变用级联回归方法定位面部特征点，根据EPnP算形部件模型(deformable part model,.DPM)。卷积法估计驾驶员头部姿态，利用模糊推理系统融合神经网络(convolutional neural networks,CNN)由内外信息对碰撞风险等级进行评估，可以满足系于其强大的特征学习和表达能力，在计算机视觉统决策的准确性和时效性。领域得到了广泛的应用。深度学习目标检测方法 1行人位置估计著名的有Girshick等4提出的基于区域建议的卷积神经网络模型(region CNN,R-CNN),通过CNN 利用通道特征检测器，可以从车辆前方的道完成特征提取与目标定位。路监控视频中判断每一帧是否存在行人，并提取根据美国高速交通安全管理局NHTSA)的出行人在图像中的位置，进一步恢复出其在真实场统计6，有超过80%的交通事故责任与驾驶员相景中的相对距离与角度，作为碰撞风险判断的依据。关，其中注意力不集中是引发事故的主要原因。聚合通道特征(aggregated channel features, 此外，预警系统的有效性受到驾驶员反应时间的 ACF)检测器最早由Dollar等I提出，其结构如影响，驾驶员注意力的差异会导致对危险的反应图1所示。检测器的特征构造利用色彩和梯度信时间不同，精确的数值判断有时反而会给出错误息，选取LUV色彩空间3个通道、6个方向上的的预警。近年来，研究人员利用内外视觉(looking- 梯度直方图通道和1个梯度幅值通道共10个通 in and looking-out,LiLo)框架16实现车辆安全系道图像结合而成。对每个通道图像上互不重叠统性能的提升，在检测车辆前方障碍物的基础上，的2×2的块内像素求和，通道的输出为输入通道增加了对驾驶员状态的监测。该框架利用传感器每个图像块内像素聚合构成的特征池。分类器同时获取车辆周围环境、车辆运动状态以及驾驶由4096棵深度为4的决策树通过软级联(soft 员行为，系统同时理解车辆外部和内部信息并据 cascade)方式31构造而成，分类器的训练采用此对潜在危险做出判断。在这一框架基础下的部 RealBoost算法在Caltech行人数据集上进行。分工作1网特别研究了驾驶员对于道路行人的认知。驾驶员状态的监控对于提高行车安全有着重要的促进作用，驾驶员的注意力与视线方向及头计算通道特征部姿势有着内在的联系，因此眼睛或头部的状态 LUV Grad Hist 检测技术广泛用于注意分散监测。在实际驾驶条件下，使用非接触式方式进行可靠的视线方向估计非常具有挑战性。就危险预警而言，头部偏移向量化情况下视线的分散程度相对更加严重，因此头部 … 姿态也可以作为驾驶员注意状态判断的可靠指分类器(boosted tree) 标。在实际应用中，头部姿态的获取普遍采用非接触式的基于视觉的方法，通常需要先建立面部形状模型以定位面部特征点，根据特征点间的几何关系还原空间姿态。面部特征点定位的经典行人非行人方法是Cootes等II提出的主动形状模型(active 图1通道特征检测器 shape model,.ASM),近年来广泛地使用有基于回 Fig.1 Channel features detector

容易受到致命的伤害。统计数据表明，在我国城市道路中，每年死于交通事故的人口中有接近 50% 为身处车外的行人。因此研究行人碰撞预警系统，在可能的碰撞发生前对驾驶员做出提醒，具有重要的现实意义。行人碰撞预警的实现广泛采用视觉传感器获取行人位置信息，根据相对距离和车速做出判断。由于姿态与外形的多样性，行人检测一直是计算机视觉领域的一个重要研究课题。行人检测的经典方法有 Viola 等 [1] 提出的 Haar-like 特征和级联分类器，Dalal 等 [ 2 ] 提出的 HOG 特征结合 SVM 分类器，以及 Felzenszwalb 等 [3] 提出的可变形部件模型 (deformable part model, DPM)。卷积神经网络 (convolutional neural networks, CNN) 由于其强大的特征学习和表达能力，在计算机视觉领域得到了广泛的应用。深度学习目标检测方法著名的有 Girshick 等 [4-5] 提出的基于区域建议的卷积神经网络模型 (region CNN, R-CNN)，通过 CNN 完成特征提取与目标定位。根据美国高速交通安全管理局 (NHTSA) 的统计[6] ，有超过 80% 的交通事故责任与驾驶员相关，其中注意力不集中是引发事故的主要原因。此外，预警系统的有效性受到驾驶员反应时间的影响，驾驶员注意力的差异会导致对危险的反应时间不同，精确的数值判断有时反而会给出错误的预警。近年来，研究人员利用内外视觉 (lookingin and looking-out, LiLo) 框架[16] 实现车辆安全系统性能的提升，在检测车辆前方障碍物的基础上，增加了对驾驶员状态的监测。该框架利用传感器同时获取车辆周围环境、车辆运动状态以及驾驶员行为，系统同时理解车辆外部和内部信息并据此对潜在危险做出判断。在这一框架基础下的部分工作[17-18] 特别研究了驾驶员对于道路行人的认知。驾驶员状态的监控对于提高行车安全有着重要的促进作用，驾驶员的注意力与视线方向及头部姿势有着内在的联系，因此眼睛或头部的状态检测技术广泛用于注意分散监测。在实际驾驶条件下，使用非接触式方式进行可靠的视线方向估计非常具有挑战性。就危险预警而言，头部偏移情况下视线的分散程度相对更加严重，因此头部姿态也可以作为驾驶员注意状态判断的可靠指标 [7]。在实际应用中，头部姿态的获取普遍采用非接触式的基于视觉的方法，通常需要先建立面部形状模型以定位面部特征点，根据特征点间的几何关系还原空间姿态。面部特征点定位的经典方法是 Cootes 等 [8] 提出的主动形状模型 (active shape model, ASM)，近年来广泛地使用有基于回归森林的方法[9] 和基于深度学习的方法[10-11]。车辆的行驶状态很大程度上取决于驾驶员是否注意到行人，通过监控驾驶员的注意状态，可以更加准确地衡量碰撞危险。结合对经验丰富的驾驶员驾车行为的研究，本文提出一种基于车内外视觉信息的行人碰撞预警方法，将行人状态分析和驾驶员状态分析同时加入模糊决策过程。本文的方法使用两个单目相机分别获取车外行人方位信息和车内驾驶员头部姿态信息，其中外部信息处理使用通道特征检测器定位行人，根据单目视觉测距原理估计距离与角度，内部信息处理使用级联回归方法定位面部特征点，根据 EPnP 算法估计驾驶员头部姿态，利用模糊推理系统融合内外信息对碰撞风险等级进行评估，可以满足系统决策的准确性和时效性。 1 行人位置估计利用通道特征检测器，可以从车辆前方的道路监控视频中判断每一帧是否存在行人，并提取出行人在图像中的位置，进一步恢复出其在真实场景中的相对距离与角度，作为碰撞风险判断的依据。聚合通道特征 (aggregated channel features, ACF) 检测器最早由 Dollar 等 [12] 提出，其结构如图 1 所示。检测器的特征构造利用色彩和梯度信息，选取 LUV 色彩空间 3 个通道、6 个方向上的梯度直方图通道和 1 个梯度幅值通道共 10 个通道图像结合而成。对每个通道图像上互不重叠的 2×2 的块内像素求和，通道的输出为输入通道每个图像块内像素聚合构成的特征池。分类器由 4 096 棵深度为 4 的决策树通过软级联 (soft cascade) 方式[ 1 3 ] 构造而成，分类器的训练采用 RealBoost 算法在 Caltech 行人数据集上进行。 ... ... 计算通道特征向量化分类器 (boosted tree) 行人非行人 LUV Grad Hist 图 1 通道特征检测器 Fig. 1 Channel features detector 第 4 期杨会成，等：基于车内外视觉信息的行人碰撞预警方法 ·753·

·754· 智能系统学报第14卷为了提高多尺度检测的速度，利用相邻尺度由图2可以得到B=a-y,y=arctan 从而特征估计的方法构造快速特征金字塔。定义纵向距离可以表示为 RL,s)为原始图像I在尺度s处的特征采样，2为 h h 通道变换，文献[10]通过对INRIA行人数据集图 Y=- (3) tanp tan(a-arctan) 片在不同尺度下提取的通道特征进行统计分析，发现尺度s的通道特征C:与原始图像通道特征根据比例关系 00_0Q P0=Pe，由0g= C=2()之间满足以下关系： V002+0Q=√FP+y2,0Q为纵向距离，PQ=x, Cs≈R(C,so (1) 可以得到横向距离：式中如为通道估计系数。那么只要间隔一定尺度由原始图像计算通道特征C,=2(R(L,s),s∈ POY=- X= 00' v2+y2 sin(a-arctan) 1小中间尺度的特征C,就可以根据其最 (4) (u-uo)h 近尺度的已知特征进行较为精确的估算： Vf2+(v-vo)2 sin(a-arctan) C=kCse/el,g (2) 摄像机距地面高度h和俯仰角α通过直接测这样可以大幅减少常规方法在每个尺度都计算图量得到，本文的实验环境下h=1063mm,a=9°，像特征所需的计算开销。相机焦距f和像素坐标系原点坐标(，o)为相机对于输入的640像素×480像素大小的待检测内部参数，通过相机标定可以得到f=624.8583, 道路图像，以间隔8个尺度的通道图像精确计算， (,%)=(333.0919,222.1107)。根据单目视觉定位其余尺度的通道图像近似估算的方式构造特征金原理，选取检测到的行人边框下边界的中点为字塔，在不同尺度的特征图上用64×32的滑动窗参考点，可以从单帧静态图像中估计出行人与车口遍历，用训练好的分类器对每个候选区域进行辆间的纵向距离(Y_distance)与横向距离(Xdis 判断，输出包含行人的窗口边框坐标及相应的分 tance)。道路图像中的行人检测与距离估计结果类得分，最后用非极大值抑制(non-maximum sup 如图3所示。通道特征检测器选取对行人具有良 pression,.NMS)消除重叠的窗口。单目视觉距离估计模型如图2所示，Xw、Yw、Zw 好表征效果的梯度与色彩特征，结合邻近特征估为世界坐标系，相机光心在O点，焦距为f。相机计的方法，兼顾了检测速度与精度。上述行人位光轴c与成像平面交于点0，对应的像素坐标系置估计方法在CPU下就可以达到14fs的处理原点坐标为(o,o)。世界坐标系中的点Q(O,)在速度，可以满足有效预警中对于目标实时定位的图像坐标系中的投影点为Q(O,y,对应的像素坐要求。标为(，v);点P(XY)在图像坐标系中的投影点为 P(x,y),对应的像素坐标为(u,)。相机距地面的高度为h,光轴与水平方向的夹角为a,即相机的俯仰角。点Q与光心的连线与水平方向的夹角为B,与光轴的夹角为y。 0 图3行人检测与距离估计结果 Fig.3 Pedestrian detection and distance estimation 2驾驶员头部姿态估计 0(0,) 为了计算头部姿态，首先需要建立面部形状 P(X) 模型，得到精确的面部特征点坐标。再根据面部图2单目视觉距离估计模型几何模型，利用特征点的几何位置和几何约束关 Fig.2 Monocular vision distance estimation model 系可以快速估算出头部姿态的方向参数

R(I,s) Ω Cs C = Ω(I) 为了提高多尺度检测的速度，利用相邻尺度特征估计的方法构造快速特征金字塔。定义为原始图像 I 在尺度 s 处的特征采样，为通道变换，文献 [10] 通过对 INRIA 行人数据集图片在不同尺度下提取的通道特征进行统计分析，发现尺度 s 的通道特征与原始图像通道特征之间满足以下关系： Cs ≈ R(C,s)·s −λΩ (1) λΩ Cs = Ω(R(I,s)), s ∈ {1, 1 2 , 1 4 ,··· } Cs 式中为通道估计系数。那么只要间隔一定尺度由原始图像计算通道特征，中间尺度的特征就可以根据其最近尺度的已知特征进行较为精确的估算： Cs ′ = R(Cs ,s/s ′ )(s/s ′ ) −λΩ , s ′ ∈ {1, 1 2 , 1 4 ,··· } (2) 这样可以大幅减少常规方法在每个尺度都计算图像特征所需的计算开销。对于输入的 640 像素×480 像素大小的待检测道路图像，以间隔 8 个尺度的通道图像精确计算，其余尺度的通道图像近似估算的方式构造特征金字塔，在不同尺度的特征图上用 64×32 的滑动窗口遍历，用训练好的分类器对每个候选区域进行判断，输出包含行人的窗口边框坐标及相应的分类得分，最后用非极大值抑制 (non-maximum suppression, NMS) 消除重叠的窗口。 XW、YW、ZW O f c O ′ (u0, v0) Q(O,Y) Q ′ (O, y) (u ′ , v) P(X,Y) P ′ (x, y) (u, v) h α Q β γ 单目视觉距离估计模型如图2所示，为世界坐标系，相机光心在点，焦距为。相机光轴与成像平面交于点，对应的像素坐标系原点坐标为。世界坐标系中的点在图像坐标系中的投影点为，对应的像素坐标为；点在图像坐标系中的投影点为，对应的像素坐标为。相机距地面的高度为，光轴与水平方向的夹角为，即相机的俯仰角。点与光心的连线与水平方向的夹角为，与光轴的夹角为。 O O' Q (O, Y) P (X, Y) Q' P' h u v x y XW ZW YW c f α γ β 图 2 单目视觉距离估计模型 Fig. 2 Monocular vision distance estimation model β = α−γ γ = arctan y f 由图 2 可以得到，。从而纵向距离可以表示为 Y = h tanβ = h tan(α−arctan y f ) (3) OQ PQ = OQ′ P′Q′ OQ′ = √ OO′2 +O′Q′2 = √ f 2 +y 2 OQ P ′Q ′ = x 根据比例关系，由，为纵向距离，，可以得到横向距离： X = P ′Q ′ OQ′ Y = x √ f 2 +y 2 h sin(α−arctan y f ) = (u−u0)h √ f 2 +(v−v0) 2 sin(α−arctan y f ) (4) h α h = 1 063 α = 9 f (u0, v0) f = 624.858 3 (u0, v0) = (333.091 9,222.110 7) 摄像机距地面高度和俯仰角通过直接测量得到，本文的实验环境下 mm， °。相机焦距和像素坐标系原点坐标为相机内部参数，通过相机标定可以得到，。根据单目视觉定位原理[14] ，选取检测到的行人边框下边界的中点为参考点，可以从单帧静态图像中估计出行人与车辆间的纵向距离 (Y_distance) 与横向距离 (X_distance)。道路图像中的行人检测与距离估计结果如图 3 所示。通道特征检测器选取对行人具有良好表征效果的梯度与色彩特征，结合邻近特征估计的方法，兼顾了检测速度与精度。上述行人位置估计方法在 CPU 下就可以达到 14 f/s 的处理速度，可以满足有效预警中对于目标实时定位的要求。 Y_distanc=8.49 me X_distanc=2.85 me 图 3 行人检测与距离估计结果 Fig. 3 Pedestrian detection and distance estimation 2 驾驶员头部姿态估计为了计算头部姿态，首先需要建立面部形状模型，得到精确的面部特征点坐标。再根据面部几何模型，利用特征点的几何位置和几何约束关系可以快速估算出头部姿态的方向参数。 ·754· 智能系统学报第 14 卷

第4期杨会成，等：基于车内外视觉信息的行人碰撞预警方法 ·755· 多任务级联卷积网络(multi-task cascaded con- volutional networks,MTCNN)9是目前速度与精度 (6) 最好的人脸检测器之一。MTCNN由3个卷积网同理，相机坐标系下对应的参考点可以表示为络级联构成，分类器级联可以大幅提升检测速度，利用卷积网络提取的更加高级的特征可以提 A=2时 (7) 高分类的准确性，此外由于卷积网络更好的区分能力，级联框架的层数也会相应地减少，从而降根据相机成像投影关系，每个控制点c的三低整体的计算开销。同时利用卷积神经网络的多维坐标(，，与其在图像平面上的投影点任务学习能力，实现人脸及特征点的联合检测， (4,v)满足网络输出脸部边框坐标和左眼中心、右眼中心、 0 鼻尖和嘴巴两端5个特征点的坐标。 Vi (8) 在计算机视觉中，物体姿态是指其相对相机式中w.为比例投影系数。进一步可以得到的方向与位置。由于安置在车内的相机镜头正对驾驶员面部，因而根据头部姿态可以判断驾驶员 ∑fx+a(C:-4)=0 的注意方向。头部姿态估计可以视为多点透视 (9) (perspective-n-point,PnP)问题，根据2D-3D特征点 afx+aif(cy-vi=0 间的投影关系求解头部姿态参数。针孔相机模型如图4所示。O-YZ为相机坐考虑n个参考点，式(9)可以表示为线性方程标系，F0-UVW为世界坐标系坐标，F:为头部三维组Mx=0,其中4个虚拟控制点共12个未知变模型上的某个特征点，其对应于图像平面上的特量，M为2n×12矩阵，x=[c,c5,c,cT为12维未征点为p(,)。f、￡为相机焦距，(cx,c)为相机知向量。式(9)的解为矩阵M的核空间，表示为光心。相机坐标系与世界坐标系之间的对应关系 x=By,n=1,2,3,4,式中y:为矩阵M的右奇异如下所示：向量，可由12×12MTM矩阵的零特征向量求得，B U 的取值由使得逆投影误差最小的N值确定。得 12 3 N 到虚拟控制点坐标后便可恢复出参考点在相机坐 W 1 T22 31 T32 r33 标系中的坐标，利用SVD分解可以得到旋转矩阵。式中：R为旋转矩阵，可以表示头部姿态；T为平将旋转矩阵转换为姿态角pitch、yaw和roll, 移向量。可以直观地表示头部朝向，其变换关系如下： pitch=arctan2(r32,r33) 世界坐标系 yaw arctan2(-r31,+) (10) F roll arctan2(r2i.r) 本文使用MTCNN输出的左右眼中心、鼻尖、左右嘴角5个特征点作为参考点，估计驾驶员头部姿态角，结果如图5所示。相机坐标系图像坐标系图4头部三维模型到图像平面特征点的投影 Fig.4 Projection of 3D model of the head to the feature points of image plane 本文使用EPnP算法I求解姿态参数。EPnP 算法利用4个虚拟控制点的线性加权表示实际参考点在相机坐标系下的坐标，4个虚拟控制点为 c,=1,2,3,4,则世界坐标系中的参考点F:可以表图5驾驶员头部姿态估计示为 Fig.5 Head pose estimation of the driver

多任务级联卷积网络 (multi-task cascaded convolutional networks, MTCNN)[9] 是目前速度与精度最好的人脸检测器之一。MTCNN 由 3 个卷积网络级联构成，分类器级联可以大幅提升检测速度，利用卷积网络提取的更加高级的特征可以提高分类的准确性，此外由于卷积网络更好的区分能力，级联框架的层数也会相应地减少，从而降低整体的计算开销。同时利用卷积神经网络的多任务学习能力，实现人脸及特征点的联合检测，网络输出脸部边框坐标和左眼中心、右眼中心、鼻尖和嘴巴两端 5 个特征点的坐标。在计算机视觉中，物体姿态是指其相对相机的方向与位置。由于安置在车内的相机镜头正对驾驶员面部，因而根据头部姿态可以判断驾驶员的注意方向。头部姿态估计可以视为多点透视 (perspective-n-point, PnP) 问题，根据 2D-3D 特征点间的投影关系求解头部姿态参数。 Fi pi(ui , vi) fx、fy (cx , cy) 针孔相机模型如图 4 所示。O-XYZ 为相机坐标系，F0-UVW 为世界坐标系坐标，为头部三维模型上的某个特征点，其对应于图像平面上的特征点为。为相机焦距，为相机光心。相机坐标系与世界坐标系之间的对应关系如下所示：   X Y Z   = [R| T ]   U V W 1   , R =   r11 r12 r13 r21 r22 r23 r31 r32 r33   , T =   tx ty tz   (5) 式中：R 为旋转矩阵，可以表示头部姿态; T 为平移向量。 F0 Fi O X Z Y pi x y R, T c 相机坐标系图像坐标系世界坐标系 U V W 图 4 头部三维模型到图像平面特征点的投影 Fig. 4 Projection of 3D model of the head to the feature points of image plane cj = 1,2,3,4 Fi 本文使用 EPnP 算法[15] 求解姿态参数。EPnP 算法利用 4 个虚拟控制点的线性加权表示实际参考点在相机坐标系下的坐标，4 个虚拟控制点为，则世界坐标系中的参考点可以表示为 Fi = ∑4 j=1 αi jc F j , ∑4 j=1 αi j = 1 (6) 同理，相机坐标系下对应的参考点可以表示为 pi = ∑4 j=1 αi jc p j (7) c p j (x p j , y p j , z p j ) (ui , vi) 根据相机成像投影关系，每个控制点的三维坐标与其在图像平面上的投影点满足 ωn   ui vi 1   =   fx 0 cx 0 fy cy 0 0 1   ∑4 j=1 αi j   x p j y p j z p j   (8) 式中 ωn 为比例投影系数。进一步可以得到    ∑4 j=1 αi j fx x p j +αi j(cx −ui)z p j = 0 ∑4 j=1 αi j fy x p j +αi j(cy −vi)z p j = 0 (9) Mx = 0 x = [c p 1 , c p 2 , c p 3 , c p 4 ] T x = ∑n i=1 βivi , n = 1,2,3,4 vi MTM βi 考虑 n 个参考点，式 (9) 可以表示为线性方程组，其中 4 个虚拟控制点共 12 个未知变量，M 为 2n×12 矩阵，为 12 维未知向量。式 (9) 的解为矩阵 M 的核空间，表示为，式中为矩阵 M 的右奇异向量，可由 12×12 矩阵的零特征向量求得，的取值由使得逆投影误差最小的 N 值确定。得到虚拟控制点坐标后便可恢复出参考点在相机坐标系中的坐标，利用 SVD 分解可以得到旋转矩阵。将旋转矩阵转换为姿态角 pitch、yaw 和 roll，可以直观地表示头部朝向，其变换关系如下：    pitch = arctan2(r32, r33) yaw = arctan2(−r31, √ r 2 32 +r 2 33) roll = arctan2(r21, r11) (10) 本文使用 MTCNN 输出的左右眼中心、鼻尖、左右嘴角 5 个特征点作为参考点，估计驾驶员头部姿态角，结果如图 5 所示。 Pitch=−8.07 Yaw=2.56 Roll=−1.85 图 5 驾驶员头部姿态估计 Fig. 5 Head pose estimation of the driver 第 4 期杨会成，等：基于车内外视觉信息的行人碰撞预警方法 ·755·

·756· 智能系统学报第14卷 3碰撞风险评估车辆间的纵向距离(Y_distance)和横向距离 (Y distance),驾驶员注意方向信息表现在头部垂碰撞保护系统通常根据传感器获取的道路障直方向转角(pitch)和水平方向转角(yaw)。模糊碍物距离和速度信息计算碰撞时间(time to colli- 推理使用Mamdani规则，如式(11)所示： sion,TTC),当碰撞时间小于阈值时做出警告。然 R:if xi is Ai,x is A,....xi A 而受到行车环境、驾驶员精神及身体状态的影 (11) then yi=B 响，驾驶员对道路危险的反应时间存在差异，精式中：为输入变量；y为第i条规则对应的输确的数值分析有时反而会引起错误的预警。实际出；A和B为模糊集。道路中，经验丰富的驾驶员并不会精确计算距离为了降低论证的复杂性，取行人的纵向距离或碰撞时间，而是使用语义信息表达路况，例如 Y_distance与横向距离Y distance,驾驶员头部水用远、中、近、很近表示前方物体距离，用很快、平转角yaw3个输入参数构建模糊推理系统。输快、适中、慢表示当前车速等。可以近似认为，驾入参数Y distance与Y distance模糊化使用三角驶员对于车辆前方潜在碰撞风险的估计都是基于隶属度函数，其中Y distance的模糊集论域为[O, 一系列if-then规则做出的决策，并且判断结果在 20],Y distance的模糊集论域为[0,5]，在论域上大部分情况下已足够准确。的取值均为{close,.mid,far},如图6(a)和图6(b)所本文构建一种基于道路和驾驶员信息的模糊示。输入参数yaw模糊化使用高斯隶属度函数推理系统，对输入信息进行决策级融合输出碰撞模糊集论域为[-30,30]，在论域上的取值为{left, 风险估计，包括低风险(low-risk)、中等风险(mid- center,right},如图6(c)所示。系统输出参数 risk)、高风险(high-risk)和极高风险(very-high- Risk设置{low,mid,high,veryhigh}4个等级，模糊 rsk)4个等级。系统的输入为道路状态信息和驾集论域设为0,1]，使用高斯隶属度函数，如图6(d) 驶员状态信息，式中道路状态信息表现在行人与所示。 1.0 close far 1.0 close mid 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 10 15 20 2 3 y distance Y distance (a)行人纵而距离Y_distance (b)行人纵向距离Y distance left center 1.0 right 1.0ow mid high veryhigh 0.8 0.8 6 0.4 积0.4 0.2 0.2 0 -30-20-100102030 0 0.2 0.4 0.6 0.8 1.0 Yaw Risk (c)驾驶员头部水平转角Yaw (d风险程度Risk 图6模糊系统输入输出隶属度函数 Fig.6 Input/output membership functions of fuzzy system 根据Mamdani规则构建模糊推理规则，共设数值可以判断出对应的碰撞风险等级。由此构建置27条模糊规则，涵盖了输入输出参数在论域上的模糊推理系统通过对车内外环境下的多种输入的所有取值，具体如表1所示。参数的模糊融合，可以为人车碰撞事故的预警提利用重心法进行解模糊化，根据系统输出的供一定的指导

3 碰撞风险评估碰撞保护系统通常根据传感器获取的道路障碍物距离和速度信息计算碰撞时间 (time to collision, TTC)，当碰撞时间小于阈值时做出警告。然而受到行车环境、驾驶员精神及身体状态的影响，驾驶员对道路危险的反应时间存在差异，精确的数值分析有时反而会引起错误的预警。实际道路中，经验丰富的驾驶员并不会精确计算距离或碰撞时间，而是使用语义信息表达路况，例如用远、中、近、很近表示前方物体距离，用很快、快、适中、慢表示当前车速等。可以近似认为，驾驶员对于车辆前方潜在碰撞风险的估计都是基于一系列 if-then 规则做出的决策，并且判断结果在大部分情况下已足够准确。本文构建一种基于道路和驾驶员信息的模糊推理系统，对输入信息进行决策级融合输出碰撞风险估计，包括低风险 (low-risk)、中等风险 (midrisk)、高风险 (high-risk) 和极高风险 (very-highrisk) 4 个等级。系统的输入为道路状态信息和驾驶员状态信息，式中道路状态信息表现在行人与车辆间的纵向距离 (Y_distance ) 和横向距离 (X_distance)，驾驶员注意方向信息表现在头部垂直方向转角 (pitch) 和水平方向转角 (yaw)。模糊推理使用 Mamdani 规则，如式 (11) 所示： R i : if x1 is A i 1 , x2 is A i 2 , ··· , xk is A i k then y i = B i (11) xk y i A i B i 式中：为输入变量；为第 i 条规则对应的输出；和为模糊集。为了降低论证的复杂性，取行人的纵向距离 Y_distance 与横向距离 X_distance，驾驶员头部水平转角 yaw 3 个输入参数构建模糊推理系统。输入参数 Y_distance 与 X_distance 模糊化使用三角隶属度函数，其中 Y_distance 的模糊集论域为 [0, 20]，X_distance 的模糊集论域为 [0, 5]，在论域上的取值均为{close, mid, far}，如图 6(a) 和图 6(b) 所示。输入参数 yaw 模糊化使用高斯隶属度函数，模糊集论域为 [-30, 30]，在论域上的取值为{left, center, right}，如图 6(c) 所示。系统输出参数 Risk 设置{low, mid, high, veryhigh}4 个等级，模糊集论域设为 [0, 1]，使用高斯隶属度函数，如图 6(d) 所示。 (a) 行人纵向距离 Y_distance 0 10 15 20 5 Y_distance 0 0.2 0.4 0.6 0.8 1.0 隶属度 close mid far (b) 行人纵向距离 X_distance 0 2 3 4 5 1 X_distance 0 0.2 0.4 0.6 0.8 1.0 隶属度 close mid far (c) 驾驶员头部水平转角 Yaw −30 −20 −10 0 10 20 30 Yaw 0 0.2 0.4 0.6 0.8 1.0 隶属度 left center right (d) 风险程度 Risk 0 0.4 0.6 0.8 1.0 0.2 Risk 0 0.2 0.4 0.6 0.8 1.0 隶属度 low mid high veryhigh 图 6 模糊系统输入输出隶属度函数 Fig. 6 Input/output membership functions of fuzzy system 根据 Mamdani 规则构建模糊推理规则，共设置 27 条模糊规则，涵盖了输入输出参数在论域上的所有取值，具体如表 1 所示。利用重心法进行解模糊化，根据系统输出的数值可以判断出对应的碰撞风险等级。由此构建的模糊推理系统通过对车内外环境下的多种输入参数的模糊融合，可以为人车碰撞事故的预警提供一定的指导。 ·756· 智能系统学报第 14 卷

表 1 模糊推理规则 Table 1 Fuzzy inference rules 纵向距离横向距离头部转角风险等级纵向距离横向距离头部转角风险等级纵向距离横向距离头部转角风险等级近近左非常高中近左高远近左低近近中非常高中近中中远近中低近近右非常高中近右高远近右低近中左高中中左中远中左低近中中中中中中低远中中低近中右高中中右中远中右低近远左低中远左低远远左低近远中低中远中低远远中低近远右低中远右低远远右低 4 实验分析图像采集使用安置在车内的两个单目相机，其中一个相机安放在前挡风玻璃后，镜头对准前方道路，另一个相机安放在仪表盘上，镜头对准驾驶员。为了提高系统的处理速度，视频分辨率设为 640×480。在实际道路采集的视频中，选取车辆在路口转弯时的 30 s 片段进行分析，其中部分时间点采集的车内外图像如图 7 所示。 t=0 s t=19 s t=30 s t … … … … 车外图像车内图像图 7 视频不同时间点采集的车内外图像 Fig. 7 Interior and exterior images collected at different time 根据第 1~3 节所述的方法对车内外视频进行逐帧处理。在同步拍摄得到的图像中，提取行人相对本车的纵向距离 (Y_distance) 和横向距离 (X_distance) 作为道路状态数据，提取驾驶员的头部方向角 (pitch, yaw, roll) 作为驾驶员状态数据，车辆内外信息如图 8 所示。 0 5 10 15 20 25 30 Y_distance/m P1 P2 0 2 4 6 8 10 X_distance/m P1 P2 0 5 10 15 20 25 30 t/s −50 −40 −30 −20 −100 10 203040 50 驾驶员头部转角/(°) 视线朝左 Yaw Pitch 视线朝右 Roll 图 8 行人与驾驶员状态数据 Fig. 8 Data of pedestrian and driver status 第 4 期杨会成，等：基于车内外视觉信息的行人碰撞预警方法 ·757·

·758· 智能系统学报第14卷根据图8所示数据对提出的碰撞预警方法进 X,distance0.7m;行人P2与车辆的纵向距离行分析：1)视频开始处车辆驶入路口准备左转， Y2 distance~8m,横向距离X,_distance~2m。3)在此时未检测到前方行人，驾驶员头部水平转角 28~30s时间段，驾驶员头部水平转角(yaw)最大 (yaw)在-12°-10°之间，此时不存在风险。2)在达到28°，驾驶员注意力集中于道路右侧。与此 18~20s时间段，驾驶员出现注意力不集中情况，同时，道路图像中检测到行人P,其纵向距离头部水平转角(yaw)最大达到-30°，此时驾驶员 Y,distance~2m,横向距离X,distance4.5m. 头部朝向左侧。在同一时间段的道路图像序列中取行人的纵向距离Y distance与横向距离检测到2个行人，分别记为P,与P2。行人P,与 Y_distance,驾驶员头部水平转角yaw3个输入参车辆的纵向距离Y,distance≈20m,横向距离数构建模糊推理系统，如图9所示。输人 1.0[close med far 0.5 0 2 4 68101214161820 输人变量“Y distance 行人纵向距离m 输出 mid high veryhigh 1.0[close 1.0 Dlow med far 模糊推理系统 0.5 0.5 Mandani规则质心法去模糊化 0 0.10.30.30.40.50.60.70.80.91.0 00.51.01.52.02.53.03.54.04.55.0 输H变量“Risk Level' input variable"X distance' 碰撞风险等级行人横向距离/m 1.0 fleft center right 051 -20-100 102030 input variable“Ydistance” 驾驶员头部水平转角() 图93个输入(Y_distance,Y_distance,.Yaw)的模糊推理系统 Fig.9 Fuzzy inference system of three inputs(Y_distance,X_distance,Yaw) 通过模糊推理得到的碰撞风险等级解模糊平为=30s时的解模糊平面，模糊推理系统的输出面如图10所示。图10()为=19s时的解模糊平为0.1195，由此得到的碰撞风险等级为低风险面，模糊推理系统对行人P1的输出为0.1266，判 low-risk)。在Core i5CPU.8 GB RAM,GTX1060 断为低风险(Iow-sk)等级，对行人P2的输出为GPU运行环境下，该碰撞预警系统可以达到4~ 0.6471,判断为高风险(high-risk)等级。图10(b) 5s的运行速度，基本可以满足实时性的要求。 0.8 0.6 0.7 0.5 0.6 0.4 0.3 0.3 0.2 0.2 30 2010 10 10 -10-203020 Yaw Y distance 15 15 2054 X distance (a)=19s (b)=30s 图10碰撞风险等级的解模糊平面 Fig.10 Defuzzified surface of the collision risk level 结合图7中道路与驾驶员图像，分析系统对息表明驾驶员视线落在车辆左边区域，无法有效于风险判断的有效性：1)在19s处，车辆内部信掌握前方路况信息，因而处于危险状态；车辆外

根据图 8 所示数据对提出的碰撞预警方法进行分析：1) 视频开始处车辆驶入路口准备左转，此时未检测到前方行人，驾驶员头部水平转角 (yaw) 在−12°~−10°之间，此时不存在风险。2) 在 18~20 s 时间段，驾驶员出现注意力不集中情况，头部水平转角 (yaw) 最大达到−30°，此时驾驶员头部朝向左侧。在同一时间段的道路图像序列中检测到 2 个行人，分别记为 P1 与 P2。行人 P1 与车辆的纵向距离 Y1 _distance≈20 m，横向距离 X1 _distance≈0.7 m；行人 P2 与车辆的纵向距离 Y2_distance≈8 m，横向距离 X2_distance≈2 m。3) 在 28~30 s 时间段，驾驶员头部水平转角 (yaw) 最大达到 28°，驾驶员注意力集中于道路右侧。与此同时，道路图像中检测到行人 P1，其纵向距离 Y1_distance≈2 m，横向距离 X1_distance≈4.5 m。取行人的纵向距离 Y_distance 与横向距离 X_distance，驾驶员头部水平转角 yaw 3 个输入参数构建模糊推理系统，如图 9 所示。输入模糊推理系统 Mandani 规则质心法去模糊化行人纵向距离/m 行人横向距离/m 驾驶员头部水平转角/(°) 1.0 close 输入变量 “Y_distance” med far 0.5 0 ２ 4 6 8 10 12 14 16 18 20 close med far 1.0 input variable “X_distance” 0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 1.0 input variable “X_distance” 0.5 0 −13 −20 −10 0 10 20 30 left center right 输出碰撞风险等级 1.0 输出变量 “Risk_Level” 0.5 0 0.1 0.3 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 low mid high veryhigh 图 9 3 个输入 (Y_distance, X_distance, Yaw) 的模糊推理系统 Fig. 9 Fuzzy inference system of three inputs (Y_distance, X_distance, Yaw) 通过模糊推理得到的碰撞风险等级解模糊平面如图 10 所示。图 10(a) 为 t=19 s 时的解模糊平面，模糊推理系统对行人 P1 的输出为 0.126 6，判断为低风险 (low-risk) 等级，对行人 P2 的输出为 0.647 1，判断为高风险 (high-risk) 等级。图 10(b) 为 t=30 s 时的解模糊平面，模糊推理系统的输出为 0.119 5，由此得到的碰撞风险等级为低风险 (low-risk)。在 Core i5 CPU，8 GB RAM，GTX1060 GPU 运行环境下，该碰撞预警系统可以达到 4~ 5 f/s 的运行速度，基本可以满足实时性的要求。 (a) t=19 s 0 30 0.2 5 0.3 20 P1 0.4 Risk Y_distance 10 10 0.5 Yaw 0 0.6 −10 15 −20−30 20 P2 (b) t=30 s 0.2 0 0.3 0.4 0.5 Risk0.6 5 0 0.7 P1 0.8 1 Y_distance 10 2 X_distance 15 3 4 20 5 图 10 碰撞风险等级的解模糊平面 Fig. 10 Defuzzified surface of the collision risk level 结合图 7 中道路与驾驶员图像，分析系统对于风险判断的有效性：1) 在 19 s 处，车辆内部信息表明驾驶员视线落在车辆左边区域，无法有效掌握前方路况信息，因而处于危险状态；车辆外 ·758· 智能系统学报第 14 卷

第4期杨会成，等：基于车内外视觉信息的行人碰撞预警方法 ·759· 部信息中，由于我国城市道路每条车道宽度为 ference on Computer Vision and Pattern Recognition. 3.5m,行人P,的横向距离表明其在当前车道内， Columbus.USA.2014:580-587. 但其纵向距离其余本车相距较远，因而暂时处于 [5]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE 低风险区域。行人P,的纵向距离已处在危险距 International Conference on Computer Vision.Santiago, 离内，横向距离表明其距本车右侧车道线较近， USA,2015:1440-1448 因而存在碰撞风险，需要提醒驾驶员注意。2)在 [6]STANTON N A,SALMON P M.Human error taxonom- 29s处，此时根据驾驶员头部姿态可以判断其未 ies applied to driving:a generic driver error taxonomy and 注意道路前方，视为危险状态，然而行人P,的横 its implications for intelligent transport systems[].Safety 向距离表明其在本车右侧车道且距离较远，虽然 science,2009,47(2):227-237. 纵向距离较近，实际路况为安全状态。上述根据 [7]TAWARI A,MARTIN S,TRIVEDI MM.Continuous 车内外图像分析的结果与模糊推理系统的输出 head movement estimator for driver assistance:issues,al- 致，说明本文提出的基于内外视觉信息的行人碰 gorithms,and on-road evaluations[J.IEEE transactions on 撞预警方法较为可靠，可以在行车过程中为驾驶 intelligent transportation systems,2014,15(2):818-830. 员提供铺助决策。 [8]COOTES T F,EDWARDS G J,TAYLOR C J.Active ap- 5结束语 pearance models[J].IEEE transactions on pattern analysis and machine intelligence,2001,23(6):681-685 本文提出一种基于车内外视觉信息的行人碰 [9]REN Shaoging,CAO Xudong,WEI Yichen,et al.Face 撞预警方法，利用两个单目相机同时提取道路行 alignment at 3000 fps via regressing local binary 人和驾驶员状态数据，通过模糊推理系统结合车 features[C]//Proceedings of 2014 IEEE Conference on 辆外部行人信息与车辆内部驾驶员信息进行评 Computer Vision and Pattern Recognition.Columbus, 估，给出当前场景下的风险等级，对可能发生的 USA.2014:1685-1692 人车碰撞做出预判。在实际道路上的实验表明， [10]SUN Yi,WANG Xiaogang,TANG Xiaoou.Deep convo- 该方法对于不同场景下的危险判断具有很好的效 lutional network cascade for facial point detection[Cl// 果，可以在驾驶员注意力不集中时提供有效的指 Proceedings of 2013 IEEE Conference on Computer Vis- 导。然而由于视觉传感器自身的限制，行人的定 ion and Pattern Recognition.Portland,USA,2013: 位非常依赖采集图像的质量，结合多种传感器信 3476-3483. 息提升车辆外部信息获取的可靠性还有许多需要 [11]ZHANG Kaipeng,ZHANG Zhanpeng,LI Zhifeng,et al. 进一步开展的工作。 Joint face detection and alignment using multitask cas- 参考文献： caded convolutional networks[J].IEEE Signal processing 1 etters,2016.23(10):1499-1503 [1]VIOLA P,JONES M.Rapid object detection using a boos- [12]DOLLAR P,APPEL R,BELONGIE S,et al.Fast feature ted cascade of simple features[C]//Proceedings of 2001 pyramids for object detection[J].IEEE transactions on IEEE Computer Society Conference on Computer Vision pattern analysis and machine intelligence,2014,36(8): and Pattern Recognition.Kauai,USA,2001:I-511-I-518. 1532-1545 [2]DALAL N.TRIGGS B.Histograms of oriented gradients [13]BOURDEV L.BRANDT J.Robust object detection via for human detection[Cl//Proceedings of 2005 IEEE Com- soft cascade[C]//Proceedings of 2005 IEEE Computer So- puter Society Conference on Computer Vision and Pattern ciety Conference on Computer Vision and Pattern Recog- Recognition.San Diego,USA,2005:886-893 nition.San Diego,USA,2005:236-243. [3]FELZENSZWALB P F,GIRSHICK R B,MCALLESTER [14]王牛，李祖枢，武德臣，等.机器人单目视觉定位模型及 D,et al.Object detection with discriminatively trained 其参数辨识).华中科技大学学报（自然科学版），2008， part-based models[J].IEEE Transactions on pattern analys- 36(S1:57-60. is and machine intelligence,2010,32(9):1627-1645. WANG Niu,LI Zushu,WU Dechen,et al.Robot mon- [4]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich ocular vision position determination model and its para- feature hierarchies for accurate object detection and se- metric identification[J].Journal of Huazhong University mantic segmentation[C]//Proceedings of 2014 IEEE Con- of Science and Technology (Nature Science Edition)

部信息中，由于我国城市道路每条车道宽度为 3.5 m，行人 P1 的横向距离表明其在当前车道内，但其纵向距离其余本车相距较远，因而暂时处于低风险区域。行人 P2 的纵向距离已处在危险距离内，横向距离表明其距本车右侧车道线较近，因而存在碰撞风险，需要提醒驾驶员注意。2) 在 29 s 处，此时根据驾驶员头部姿态可以判断其未注意道路前方，视为危险状态，然而行人 P1 的横向距离表明其在本车右侧车道且距离较远，虽然纵向距离较近，实际路况为安全状态。上述根据车内外图像分析的结果与模糊推理系统的输出一致，说明本文提出的基于内外视觉信息的行人碰撞预警方法较为可靠，可以在行车过程中为驾驶员提供辅助决策。 5 结束语本文提出一种基于车内外视觉信息的行人碰撞预警方法，利用两个单目相机同时提取道路行人和驾驶员状态数据，通过模糊推理系统结合车辆外部行人信息与车辆内部驾驶员信息进行评估，给出当前场景下的风险等级，对可能发生的人车碰撞做出预判。在实际道路上的实验表明，该方法对于不同场景下的危险判断具有很好的效果，可以在驾驶员注意力不集中时提供有效的指导。然而由于视觉传感器自身的限制，行人的定位非常依赖采集图像的质量，结合多种传感器信息提升车辆外部信息获取的可靠性还有许多需要进一步开展的工作。参考文献： VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai, USA, 2001: I-511-I-518. [1] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 886–893. [2] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627–1645. [3] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Con- [4] ference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580–587. GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, USA, 2015: 1440–1448. [5] STANTON N A, SALMON P M. Human error taxonomies applied to driving: a generic driver error taxonomy and its implications for intelligent transport systems[J]. Safety science, 2009, 47(2): 227–237. [6] TAWARI A, MARTIN S, TRIVEDI M M. Continuous head movement estimator for driver assistance: issues, algorithms, and on-road evaluations[J]. IEEE transactions on intelligent transportation systems, 2014, 15(2): 818–830. [7] COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models[J]. IEEE transactions on pattern analysis and machine intelligence, 2001, 23(6): 681–685. [8] REN Shaoqing, CAO Xudong, WEI Yichen, et al. Face alignment at 3000 fps via regressing local binary features[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 1685–1692. [9] SUN Yi, WANG Xiaogang, TANG Xiaoou. Deep convolutional network cascade for facial point detection[C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3476–3483. [10] ZHANG Kaipeng, ZHANG Zhanpeng, LI Zhifeng, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal processing letters, 2016, 23(10): 1499–1503. [11] DOLLÁR P, APPEL R, BELONGIE S, et al. Fast feature pyramids for object detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(8): 1532–1545. [12] BOURDEV L, BRANDT J. Robust object detection via soft cascade[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 236–243. [13] 王牛, 李祖枢, 武德臣, 等. 机器人单目视觉定位模型及其参数辨识 [J]. 华中科技大学学报(自然科学版), 2008, 36(S1): 57–60. WANG Niu, LI Zushu, WU Dechen, et al. Robot monocular vision position determination model and its parametric identification[J]. Journal of Huazhong University of Science and Technology (Nature Science Edition), [14] 第 4 期杨会成，等：基于车内外视觉信息的行人碰撞预警方法 ·759·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录