第14卷第4期 智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201801016 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180628.1622.004html 基于车内外视觉信息的行人碰撞预警方法 杨会成,朱文博,童英 (安徽工程大学电气工程学院,安徽芜湖241000) 摘要:行人碰撞预警系统通常依据行人检测与碰撞时间判断的方式为驾驶员提供预警信息。为了提供更加 可靠的危险判断依据,本文提出一种同时分析道路状况与驾驶员头部姿态的行人碰撞预警方法,用两个单目相 机分别获取车辆内外环境图像。通道特征检测器用于定位行人,根据单目视觉距离测量方法估计出行人与自 车间的纵向与横向距离。多任务级联卷积网络用于定位驾驶员面部特征点,通过求解多点透视问题获取头部 方向角以反映驾驶员注意状态。结合行人位置信息与驾驶员状态信息,本文构建模糊推理系统判断碰撞风险 等级。在实际路况下的实验结果表明.根据模糊系统输出的风险等级可以为预防碰撞提供有效的指导。 关键词:碰撞预警:内外信息:行人定位:驾驶员状态;单目视觉:通道特征:多任务级联卷积网络:模糊推理系统 中图分类号:TP181文献标志码:A文章编号:1673-4785(2019)04-0752-09 中文引用格式:杨会成,朱文博,童英.基于车内外视觉信息的行人碰撞预警方法智能系统学报,2019,14(4):752-760. 英文引用格式:YANG Huicheng,ZHU Wenbo,TONG Ying..Pedestrian collision warning system based on looking-in and looking out visual information analysis[J.CAAI transactions on intelligent systems,2019,14(4):752-760. Pedestrian collision warning system based on looking-in and looking-out visual information analysis YANG Huicheng,ZHU Wenbo,TONG Ying (College of Electrical Engineering,Anhui Polytechnic University,Wuhu 241000,China) Abstract:Pedestrian collision warning systems usually provide early warning for drivers based on the technologies of pedestrian detection and collision time measurement.To provide a more reliable basis for risk assessment,a pedestrian collision warning method that involves analyzing the road condition and driver's head pose simultaneously is proposed in this paper.Two monocular cameras are used to capture vehicle exterior and interior images,and a channel features detector is applied to locate pedestrians.The vertical and horizontal distances between pedestrians and ego-vehicle are estimated based on monocular vision distance measurement.The multi-task cascaded convolutional network is utilized for facial landmark detection.By solving a perspective-n-point(PnP)problem,the estimated head angles can reflect driver's attention states.By combining both pedestrian location information and driver's attention information,we im- plemented a fuzzy inference system to assess collision risk level.An experiment in real-world driving conditions demon- strated that the risk levels obtained from the fuzzy system are reliable and can provide guidance for collision avoidance. Keywords:collision warning;internal and external information;pedestrian positioning;driver states;monocular vision; channel features;multi-task cascaded convolutional network;fuzzy inference system 高级驾驶辅助系统(advanced driver assistance碰撞预警是ADAS的一个重要功能,碰撞预警系 system,ADAS)是目前车辆安全领域的研究热点, 统通常根据传感器获取的前方障碍物相对距离和 该系统通过车载传感器收集并分析车内外环境数 速度计算碰撞时间(time to collision.,TTC),可靠的 据,为驾驶员提供辅助信息并对危险进行提醒。 预警一般设置为潜在的碰撞前约2s的时间。目 收稿日期:2018-01-08.网络出版日期:2018-06-29 前应用的碰撞保护系统大多针对车辆间的碰撞, 基金项目:安徽省高校自然科学研究重点项目(KJ2018A0122) 通信作者:朱文博.E-mail:vembozhu@l63.com. 然而在人车碰撞事故中,没有保护装置的行人更
DOI: 10.11992/tis.201801016 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180628.1622.004.html 基于车内外视觉信息的行人碰撞预警方法 杨会成,朱文博,童英 (安徽工程大学 电气工程学院,安徽 芜湖 241000) 摘 要:行人碰撞预警系统通常依据行人检测与碰撞时间判断的方式为驾驶员提供预警信息。为了提供更加 可靠的危险判断依据,本文提出一种同时分析道路状况与驾驶员头部姿态的行人碰撞预警方法,用两个单目相 机分别获取车辆内外环境图像。通道特征检测器用于定位行人,根据单目视觉距离测量方法估计出行人与自 车间的纵向与横向距离。多任务级联卷积网络用于定位驾驶员面部特征点,通过求解多点透视问题获取头部 方向角以反映驾驶员注意状态。结合行人位置信息与驾驶员状态信息,本文构建模糊推理系统判断碰撞风险 等级。在实际路况下的实验结果表明,根据模糊系统输出的风险等级可以为预防碰撞提供有效的指导。 关键词:碰撞预警;内外信息;行人定位;驾驶员状态;单目视觉;通道特征;多任务级联卷积网络;模糊推理系统 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2019)04−0752−09 中文引用格式:杨会成, 朱文博, 童英. 基于车内外视觉信息的行人碰撞预警方法 [J]. 智能系统学报, 2019, 14(4): 752–760. 英文引用格式:YANG Huicheng, ZHU Wenbo, TONG Ying. Pedestrian collision warning system based on looking-in and lookingout visual information analysis[J]. CAAI transactions on intelligent systems, 2019, 14(4): 752–760. Pedestrian collision warning system based on looking-in and looking-out visual information analysis YANG Huicheng,ZHU Wenbo,TONG Ying (College of Electrical Engineering, Anhui Polytechnic University, Wuhu 241000, China) Abstract: Pedestrian collision warning systems usually provide early warning for drivers based on the technologies of pedestrian detection and collision time measurement. To provide a more reliable basis for risk assessment, a pedestrian collision warning method that involves analyzing the road condition and driver’s head pose simultaneously is proposed in this paper. Two monocular cameras are used to capture vehicle exterior and interior images, and a channel features detector is applied to locate pedestrians. The vertical and horizontal distances between pedestrians and ego-vehicle are estimated based on monocular vision distance measurement. The multi-task cascaded convolutional network is utilized for facial landmark detection. By solving a perspective-n-point (PnP) problem, the estimated head angles can reflect driver’s attention states. By combining both pedestrian location information and driver’s attention information, we implemented a fuzzy inference system to assess collision risk level. An experiment in real-world driving conditions demonstrated that the risk levels obtained from the fuzzy system are reliable and can provide guidance for collision avoidance. Keywords: collision warning; internal and external information; pedestrian positioning; driver states; monocular vision; channel features; multi-task cascaded convolutional network; fuzzy inference system 高级驾驶辅助系统 (advanced driver assistance system, ADAS) 是目前车辆安全领域的研究热点, 该系统通过车载传感器收集并分析车内外环境数 据,为驾驶员提供辅助信息并对危险进行提醒。 碰撞预警是 ADAS 的一个重要功能,碰撞预警系 统通常根据传感器获取的前方障碍物相对距离和 速度计算碰撞时间 (time to collision, TTC),可靠的 预警一般设置为潜在的碰撞前约 2 s 的时间。目 前应用的碰撞保护系统大多针对车辆间的碰撞, 然而在人车碰撞事故中,没有保护装置的行人更 收稿日期:2018−01−08. 网络出版日期:2018−06−29. 基金项目:安徽省高校自然科学研究重点项目 (KJ2018A0122). 通信作者:朱文博. E-mail:vembozhu@163.com. 第 14 卷第 4 期 智 能 系 统 学 报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019
第4期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·753· 容易受到致命的伤害。统计数据表明,在我国城 归森林的方法和基于深度学习的方法o 市道路中,每年死于交通事故的人口中有接近 车辆的行驶状态很大程度上取决于驾驶员是 50%为身处车外的行人。因此研究行人碰撞预警 否注意到行人,通过监控驾驶员的注意状态,可 系统,在可能的碰撞发生前对驾驶员做出提醒, 以更加准确地衡量碰撞危险。结合对经验丰富的 具有重要的现实意义。 驾驶员驾车行为的研究,本文提出一种基于车内 行人碰撞预警的实现广泛采用视觉传感器获 外视觉信息的行人碰撞预警方法,将行人状态分 取行人位置信息,根据相对距离和车速做出判 析和驾驶员状态分析同时加入模糊决策过程。本 断。由于姿态与外形的多样性,行人检测一直是 文的方法使用两个单目相机分别获取车外行人方 计算机视觉领域的一个重要研究课题。行人检测 位信息和车内驾驶员头部姿态信息,其中外部信 的经典方法有Viola等提出的Haar-like特征和 息处理使用通道特征检测器定位行人,根据单目 级联分类器,Dalal等21提出的HOG特征结合 视觉测距原理估计距离与角度,内部信息处理使 SVM分类器,以及Felzenszwalb等I)提出的可变 用级联回归方法定位面部特征点,根据EPnP算 形部件模型(deformable part model,.DPM)。卷积 法估计驾驶员头部姿态,利用模糊推理系统融合 神经网络(convolutional neural networks,CNN)由 内外信息对碰撞风险等级进行评估,可以满足系 于其强大的特征学习和表达能力,在计算机视觉 统决策的准确性和时效性。 领域得到了广泛的应用。深度学习目标检测方法 1行人位置估计 著名的有Girshick等4提出的基于区域建议的卷 积神经网络模型(region CNN,R-CNN),通过CNN 利用通道特征检测器,可以从车辆前方的道 完成特征提取与目标定位。 路监控视频中判断每一帧是否存在行人,并提取 根据美国高速交通安全管理局NHTSA)的 出行人在图像中的位置,进一步恢复出其在真实场 统计6,有超过80%的交通事故责任与驾驶员相 景中的相对距离与角度,作为碰撞风险判断的依据。 关,其中注意力不集中是引发事故的主要原因。 聚合通道特征(aggregated channel features, 此外,预警系统的有效性受到驾驶员反应时间的 ACF)检测器最早由Dollar等I提出,其结构如 影响,驾驶员注意力的差异会导致对危险的反应 图1所示。检测器的特征构造利用色彩和梯度信 时间不同,精确的数值判断有时反而会给出错误 息,选取LUV色彩空间3个通道、6个方向上的 的预警。近年来,研究人员利用内外视觉(looking- 梯度直方图通道和1个梯度幅值通道共10个通 in and looking-out,LiLo)框架16实现车辆安全系 道图像结合而成。对每个通道图像上互不重叠 统性能的提升,在检测车辆前方障碍物的基础上, 的2×2的块内像素求和,通道的输出为输入通道 增加了对驾驶员状态的监测。该框架利用传感器 每个图像块内像素聚合构成的特征池。分类器 同时获取车辆周围环境、车辆运动状态以及驾驶 由4096棵深度为4的决策树通过软级联(soft 员行为,系统同时理解车辆外部和内部信息并据 cascade)方式31构造而成,分类器的训练采用 此对潜在危险做出判断。在这一框架基础下的部 RealBoost算法在Caltech行人数据集上进行。 分工作1网特别研究了驾驶员对于道路行人的认知。 驾驶员状态的监控对于提高行车安全有着重 要的促进作用,驾驶员的注意力与视线方向及头 计算通道特征 部姿势有着内在的联系,因此眼睛或头部的状态 LUV Grad Hist 检测技术广泛用于注意分散监测。在实际驾驶条 件下,使用非接触式方式进行可靠的视线方向估 计非常具有挑战性。就危险预警而言,头部偏移 向量化 情况下视线的分散程度相对更加严重,因此头部 … 姿态也可以作为驾驶员注意状态判断的可靠指 分类器(boosted tree) 标。在实际应用中,头部姿态的获取普遍采用 非接触式的基于视觉的方法,通常需要先建立面 部形状模型以定位面部特征点,根据特征点间的 几何关系还原空间姿态。面部特征点定位的经典 行人 非行人 方法是Cootes等II提出的主动形状模型(active 图1通道特征检测器 shape model,.ASM),近年来广泛地使用有基于回 Fig.1 Channel features detector
容易受到致命的伤害。统计数据表明,在我国城 市道路中,每年死于交通事故的人口中有接近 50% 为身处车外的行人。因此研究行人碰撞预警 系统,在可能的碰撞发生前对驾驶员做出提醒, 具有重要的现实意义。 行人碰撞预警的实现广泛采用视觉传感器获 取行人位置信息,根据相对距离和车速做出判 断。由于姿态与外形的多样性,行人检测一直是 计算机视觉领域的一个重要研究课题。行人检测 的经典方法有 Viola 等 [1] 提出的 Haar-like 特征和 级联分类器,Dalal 等 [ 2 ] 提出的 HOG 特征结合 SVM 分类器,以及 Felzenszwalb 等 [3] 提出的可变 形部件模型 (deformable part model, DPM)。卷积 神经网络 (convolutional neural networks, CNN) 由 于其强大的特征学习和表达能力,在计算机视觉 领域得到了广泛的应用。深度学习目标检测方法 著名的有 Girshick 等 [4-5] 提出的基于区域建议的卷 积神经网络模型 (region CNN, R-CNN),通过 CNN 完成特征提取与目标定位。 根据美国高速交通安全管理局 (NHTSA) 的 统计[6] ,有超过 80% 的交通事故责任与驾驶员相 关,其中注意力不集中是引发事故的主要原因。 此外,预警系统的有效性受到驾驶员反应时间的 影响,驾驶员注意力的差异会导致对危险的反应 时间不同,精确的数值判断有时反而会给出错误 的预警。近年来,研究人员利用内外视觉 (lookingin and looking-out, LiLo) 框架[16] 实现车辆安全系 统性能的提升,在检测车辆前方障碍物的基础上, 增加了对驾驶员状态的监测。该框架利用传感器 同时获取车辆周围环境、车辆运动状态以及驾驶 员行为,系统同时理解车辆外部和内部信息并据 此对潜在危险做出判断。在这一框架基础下的部 分工作[17-18] 特别研究了驾驶员对于道路行人的认知。 驾驶员状态的监控对于提高行车安全有着重 要的促进作用,驾驶员的注意力与视线方向及头 部姿势有着内在的联系,因此眼睛或头部的状态 检测技术广泛用于注意分散监测。在实际驾驶条 件下,使用非接触式方式进行可靠的视线方向估 计非常具有挑战性。就危险预警而言,头部偏移 情况下视线的分散程度相对更加严重,因此头部 姿态也可以作为驾驶员注意状态判断的可靠指 标 [7]。在实际应用中,头部姿态的获取普遍采用 非接触式的基于视觉的方法,通常需要先建立面 部形状模型以定位面部特征点,根据特征点间的 几何关系还原空间姿态。面部特征点定位的经典 方法是 Cootes 等 [8] 提出的主动形状模型 (active shape model, ASM),近年来广泛地使用有基于回 归森林的方法[9] 和基于深度学习的方法[10-11]。 车辆的行驶状态很大程度上取决于驾驶员是 否注意到行人,通过监控驾驶员的注意状态,可 以更加准确地衡量碰撞危险。结合对经验丰富的 驾驶员驾车行为的研究,本文提出一种基于车内 外视觉信息的行人碰撞预警方法,将行人状态分 析和驾驶员状态分析同时加入模糊决策过程。本 文的方法使用两个单目相机分别获取车外行人方 位信息和车内驾驶员头部姿态信息,其中外部信 息处理使用通道特征检测器定位行人,根据单目 视觉测距原理估计距离与角度,内部信息处理使 用级联回归方法定位面部特征点,根据 EPnP 算 法估计驾驶员头部姿态,利用模糊推理系统融合 内外信息对碰撞风险等级进行评估,可以满足系 统决策的准确性和时效性。 1 行人位置估计 利用通道特征检测器,可以从车辆前方的道 路监控视频中判断每一帧是否存在行人,并提取 出行人在图像中的位置,进一步恢复出其在真实场 景中的相对距离与角度,作为碰撞风险判断的依据。 聚合通道特征 (aggregated channel features, ACF) 检测器最早由 Dollar 等 [12] 提出,其结构如 图 1 所示。检测器的特征构造利用色彩和梯度信 息,选取 LUV 色彩空间 3 个通道、6 个方向上的 梯度直方图通道和 1 个梯度幅值通道共 10 个通 道图像结合而成。对每个通道图像上互不重叠 的 2×2 的块内像素求和,通道的输出为输入通道 每个图像块内像素聚合构成的特征池。分类器 由 4 096 棵深度为 4 的决策树通过软级联 (soft cascade) 方式[ 1 3 ] 构造而成,分类器的训练采用 RealBoost 算法在 Caltech 行人数据集上进行。 ... ... 计算通道特征 向量化 分类器 (boosted tree) 行人 非行人 LUV Grad Hist 图 1 通道特征检测器 Fig. 1 Channel features detector 第 4 期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·753·
·754· 智能系统学报 第14卷 为了提高多尺度检测的速度,利用相邻尺度 由图2可以得到B=a-y,y=arctan 从而 特征估计的方法构造快速特征金字塔。定义 纵向距离可以表示为 RL,s)为原始图像I在尺度s处的特征采样,2为 h h 通道变换,文献[10]通过对INRIA行人数据集图 Y=- (3) tanp tan(a-arctan) 片在不同尺度下提取的通道特征进行统计分析, 发现尺度s的通道特征C:与原始图像通道特征 根据比例关系 00_0Q P0=Pe,由0g= C=2()之间满足以下关系: V002+0Q=√FP+y2,0Q为纵向距离,PQ=x, Cs≈R(C,so (1) 可以得到横向距离: 式中如为通道估计系数。那么只要间隔一定尺 度由原始图像计算通道特征C,=2(R(L,s),s∈ POY=- X= 00' v2+y2 sin(a-arctan) 1小中间尺度的特征C,就可以根据其最 (4) (u-uo)h 近尺度的已知特征进行较为精确的估算: Vf2+(v-vo)2 sin(a-arctan) C=kCse/el,g (2) 摄像机距地面高度h和俯仰角α通过直接测 这样可以大幅减少常规方法在每个尺度都计算图 量得到,本文的实验环境下h=1063mm,a=9°, 像特征所需的计算开销。 相机焦距f和像素坐标系原点坐标(,o)为相机 对于输入的640像素×480像素大小的待检测 内部参数,通过相机标定可以得到f=624.8583, 道路图像,以间隔8个尺度的通道图像精确计算, (,%)=(333.0919,222.1107)。根据单目视觉定位 其余尺度的通道图像近似估算的方式构造特征金 原理,选取检测到的行人边框下边界的中点为 字塔,在不同尺度的特征图上用64×32的滑动窗 参考点,可以从单帧静态图像中估计出行人与车 口遍历,用训练好的分类器对每个候选区域进行 辆间的纵向距离(Y_distance)与横向距离(Xdis 判断,输出包含行人的窗口边框坐标及相应的分 tance)。道路图像中的行人检测与距离估计结果 类得分,最后用非极大值抑制(non-maximum sup 如图3所示。通道特征检测器选取对行人具有良 pression,.NMS)消除重叠的窗口。 单目视觉距离估计模型如图2所示,Xw、Yw、Zw 好表征效果的梯度与色彩特征,结合邻近特征估 为世界坐标系,相机光心在O点,焦距为f。相机 计的方法,兼顾了检测速度与精度。上述行人位 光轴c与成像平面交于点0,对应的像素坐标系 置估计方法在CPU下就可以达到14fs的处理 原点坐标为(o,o)。世界坐标系中的点Q(O,)在 速度,可以满足有效预警中对于目标实时定位的 图像坐标系中的投影点为Q(O,y,对应的像素坐 要求。 标为(,v);点P(XY)在图像坐标系中的投影点为 P(x,y),对应的像素坐标为(u,)。相机距地面的 高度为h,光轴与水平方向的夹角为a,即相机的 俯仰角。点Q与光心的连线与水平方向的夹角 为B,与光轴的夹角为y。 0 图3行人检测与距离估计结果 Fig.3 Pedestrian detection and distance estimation 2驾驶员头部姿态估计 0(0,) 为了计算头部姿态,首先需要建立面部形状 P(X) 模型,得到精确的面部特征点坐标。再根据面部 图2单目视觉距离估计模型 几何模型,利用特征点的几何位置和几何约束关 Fig.2 Monocular vision distance estimation model 系可以快速估算出头部姿态的方向参数
R(I,s) Ω Cs C = Ω(I) 为了提高多尺度检测的速度,利用相邻尺度 特征估计的方法构造快速特征金字塔。定义 为原始图像 I 在尺度 s 处的特征采样, 为 通道变换,文献 [10] 通过对 INRIA 行人数据集图 片在不同尺度下提取的通道特征进行统计分析, 发现尺度 s 的通道特征 与原始图像通道特征 之间满足以下关系: Cs ≈ R(C,s)·s −λΩ (1) λΩ Cs = Ω(R(I,s)), s ∈ {1, 1 2 , 1 4 ,··· } Cs 式中 为通道估计系数。那么只要间隔一定尺 度由原始图像计算通道特征 ,中间尺度的特征 就可以根据其最 近尺度的已知特征进行较为精确的估算: Cs ′ = R(Cs ,s/s ′ )(s/s ′ ) −λΩ , s ′ ∈ {1, 1 2 , 1 4 ,··· } (2) 这样可以大幅减少常规方法在每个尺度都计算图 像特征所需的计算开销。 对于输入的 640 像素×480 像素大小的待检测 道路图像,以间隔 8 个尺度的通道图像精确计算, 其余尺度的通道图像近似估算的方式构造特征金 字塔,在不同尺度的特征图上用 64×32 的滑动窗 口遍历,用训练好的分类器对每个候选区域进行 判断,输出包含行人的窗口边框坐标及相应的分 类得分,最后用非极大值抑制 (non-maximum suppression, NMS) 消除重叠的窗口。 XW、YW、ZW O f c O ′ (u0, v0) Q(O,Y) Q ′ (O, y) (u ′ , v) P(X,Y) P ′ (x, y) (u, v) h α Q β γ 单目视觉距离估计模型如图2所示, 为世界坐标系,相机光心在 点,焦距为 。相机 光轴 与成像平面交于点 ,对应的像素坐标系 原点坐标为 。世界坐标系中的点 在 图像坐标系中的投影点为 ,对应的像素坐 标为 ;点 在图像坐标系中的投影点为 ,对应的像素坐标为 。相机距地面的 高度为 ,光轴与水平方向的夹角为 ,即相机的 俯仰角。点 与光心的连线与水平方向的夹角 为 ,与光轴的夹角为 。 O O' Q (O, Y) P (X, Y) Q' P' h u v x y XW ZW YW c f α γ β 图 2 单目视觉距离估计模型 Fig. 2 Monocular vision distance estimation model β = α−γ γ = arctan y f 由图 2 可以得到 , 。从而 纵向距离可以表示为 Y = h tanβ = h tan(α−arctan y f ) (3) OQ PQ = OQ′ P′Q′ OQ′ = √ OO′2 +O′Q′2 = √ f 2 +y 2 OQ P ′Q ′ = x 根据比例关系 , 由 , 为纵向距离, , 可以得到横向距离: X = P ′Q ′ OQ′ Y = x √ f 2 +y 2 h sin(α−arctan y f ) = (u−u0)h √ f 2 +(v−v0) 2 sin(α−arctan y f ) (4) h α h = 1 063 α = 9 f (u0, v0) f = 624.858 3 (u0, v0) = (333.091 9,222.110 7) 摄像机距地面高度 和俯仰角 通过直接测 量得到,本文的实验环境下 mm, °。 相机焦距 和像素坐标系原点坐标 为相机 内部参数,通过相机标定可以得到 , 。根据单目视觉定位 原理[14] ,选取检测到的行人边框下边界的中点为 参考点,可以从单帧静态图像中估计出行人与车 辆间的纵向距离 (Y_distance) 与横向距离 (X_distance)。道路图像中的行人检测与距离估计结果 如图 3 所示。通道特征检测器选取对行人具有良 好表征效果的梯度与色彩特征,结合邻近特征估 计的方法,兼顾了检测速度与精度。上述行人位 置估计方法在 CPU 下就可以达到 14 f/s 的处理 速度,可以满足有效预警中对于目标实时定位的 要求。 Y_distanc=8.49 me X_distanc=2.85 me 图 3 行人检测与距离估计结果 Fig. 3 Pedestrian detection and distance estimation 2 驾驶员头部姿态估计 为了计算头部姿态,首先需要建立面部形状 模型,得到精确的面部特征点坐标。再根据面部 几何模型,利用特征点的几何位置和几何约束关 系可以快速估算出头部姿态的方向参数。 ·754· 智 能 系 统 学 报 第 14 卷
第4期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·755· 多任务级联卷积网络(multi-task cascaded con- volutional networks,MTCNN)9是目前速度与精度 (6) 最好的人脸检测器之一。MTCNN由3个卷积网 同理,相机坐标系下对应的参考点可以表示为 络级联构成,分类器级联可以大幅提升检测速 度,利用卷积网络提取的更加高级的特征可以提 A=2时 (7) 高分类的准确性,此外由于卷积网络更好的区分 能力,级联框架的层数也会相应地减少,从而降 根据相机成像投影关系,每个控制点c的三 低整体的计算开销。同时利用卷积神经网络的多 维坐标(,,与其在图像平面上的投影点 任务学习能力,实现人脸及特征点的联合检测, (4,v)满足 网络输出脸部边框坐标和左眼中心、右眼中心、 0 鼻尖和嘴巴两端5个特征点的坐标。 Vi (8) 在计算机视觉中,物体姿态是指其相对相机 式中w.为比例投影系数。进一步可以得到 的方向与位置。由于安置在车内的相机镜头正对 驾驶员面部,因而根据头部姿态可以判断驾驶员 ∑fx+a(C:-4)=0 的注意方向。头部姿态估计可以视为多点透视 (9) (perspective-n-point,PnP)问题,根据2D-3D特征点 afx+aif(cy-vi=0 间的投影关系求解头部姿态参数。 针孔相机模型如图4所示。O-YZ为相机坐 考虑n个参考点,式(9)可以表示为线性方程 标系,F0-UVW为世界坐标系坐标,F:为头部三维 组Mx=0,其中4个虚拟控制点共12个未知变 模型上的某个特征点,其对应于图像平面上的特 量,M为2n×12矩阵,x=[c,c5,c,cT为12维未 征点为p(,)。f、£为相机焦距,(cx,c)为相机 知向量。式(9)的解为矩阵M的核空间,表示为 光心。相机坐标系与世界坐标系之间的对应关系 x=By,n=1,2,3,4,式中y:为矩阵M的右奇异 如下所示: 向量,可由12×12MTM矩阵的零特征向量求得,B U 的取值由使得逆投影误差最小的N值确定。得 12 3 N 到虚拟控制点坐标后便可恢复出参考点在相机坐 W 1 T22 31 T32 r33 标系中的坐标,利用SVD分解可以得到旋转矩阵。 式中:R为旋转矩阵,可以表示头部姿态;T为平 将旋转矩阵转换为姿态角pitch、yaw和roll, 移向量。 可以直观地表示头部朝向,其变换关系如下: pitch=arctan2(r32,r33) 世界坐标系 yaw arctan2(-r31,+) (10) F roll arctan2(r2i.r) 本文使用MTCNN输出的左右眼中心、鼻 尖、左右嘴角5个特征点作为参考点,估计驾驶 员头部姿态角,结果如图5所示。 相机坐标系 图像坐标系 图4头部三维模型到图像平面特征点的投影 Fig.4 Projection of 3D model of the head to the feature points of image plane 本文使用EPnP算法I求解姿态参数。EPnP 算法利用4个虚拟控制点的线性加权表示实际参 考点在相机坐标系下的坐标,4个虚拟控制点为 c,=1,2,3,4,则世界坐标系中的参考点F:可以表 图5驾驶员头部姿态估计 示为 Fig.5 Head pose estimation of the driver
多任务级联卷积网络 (multi-task cascaded convolutional networks, MTCNN)[9] 是目前速度与精度 最好的人脸检测器之一。MTCNN 由 3 个卷积网 络级联构成,分类器级联可以大幅提升检测速 度,利用卷积网络提取的更加高级的特征可以提 高分类的准确性,此外由于卷积网络更好的区分 能力,级联框架的层数也会相应地减少,从而降 低整体的计算开销。同时利用卷积神经网络的多 任务学习能力,实现人脸及特征点的联合检测, 网络输出脸部边框坐标和左眼中心、右眼中心、 鼻尖和嘴巴两端 5 个特征点的坐标。 在计算机视觉中,物体姿态是指其相对相机 的方向与位置。由于安置在车内的相机镜头正对 驾驶员面部,因而根据头部姿态可以判断驾驶员 的注意方向。头部姿态估计可以视为多点透视 (perspective-n-point, PnP) 问题,根据 2D-3D 特征点 间的投影关系求解头部姿态参数。 Fi pi(ui , vi) fx、fy (cx , cy) 针孔相机模型如图 4 所示。O-XYZ 为相机坐 标系,F0-UVW 为世界坐标系坐标, 为头部三维 模型上的某个特征点,其对应于图像平面上的特 征点为 。 为相机焦距, 为相机 光心。相机坐标系与世界坐标系之间的对应关系 如下所示: X Y Z = [R| T ] U V W 1 , R = r11 r12 r13 r21 r22 r23 r31 r32 r33 , T = tx ty tz (5) 式中:R 为旋转矩阵,可以表示头部姿态; T 为平 移向量。 F0 Fi O X Z Y pi x y R, T c 相机坐标系 图像坐标系 世界坐标系 U V W 图 4 头部三维模型到图像平面特征点的投影 Fig. 4 Projection of 3D model of the head to the feature points of image plane cj = 1,2,3,4 Fi 本文使用 EPnP 算法[15] 求解姿态参数。EPnP 算法利用 4 个虚拟控制点的线性加权表示实际参 考点在相机坐标系下的坐标,4 个虚拟控制点为 ,则世界坐标系中的参考点 可以表 示为 Fi = ∑4 j=1 αi jc F j , ∑4 j=1 αi j = 1 (6) 同理,相机坐标系下对应的参考点可以表示为 pi = ∑4 j=1 αi jc p j (7) c p j (x p j , y p j , z p j ) (ui , vi) 根据相机成像投影关系,每个控制点 的三 维坐标 与其在图像平面上的投影点 满足 ωn ui vi 1 = fx 0 cx 0 fy cy 0 0 1 ∑4 j=1 αi j x p j y p j z p j (8) 式中 ωn 为比例投影系数。进一步可以得到 ∑4 j=1 αi j fx x p j +αi j(cx −ui)z p j = 0 ∑4 j=1 αi j fy x p j +αi j(cy −vi)z p j = 0 (9) Mx = 0 x = [c p 1 , c p 2 , c p 3 , c p 4 ] T x = ∑n i=1 βivi , n = 1,2,3,4 vi MTM βi 考虑 n 个参考点,式 (9) 可以表示为线性方程 组 ,其中 4 个虚拟控制点共 12 个未知变 量,M 为 2n×12 矩阵, 为 12 维未 知向量。式 (9) 的解为矩阵 M 的核空间,表示为 ,式中 为矩阵 M 的右奇异 向量,可由 12×12 矩阵的零特征向量求得, 的取值由使得逆投影误差最小的 N 值确定。得 到虚拟控制点坐标后便可恢复出参考点在相机坐 标系中的坐标,利用 SVD 分解可以得到旋转矩阵。 将旋转矩阵转换为姿态角 pitch、yaw 和 roll, 可以直观地表示头部朝向,其变换关系如下: pitch = arctan2(r32, r33) yaw = arctan2(−r31, √ r 2 32 +r 2 33) roll = arctan2(r21, r11) (10) 本文使用 MTCNN 输出的左右眼中心、鼻 尖、左右嘴角 5 个特征点作为参考点,估计驾驶 员头部姿态角,结果如图 5 所示。 Pitch=−8.07 Yaw=2.56 Roll=−1.85 图 5 驾驶员头部姿态估计 Fig. 5 Head pose estimation of the driver 第 4 期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·755·
·756· 智能系统学报 第14卷 3碰撞风险评估 车辆间的纵向距离(Y_distance)和横向距离 (Y distance),驾驶员注意方向信息表现在头部垂 碰撞保护系统通常根据传感器获取的道路障 直方向转角(pitch)和水平方向转角(yaw)。模糊 碍物距离和速度信息计算碰撞时间(time to colli- 推理使用Mamdani规则,如式(11)所示: sion,TTC),当碰撞时间小于阈值时做出警告。然 R:if xi is Ai,x is A,....xi A 而受到行车环境、驾驶员精神及身体状态的影 (11) then yi=B 响,驾驶员对道路危险的反应时间存在差异,精 式中:为输入变量;y为第i条规则对应的输 确的数值分析有时反而会引起错误的预警。实际 出;A和B为模糊集。 道路中,经验丰富的驾驶员并不会精确计算距离 为了降低论证的复杂性,取行人的纵向距离 或碰撞时间,而是使用语义信息表达路况,例如 Y_distance与横向距离Y distance,驾驶员头部水 用远、中、近、很近表示前方物体距离,用很快、 平转角yaw3个输入参数构建模糊推理系统。输 快、适中、慢表示当前车速等。可以近似认为,驾 入参数Y distance与Y distance模糊化使用三角 驶员对于车辆前方潜在碰撞风险的估计都是基于 隶属度函数,其中Y distance的模糊集论域为[O, 一系列if-then规则做出的决策,并且判断结果在 20],Y distance的模糊集论域为[0,5],在论域上 大部分情况下已足够准确。 的取值均为{close,.mid,far},如图6(a)和图6(b)所 本文构建一种基于道路和驾驶员信息的模糊 示。输入参数yaw模糊化使用高斯隶属度函数 推理系统,对输入信息进行决策级融合输出碰撞 模糊集论域为[-30,30],在论域上的取值为{left, 风险估计,包括低风险(low-risk)、中等风险(mid- center,right},如图6(c)所示。系统输出参数 risk)、高风险(high-risk)和极高风险(very-high- Risk设置{low,mid,high,veryhigh}4个等级,模糊 rsk)4个等级。系统的输入为道路状态信息和驾 集论域设为0,1],使用高斯隶属度函数,如图6(d) 驶员状态信息,式中道路状态信息表现在行人与 所示。 1.0 close far 1.0 close mid 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 10 15 20 2 3 y distance Y distance (a)行人纵而距离Y_distance (b)行人纵向距离Y distance left center 1.0 right 1.0ow mid high veryhigh 0.8 0.8 6 0.4 积0.4 0.2 0.2 0 -30-20-100102030 0 0.2 0.4 0.6 0.8 1.0 Yaw Risk (c)驾驶员头部水平转角Yaw (d风险程度Risk 图6模糊系统输入输出隶属度函数 Fig.6 Input/output membership functions of fuzzy system 根据Mamdani规则构建模糊推理规则,共设 数值可以判断出对应的碰撞风险等级。由此构建 置27条模糊规则,涵盖了输入输出参数在论域上 的模糊推理系统通过对车内外环境下的多种输入 的所有取值,具体如表1所示。 参数的模糊融合,可以为人车碰撞事故的预警提 利用重心法进行解模糊化,根据系统输出的 供一定的指导
3 碰撞风险评估 碰撞保护系统通常根据传感器获取的道路障 碍物距离和速度信息计算碰撞时间 (time to collision, TTC),当碰撞时间小于阈值时做出警告。然 而受到行车环境、驾驶员精神及身体状态的影 响,驾驶员对道路危险的反应时间存在差异,精 确的数值分析有时反而会引起错误的预警。实际 道路中,经验丰富的驾驶员并不会精确计算距离 或碰撞时间,而是使用语义信息表达路况,例如 用远、中、近、很近表示前方物体距离,用很快、 快、适中、慢表示当前车速等。可以近似认为,驾 驶员对于车辆前方潜在碰撞风险的估计都是基于 一系列 if-then 规则做出的决策,并且判断结果在 大部分情况下已足够准确。 本文构建一种基于道路和驾驶员信息的模糊 推理系统,对输入信息进行决策级融合输出碰撞 风险估计,包括低风险 (low-risk)、中等风险 (midrisk)、高风险 (high-risk) 和极高风险 (very-highrisk) 4 个等级。系统的输入为道路状态信息和驾 驶员状态信息,式中道路状态信息表现在行人与 车辆间的纵向距 离 (Y_distance ) 和横向距 离 (X_distance),驾驶员注意方向信息表现在头部垂 直方向转角 (pitch) 和水平方向转角 (yaw)。模糊 推理使用 Mamdani 规则,如式 (11) 所示: R i : if x1 is A i 1 , x2 is A i 2 , ··· , xk is A i k then y i = B i (11) xk y i A i B i 式中: 为输入变量; 为第 i 条规则对应的输 出; 和 为模糊集。 为了降低论证的复杂性,取行人的纵向距离 Y_distance 与横向距离 X_distance,驾驶员头部水 平转角 yaw 3 个输入参数构建模糊推理系统。输 入参数 Y_distance 与 X_distance 模糊化使用三角 隶属度函数,其中 Y_distance 的模糊集论域为 [0, 20],X_distance 的模糊集论域为 [0, 5],在论域上 的取值均为{close, mid, far},如图 6(a) 和图 6(b) 所 示。输入参数 yaw 模糊化使用高斯隶属度函数, 模糊集论域为 [-30, 30],在论域上的取值为{left, center, right},如图 6(c) 所示。系统输出参数 Risk 设置{low, mid, high, veryhigh}4 个等级,模糊 集论域设为 [0, 1],使用高斯隶属度函数,如图 6(d) 所示。 (a) 行人纵向距离 Y_distance 0 10 15 20 5 Y_distance 0 0.2 0.4 0.6 0.8 1.0 隶属度 close mid far (b) 行人纵向距离 X_distance 0 2 3 4 5 1 X_distance 0 0.2 0.4 0.6 0.8 1.0 隶属度 close mid far (c) 驾驶员头部水平转角 Yaw −30 −20 −10 0 10 20 30 Yaw 0 0.2 0.4 0.6 0.8 1.0 隶属度 left center right (d) 风险程度 Risk 0 0.4 0.6 0.8 1.0 0.2 Risk 0 0.2 0.4 0.6 0.8 1.0 隶属度 low mid high veryhigh 图 6 模糊系统输入输出隶属度函数 Fig. 6 Input/output membership functions of fuzzy system 根据 Mamdani 规则构建模糊推理规则,共设 置 27 条模糊规则,涵盖了输入输出参数在论域上 的所有取值,具体如表 1 所示。 利用重心法进行解模糊化,根据系统输出的 数值可以判断出对应的碰撞风险等级。由此构建 的模糊推理系统通过对车内外环境下的多种输入 参数的模糊融合,可以为人车碰撞事故的预警提 供一定的指导。 ·756· 智 能 系 统 学 报 第 14 卷
第4期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·757· 表1模糊推理规则 Table 1 Fuzzy inference rules 纵向距离横向距离头部转角风险等级 纵向距离横向距离头部转角风险等级纵向距离横向距离头部转角风险等级 近 近 左 非常高 中 近 左 高 远 近 左 低 近 近 中 非常高 多 近 中 中 远 中 近 右 非常高 为 近 右 高 近 右 低 中 左 高 中 中 左 中 中 左 低 安 中 中 中 中 中 低 远 中 中 低 近 中 右 高 中 中 右 中 尔 右 低 近 远 左 低 远 低 远 远 左 低 近 远 低 中 远 中 低 远 远 中 低 近 远 右 低 中 远 右 低 远 远 右 低 4实验分析 驾驶员。为了提高系统的处理速度,视频分辨率 图像采集使用安置在车内的两个单目相机, 设为640×480。在实际道路采集的视频中,选取 其中一个相机安放在前挡风玻璃后,镜头对准前 车辆在路口转弯时的30s片段进行分析,其中部 方道路,另一个相机安放在仪表盘上,镜头对准 分时间点采集的车内外图像如图7所示。 车内图 车外图 =0s =19s =30s 图7视频不同时间点采集的车内外图像 Fig.7 Interior and exterior images collected at different time 根据第1~3节所述的方法对车内外视频进行 (Y distance)作为道路状态数据,提取驾驶员的头 逐帧处理。在同步拍摄得到的图像中,提取行人 部方向角(pitch,yaw,rol)作为驾驶员状态数据, 相对本车的纵向距离(Y distance)和横向距离 车辆内外信息如图8所示。 30 5205 05 0 8 64 2 0 10 15 20 t/s 图8行人与驾驶员状态数据 Fig.8 Data of pedestrian and driver status
表 1 模糊推理规则 Table 1 Fuzzy inference rules 纵向距离 横向距离 头部转角 风险等级 纵向距离 横向距离 头部转角 风险等级 纵向距离 横向距离 头部转角 风险等级 近 近 左 非常高 中 近 左 高 远 近 左 低 近 近 中 非常高 中 近 中 中 远 近 中 低 近 近 右 非常高 中 近 右 高 远 近 右 低 近 中 左 高 中 中 左 中 远 中 左 低 近 中 中 中 中 中 中 低 远 中 中 低 近 中 右 高 中 中 右 中 远 中 右 低 近 远 左 低 中 远 左 低 远 远 左 低 近 远 中 低 中 远 中 低 远 远 中 低 近 远 右 低 中 远 右 低 远 远 右 低 4 实验分析 图像采集使用安置在车内的两个单目相机, 其中一个相机安放在前挡风玻璃后,镜头对准前 方道路,另一个相机安放在仪表盘上,镜头对准 驾驶员。为了提高系统的处理速度,视频分辨率 设为 640×480。在实际道路采集的视频中,选取 车辆在路口转弯时的 30 s 片段进行分析,其中部 分时间点采集的车内外图像如图 7 所示。 t=0 s t=19 s t=30 s t … … … … 车外图像 车内图像 图 7 视频不同时间点采集的车内外图像 Fig. 7 Interior and exterior images collected at different time 根据第 1~3 节所述的方法对车内外视频进行 逐帧处理。在同步拍摄得到的图像中,提取行人 相对本车的纵向距离 (Y_distance) 和横向距离 (X_distance) 作为道路状态数据,提取驾驶员的头 部方向角 (pitch, yaw, roll) 作为驾驶员状态数据, 车辆内外信息如图 8 所示。 0 5 10 15 20 25 30 Y_distance/m P1 P2 0 2 4 6 8 10 X_distance/m P1 P2 0 5 10 15 20 25 30 t/s −50 −40 −30 −20 −100 10 203040 50 驾驶员头部转角/(°) 视线朝左 Yaw Pitch 视线朝右 Roll 图 8 行人与驾驶员状态数据 Fig. 8 Data of pedestrian and driver status 第 4 期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·757·
·758· 智能系统学报 第14卷 根据图8所示数据对提出的碰撞预警方法进 X,distance0.7m;行人P2与车辆的纵向距离 行分析:1)视频开始处车辆驶入路口准备左转, Y2 distance~8m,横向距离X,_distance~2m。3)在 此时未检测到前方行人,驾驶员头部水平转角 28~30s时间段,驾驶员头部水平转角(yaw)最大 (yaw)在-12°-10°之间,此时不存在风险。2)在 达到28°,驾驶员注意力集中于道路右侧。与此 18~20s时间段,驾驶员出现注意力不集中情况, 同时,道路图像中检测到行人P,其纵向距离 头部水平转角(yaw)最大达到-30°,此时驾驶员 Y,distance~2m,横向距离X,distance4.5m. 头部朝向左侧。在同一时间段的道路图像序列中 取行人的纵向距离Y distance与横向距离 检测到2个行人,分别记为P,与P2。行人P,与 Y_distance,驾驶员头部水平转角yaw3个输入参 车辆的纵向距离Y,distance≈20m,横向距离 数构建模糊推理系统,如图9所示。 输人 1.0[close med far 0.5 0 2 4 68101214161820 输人变量“Y distance 行人纵向距离m 输出 mid high veryhigh 1.0[close 1.0 Dlow med far 模糊推理系统 0.5 0.5 Mandani规则 质心法去模糊化 0 0.10.30.30.40.50.60.70.80.91.0 00.51.01.52.02.53.03.54.04.55.0 输H变量“Risk Level' input variable"X distance' 碰撞风险等级 行人横向距离/m 1.0 fleft center right 051 -20-100 102030 input variable“Ydistance” 驾驶员头部水平转角() 图93个输入(Y_distance,Y_distance,.Yaw)的模糊推理系统 Fig.9 Fuzzy inference system of three inputs(Y_distance,X_distance,Yaw) 通过模糊推理得到的碰撞风险等级解模糊平为=30s时的解模糊平面,模糊推理系统的输出 面如图10所示。图10()为=19s时的解模糊平为0.1195,由此得到的碰撞风险等级为低风险 面,模糊推理系统对行人P1的输出为0.1266,判 low-risk)。在Core i5CPU.8 GB RAM,GTX1060 断为低风险(Iow-sk)等级,对行人P2的输出为GPU运行环境下,该碰撞预警系统可以达到4~ 0.6471,判断为高风险(high-risk)等级。图10(b) 5s的运行速度,基本可以满足实时性的要求。 0.8 0.6 0.7 0.5 0.6 0.4 0.3 0.3 0.2 0.2 30 2010 10 10 -10-203020 Yaw Y distance 15 15 2054 X distance (a)=19s (b)=30s 图10碰撞风险等级的解模糊平面 Fig.10 Defuzzified surface of the collision risk level 结合图7中道路与驾驶员图像,分析系统对 息表明驾驶员视线落在车辆左边区域,无法有效 于风险判断的有效性:1)在19s处,车辆内部信 掌握前方路况信息,因而处于危险状态;车辆外
根据图 8 所示数据对提出的碰撞预警方法进 行分析:1) 视频开始处车辆驶入路口准备左转, 此时未检测到前方行人,驾驶员头部水平转角 (yaw) 在−12°~−10°之间,此时不存在风险。2) 在 18~20 s 时间段,驾驶员出现注意力不集中情况, 头部水平转角 (yaw) 最大达到−30°,此时驾驶员 头部朝向左侧。在同一时间段的道路图像序列中 检测到 2 个行人,分别记为 P1 与 P2。行人 P1 与 车辆的纵向距离 Y1 _distance≈20 m,横向距离 X1 _distance≈0.7 m;行人 P2 与车辆的纵向距离 Y2_distance≈8 m,横向距离 X2_distance≈2 m。3) 在 28~30 s 时间段,驾驶员头部水平转角 (yaw) 最大 达到 28°,驾驶员注意力集中于道路右侧。与此 同时,道路图像中检测到行人 P1,其纵向距离 Y1_distance≈2 m,横向距离 X1_distance≈4.5 m。 取行人的纵向距离 Y_distance 与横向距离 X_distance,驾驶员头部水平转角 yaw 3 个输入参 数构建模糊推理系统,如图 9 所示。 输入 模糊推理系统 Mandani 规则 质心法去模糊化 行人纵向距离/m 行人横向距离/m 驾驶员头部水平转角/(°) 1.0 close 输入变量 “Y_distance” med far 0.5 0 2 4 6 8 10 12 14 16 18 20 close med far 1.0 input variable “X_distance” 0.5 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0 1.0 input variable “X_distance” 0.5 0 −13 −20 −10 0 10 20 30 left center right 输出 碰撞风险等级 1.0 输出变量 “Risk_Level” 0.5 0 0.1 0.3 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 low mid high veryhigh 图 9 3 个输入 (Y_distance, X_distance, Yaw) 的模糊推理系统 Fig. 9 Fuzzy inference system of three inputs (Y_distance, X_distance, Yaw) 通过模糊推理得到的碰撞风险等级解模糊平 面如图 10 所示。图 10(a) 为 t=19 s 时的解模糊平 面,模糊推理系统对行人 P1 的输出为 0.126 6,判 断为低风险 (low-risk) 等级,对行人 P2 的输出为 0.647 1,判断为高风险 (high-risk) 等级。图 10(b) 为 t=30 s 时的解模糊平面,模糊推理系统的输出 为 0.119 5,由此得到的碰撞风险等级为低风险 (low-risk)。在 Core i5 CPU,8 GB RAM,GTX1060 GPU 运行环境下,该碰撞预警系统可以达到 4~ 5 f/s 的运行速度,基本可以满足实时性的要求。 (a) t=19 s 0 30 0.2 5 0.3 20 P1 0.4 Risk Y_distance 10 10 0.5 Yaw 0 0.6 −10 15 −20−30 20 P2 (b) t=30 s 0.2 0 0.3 0.4 0.5 Risk0.6 5 0 0.7 P1 0.8 1 Y_distance 10 2 X_distance 15 3 4 20 5 图 10 碰撞风险等级的解模糊平面 Fig. 10 Defuzzified surface of the collision risk level 结合图 7 中道路与驾驶员图像,分析系统对 于风险判断的有效性:1) 在 19 s 处,车辆内部信 息表明驾驶员视线落在车辆左边区域,无法有效 掌握前方路况信息,因而处于危险状态;车辆外 ·758· 智 能 系 统 学 报 第 14 卷
第4期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·759· 部信息中,由于我国城市道路每条车道宽度为 ference on Computer Vision and Pattern Recognition. 3.5m,行人P,的横向距离表明其在当前车道内, Columbus.USA.2014:580-587. 但其纵向距离其余本车相距较远,因而暂时处于 [5]GIRSHICK R.Fast R-CNN[C]//Proceedings of 2015 IEEE 低风险区域。行人P,的纵向距离已处在危险距 International Conference on Computer Vision.Santiago, 离内,横向距离表明其距本车右侧车道线较近, USA,2015:1440-1448 因而存在碰撞风险,需要提醒驾驶员注意。2)在 [6]STANTON N A,SALMON P M.Human error taxonom- 29s处,此时根据驾驶员头部姿态可以判断其未 ies applied to driving:a generic driver error taxonomy and 注意道路前方,视为危险状态,然而行人P,的横 its implications for intelligent transport systems[].Safety 向距离表明其在本车右侧车道且距离较远,虽然 science,2009,47(2):227-237. 纵向距离较近,实际路况为安全状态。上述根据 [7]TAWARI A,MARTIN S,TRIVEDI MM.Continuous 车内外图像分析的结果与模糊推理系统的输出 head movement estimator for driver assistance:issues,al- 致,说明本文提出的基于内外视觉信息的行人碰 gorithms,and on-road evaluations[J.IEEE transactions on 撞预警方法较为可靠,可以在行车过程中为驾驶 intelligent transportation systems,2014,15(2):818-830. 员提供铺助决策。 [8]COOTES T F,EDWARDS G J,TAYLOR C J.Active ap- 5结束语 pearance models[J].IEEE transactions on pattern analysis and machine intelligence,2001,23(6):681-685 本文提出一种基于车内外视觉信息的行人碰 [9]REN Shaoging,CAO Xudong,WEI Yichen,et al.Face 撞预警方法,利用两个单目相机同时提取道路行 alignment at 3000 fps via regressing local binary 人和驾驶员状态数据,通过模糊推理系统结合车 features[C]//Proceedings of 2014 IEEE Conference on 辆外部行人信息与车辆内部驾驶员信息进行评 Computer Vision and Pattern Recognition.Columbus, 估,给出当前场景下的风险等级,对可能发生的 USA.2014:1685-1692 人车碰撞做出预判。在实际道路上的实验表明, [10]SUN Yi,WANG Xiaogang,TANG Xiaoou.Deep convo- 该方法对于不同场景下的危险判断具有很好的效 lutional network cascade for facial point detection[Cl// 果,可以在驾驶员注意力不集中时提供有效的指 Proceedings of 2013 IEEE Conference on Computer Vis- 导。然而由于视觉传感器自身的限制,行人的定 ion and Pattern Recognition.Portland,USA,2013: 位非常依赖采集图像的质量,结合多种传感器信 3476-3483. 息提升车辆外部信息获取的可靠性还有许多需要 [11]ZHANG Kaipeng,ZHANG Zhanpeng,LI Zhifeng,et al. 进一步开展的工作。 Joint face detection and alignment using multitask cas- 参考文献: caded convolutional networks[J].IEEE Signal processing 1 etters,2016.23(10):1499-1503 [1]VIOLA P,JONES M.Rapid object detection using a boos- [12]DOLLAR P,APPEL R,BELONGIE S,et al.Fast feature ted cascade of simple features[C]//Proceedings of 2001 pyramids for object detection[J].IEEE transactions on IEEE Computer Society Conference on Computer Vision pattern analysis and machine intelligence,2014,36(8): and Pattern Recognition.Kauai,USA,2001:I-511-I-518. 1532-1545 [2]DALAL N.TRIGGS B.Histograms of oriented gradients [13]BOURDEV L.BRANDT J.Robust object detection via for human detection[Cl//Proceedings of 2005 IEEE Com- soft cascade[C]//Proceedings of 2005 IEEE Computer So- puter Society Conference on Computer Vision and Pattern ciety Conference on Computer Vision and Pattern Recog- Recognition.San Diego,USA,2005:886-893 nition.San Diego,USA,2005:236-243. [3]FELZENSZWALB P F,GIRSHICK R B,MCALLESTER [14]王牛,李祖枢,武德臣,等.机器人单目视觉定位模型及 D,et al.Object detection with discriminatively trained 其参数辨识).华中科技大学学报(自然科学版),2008, part-based models[J].IEEE Transactions on pattern analys- 36(S1:57-60. is and machine intelligence,2010,32(9):1627-1645. WANG Niu,LI Zushu,WU Dechen,et al.Robot mon- [4]GIRSHICK R,DONAHUE J,DARRELL T,et al.Rich ocular vision position determination model and its para- feature hierarchies for accurate object detection and se- metric identification[J].Journal of Huazhong University mantic segmentation[C]//Proceedings of 2014 IEEE Con- of Science and Technology (Nature Science Edition)
部信息中,由于我国城市道路每条车道宽度为 3.5 m,行人 P1 的横向距离表明其在当前车道内, 但其纵向距离其余本车相距较远,因而暂时处于 低风险区域。行人 P2 的纵向距离已处在危险距 离内,横向距离表明其距本车右侧车道线较近, 因而存在碰撞风险,需要提醒驾驶员注意。2) 在 29 s 处,此时根据驾驶员头部姿态可以判断其未 注意道路前方,视为危险状态,然而行人 P1 的横 向距离表明其在本车右侧车道且距离较远,虽然 纵向距离较近,实际路况为安全状态。上述根据 车内外图像分析的结果与模糊推理系统的输出一 致,说明本文提出的基于内外视觉信息的行人碰 撞预警方法较为可靠,可以在行车过程中为驾驶 员提供辅助决策。 5 结束语 本文提出一种基于车内外视觉信息的行人碰 撞预警方法,利用两个单目相机同时提取道路行 人和驾驶员状态数据,通过模糊推理系统结合车 辆外部行人信息与车辆内部驾驶员信息进行评 估,给出当前场景下的风险等级,对可能发生的 人车碰撞做出预判。在实际道路上的实验表明, 该方法对于不同场景下的危险判断具有很好的效 果,可以在驾驶员注意力不集中时提供有效的指 导。然而由于视觉传感器自身的限制,行人的定 位非常依赖采集图像的质量,结合多种传感器信 息提升车辆外部信息获取的可靠性还有许多需要 进一步开展的工作。 参考文献: VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai, USA, 2001: I-511-I-518. [1] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 886–893. [2] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-based models[J]. IEEE Transactions on pattern analysis and machine intelligence, 2010, 32(9): 1627–1645. [3] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Con- [4] ference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 580–587. GIRSHICK R. Fast R-CNN[C]//Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago, USA, 2015: 1440–1448. [5] STANTON N A, SALMON P M. Human error taxonomies applied to driving: a generic driver error taxonomy and its implications for intelligent transport systems[J]. Safety science, 2009, 47(2): 227–237. [6] TAWARI A, MARTIN S, TRIVEDI M M. Continuous head movement estimator for driver assistance: issues, algorithms, and on-road evaluations[J]. IEEE transactions on intelligent transportation systems, 2014, 15(2): 818–830. [7] COOTES T F, EDWARDS G J, TAYLOR C J. Active appearance models[J]. IEEE transactions on pattern analysis and machine intelligence, 2001, 23(6): 681–685. [8] REN Shaoqing, CAO Xudong, WEI Yichen, et al. Face alignment at 3000 fps via regressing local binary features[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, USA, 2014: 1685–1692. [9] SUN Yi, WANG Xiaogang, TANG Xiaoou. Deep convolutional network cascade for facial point detection[C]// Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA, 2013: 3476–3483. [10] ZHANG Kaipeng, ZHANG Zhanpeng, LI Zhifeng, et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal processing letters, 2016, 23(10): 1499–1503. [11] DOLLÁR P, APPEL R, BELONGIE S, et al. Fast feature pyramids for object detection[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 36(8): 1532–1545. [12] BOURDEV L, BRANDT J. Robust object detection via soft cascade[C]//Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005: 236–243. [13] 王牛, 李祖枢, 武德臣, 等. 机器人单目视觉定位模型及 其参数辨识 [J]. 华中科技大学学报(自然科学版), 2008, 36(S1): 57–60. WANG Niu, LI Zushu, WU Dechen, et al. Robot monocular vision position determination model and its parametric identification[J]. Journal of Huazhong University of Science and Technology (Nature Science Edition), [14] 第 4 期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·759·
·760· 智能系统学报 第14卷 2008,36(S157-60 作者简介: [15]LEPETIT V,MORENO-NOGUER F,FUA P.EPnP:an 杨会成.男,1970年生.教授,主 accurate O(n)solution to the PnP problem[J].Internation- 要研究方向为图像信息处理、疲劳驾 al journal of computer vision,2009,81(2):155-166. 驶检测。主持和参与安徽省自然科学 基金项目、安徽省高校自然科学基金 [16]TAWARI A.SIVARAMAN S,TRIVEDI MM.et al. 项目6项。发表学术论文15篇。 Looking-in and looking-out vision for Urban Intelligent Assistance:estimation of driver attentive state and dy- namic surround for safe merging and braking[C]//Pro- 朱文博,男,1992年生,硕士研究 ceedings of 2014 IEEE Intelligent Vehicles Symposium. 生,主要研究方向为图像处理与模式 Dearborn,USA,2014:115-120. 识别。 [17]TATEIWA K,YAMADA K.Estimating driver aware- ness of pedestrians in crosswalk in the path of right or left turns at an intersection from vehicle behavior[C]//Pro- ceedings of 2015 IEEE Intelligent Vehicles Symposium. 童英,女,1993年生,硕士研究 Seoul,South Korea,2015:952-957. 生,主要研究方向为图像处理与模式 [18]ROTH M,FLOHR F,GAVRILA D M.Driver and pedes- 识别。 trian awareness-based collision risk analysis[C]//Proceed- ings of 2016 IEEE Intelligent Vehicles Symposium. Gothenburg,Sweden,2016:454-459
2008, 36(S1): 57–60. LEPETIT V, MORENO-NOGUER F, FUA P. EPnP: an accurate O(n) solution to the PnP problem[J]. International journal of computer vision, 2009, 81(2): 155–166. [15] TAWARI A, SIVARAMAN S, TRIVEDI M M, et al. Looking-in and looking-out vision for Urban Intelligent Assistance: estimation of driver attentive state and dynamic surround for safe merging and braking[C]//Proceedings of 2014 IEEE Intelligent Vehicles Symposium. Dearborn, USA, 2014: 115–120. [16] TATEIWA K, YAMADA K. Estimating driver awareness of pedestrians in crosswalk in the path of right or left turns at an intersection from vehicle behavior[C]//Proceedings of 2015 IEEE Intelligent Vehicles Symposium. Seoul, South Korea, 2015: 952–957. [17] ROTH M, FLOHR F, GAVRILA D M. Driver and pedestrian awareness-based collision risk analysis[C]//Proceedings of 2016 IEEE Intelligent Vehicles Symposium. Gothenburg, Sweden, 2016: 454–459. [18] 作者简介: 杨会成,男,1970 年生,教授,主 要研究方向为图像信息处理、疲劳驾 驶检测。主持和参与安徽省自然科学 基金项目、安徽省高校自然科学基金 项目 6 项。发表学术论文 15 篇。 朱文博,男,1992 年生,硕士研究 生,主要研究方向为图像处理与模式 识别。 童英,女,1993 年生,硕士研究 生,主要研究方向为图像处理与模式 识别。 ·760· 智 能 系 统 学 报 第 14 卷