第9卷第2期 智能系统学报 Vol.9 No.2 2014年4月 CAAI Transactions on Intelligent Systems Apr.2014 D0I:10.3969/j.issn.1673-4785.201403009 网络出版地址:http://www.cnki.net/kcms/doi/10.3969/j.issn.1673-4785.201403009.html 单摄像头下基于样本学习的人体深度估计 何磊,苏松志12,李绍滋12 (1.厦门大学信息科学与技术学院,福建厦门361005;2.福建省仿脑智能系统重点实验室,福建厦门361005) 摘要:深度图像的研究是当前计算机视觉的研究热点。从图像中获取深度信息有2种方法:1)利用深度感应器, 该方法的缺点是成本高:2)基于一个场景的多幅图像或图像序列,通过求取视差,获得深度值,该方法的缺点是需要 摄像机参数,专业知识要求较高。针对上述情况,提出了一种简单有效的从单摄像头捕获的人体图像中估计出人体 深度信息的方法,利用深度摄像机建立人体的“表观深度”图像对,然后对单摄像头获取的彩色图像进行人体表观特 征提取,根据该表观特征检索图像对数据库,并对获得的人体深度进行估计和优化。最后,在厦门大学的深度数据 库上,验证了该方法的有效性。 关键词:深度图像:单摄像头:人体深度估计:基于样本的学习:特征提取:特征匹配:相似样本:深度数据库 中图分类号:TP391.41文献标志码:A文章编号:1673-4785(2014)02-0161-07 中文引用格式:何磊,苏松志,李绍滋.单摄像头下基于样本学习的人体深度估计[J].智能系统学报,2014,9(2):161-167. 英文引用格式:HE Lei,SU Songzhi,LI Shaozi.Human depth estimation on the basis of the example learning method under a single camera[J].CAAI Transactions on Intelligent Systems,2014,9(2):161-167. Human depth estimation on the basis of the sample learning method under a single camera HE Lei',SU Songzhi2,LI Shaozi' (1.School of Information Science and Technology,Xiamen University,Xiamen 361005,China;2.Fujian Key Laboratory of the Brain- Like Intelligent Systems,Xiamen 361005,China) Abstract:Currently,the research on depth imaging is one of the hotspots concerning computer vision.There are two methods for acquiring depth information from images:1)The utilization of depth sensors,with the disadvantage of this method being its considerable expense.2)The utilization of multiple images or a sequence of images for the same scene by calculating the optical parallax for getting depth information,with the disadvantages of this method including the requirement of camera parameters and the need for a large amount of professional knowledge.In re- sponse to the circumstances mentioned above,this paper proposes a simple and efficient method that estimates hu- man depth information from images captured by a single camera.The basic ideas of this method include establishing many pairs of human'appearance depth'images by use of a depth camera,extracting human appearance features from colorful images captured by a monocular camera and then searching the image pairs database according to the appearance features,and estimating and optimizing human depth information obtained from the database of the pairs of images.Finally,simulation experimental results in the Xiamen University depth database established by ourselves were found to validate the effectiveness of the proposed method. Keywords:depth image;a single camera;human depth estimation;example-based learning method;feature ex- traction;feature matching;similar samples;depth database 传统的机器视觉是把三维景物投影成二维图像, 收稿日期:2014-03-03.网络出版日期:2014-03-31. 基金项目:国家自然科学基金资助项目(61202143):福建省自然科学 然后通过建立起的图像数据与成像过程及景物特征 基金资助项目(2013J05100):厦门市科技重点项目资助项 的数学关系来恢复三维场景。成像的过程中损失了 目(3502Z20123017):湖南省自然科学基金资助项目 深度信息,因而重构的三维场景并不是惟一的,使机 (12刀2040). 通信作者:苏松志.Email:ssz@xmu.cdu.cn. 器视觉的发展和应用受到了限制。图像深度信息获
第 9 卷第 2 期 智 能 系 统 学 报 Vol.9 №.2 2014 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2014 DOI:10.3969 / j.issn.1673⁃4785.201403009 网络出版地址:http: / / www.cnki.net / kcms/ doi / 10.3969 / j.issn.1673⁃4785.201403009.html 单摄像头下基于样本学习的人体深度估计 何磊1 ,苏松志1,2 ,李绍滋1,2 (1.厦门大学 信息科学与技术学院, 福建 厦门 361005; 2. 福建省仿脑智能系统重点实验室, 福建 厦门 361005) 摘 要:深度图像的研究是当前计算机视觉的研究热点。 从图像中获取深度信息有 2 种方法:1)利用深度感应器, 该方法的缺点是成本高;2)基于一个场景的多幅图像或图像序列,通过求取视差,获得深度值,该方法的缺点是需要 摄像机参数,专业知识要求较高。 针对上述情况,提出了一种简单有效的从单摄像头捕获的人体图像中估计出人体 深度信息的方法,利用深度摄像机建立人体的“表观深度”图像对,然后对单摄像头获取的彩色图像进行人体表观特 征提取,根据该表观特征检索图像对数据库,并对获得的人体深度进行估计和优化。 最后,在厦门大学的深度数据 库上,验证了该方法的有效性。 关键词:深度图像;单摄像头;人体深度估计;基于样本的学习;特征提取;特征匹配;相似样本;深度数据库 中图分类号: TP391.41 文献标志码:A 文章编号:1673⁃4785(2014)02⁃0161⁃07 中文引用格式:何磊,苏松志,李绍滋. 单摄像头下基于样本学习的人体深度估计[J]. 智能系统学报, 2014, 9(2): 161⁃167. 英文引用格式:HE Lei, SU Songzhi, LI Shaozi. Human depth estimation on the basis of the example learning method under a single camera[J]. CAAI Transactions on Intelligent Systems, 2014, 9(2): 161⁃167. Human depth estimation on the basis of the sample learning method under a single camera HE Lei 1 , SU Songzhi 1,2 , LI Shaozi 1,2 (1.School of Information Science and Technology, Xiamen University, Xiamen 361005, China; 2.Fujian Key Laboratory of the Brain⁃ Like Intelligent Systems, Xiamen 361005, China) Abstract:Currently, the research on depth imaging is one of the hotspots concerning computer vision. There are two methods for acquiring depth information from images: 1) The utilization of depth sensors, with the disadvantage of this method being its considerable expense. 2) The utilization of multiple images or a sequence of images for the same scene by calculating the optical parallax for getting depth information, with the disadvantages of this method including the requirement of camera parameters and the need for a large amount of professional knowledge. In re⁃ sponse to the circumstances mentioned above, this paper proposes a simple and efficient method that estimates hu⁃ man depth information from images captured by a single camera. The basic ideas of this method include establishing many pairs of human ′appearance depth′ images by use of a depth camera, extracting human appearance features from colorful images captured by a monocular camera and then searching the image pairs database according to the appearance features, and estimating and optimizing human depth information obtained from the database of the pairs of images. Finally, simulation experimental results in the Xiamen University depth database established by ourselves were found to validate the effectiveness of the proposed method. Keywords:depth image; a single camera; human depth estimation; example⁃based learning method; feature ex⁃ traction; feature matching; similar samples; depth database 收稿日期:2014⁃03⁃03. 网络出版日期:2014⁃03⁃31. 基金项目:国家自然科学基金资助项目(61202143);福建省自然科学 基金资助项目(2013J05100);厦门市科技重点项目资助项 目( 3502Z20123017 ); 湖 南 省 自 然 科 学 基 金 资 助 项 目 (12JJ2040). 通信作者:苏松志. Email: ssz@ xmu.edu.cn. 传统的机器视觉是把三维景物投影成二维图像, 然后通过建立起的图像数据与成像过程及景物特征 的数学关系来恢复三维场景。 成像的过程中损失了 深度信息,因而重构的三维场景并不是惟一的,使机 器视觉的发展和应用受到了限制。 图像深度信息获
.162 智能系统学报 第9卷 取的基本任务就是利用光学、几何学等方法从二维图 的一个难点,需要考虑整幅图像的全局结构,也需要 像中估计出各物体之间以及同一物体不同部位之间 利用关于场景的先验知识。如何建立单幅图像彩色 与摄像头的距离,从而估计出图像的深度信息。深度 信息到深度信息的映射,具有广泛的理论意义和很 图像获取的方法可归纳为主动式深度传感器的方 好的应用价值。针对上述前2个问题,提出了一个 法山和被动式计算机立体视觉的方法[2)」 基于样本学习的方法,通过单摄像头采集的一幅包 主动式深度传感器的方法主要是利用物理学和 含人体的图像,对其中的人体深度进行估计。该方 光学等知识来获取深度图像。激光雷达深度成 法的基本思路是:建立人体深度数据库,学习人体特 像4的基本原理是每隔一定时间间隔向被测目标 征,通过特征匹配从相似样本中对人体深度进行估 发射信号并检测回波,从而确定距离。莫尔条纹技 计和优化。本文的方法不需要特殊的设备,也不需 术1风利用刻有高频等间距条纹的标尺光栅与指示 要对一个场景采集多幅不同角度的图像,仅仅通过 光栅相重叠,并且二者之间有一个很小的夹角时相 单摄像头采集的包含人体的图像,对人体深度进行 对运动形成低频莫尔条纹的原理。结构光法是近年 估计,从而建立单幅图像彩色信息到深度信息的映 来在激光逐点扫描法基础上发展起来的一种非接触 射,同时克服上述2种方法各自的缺点。为估计单 测量方法。它用激光线光源,经柱面镜产生平面光 幅图像的人体深度信息提供了新的思路。 照射在被测物上,在被测物上产生一条明亮的光带, 1 通过CCD摄像机摄入,经数字信号处理可获得光带 基于样本学习的人体深度估计 的数字图像,再经计算机处理即得物体在光切面上 本文提出的方法主要理论基础是基于特征统计 的二维轮廓信息,若进一步沿着第三维直线方向步 学习的方法,在建立的数据库中学习到所需要的重 进测量,就可获得目标的深度图像。国内外已有许 要信息,然后根据所学习到的知识,用机器学习的方 多方法采用结构光实现三维测量。Rioux、Haggren、 法估计出新来的目标的深度信息。这种方法首先需 Lorenz等发表了多种结构光单点测距系统。除了单 要通过学习,对数据库的每个目标进行特征提取,这 点法,Shirai和Will又采用了结构单线法。其他的 个特征可以是亮度、深度、纹理或者几何形状,然后 主动式传感器的方法还有接触式测量仪、工业CT、 对估计目标的亮度、深度、纹理、几何形状等特征各 变焦距法、三角法和干涉法等。上述主动式的方法 自建立概率函数,最后将测试目标与数据库中相似 都有一个共同的缺点:需要借助特殊的设备,估计深 目标的相似程度表示为概率大小,取概率最大的目 度信息需要还原成像场景。无法通过普通的摄像机 标深度作为估计的深度。 获得图像,对其估计深度信息。假如手头有一副图 基于机器学习的方法有如下优点:只要数据库 像,估计它的深度就需要通过特殊设备还原成像场 足够完备,任何和数据库目标一致的对象都能进行 景来对其估计深度。 深度估计,并且估计质量和效率都很高,很少需要人 相对于获取深度儿何信息的主动式方法,采用 工交互。这种重建技术最大的困难是建立完备的数 传统计算机视觉的方法获得深度信息的方法称为被 据库。此外,如果能在匹配特征上有更好的选择,估 动式方法,又称计算机立体视觉。立体视觉方法按 计的深度信息会更加准确。本文的方法主要是通过 需要的图像数目可分为3类:1)利用一副图像的图 单摄像头采集的单幅包含人体的图像,从已经建立 像理解方法[6];2)利用在2个不同的观察点获得 的数据库中学习到的知识,估计出单幅图像人体的 的同一景物的2幅图像恢复三维立体信息的双目立 深度信息。其中需要解决的问题有: 体视觉[&10:3)利用多个观察点获得多幅图像的多 1)数据库如何建立,包含哪些内容,需要根据 目立体视觉山。其中双目立体视觉)]直接模仿了 选择的匹配特征来决定; 人和许多动物通过双眼获得景物的深度信息的方 2)如何选择人体的部分特征作为学习和匹配 式,得到了更为深人的研究。Barardt3将立体视 的重要信息; 觉技术划分为6个部分,分别为图像获取、摄像机定 3)如何根据选择的人体部分特征在数据库中 标、特征提取、图像匹配、深度确定、内插。与Bar- 找到需要的信息: nard的划分方法不同,Dhond和Aggarward将立体视 4)找到了需要的信息后,如何根据这些信息, 觉技术分为3个主要步骤:预处理、匹配和深度信息 估计出单幅图像中人体的深度信息,并进行优化。 恢复56。计算机立体视觉虽然近年来应用越来 针对上述问题,本文设计了如图1所示的基于 越广泛,但是它们普遍存在的一个基本问题就是对 样例学习的人体深度信息估计算法基本流程,其核 一个场景景物的深度估计需要多幅图像,日常生活 心思想是:相同姿态的人在以同一个角度面对镜头 中往往不会对同一个场景拍摄不同角度的几幅图 拍摄图像,他们的人体的各个部分有大致相同的深 像,这就大大限制了它的应用范围。 度分布。换而言之,就是说具有相似轮廓的人体图 从单幅图像中恢复深度信息是计算机视觉领域 像,他们的人体各部分的相对深度也是相似的。这
取的基本任务就是利用光学、几何学等方法从二维图 像中估计出各物体之间以及同一物体不同部位之间 与摄像头的距离,从而估计出图像的深度信息。 深度 图像获取的方法可归纳为主动式深度传感器的方 法[1]和被动式计算机立体视觉的方法[2⁃3] 。 主动式深度传感器的方法主要是利用物理学和 光学等知识来获取深度图像。 激光雷达深度成 像[4⁃5]的基本原理是每隔一定时间间隔向被测目标 发射信号并检测回波,从而确定距离。 莫尔条纹技 术[1⁃2]利用刻有高频等间距条纹的标尺光栅与指示 光栅相重叠,并且二者之间有一个很小的夹角时相 对运动形成低频莫尔条纹的原理。 结构光法是近年 来在激光逐点扫描法基础上发展起来的一种非接触 测量方法。 它用激光线光源,经柱面镜产生平面光 照射在被测物上,在被测物上产生一条明亮的光带, 通过 CCD 摄像机摄入,经数字信号处理可获得光带 的数字图像,再经计算机处理即得物体在光切面上 的二维轮廓信息,若进一步沿着第三维直线方向步 进测量,就可获得目标的深度图像。 国内外已有许 多方法采用结构光实现三维测量。 Rioux、Haggren、 Lorenz 等发表了多种结构光单点测距系统。 除了单 点法,Shirai 和 Will 又采用了结构单线法。 其他的 主动式传感器的方法还有接触式测量仪、工业 CT、 变焦距法、三角法和干涉法等。 上述主动式的方法 都有一个共同的缺点:需要借助特殊的设备,估计深 度信息需要还原成像场景。 无法通过普通的摄像机 获得图像,对其估计深度信息。 假如手头有一副图 像,估计它的深度就需要通过特殊设备还原成像场 景来对其估计深度。 相对于获取深度几何信息的主动式方法,采用 传统计算机视觉的方法获得深度信息的方法称为被 动式方法,又称计算机立体视觉。 立体视觉方法按 需要的图像数目可分为 3 类:1)利用一副图像的图 像理解方法[6⁃7] ;2) 利用在 2 个不同的观察点获得 的同一景物的 2 幅图像恢复三维立体信息的双目立 体视觉[8⁃10] ;3)利用多个观察点获得多幅图像的多 目立体视觉[11] 。 其中双目立体视觉[12] 直接模仿了 人和许多动物通过双眼获得景物的深度信息的方 式,得到了更为深入的研究。 Barnard [13⁃14] 将立体视 觉技术划分为 6 个部分,分别为图像获取、摄像机定 标、特征提取、图像匹配、深度确定、内插。 与 Bar⁃ nard 的划分方法不同,Dhond 和 Aggarward 将立体视 觉技术分为 3 个主要步骤:预处理、匹配和深度信息 恢复[15⁃16] 。 计算机立体视觉虽然近年来应用越来 越广泛,但是它们普遍存在的一个基本问题就是对 一个场景景物的深度估计需要多幅图像,日常生活 中往往不会对同一个场景拍摄不同角度的几幅图 像,这就大大限制了它的应用范围。 从单幅图像中恢复深度信息是计算机视觉领域 的一个难点,需要考虑整幅图像的全局结构,也需要 利用关于场景的先验知识。 如何建立单幅图像彩色 信息到深度信息的映射,具有广泛的理论意义和很 好的应用价值。 针对上述前 2 个问题,提出了一个 基于样本学习的方法,通过单摄像头采集的一幅包 含人体的图像,对其中的人体深度进行估计。 该方 法的基本思路是:建立人体深度数据库,学习人体特 征,通过特征匹配从相似样本中对人体深度进行估 计和优化。 本文的方法不需要特殊的设备,也不需 要对一个场景采集多幅不同角度的图像,仅仅通过 单摄像头采集的包含人体的图像,对人体深度进行 估计,从而建立单幅图像彩色信息到深度信息的映 射,同时克服上述 2 种方法各自的缺点。 为估计单 幅图像的人体深度信息提供了新的思路。 1 基于样本学习的人体深度估计 本文提出的方法主要理论基础是基于特征统计 学习的方法,在建立的数据库中学习到所需要的重 要信息,然后根据所学习到的知识,用机器学习的方 法估计出新来的目标的深度信息。 这种方法首先需 要通过学习,对数据库的每个目标进行特征提取,这 个特征可以是亮度、深度、纹理或者几何形状,然后 对估计目标的亮度、深度、纹理、几何形状等特征各 自建立概率函数,最后将测试目标与数据库中相似 目标的相似程度表示为概率大小,取概率最大的目 标深度作为估计的深度。 基于机器学习的方法有如下优点:只要数据库 足够完备,任何和数据库目标一致的对象都能进行 深度估计,并且估计质量和效率都很高,很少需要人 工交互。 这种重建技术最大的困难是建立完备的数 据库。 此外,如果能在匹配特征上有更好的选择,估 计的深度信息会更加准确。 本文的方法主要是通过 单摄像头采集的单幅包含人体的图像,从已经建立 的数据库中学习到的知识,估计出单幅图像人体的 深度信息。 其中需要解决的问题有: 1)数据库如何建立,包含哪些内容,需要根据 选择的匹配特征来决定; 2)如何选择人体的部分特征作为学习和匹配 的重要信息; 3)如何根据选择的人体部分特征在数据库中 找到需要的信息; 4)找到了需要的信息后,如何根据这些信息, 估计出单幅图像中人体的深度信息,并进行优化。 针对上述问题,本文设计了如图 1 所示的基于 样例学习的人体深度信息估计算法基本流程,其核 心思想是:相同姿态的人在以同一个角度面对镜头 拍摄图像,他们的人体的各个部分有大致相同的深 度分布。 换而言之,就是说具有相似轮廓的人体图 像,他们的人体各部分的相对深度也是相似的。 这 ·162· 智 能 系 统 学 报 第 9 卷
第2期 何磊,等:单摄像头下基于样本学习的人体深度估计 ·163. 里所说的深度不是传统意义上的目标离摄像机光心 像的人体深度信息认为是相同的。当然,不是所有 的距离,这个相对深度的含义仅仅是指在人体上选 找到的样本都对目标图像估计准确,这也是为什么 取一个参考点,然后计算出的人体离参考点的距离。 要找一些候选样本,然后用全局优化的方法对他们 这个相对距离不受人体离摄像机距离的影响,把相 进行加权和内插的原因,而不是简单的利用这些样 同姿态的人体在离摄像机不同距离情况下所拍摄图 本的绝对深度信息。具体算法如算法1所示。 输人 人体轮廓 人体深度 图像 深度 候选 估计图像 GMM 估计 样本 方法 加权平均 ,习1 RGBD数据库 图1基于样例学习的人体深度信息估计算法基本流程 Fig.I The basic flow of the human body depth information estimation algorithm based on sample learning 算法1:基于样例学习的人体深度信息估计 坐标,:是轮廓上点的纵坐标,(x,y)就是所计算 输入:单幅RGB人体彩色图像: 的重心。得到重心以后,接下来计算出轮廓上各点 输出:人体深度图像。 到重心的距离,如式(3)所示: 1)给出一个目标图像,准确地分割出人体的轮 廓:2)在给定的RGBD数据库中,找到k个候选样 a:=√(x:-x)2+(y:-y) (3) 本,这k个候选样本一定是与目标图像在人体轮廓 式中:a:就是轮廓上点i到重心的距离,这样把轮廓 上最相似的k个:3)通过对k个候选样本的深度图 上所有的点到重心的距离计算出来得到如下一组距 像进行加权平均完成优化过程,得到估计的深度图 离向量:[a1a2a3…a]。 像。论文的第2、3和4部分分别对算法中的每个步 式中:T是轮廓上的总点数。然后在这个不定维数 骤进行描述。 的向量中均匀地选择N维,作为最后的特征向量: A=[aia2a…aw]。 2匹配特征 这里会遇到一个问题,就是轮廓上的点数T一 如何选择人体的部分特征作为匹配特征将直接 般不会刚好是N个点,有时候会多于N个,有时候 关系到实验结果的好坏。可以选择亮度、深度、纹 会比V个少,这时候用线性插值的方法,均匀的在 理、几何形状作为匹配特征。由于本文的方法是基 轮廓上取得N个点,计算出特征向量A。人体轮廓 于统计学的方法,认为单幅图像中人体各部位的深 特征提取如图2所示。 度最可能与数据库图像中人体姿态相似的那部分样 本中人体各部位的深度相似。所以就选择相应的轮 廓特征作为匹配的特征。 选择的轮廓特征是基于这样一个事实:在图像 中的人体如果具有相似的姿态,那么它们的人体轮 廓上各个点到它们重心的距离必然是相似的。那么 基于最直观的角度,可以首先分割出人的轮廓,然后 计算出人体的轮廓上各点到重心的距离,组成一个 N维的向量,那么这个N维的向量就是所提取出的 关于这个人体的轮廓信息。 假设人体的密度是均匀的,那么计算轮廓上各 个点的平均横坐标和平均纵坐标就是这个人体轮廓 图2人体轮廓特征提取 重心,计算公式如式(1)、(2)所示: Fig.2 The human body contour feature extraction x=∑x/n (1) y=∑y/n 3匹配最相似的样本 (2) ic8 式中:0是所有轮廓上点的集合,x:是轮廓上点的横 选择了轮廓特征作为匹配特征,通过线性内插 法选择轮廓上的N个点计算到重心的距离得到N
里所说的深度不是传统意义上的目标离摄像机光心 的距离,这个相对深度的含义仅仅是指在人体上选 取一个参考点,然后计算出的人体离参考点的距离。 这个相对距离不受人体离摄像机距离的影响,把相 同姿态的人体在离摄像机不同距离情况下所拍摄图 像的人体深度信息认为是相同的。 当然,不是所有 找到的样本都对目标图像估计准确,这也是为什么 要找一些候选样本,然后用全局优化的方法对他们 进行加权和内插的原因,而不是简单的利用这些样 本的绝对深度信息。 具体算法如算法 1 所示。 图 1 基于样例学习的人体深度信息估计算法基本流程 Fig.1 The basic flow of the human body depth information estimation algorithm based on sample learning 算法 1:基于样例学习的人体深度信息估计 输入:单幅 RGB 人体彩色图像; 输出:人体深度图像。 1)给出一个目标图像,准确地分割出人体的轮 廓;2)在给定的 RGBD 数据库中,找到 k 个候选样 本,这 k 个候选样本一定是与目标图像在人体轮廓 上最相似的 k 个;3)通过对 k 个候选样本的深度图 像进行加权平均完成优化过程,得到估计的深度图 像。 论文的第 2、3 和 4 部分分别对算法中的每个步 骤进行描述。 2 匹配特征 如何选择人体的部分特征作为匹配特征将直接 关系到实验结果的好坏。 可以选择亮度、深度、纹 理、几何形状作为匹配特征。 由于本文的方法是基 于统计学的方法,认为单幅图像中人体各部位的深 度最可能与数据库图像中人体姿态相似的那部分样 本中人体各部位的深度相似。 所以就选择相应的轮 廓特征作为匹配的特征。 选择的轮廓特征是基于这样一个事实:在图像 中的人体如果具有相似的姿态,那么它们的人体轮 廓上各个点到它们重心的距离必然是相似的。 那么 基于最直观的角度,可以首先分割出人的轮廓,然后 计算出人体的轮廓上各点到重心的距离,组成一个 N 维的向量,那么这个 N 维的向量就是所提取出的 关于这个人体的轮廓信息。 假设人体的密度是均匀的,那么计算轮廓上各 个点的平均横坐标和平均纵坐标就是这个人体轮廓 重心,计算公式如式(1)、(2)所示: x ˙ = ∑i∈θ xi / n (1) y ˙ = ∑i∈θ yi / n (2) 式中: θ 是所有轮廓上点的集合, xi 是轮廓上点的横 坐标, yi 是轮廓上点的纵坐标, ( x ˙ , y ˙ ) 就是所计算 的重心。 得到重心以后,接下来计算出轮廓上各点 到重心的距离,如式(3)所示: ai = (xi - x ˙ ) 2 + (yi - y ˙ ) 2 (3) 式中: ai 就是轮廓上点 i 到重心的距离,这样把轮廓 上所有的点到重心的距离计算出来得到如下一组距 离向量: [a1 a2 a3 … aT ] 。 式中: T 是轮廓上的总点数。 然后在这个不定维数 的向量中均匀地选择 N 维,作为最后的特征向量: A = a ′ 1 a ′ 2 a ′ 3 … a ′ N [ ] 。 这里会遇到一个问题,就是轮廓上的点数 T 一 般不会刚好是 N 个点,有时候会多于 N 个,有时候 会比 N 个少,这时候用线性插值的方法,均匀的在 轮廓上取得 N 个点,计算出特征向量 A 。 人体轮廓 特征提取如图 2 所示。 图 2 人体轮廓特征提取 Fig.2 The human body contour feature extraction 3 匹配最相似的样本 选择了轮廓特征作为匹配特征,通过线性内插 法选择轮廓上的 N 个点计算到重心的距离得到 N 第 2 期 何磊,等: 单摄像头下基于样本学习的人体深度估计 ·163·
.164 智能系统学报 第9卷 维向量A。接下来就是如何利用这个N维向量A 在数据库中找到与这个N维向量最相似的一些样 i=1,2…,K (6) 本。这是一个简单的问题,同样对数据库中的每个 1 样本都计算出这样一个N维向量。然后在这些个N i=….kd 维向量中找到一些与测试样本中的N维向量距离 式中:P是所估计的测试样本人体深度,P:是找 最小的N维向量,与这些找到的N维向量对应的样 到的最相似的k个样本中的第i个样本对应的深度 本就是和测试样本最相似的那些样本。由于每个N 信息,d是k个样本中第i个样本N维向量与测试 维向量中的各维大小不仅与人的轮廓有关,而且与 样本N维向量的距离。这个公式说明了轮廓距离 人离镜头的距离有密切相关,计算相似度的时候必 越小、越相似的样本,对应的深度信息在最后的估计 须把这一因素考虑在外。所以必须对这些N维向 结果中影响权值越大,反之影响权值越小。 量进行归一化,如式(4)所示: 5 实验结果及分析 A= A-min(a1,a2,a3,…,aw) 实验的目的是在建立的厦门大学深度数据库 -(4) 上,验证本文提出单摄像头下基于样本学习的人体 max(a1,a2,a3,…,aw)-min(a1,a2,a3,…,a 这样对N维向量规一化的过程相当于把人体 深度估计方法的有效性。本实验分为2个部分:1) 选择多组测试样本进行实验,根据后文中提出的评 离摄像机距离的因素考虑在外,N维向量的每个分 量大小只包含了人体的轮廓信息。那么,现在需要 价指标进行评价。2)对同一组测试样本设定不同 的k值,分别测得实验指标,说明k值对整个实验结 做的就是找到与测试样本中人体轮廓最相似的一些 果的影响。 样本。计算出测试样本对应N维向量与数据库中 5.1数据库的建立和评价指标 样本N维向量的距离来找到这些样本,如式(5): 由于本文所采用的方法比较新颖,所以无法使 d=A:-A (5) 用国际上实验所用的标准数据库,必须自己建立所 式中:d,是测试样本对应N维向量与第i个N维向 需要的数据库。 量之间的距离,A:是第i个样本对应的N维向量,A 如上文所述,数据库中的样本至少由如下部分 是测试样本的N维向量。然后把d:进行排序,找到 组成:一副RGB图像,与RGB对应的包含深度信息 最小的k个d:,与之对应的样本就是最相似的样 的图像,另一副对应的人体轮廓的图像。数据集的 本。一般认为距离越小,那么样本中人体的轮廓与 部分深度信息如图3所示。 测试样本中人体的轮廓越相似。 4深度估计与优化 通过提取测试样本中的轮廓信息,得出了一个 关于轮廓信息的N维向量,基于这个N维向量,通 过计算这个向量与数据库中各个样本的距离,找到 与测试样本人体轮廓最相似的k个样本,接下来根 据这k个样本的人体深度信息,来估计测试样本中 人体的深度信息。 一般认为在摄像头面前拥有相似轮廓的人体, (a)图例1 它们的姿态都是相似的,同时它们面对摄像机的角 度也是相似的,那么人体上的2点之间的相对深度 应该趋于一致,例如手相对于胸的距离在上述条件 下应该趋于一致。 所以基本可以得出一个结论就是在摄像头面前 人体轮廓越相似,那么它们人体各部分之间的相对 深度就越相似,比如同样姿势的人体,手到头、头到 胸、胸到脚之间的相对距离都是相似的。 到此为止可以给出一种最直观的估计测试样本 人体深度的一个方法,如式(6)所示: (b)图例2
维向量 A 。 接下来就是如何利用这个 N 维向量 A 在数据库中找到与这个 N 维向量最相似的一些样 本。 这是一个简单的问题,同样对数据库中的每个 样本都计算出这样一个 N 维向量。 然后在这些个 N 维向量中找到一些与测试样本中的 N 维向量距离 最小的 N 维向量,与这些找到的 N 维向量对应的样 本就是和测试样本最相似的那些样本。 由于每个 N 维向量中的各维大小不仅与人的轮廓有关,而且与 人离镜头的距离有密切相关,计算相似度的时候必 须把这一因素考虑在外。 所以必须对这些 N 维向 量进行归一化,如式(4)所示: A = A - min(a ′ 1,a ′ 2,a ′ 3,…,a ′ N) max a ′ 1,a ′ 2,a ′ 3,…,a ′ N ( ) - min(a ′ 1,a ′ 2,a ′ 3,…,a ′ N) (4) 这样对 N 维向量规一化的过程相当于把人体 离摄像机距离的因素考虑在外,N 维向量的每个分 量大小只包含了人体的轮廓信息。 那么,现在需要 做的就是找到与测试样本中人体轮廓最相似的一些 样本。 计算出测试样本对应 N 维向量与数据库中 样本 N 维向量的距离来找到这些样本,如式(5): di = Ai - A (5) 式中: di 是测试样本对应 N 维向量与第 i 个 N 维向 量之间的距离, Ai 是第 i 个样本对应的 N 维向量, A 是测试样本的 N 维向量。 然后把 di 进行排序,找到 最小的 k 个 di, 与之对应的样本就是最相似的样 本。 一般认为距离越小,那么样本中人体的轮廓与 测试样本中人体的轮廓越相似。 4 深度估计与优化 通过提取测试样本中的轮廓信息,得出了一个 关于轮廓信息的 N 维向量,基于这个 N 维向量,通 过计算这个向量与数据库中各个样本的距离,找到 与测试样本人体轮廓最相似的 k 个样本,接下来根 据这 k 个样本的人体深度信息,来估计测试样本中 人体的深度信息。 一般认为在摄像头面前拥有相似轮廓的人体, 它们的姿态都是相似的,同时它们面对摄像机的角 度也是相似的,那么人体上的 2 点之间的相对深度 应该趋于一致,例如手相对于胸的距离在上述条件 下应该趋于一致。 所以基本可以得出一个结论就是在摄像头面前 人体轮廓越相似,那么它们人体各部分之间的相对 深度就越相似,比如同样姿势的人体,手到头、头到 胸、胸到脚之间的相对距离都是相似的。 到此为止可以给出一种最直观的估计测试样本 人体深度的一个方法,如式(6)所示: Ptest = i =∑1,2…,K Pi 1 di i =∑1,2…,K 1 di (6) 式中: Ptest 是所估计的测试样本人体深度, Pi 是找 到的最相似的 k 个样本中的第 i 个样本对应的深度 信息, di 是 k 个样本中第 i 个样本 N 维向量与测试 样本 N 维向量的距离。 这个公式说明了轮廓距离 越小、越相似的样本,对应的深度信息在最后的估计 结果中影响权值越大,反之影响权值越小。 5 实验结果及分析 实验的目的是在建立的厦门大学深度数据库 上,验证本文提出单摄像头下基于样本学习的人体 深度估计方法的有效性。 本实验分为 2 个部分:1) 选择多组测试样本进行实验,根据后文中提出的评 价指标进行评价。 2) 对同一组测试样本设定不同 的 k 值,分别测得实验指标,说明 k 值对整个实验结 果的影响。 5.1 数据库的建立和评价指标 由于本文所采用的方法比较新颖,所以无法使 用国际上实验所用的标准数据库,必须自己建立所 需要的数据库。 如上文所述,数据库中的样本至少由如下部分 组成:一副 RGB 图像,与 RGB 对应的包含深度信息 的图像,另一副对应的人体轮廓的图像。 数据集的 部分深度信息如图 3 所示。 (a)图例 1 (b)图例 2 ·164· 智 能 系 统 学 报 第 9 卷
第2期 何磊,等:单摄像头下基于样本学习的人体深度估计 ·165- (c)图例3 (d)图例4 图3厦门大学深度数据库部分深度信息 Fig.3 Xiamen University depth section depth information database 因为需要深度信息,所以采集图像时需要用到 像D。和已知真值Do·之间的误差:lg误差,(Ig), kinect,在采集一副图像的时候同时得到对应的深度 |lg(Do)-lg(Do,)|,均方根误差(root mean square 信息。用图像分割的方法,分割出人体的部分,找到 人体的轮廓,以便匹配人体轮廓。 error,RMSE), (Do,-D)/N,相对误差 最后是样本采集的环境问题。采集的样本全部 是在室内的环境,由于室外环境复杂,kinect采集的 (relative error,REL), Dg-Dg·l Do 深度图像可能会出现很多噪声,导致深度信息不够 5.2结果及分析 准确影响实验结果。采集的样本必须包含人的全 第1部分实验是选择数据库里面的11组样本 身,暂时不考虑只有部分人体的条件。样本数量必 作为训练样本,然后剩下的4组作为测试样本。参 须足够,以便可以收集到人体在室内环境下的各种 数k为5固定不变。实验的输入为包含人体的彩色 姿态,保证估计图像的人体轮廓在数据库中总能找 图像,先通过预处理得到人体轮廓。预处理方法可 到非常相似的那些样本,这对实验结果至关重要。 以用GMMu&19]、Vibe[20]、S0Bs2、Codebook[2]等背 厦门大学深度库详细信息如表1所示。 景减除的方法,这里采用GMM。 实验必须在建立评价指标的基础上来说明本文 然后通过本文提出的方法估计出人体深度信 方法的有效性。由于在计算机视觉领域对人体深度 息。部分实验结果如图4所示。图4表示的是4组 信息的估计还没有标准的、公开可用的基准实验指 测试样本的部分实验结果,选择了几组包含不同人 标,所以设计了自己的基准实验评价指标。采用文 体姿态的测试样本进行说明。 献[17]中的评价方案来比较每一幅估计的深度图 (a) (b) (c) (d) (e) (f) 图4人体深度信息估计部分实验结果 Fig.4 The body part depth information estimation results 表1厦门大学表观深度图像数据集的统计信息 Table 1 Xiamen University statistics of apparent depth image data set 拍摄环境拍摄距离 包含信息 人数样本总数训练样本测试样本 人体RGB彩色和 室内 3-4m 15 18805 4288 14517 深度图像对
图 3 厦门大学深度数据库部分深度信息 Fig.3 Xiamen University depth section depth information database 因为需要深度信息,所以采集图像时需要用到 kinect,在采集一副图像的时候同时得到对应的深度 信息。 用图像分割的方法,分割出人体的部分,找到 人体的轮廓,以便匹配人体轮廓。 最后是样本采集的环境问题。 采集的样本全部 是在室内的环境,由于室外环境复杂,kinect 采集的 深度图像可能会出现很多噪声,导致深度信息不够 准确影响实验结果。 采集的样本必须包含人的全 身,暂时不考虑只有部分人体的条件。 样本数量必 须足够,以便可以收集到人体在室内环境下的各种 姿态,保证估计图像的人体轮廓在数据库中总能找 到非常相似的那些样本,这对实验结果至关重要。 厦门大学深度库详细信息如表 1 所示。 实验必须在建立评价指标的基础上来说明本文 方法的有效性。 由于在计算机视觉领域对人体深度 信息的估计还没有标准的、公开可用的基准实验指 标,所以设计了自己的基准实验评价指标。 采用文 献[17]中的评价方案来比较每一幅估计的深度图 像 DQ 和已知真值 DQ∗ 之间的误差: lg 误差, (lg) , lg DQ ( ) - lg(DQ∗ ) , 均方根误差(root mean square error, RMSE), ∑ N i = 1 (DQi - DQ∗i ) 2 / N ,相对误差 (relative error,REL), DQ - DQ∗ DQ∗ 。 5.2 结果及分析 第 1 部分实验是选择数据库里面的 11 组样本 作为训练样本,然后剩下的 4 组作为测试样本。 参 数 k 为 5 固定不变。 实验的输入为包含人体的彩色 图像,先通过预处理得到人体轮廓。 预处理方法可 以用 GMM [18⁃19] 、Vibe [20] 、SOBs [21] 、Codebook [22] 等背 景减除的方法,这里采用 GMM。 然后通过本文提出的方法估计出人体深度信 息。 部分实验结果如图 4 所示。 图 4 表示的是 4 组 测试样本的部分实验结果,选择了几组包含不同人 体姿态的测试样本进行说明。 图 4 人体深度信息估计部分实验结果 Fig.4 The body part depth information estimation results 表 1 厦门大学表观深度图像数据集的统计信息 Table 1 Xiamen University statistics of apparent depth image data set 拍摄环境 拍摄距离 包含信息 人数 样本总数 训练样本 测试样本 室内 3~ 4 m 人体 RGB 彩色和 深度图像对 15 18 805 4 288 14 517 第 2 期 何磊,等: 单摄像头下基于样本学习的人体深度估计 ·165·
·166 智能系统学报 第9卷 图4中第1行的图像是实验测试图像,第2 表3不同k值下的实验误差 行图像是实验所得测试图像的人体深度估计信 Table 3 The experimental error under different k values 息。从图4中可以看出,由前5个测试样本实验 lg RMSE REL 所得到的人体深度信息估计中,除了人体边缘 3 0.0106 945.7 6.9912×10- 部分的深度信息估计比较模糊,存在误差,其他 5 0.0143 1212.5 9.1310×10- 部分的深度信息估计的比较准确。因为虽然以 7 0.0166 1364.4 1.0378×10-6 人体轮廓作为匹配特征,但是由于相同姿态的 9 0.0183 1469.0 1.1281×10-6 人体轮廓特征总不可能完全相同,所以这就解 释了在人体边缘部分估计的深度信息有所误 6 结束语 差,而在其他剩余的部分深度信息比较准确的 文中提出了一种新的方法,利用单摄像头采集 问题。图4()的实验结果不甚理想,主要原因 的单幅图像估计出人体的深度,突破了传统的通过 是:这幅图像的人体姿态比较不常见,而在训练 特殊成像器材和多视图的方法来估计深度的范畴。 样本中没有类似人体姿态的样本能够匹配到, 从样本学习的角度出发,通过找到测试图像中人体 所以导致人体深度信息估计偏差较大,这也间 与数据库中的相似信息,从数据库已有的信息来估 接证明前文提出的一个观点:训练样本越多,包 计出人体的深度。通过实验也很好地验证了该方法 含的人体姿态越多,那么对人体深度信息的估 在简单的室内环境下的有效性。本文的实验在建立 计越准确,反之则相反。 的厦门大学深度数据库上完成的,数据库中人体的 4组测试样本的估计结果分别计算的log10, 姿态和面对摄像头的角度都是有限的,接下来的工 RMSE和REL误差如表2所示。4组测试样本分别 作主要集中于如何在原有的数据库上扩充样本数 包含865、1174、933、1316幅各种人体姿态的RGB 量,使得数据库包含的人体姿态更多,人体面对摄像 彩色图像。表2得到的是每组测试样本的评价误 头的角度更加丰富,环境更加复杂普遍。如何从更 差。可以从REL相对误差这一项看出,本文的方法 加广泛的数据库上验证方法的可行性和有效性,讨 对人体深度信息的估计很准确误差很小,这也符合 论数据库的完备性和在庞大的数据下建立一种快速 从图4得出的主观感受。 有效的检索匹配特征的方法,会是将来工作的重点 表24组测试样本的估计误差 Table 2 Four groups of test sample estimation error 和方向。 No. RMSE REL 参考文献: 1 0.01431212.5 9.1310×10-7 [1]NITZAN D,BRAIN A E,DUDA R O.The measurement 2 0.0211 1655.1 1.3208×10-6 and use of registered reflectance and range data in scene a- 3 0.0158 1285.9 9.9356×10- nalysis[J].Proceedings of the IEEE,1977,65(2):206- 4 0.0219 1818.5 1.3827×10-6 220. [2]LEWIS R A,Johnston A R.A scanning laser rangefinder for 最后通过对同一组测试样本设定不同的k值来 a robotic vehicle[C]//IJCAI.1977:762-768. 研究k值对实验结果的影响。分别计算测试样本在 [3]游素亚.立体视觉研究的现状与进展[J].中国图象图形 k值为3、5、7、9下的lg,RMSE和REL误差,如表3 学报:A辑.1997,2(1):17-24. 所示。从表3中可以看出,k值的变化对实验结果 YOU Suya.The present situation and progress in the study of 的影响并不大,不同的k值误差之间差别很小。但 stereo vision[].Journal of Image and Graphics:A,1977,2 (1):17-24. 是可以看出随着k的增大误差在缓慢变大,这并不 [4]HERSMAN M,GOODWIN F,KENYON S,et al.Coherent 难理解。由于k值的增大,匹配到的相似样本数越 laser radar application to 3D vision and metrology[C]//Proc 多,那么匹配到错误样本的几率就逐渐增大,有可能 of Vision 87 Conf.London,1987:465-579. 相似样本中有一些和测试样本的人体姿态并不相 [5]赵远,蔡喜平.成像激光雷达技术概述[J].激光与红外, 同,但是也被选择为相似样本,这就在后面的优化过 2000,30(6):328-330. 程中出现了误差。所以并不建议选择很大的k值, ZHAO Yuan,CAI Xiping.Imaging laser radar overview[J]. 一般选择5,在数据库样本充足的情况,可以适当的 Laser and Infrared,2000,30(6):328-330. 增大k值。 [6]HORN B K P.Shape from shading:a method for obtaining
图 4 中第 1 行的图像是实验测试图像,第 2 行图像是实验所得测试图像的人体深度估计信 息。 从图 4 中可以看出,由前 5 个测试样本实验 所得到的人 体 深 度 信 息 估 计 中,除 了 人 体 边 缘 部分的深度信息估计比较模糊,存在误差,其他 部分的深度信息估计的比较准确。 因为虽然以 人体轮廓作 为 匹 配 特 征,但 是 由 于 相 同 姿 态 的 人体轮廓特 征 总 不 可 能 完 全 相 同,所 以 这 就 解 释了在 人 体 边 缘 部 分 估 计 的 深 度 信 息 有 所 误 差,而在其他 剩 余 的 部 分 深 度 信 息 比 较 准 确 的 问题。 图 4( f) 的实验结果不甚理想,主要原因 是:这幅图像的人体姿态比较不常见,而在训练 样本中没有 类 似 人 体 姿 态 的 样 本 能 够 匹 配 到, 所以导致人 体 深 度 信 息 估 计 偏 差 较 大,这 也 间 接证明前文提出的一个观点:训练样本越多,包 含的人体姿 态 越 多,那 么 对 人 体 深 度 信 息 的 估 计越准确,反之则相反。 4 组测试样本的估计结果分别计算的 log 10, RMSE 和 REL 误差如表 2 所示。 4 组测试样本分别 包含 865、1174、933、1316 幅各种人体姿态的 RGB 彩色图像。 表 2 得到的是每组测试样本的评价误 差。 可以从 REL 相对误差这一项看出,本文的方法 对人体深度信息的估计很准确\误差很小,这也符合 从图 4 得出的主观感受。 表 2 4 组测试样本的估计误差 Table 2 Four groups of test sample estimation error No. lg RMSE REL 1 0.014 3 1 212.5 9.131 0×10 -7 2 0.021 1 1 655.1 1.320 8×10 -6 3 0.015 8 1 285.9 9.935 6×10 -7 4 0.021 9 1 818.5 1.382 7×10 -6 最后通过对同一组测试样本设定不同的 k 值来 研究 k 值对实验结果的影响。 分别计算测试样本在 k 值为 3、5、7、9 下的 lg,RMSE 和 REL 误差,如表 3 所示。 从表 3 中可以看出,k 值的变化对实验结果 的影响并不大,不同的 k 值误差之间差别很小。 但 是可以看出随着 k 的增大误差在缓慢变大,这并不 难理解。 由于 k 值的增大,匹配到的相似样本数越 多,那么匹配到错误样本的几率就逐渐增大,有可能 相似样本中有一些和测试样本的人体姿态并不相 同,但是也被选择为相似样本,这就在后面的优化过 程中出现了误差。 所以并不建议选择很大的 k 值, 一般选择 5,在数据库样本充足的情况,可以适当的 增大 k 值。 表 3 不同 k 值下的实验误差 Table 3 The experimental error under different k values k lg RMSE REL 3 0.010 6 945.7 6.991 2×10 -7 5 0.014 3 1 212.5 9.131 0×10 -7 7 0.016 6 1 364.4 1.037 8×10 -6 9 0.018 3 1 469.0 1.128 1×10 -6 6 结束语 文中提出了一种新的方法,利用单摄像头采集 的单幅图像估计出人体的深度,突破了传统的通过 特殊成像器材和多视图的方法来估计深度的范畴。 从样本学习的角度出发,通过找到测试图像中人体 与数据库中的相似信息,从数据库已有的信息来估 计出人体的深度。 通过实验也很好地验证了该方法 在简单的室内环境下的有效性。 本文的实验在建立 的厦门大学深度数据库上完成的,数据库中人体的 姿态和面对摄像头的角度都是有限的,接下来的工 作主要集中于如何在原有的数据库上扩充样本数 量,使得数据库包含的人体姿态更多,人体面对摄像 头的角度更加丰富,环境更加复杂普遍。 如何从更 加广泛的数据库上验证方法的可行性和有效性,讨 论数据库的完备性和在庞大的数据下建立一种快速 有效的检索匹配特征的方法,会是将来工作的重点 和方向。 参考文献: [1] NITZAN D, BRAIN A E, DUDA R O. The measurement and use of registered reflectance and range data in scene a⁃ nalysis[J]. Proceedings of the IEEE, 1977, 65( 2): 206⁃ 220. [2]LEWIS R A, Johnston A R. A scanning laser rangefinder for a robotic vehicle[C] / / IJCAI. 1977: 762⁃768. [3]游素亚.立体视觉研究的现状与进展[ J]. 中国图象图形 学报: A 辑, 1997, 2(1): 17⁃24. YOU Suya. The present situation and progress in the study of stereo vision[J]. Journal of Image and Graphics: A,1977, 2 (1): 17⁃24. [4]HERSMAN M, GOODWIN F, KENYON S, et al. Coherent laser radar application to 3D vision and metrology[C] / / Proc of Vision 87 Conf. London, 1987: 465⁃579. [5]赵远,蔡喜平.成像激光雷达技术概述[ J]. 激光与红外, 2000, 30(6): 328⁃330. ZHAO Yuan, CAI Xiping. Imaging laser radar overview[J]. Laser and Infrared, 2000, 30(6): 328⁃330. [6]HORN B K P. Shape from shading: a method for obtaining ·166· 智 能 系 统 学 报 第 9 卷
第2期 何磊,等:单摄像头下基于样本学习的人体深度估计 .167. the shape of a smooth opaque object from one view.AITR- [18]ZIVKOVIC Z.Improved adaptive Gaussian mixture model 232[R].Cambridge,USA:MIT Artificial Intelligence La- for background subtraction[C]//Proceedings of the 17th boratory,1970. International Conference on Pattern Recognition.S.1.], [7]WOODHAM R J.Photometric method for determining sur- 2004.2:28-31. face orientation from multiple images[J].Optical Engineer- [19]王亮,胡卫明,谭铁牛.人运动的视觉分析综述[J].计 img,1980,19(1):139-144. 算机学报,2002,25(3):225-237. [8]AKIMOTO T,SUENAGA Y,WALLACE R S.Automatic WANG Liang,HU Weiming,TanTieniu.People movement creation of 3D facial models[J].Computer Graphics and of the visual analysis overview[J].Chinese Journal of Com- Applications,1993,13(5):16-22. puter,2002,25(3):225-237. [9]CHEN C L,TAI C L,LIO Y F.Virtual binocular vision sys- [20]BARNICH O,VAN DROOGENBROECK M.ViBe:a uni- tems to solid model reconstruction J].The Intemational versal background subtraction algorithm for video sequences Journal of Advanced Manufacturing Technology,2007,35 [J].IEEE Transactions on Image Processing,2011,20 (3/4):379-384. (6):1709-1724. [10]隋婧,金伟其.双目立体视觉技术的实现及其进展[J]· [21]MADDALENA L,PETROSINO A.A self-organizing ap- 电子技术应用,2005,30(10):4-6. proach to background subtraction for visual surveillance ap- SUI Jing,JIN Weiqi.The realization of the binocular stereo plications[J].IEEE Transactions on Image Processing, vision technology and its progress[].Application of Elec- 2008,17(7):1168-1177. tronica Technology,2005,30(10):4-6. [22]KIM K,CHALIDABHONGSE T H,HARWOOD D,et al. [11]SEITZ S M,CURLESS B,DIEBEL J,et al.A comparison Real-time foreground-background segmentation using code- and evaluation of multi-view stereo reconstruction algo- book model[]]Real-time Imaging,2005,11(3):172- rithms[C]//2006 IEEE Computer Society Conference on 185. Computer Vision and Pattern Recognition.[S.1.]2006, 作者简介: 1:519-528. 何磊,男,1988年生,硕士研究生 [12]吴立德.计算机视觉[M].上海:复旦大学出版社,1993: 主要研究方向为图像处理、模式识别、 119-205. 计算机视觉。 [13]BARNARD S T,FISCHLER M A.Computational stereo [J].ACM Computing Surveys CSUR),1982,14(4) 553.572. 苏松志,1982年生,男,博士,助理 [14]LEMMENS M.A survey on stereo matching techniques[J]. 教授,主要研究方向为人体行为分析与 International Archives of Photogrammetry and Remote Sens- 理解。主持国家青年基金一项,主持省 ing,1988,27(B8):V11-V23. 青年基金一项,参与多项国家级基金项 [15]DHOND U R,AGGARWAL J K.Structure from stereo-a 目,发表学术论文多篇,其中被$CI检索 review[J].IEEE Transactions on Systems,Man and Cy- 7篇。 bernetics,1989,19(6):1489-1510. [16]MAYHEW J E W,FRISBY J P.Psychophysical and com- 李绍滋,1963年生,男,博士,教授, putational studies towards a theory of human stereopsis[. 博士生导师,福建省仿脑智能系统重点 Artificial Intelligence,1981,17(1):349-385. 实验室(厦门大学)副主任,福建省人工 [17]SAXENA A,SUN M,NG A Y.Make3d:learning 3d 智能学会副理事长兼秘书长,主要研究 scene structure from a single still image[J].IEEE Trans- 方向为运动目标检测与识别、机器学习 actions on Pattern Analysis and Machine Intelligence, 与计算机视觉、自然语言处理与多媒体 2009.31(5):824-840. 信息检索等。发表学术论文160余篇,其中被$CI检索16 篇,被EI检索142篇
the shape of a smooth opaque object from one view. AITR- 232[R]. Cambridge, USA: MIT Artificial Intelligence La⁃ boratory,1970. [7] WOODHAM R J. Photometric method for determining sur⁃ face orientation from multiple images[J]. Optical Engineer⁃ ing, 1980, 19(1): 139⁃144. [8] AKIMOTO T, SUENAGA Y, WALLACE R S. Automatic creation of 3D facial models [ J]. Computer Graphics and Applications, 1993, 13(5): 16⁃22. [ 9]CHEN C L, TAI C L, LIO Y F. Virtual binocular vision sys⁃ tems to solid model reconstruction [ J]. The International Journal of Advanced Manufacturing Technology, 2007, 35 (3 / 4): 379⁃384. [10]隋婧,金伟其.双目立体视觉技术的实现及其进展[ J]. 电子技术应用, 2005, 30(10): 4⁃6. SUI Jing, JIN Weiqi. The realization of the binocular stereo vision technology and its progress[J]. Application of Elec⁃ tronica Technology, 2005, 30(10): 4⁃6. [11]SEITZ S M, CURLESS B, DIEBEL J, et al. A comparison and evaluation of multi⁃view stereo reconstruction algo⁃ rithms[ C] / / 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [ S. l.], 2006, 1: 519⁃528. [12]吴立德.计算机视觉[M]. 上海:复旦大学出版社, 1993: 119⁃205. [13] BARNARD S T, FISCHLER M A. Computational stereo [J]. ACM Computing Surveys ( CSUR), 1982, 14( 4): 553⁃572. [14]LEMMENS M. A survey on stereo matching techniques[J]. International Archives of Photogrammetry and Remote Sens⁃ ing, 1988, 27(B8): V11⁃V23. [15]DHOND U R, AGGARWAL J K. Structure from stereo-a review[ J]. IEEE Transactions on Systems, Man and Cy⁃ bernetics, 1989, 19(6): 1489⁃1510. [16]MAYHEW J E W, FRISBY J P. Psychophysical and com⁃ putational studies towards a theory of human stereopsis[J]. Artificial Intelligence, 1981, 17(1): 349⁃385. [17] SAXENA A, SUN M, NG A Y. Make3d: learning 3d scene structure from a single still image[ J]. IEEE Trans⁃ actions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824⁃840. [18] ZIVKOVIC Z. Improved adaptive Gaussian mixture model for background subtraction [ C] / / Proceedings of the 17th International Conference on Pattern Recognition. [ S. l.], 2004, 2: 28⁃31. [19]王亮, 胡卫明, 谭铁牛. 人运动的视觉分析综述[J]. 计 算机学报, 2002, 25(3): 225⁃237. WANG Liang, HU Weiming, TanTieniu. People movement of the visual analysis overview[J]. Chinese Journal of Com⁃ puter, 2002, 25(3): 225⁃237. [20]BARNICH O, VAN DROOGENBROECK M. ViBe: a uni⁃ versal background subtraction algorithm for video sequences [J]. IEEE Transactions on Image Processing, 2011, 20 (6): 1709⁃1724. [21] MADDALENA L, PETROSINO A. A self⁃organizing ap⁃ proach to background subtraction for visual surveillance ap⁃ plications [ J]. IEEE Transactions on Image Processing, 2008, 17(7): 1168⁃1177. [22]KIM K, CHALIDABHONGSE T H, HARWOOD D, et al. Real⁃time foreground⁃background segmentation using code⁃ book model[J]. Real⁃time Imaging, 2005, 11( 3): 172⁃ 185. 作者简介: 何磊,男,1988 年生,硕士研究生, 主要研究方向为图像处理、模式识别、 计算机视觉。 苏松志,1982 年生,男,博士,助理 教授,主要研究方向为人体行为分析与 理解。 主持国家青年基金一项,主持省 青年基金一项,参与多项国家级基金项 目,发表学术论文多篇,其中被 SCI 检索 7 篇。 李绍滋,1963 年生,男,博士,教授, 博士生导师,福建省仿脑智能系统重点 实验室(厦门大学)副主任,福建省人工 智能学会副理事长兼秘书长,主要研究 方向为运动目标检测与识别、机器学习 与计算机视觉、自然语言处理与多媒体 信息检索等。 发表学术论文 160 余篇,其中被 SCI 检索 16 篇、被 EI 检索 142 篇。 第 2 期 何磊,等: 单摄像头下基于样本学习的人体深度估计 ·167·