计算机学报 Vol. 32 No. 5 2009年5月 CHINESE JOURNAL OF COMPU TERS May 2009 基于视频的人脸识别研究进展 章毓晋” (清华大学信息科学与技术国家实验室北京100084) 2)(清华大学电子工程系北京100084) 摘要近年来基于视频的人脸识别己成为人脸识别领域最为活跃的研究方向之一如何充分利用视频中人脸的 时间和空间信息克服视频中人脸分辨率低,尺度变化范围大,光照姿态变化比较剧烈以及时常发生遮挡等困难是 研究的重点文中对近期(主要近5年)基于视频的人脸识别研究进行了详细的介绍和讨论,在对相关方法分类的 基础上,分析了各类方法中典型技术的优缺点,并概况介绍了常用的视频人脸数据库和实验结果,最后展望了基于 视频人脸识别未来的发展方向和趋势 关键词模式识别;人脸识别;基于视频的人脸识别;进展 中图法分类号TP391 DOI号:10.3724/SP.J.1016.2009.00878 Sta te-of-the- Art on video based face recognition YAN Yan",2) ZHANG YuJ National Laboratory for Information Science and Technology, Tsinghua University, Beijing 100084) 2(Department of Electromic Engineering, Tsinghua University, Beijing 100084) Abstract Recently, video- based face reco gnition has become one of the hottest topics in the do- main of face recognition. How to fully utilize both spatial and temporal information in video to overcome the difficulties existing in the video- based face reco gnition, such as low resolution of face images in video, large variations of face scale, radical changes of illumination and pose as well as occasionally occlusion of different parts of faces, is the focus. The paper reviews most ex- isting typical methods for video- based face recognition(especially for the last 5 years)and analy- ses their respective pros and cons. Two co mmonly used video face data bases and some experime tal results are given. The prospects for future develop ment and suggestions for further research works are put forward in the end Key words pattern reco gnition; face recognition; video- based face recognition; progress 个领域也有着广泛的应用 1引言 圣过多年研究,人脸识别技术已取得了长足的进 步和发展随着视频监控、信息安全、访问控制等应用 人脸识别具有非常重大的理论意义和应用价领域的发展需求,基于视频的人脸识别已成为人脸识 值人脸识别的研究对于图像处理、模式识别、计算别领域最为活跃的研究方向之一4.如何充分利用 机视觉、计算机图形学等领域的发展具有重大的推视频中人脸的时间和空间信息克服视频中人脸分辨 动作用,同时在生物特征认证、视频监控、安全等各率低,尺度变化范围大,光照姿态变化剧烈以及时常 收稿日期2000903;最终修改稿收到日期:2009-04-06.本课题得到国家自然科学基金(60872084)和教育部高等学校博士学科点专项 科研基金( SREDP2006000102)资助严严,男,1984年生,博士,主要研究领域为人脸识别等章毓晋(通信作者),男,1954年生,博 士,教授,博士生导师,主要研究领域为图像工程(图像处理、图像分析、图像理解及其技术应用). Email: zhangye@ee. tsinghua. edu S1994-2009ChinaAcademicJOumaleLectronicpUblishingHouseAllrightsreservedhttp://www.cnki.net
第 32 卷 第 5 期 2009 年 5 月 计 算 机 学 报 CHIN ESE J OURNAL OF COMPU TERS Vol. 32 No. 5 May 2009 收稿日期 :2006209203 ;最终修改稿收到日期 :2009204206. 本课题得到国家自然科学基金(60872084) 和教育部高等学校博士学科点专项 科研基金(SRFDP220060003102) 资助. 严 严 ,男 ,1984 年生 ,博士 ,主要研究领域为人脸识别等. 章毓晋(通信作者) ,男 ,1954 年生 ,博 士 ,教授 ,博士生导师 ,主要研究领域为图像工程(图像处理、图像分析、图像理解及其技术应用) . E2mail : zhangyj @ee. tsinghua. edu. cn. 基于视频的人脸识别研究进展 严 严 1) ,2) 章毓晋 1) ,2) 1) (清华大学信息科学与技术国家实验室 北京 100084) 2) (清华大学电子工程系 北京 100084) 摘 要 近年来基于视频的人脸识别已成为人脸识别领域最为活跃的研究方向之一. 如何充分利用视频中人脸的 时间和空间信息克服视频中人脸分辨率低 ,尺度变化范围大 ,光照、姿态变化比较剧烈以及时常发生遮挡等困难是 研究的重点. 文中对近期(主要近 5 年) 基于视频的人脸识别研究进行了详细的介绍和讨论 ,在对相关方法分类的 基础上 ,分析了各类方法中典型技术的优缺点 ,并概况介绍了常用的视频人脸数据库和实验结果 ,最后展望了基于 视频人脸识别未来的发展方向和趋势. 关键词 模式识别 ;人脸识别 ;基于视频的人脸识别 ;进展 中图法分类号 TP391 DOI号 : 10. 3724/ SP.J. 1016. 2009. 00878 State2of2the2Art on Video2Based Face Recognition YAN Yan 1) ,2) ZHAN G Yu2Jin 1) ,2) 1) ( N ational L aboratory f or I nf ormation S cience and Technolog y , Tsinghua Universit y , Beijing 100084) 2) ( Department of Electronic Engineering , Tsinghua Universit y , Bei jing 100084) Abstract Recently , video2based face recognition has become one of the hottest topics in t he do2 main of face recognition. How to f ully utilize bot h spatial and temporal information in video to overcome the difficulties existing in t he video2based face recognition , such as low resolution of face images in video , large variations of face scale , radical changes of illumination and pose as well as occasionally occlusion of different parts of faces , is t he focus. The paper reviews most ex2 isting typical methods for video2based face recognition (especially for t he last 5 years) and analy2 ses t heir respective pros and cons. Two commonly used video face databases and some experimen2 tal results are given. The prospects for f ut ure development and suggestions for f urt her research works are p ut forward in the end. Keywords pattern recognition ; face recognition ; video2based face recognition ; progress 1 引 言 人脸识别具有非常重大的理论意义和应用价 值. 人脸识别的研究对于图像处理、模式识别、计算 机视觉、计算机图形学等领域的发展具有重大的推 动作用 ,同时在生物特征认证、视频监控、安全等各 个领域也有着广泛的应用. 经过多年研究 ,人脸识别技术已取得了长足的进 步和发展. 随着视频监控、信息安全、访问控制等应用 领域的发展需求 ,基于视频的人脸识别已成为人脸识 别领域最为活跃的研究方向之一[124 ] . 如何充分利用 视频中人脸的时间和空间信息克服视频中人脸分辨 率低 ,尺度变化范围大 ,光照、姿态变化剧烈以及时常
严等:基于视频的人脸识别研究进展 发生遮挡等困难是研究的重点.国内外众多的大学和“视频视频”人脸识别可以利用的信息最多.视频中 研究机构,如美国的MIT1、CMU、UIUC9、可以利用的信息包括:多幅同一个人的人脸图 Maryland大学H、英国的剑桥大学1、日本的像,视频中人脸在时间和空间上的连续性,利用视频 Toshi ba公司1和国内的中国科学院自动化生成的三维(3D)人脸模型等.需要强调的是本文这 所2都对基于视频的人脸识别进行了广泛而深入样分类的目的是为了能够对整个人脸识别领域的研 的研究鉴于目前现有的人脸识别国内外综述文献究现状有一个宏观上的认识,并区分不同情况下的 主要针对基于静止图像的人脸识别研究,因此有人脸识别.事实上不同情况下人脸识别采用的技术 必要对现阶段基于视频的人脸识别研究情况进行分可以是相同的,例如对所有人脸视频序列的处理是 析和总结,期望能够更好地指导未来的研究工作.按照某种规则(如大小、姿态清晰度等)提取一张人 脸图像,则上面的情况都可以采用基于静止图像的 2人脸识别概述 人脸识别技术 本文首先对现阶段基于视频的人脸识别研究现 个自动的基于视频的人脸识别系统包括了人状进行了详细的分析和讨论,接着介绍了常用的视 脸检测模块、人脸跟踪模块、人脸特征提取模块和人频人脸数据库和实验结果最后展望了未来的发展方 脸识别模块2.关于人脸检测、人脸跟踪和人脸特向本文假设已经得到图像或者视频中需识别人脸的 征提取的研究进展可以参考综述文献[-3]本文重位置对静止图像中人脸的定位可参见文献[2y24] 点介绍基于视频的人脸识别研究进展 对视频中人脸的定位和分割可参见文献[25 人脸识别问题可以定义成:输入(查询)场景中 的静止图像或者视频使用人脸数据库识别或验证3基于视频的人脸识别 场景中的一个人或者多个人21.基于静止图像的人 脸识别通常是指输入(查询)一幅静止的图像,使用 根据上一节的讨论,下面把基于视频的人脸识 人脸数据库进行识别或验证图像中的人脸而基于别分成“视频图像(多幅图像)”人脸识别和“视频 视频的人脸识别是指输入(查询)一段视频,使用人视频”人脸识别两种情况分别给予综述 脸数据库进行识别或验证视频中的人脸如不考虑3.1“视频图像(多幅图像)”人脸识别 视频的时间连续信息,问题也可以变成采用多幅图 “视频-图像(多幅图像)”人脸识别是指采用人 像(时间上不一定连续)作为输入(查询)进行识别或脸视频作为输入(查询)利用静止图像人脸数据库进 验证因此按照上面的分析,根据输入(查询)和人脸行识别或验证由于现有的大部分人脸数据库都是 数据库的不同,人脸识别可以分成如表1所示的静止图像人脸数据库,如何充分利用视频中的人脸 4种情况 信息更好地进行人脸识别是现阶段迫切需要解决的 表1输入(查询)和数据库不同情况下的人脸识别 识别方式 解决这类问题的传统做法128可以分成两大 数据库中图像(多幅图像)数据库中视频 类:一类方法对输入视频中的人脸进行跟踪,寻找满 输入(査询)图像图像-图像(多幅图像)图像视频 命入(査询)视频。视频-图像(多幅图像)视频视频 足一定规则(如大小、姿态清晰度等)的人脸图像,然 后利用基于静止图像的人脸识别方法.这类方法的 表中“图像图像(多幅图像)”人脸识别就是传缺点是规则很难定义,并且没有最大限度地利用人 统的基于静止图像的人脸识别.而“图像视频”脸视频中的时间和空间连续信息.另一类方法利用 人脸识别是指利用人脸图像作为输入采用视频人脸视频中的空间信息进行人脸识别通过对输入视频 数据库进行识别或验证.通常的应用领域是基于人中每一幅人脸或者若干幅人脸采用基于静止图像的 脸的视频信息检索.本文重点介绍的基于视频的人人脸识别方法3,利用各种联合规则(如多数投 脸识别主要是指后面两种情况,即“视频-图像(多幅票或者概率/距离累加等方法)再进行最终的识别 图像)”人脸识别和“视频视频”人脸识别.“视频图这类方法的缺点是联合规则常有相当的随机性 像(多幅图像)”人脸识别是指输入(查询)一段人脸 近年来,一些研究者开始利用视频中人脸的时 视频,利用静止图像人脸数据库进行识别或验证.间和空间连续信息进行识别文献[10]讨论了在贝 “视频视频”人脸识别是指输入和数据库都利用视叶斯理论的框架下统一解决人脸识别和跟踪问题, 频进行人脸识别或验证相对于前面3种情况,采用时间序列模型刻画人脸的动态变化,把身份变 C1994-2009ChinaAcademicJournalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
发生遮挡等困难是研究的重点. 国内外众多的大学和 研究机构 ,如美国的 MIT [ 5 ] 、CMU [627 ] 、U IUC [829 ] 、 Maryland 大学[10212 ] 、英国的剑桥大学[13215 ] 、日本的 Toshiba 公司[16218 ] 和国内的中国科 学院自动 化 所[19221 ]都对基于视频的人脸识别进行了广泛而深入 的研究. 鉴于目前现有的人脸识别国内外综述文献 主要针对基于静止图像的人脸识别研究[ 123 ] ,因此有 必要对现阶段基于视频的人脸识别研究情况进行分 析和总结 ,期望能够更好地指导未来的研究工作. 2 人脸识别概述 一个自动的基于视频的人脸识别系统包括了人 脸检测模块、人脸跟踪模块、人脸特征提取模块和人 脸识别模块[22 ] . 关于人脸检测、人脸跟踪和人脸特 征提取的研究进展可以参考综述文献[ 123 ]. 本文重 点介绍基于视频的人脸识别研究进展. 人脸识别问题可以定义成 : 输入 (查询) 场景中 的静止图像或者视频 ,使用人脸数据库识别或验证 场景中的一个人或者多个人[ 122 ] . 基于静止图像的人 脸识别通常是指输入 (查询) 一幅静止的图像 ,使用 人脸数据库进行识别或验证图像中的人脸. 而基于 视频的人脸识别是指输入 (查询) 一段视频 ,使用人 脸数据库进行识别或验证视频中的人脸. 如不考虑 视频的时间连续信息 ,问题也可以变成采用多幅图 像(时间上不一定连续) 作为输入(查询) 进行识别或 验证. 因此按照上面的分析 ,根据输入(查询) 和人脸 数据库的不同 ,人脸识别可以分成如表 1 所示的 4 种情况. 表 1 输入(查询)和数据库不同情况下的人脸识别 识别方式 数据库中图像(多幅图像) 数据库中视频 输入(查询) 图像 图像2图像(多幅图像) 图像2视频 输入(查询) 视频 视频2图像(多幅图像) 视频2视频 表中“图像2图像 (多幅图像) ”人脸识别就是传 统的基于静止图像的人脸识别[123 ] . 而“图像2视频” 人脸识别是指利用人脸图像作为输入采用视频人脸 数据库进行识别或验证. 通常的应用领域是基于人 脸的视频信息检索. 本文重点介绍的基于视频的人 脸识别主要是指后面两种情况 ,即“视频2图像(多幅 图像) ”人脸识别和“视频2视频”人脸识别.“视频2图 像(多幅图像) ”人脸识别是指输入 (查询) 一段人脸 视频 ,利用静止图像人脸数据库进行识别或验证. “视频2视频”人脸识别是指输入和数据库都利用视 频进行人脸识别或验证. 相对于前面 3 种情况 , “视频2视频”人脸识别可以利用的信息最多. 视频中 可以利用的信息包括[4 ] : 多幅同一个人的人脸图 像 ,视频中人脸在时间和空间上的连续性 ,利用视频 生成的三维(3D) 人脸模型等. 需要强调的是本文这 样分类的目的是为了能够对整个人脸识别领域的研 究现状有一个宏观上的认识 ,并区分不同情况下的 人脸识别. 事实上不同情况下人脸识别采用的技术 可以是相同的 ,例如对所有人脸视频序列的处理是 按照某种规则(如大小、姿态、清晰度等) 提取一张人 脸图像 ,则上面的情况都可以采用基于静止图像的 人脸识别技术. 本文首先对现阶段基于视频的人脸识别研究现 状进行了详细的分析和讨论 ,接着介绍了常用的视 频人脸数据库和实验结果 ,最后展望了未来的发展方 向.本文假设已经得到图像或者视频中需识别人脸的 位置.对静止图像中人脸的定位可参见文献[ 23224 ] , 对视频中人脸的定位和分割可参见文献[25 ]. 3 基于视频的人脸识别 根据上一节的讨论 ,下面把基于视频的人脸识 别分成“视频2图像 (多幅图像) ”人脸识别和“视频2 视频”人脸识别两种情况分别给予综述. 3. 1 “视频2图像(多幅图像) ”人脸识别 “视频2图像 (多幅图像) ”人脸识别是指采用人 脸视频作为输入(查询) 利用静止图像人脸数据库进 行识别或验证. 由于现有的大部分人脸数据库都是 静止图像人脸数据库 ,如何充分利用视频中的人脸 信息更好地进行人脸识别是现阶段迫切需要解决的 问题. 解决这类问题的传统做法[26228 ] 可以分成两大 类 :一类方法对输入视频中的人脸进行跟踪 ,寻找满 足一定规则(如大小、姿态、清晰度等)的人脸图像 ,然 后利用基于静止图像的人脸识别方法. 这类方法的 缺点是规则很难定义 ,并且没有最大限度地利用人 脸视频中的时间和空间连续信息. 另一类方法利用 视频中的空间信息进行人脸识别. 通过对输入视频 中每一幅人脸或者若干幅人脸采用基于静止图像的 人脸识别方法[123 ] ,利用各种联合规则[ 29 ] (如多数投 票或者概率/ 距离累加等方法) 再进行最终的识别. 这类方法的缺点是联合规则常有相当的随机性[4 ] . 近年来 ,一些研究者开始利用视频中人脸的时 间和空间连续信息进行识别. 文献[ 10 ]讨论了在贝 叶斯理论的框架下统一解决人脸识别和跟踪问题 , 采用时间序列模型刻画人脸的动态变化 ,把身份变 5 期 严 严等 :基于视频的人脸识别研究进展 879
880 量和运动矢量作为状态变量从而引进时间和空间的 上述方法中都采用贝叶斯理论引进了时间信 信息;利用序贯重要度采样( Sequential Importance息,极大地提高了识别率并且采用序贯重要度采样 Sampling,SIS)的方法有效估计出身份变量和运动克服非高斯分布和非线性系统带来的难以估计概率 矢量的联合后验概率分布,通过边缘化提取出身份密度的问题.但是估计概率密度需要大量的粒子,导 变量的概率分布.实验结果表明了该算法的有效性.致其计算量比较大 不过当姿态变化时识别率只有57%之所以出现姿3.2“视频视频”人脸识别 态变化时识别率低的原因是对时间连续性的利用体 ‘视频视频”人脸识别是指输入和数据库中的 现在人脸外观一致上,而随着光照或姿态的变化会人脸均是以视频的形式存在大量的文献对如何同 导致外观的明显不同因此文献[1进一步提出了时利用输入和数据库中的人脸视频进行了深入的研 自适应外观变化模型并且采用自适应运动模型更准究现有文献中对视频中人脸信息的描述方式总结 确地处理姿态的变化,对运动模型中噪声的方差和起来有下面几种 采样算法中的粒子数根据计算得到外观模型的误差 (1)利用一幅代表性的图像得到的特征(矢量 进行更新,采用鲁棒统计学( ro bust statistics)处理表示),如主成分分析(PCA)降维后的矢量等 脸部遮挡问题.利用基于贝叶斯人脸识别方法的 (2)利用所有图像得到的特征(矩阵表示),如 似然函数进行权重更新使得整个算法更加有效 特征空间示例( exemplar,)等 文献[3-32]通过对输入视频中人脸的脸部特 (3)利用概率密度函数刻画视频中的人脸分 征或外观的跟踪进行人脸验证基本思想是,如果是布,如高斯模型等 正确的输入(对应数据库中要验证的人脸),则跟踪 4)利用动态模型刻画视频中人脸随时间的动 的轨迹基本一致;而如果是不正确的输入,则跟踪态变化,如隐马尔可夫模型等 轨迹没有规律性相应的数学模型就是考虑所得到 (5)利用流形( manifold)刻画视频中的人脸分 的运动矢量分布,如果呈现尖峰(一致的运动参数)布,如分段线性PCA子空间等 则认为是正确的人脸.如果没有呈现尖峰,而是类似 上述各种描述方式(矢量矩阵、概率密度、动态 均匀分布,则认为是错误的人脸 模型、流形)之间可能的度量如表2所示 表2描述方式之间的度量 输入 量(y(数据库)矩阵亻ⅹ(数据库)概率密度(∫数据库)动态模型(D(数据库)流形(M(数据 矢量(x frx D(x M(X 矩阵(X I(X. X d(X. x M(X 概率密度(f fIx f(X d(. f 动态模型(D d(D, D) d(D, M) 表2中d代表两个模型之间的距离或相似度,基于视频的人脸验证方法,采用形状和归一化纹理 f(X,M(y代表概率/距离累加或多数投票,D(X的联合外观模型( Active Appearance Model,AAM) 代表各帧后验概率 来表示人脸,通过加入类别信息的改进线性鉴别分 下面按照对输入描述方式的不同,分成矢量矩析( Linear Discriminant Analysis,LDA)分离出身 阵、概率、动态模型、流形5个小节分别给予介绍 份变量( identity)和其他变化因素(姿态、光照和表 3.21矢量 情).采用卡尔曼滤波器( Kalman filter)对身份变量 利用矢量作为输入描述方式的基本思想是利用进行跟踪得到的稳定值就是身份稳定估计量.人脸 视频得到一个反映输入人脸视频特性(如均值人脸验证就可以通过对输入人脸视频进行跟踪得到的估 图像、最好的正面图像等)的特征(矢量表示),和数计量和数据库得到的身份估计量进行比较看是否大 据库中的人脸视频描述方式进行匹配.数据库中人于某个阈值来实现.与基于静止图像的人脸验证方 脸视频的描述方式可以是矢量、矩阵、概率、动态模法相比,采用基于视频的人脸验证能利用更多的信 型`流形等 息,效果更好.算法采用ASM( Active Shape Model) 文献[33]对数据库中的每类人脸建立一个进行人脸定位可以避免误配准带来的影响但是一 PCA子空间,利用与各个人脸子空间的距离对输入旦定位不准,则对后继的参数跟踪会产生很大的误 视频中的所有人脸进行标注文献[34]介绍了一种差,导致识别率下降.并且对于达到稳定估计值需要 c1994-2009ChinaAcademicJourmalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
量和运动矢量作为状态变量从而引进时间和空间的 信息 ;利用序贯重要度采样 (Sequential Importance Sampling ,SIS) 的方法有效估计出身份变量和运动 矢量的联合后验概率分布 ,通过边缘化提取出身份 变量的概率分布. 实验结果表明了该算法的有效性. 不过当姿态变化时识别率只有 57 %. 之所以出现姿 态变化时识别率低的原因是对时间连续性的利用体 现在人脸外观一致上 ,而随着光照或姿态的变化会 导致外观的明显不同. 因此文献[ 11 ]进一步提出了 自适应外观变化模型并且采用自适应运动模型更准 确地处理姿态的变化 ,对运动模型中噪声的方差和 采样算法中的粒子数根据计算得到外观模型的误差 进行更新 ,采用鲁棒统计学 (robust statistics) 处理 脸部遮挡问题. 利用基于贝叶斯人脸识别[30 ] 方法的 似然函数进行权重更新使得整个算法更加有效. 文献[31232 ]通过对输入视频中人脸的脸部特 征或外观的跟踪进行人脸验证. 基本思想是 ,如果是 正确的输入(对应数据库中要验证的人脸) ,则跟踪 的轨迹基本一致 ; 而如果是不正确的输入 ,则跟踪 轨迹没有规律性. 相应的数学模型就是考虑所得到 的运动矢量分布 ,如果呈现尖峰 (一致的运动参数) 则认为是正确的人脸. 如果没有呈现尖峰 ,而是类似 均匀分布 ,则认为是错误的人脸. 上述方法中都采用贝叶斯理论引进了时间信 息 ,极大地提高了识别率. 并且采用序贯重要度采样 克服非高斯分布和非线性系统带来的难以估计概率 密度的问题. 但是估计概率密度需要大量的粒子 ,导 致其计算量比较大. 3. 2 “视频2视频”人脸识别 “视频2视频”人脸识别是指输入和数据库中的 人脸均是以视频的形式存在. 大量的文献对如何同 时利用输入和数据库中的人脸视频进行了深入的研 究. 现有文献中对视频中人脸信息的描述方式总结 起来有下面几种 : (1) 利用一幅代表性的图像得到的特征 (矢量 表示) ,如主成分分析(PCA) 降维后的矢量等 ; (2) 利用所有图像得到的特征 (矩阵表示) ,如 特征空间、示例(exemplar) 等 ; (3) 利用概率密度函数刻画视频中的人脸分 布 ,如高斯模型等 ; (4) 利用动态模型刻画视频中人脸随时间的动 态变化 ,如隐马尔可夫模型等 ; (5) 利用流形 (manifold) 刻画视频中的人脸分 布 ,如分段线性 PCA 子空间等. 上述各种描述方式(矢量、矩阵、概率密度、动态 模型、流形) 之间可能的度量如表 2 所示. 表 2 描述方式之间的度量 输入 度量函数 矢量( x) (数据库) 矩阵( X) (数据库) 概率密度( f ) (数据库) 动态模型( D) (数据库) 流形( M) (数据库) 矢量( x) d( x , x) d( x , X) f ( x) D( x) M ( x) 矩阵( X) d( X, x) d( X, X) f ( X) D( X) M ( X) 概率密度( f ) f ( x) f ( X) d( f , f ) \ \ 动态模型( D) D( x) D( X) \ d( D , D) d( D , M) 流形( M) M ( x) M ( X) \ d( M , D) d( M , M) 表 2 中 d 代表两个模型之间的距离或相似度 , f ( X) , M ( X) 代表概率/ 距离累加或多数投票 , D ( X) 代表各帧后验概率. 下面按照对输入描述方式的不同 ,分成矢量、矩 阵、概率、动态模型、流形 5 个小节分别给予介绍. 31211 矢 量 利用矢量作为输入描述方式的基本思想是利用 视频得到一个反映输入人脸视频特性 (如均值人脸 图像、最好的正面图像等) 的特征 (矢量表示) ,和数 据库中的人脸视频描述方式进行匹配. 数据库中人 脸视频的描述方式可以是矢量、矩阵、概率、动态模 型、流形等. 文献 [ 33 ] 对数据库中的每类人脸建立一个 PCA 子空间 ,利用与各个人脸子空间的距离对输入 视频中的所有人脸进行标注. 文献[ 34 ]介绍了一种 基于视频的人脸验证方法 ,采用形状和归一化纹理 的联合外观模型(Active Appearance Model ,AAM) 来表示人脸 ,通过加入类别信息的改进线性鉴别分 析(Linear Discriminant Analysis ,LDA) 分离出身 份变量(identity) 和其他变化因素 (姿态、光照和表 情) . 采用卡尔曼滤波器 ( Kalman filter) 对身份变量 进行跟踪得到的稳定值就是身份稳定估计量. 人脸 验证就可以通过对输入人脸视频进行跟踪得到的估 计量和数据库得到的身份估计量进行比较看是否大 于某个阈值来实现. 与基于静止图像的人脸验证方 法相比 ,采用基于视频的人脸验证能利用更多的信 息 ,效果更好. 算法采用 ASM (Active Shape Model) 进行人脸定位可以避免误配准带来的影响. 但是一 旦定位不准 ,则对后继的参数跟踪会产生很大的误 差 ,导致识别率下降. 并且对于达到稳定估计值需要 880 计 算 机 学 报 2009 年
严等:基于视频的人脸识别研究进展 881 的视频长度无法计算和估计另一个借助视觉约束 文献[39]利用聚类的方法建立局部参数模型 的人脸跟踪和识别方法可见文献[35] 对数据库中的每个人脸建立多个局部流形首先对 3.2.2矩阵 数据库中的每段人脸视频经过LDA进行线性降 采用矩阵作为输入描述方式进行人脸识别的算维,通过采取 ISOMAP( Isometric feature Map 法可以分成两类,一类是利用得到的特征(矩阵表ping)提取各点的测地距离( geodesic distance)作 示)逐个与数据库中的人脸描述方式进行比较(相当为人脸之间的距离,从而可以更准确地刻画各点在 于每次取出矩阵的一行或者一列),然后利用多数投流形空间中的位置关系,然后采用HAC( Hierarch 票或者概率(距离)累加最大的方法进行识别.另一 cal Agglomerative Clustering)聚类方法得到K个 类是把得到的特征(矩阵表示)看成一个整体和数据示例,对每一示例采用类似文献[41的方法对每个 库中的人脸描述方式进行比较相对于前面一种方局部模型建立双子空间( dual subspace)概率模型 法,后者采用矩阵作为整体更能利用视频的空间连使用概率测度作为相似性度量,采用多数投票进行 续信息.数据库中人脸视频的描述方式可以是矢量、识别文献[6对每段人脸视频建立一个特征空间并 矩阵、概率、动态模型`流形等 把视频中人脸的变化看成一个非平稳的随机过程 文献[36]采用总体PCA方法进行降维,在低维(AR模型),采用逐步更新特征空间的方法并且引 空间中采用混合高斯模型( Gaussian Mixture model,进了权重的概念,对新的样本权重大,对以前的样本 GMM)来表示数据库中每个人脸通过计算输入视权重小该文中针对每个人脸建立两个特征空间,包 频中每一帧人脸的后验概率,采用多数投票和概率括训练集中的特征空间和识别后不断更新建立的新 累加最大的方法得到最终结果.文献[37]对数据库的特征空间来解决过慢学习的问题文献[4243利 的每类人脸建立多个匹配模板,并根据视频中的动用数据库中的人脸视频得到三维模型生成查询人脸 态的信息(如人脸姿态、运动模糊等)对多个模板进视频条件下的光照和姿态变化,然后逐一进行比对, 行自适应的融合文献[16]对输入的人脸序列和数用距离累计最大的方法得到识别结果 据库中的人脸序列分别建立一个PCA特征子空间,3.2.3概率 两个特征子空间之间的距离由它们之间的夹角确 采用概率作为输入描述形式的基本思想是把视 定为了进一步去除光照姿态、表情等的影响,把子频中人脸的动态变化看成是满足一定的概率分布的 空间重新投影到限制子空间( constraint subspace)高维随机变量.一般对数据库中视频的描述方式也 中,限制子空间只包含对识别有用的成分(身是概率方式,通过比较概率密度函数的相似性来度 份)1.为了解决限制子空间中需要大量样本的问量人脸之间相似性 题,进一步利用整体学习( ensemble learning)的方 文献[13].用GMM模型学习不同姿态和光 法训练出M个限制子空间,通过投影到这M个限照条件下的人脸分布,对输入人脸视频和数据库中 制子空间的距离加权和作为人脸之间距离的度的人脸视频都利用GMM模型进行建模,采用KL 量1.该类算法的主要缺点在于没有考虑每一类人散度( Kull back- Leibler divergence作为人脸之间相 脸的整体概率分布,没有利用每一类的均值和特征似性度量文献[5]把人脸识别问题看成是一个假设 值,在投影到限制子空间时可能会产生一定的问题,检验问题,证明了如果人脸视频中每一帧之间是相 并且参数的设定和空间维数都需要通过经验给出.互独立的,则得到的最优准则是KL散度.假设每 由于人脸在姿态光照、表情变化时呈现非线性个人脸服从高斯分布,采用KL散度作为相似性度 分布,文献[38在线性空间中通过核的方法映射到量但是由于假设是单高斯分布,因此无法刻画由于 高维的非线性空间(核 Hil bert空间),在高维空间光照或者是姿态变化导致人脸呈现流形的情况,并且 中的夹角(核主成分夹角)作为矩阵的相似性度量,KL散度本身是一种非对称的度量方式文献[4 并且利用正定的核函数就可以和SvM( Support用基于核函数方法把低维空间映射到高维空间,这 Vector machine)结合起来提高分类的性能.文献样就可以在高维空间中利用低维空间中的线性方法 [1920首先通过LDA进行线性降维,然后对每个(如PCA)来解决一般的复杂的非线性问题,采用 人的人脸视频通过矢量量化技术或者K均值聚类RAD( Resistor Average Distance)作为人脸相似性 形成K个类别,每个类别用聚类中心和聚类的权重度量.为了解决配准误差所带来的识别率下降的问 来表示最后采用EMD( Earth mover' s Distance)题,利用了多幅图像和 RANSAC( Random Sample 距离作为相似性度量进行人脸识别 Consensus)算法来解决.另外文献[44]利用了核的 C1994-2009ChinaAcademicJOunalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
的视频长度无法计算和估计. 另一个借助视觉约束 的人脸跟踪和识别方法可见文献[35 ]. 3. 2. 2 矩 阵 采用矩阵作为输入描述方式进行人脸识别的算 法可以分成两类 ,一类是利用得到的特征 (矩阵表 示) 逐个与数据库中的人脸描述方式进行比较(相当 于每次取出矩阵的一行或者一列) ,然后利用多数投 票或者概率(距离) 累加最大的方法进行识别. 另一 类是把得到的特征(矩阵表示) 看成一个整体和数据 库中的人脸描述方式进行比较. 相对于前面一种方 法 ,后者采用矩阵作为整体更能利用视频的空间连 续信息. 数据库中人脸视频的描述方式可以是矢量、 矩阵、概率、动态模型、流形等. 文献[36 ]采用总体 PCA 方法进行降维 ,在低维 空间中采用混合高斯模型( Gaussian Mixture Model , GMM) 来表示数据库中每个人脸. 通过计算输入视 频中每一帧人脸的后验概率 ,采用多数投票和概率 累加最大的方法得到最终结果. 文献[ 37 ]对数据库 的每类人脸建立多个匹配模板 ,并根据视频中的动 态的信息(如人脸姿态、运动模糊等) 对多个模板进 行自适应的融合. 文献[ 16 ]对输入的人脸序列和数 据库中的人脸序列分别建立一个 PCA 特征子空间 , 两个特征子空间之间的距离由它们之间的夹角确 定. 为了进一步去除光照、姿态、表情等的影响 ,把子 空间重新投影到限制子空间 (constraint subspace) 中 , 限制子空 间只包含 对识别有 用的成 分 (身 份) [17 ] . 为了解决限制子空间中需要大量样本的问 题 ,进一步利用整体学习 (ensemble learning) 的方 法训练出 M 个限制子空间 ,通过投影到这 M 个限 制子空间的距离加权和作为人脸之间距离的度 量[18 ] . 该类算法的主要缺点在于没有考虑每一类人 脸的整体概率分布 ,没有利用每一类的均值和特征 值 ,在投影到限制子空间时可能会产生一定的问题 , 并且参数的设定和空间维数都需要通过经验给出. 由于人脸在姿态、光照、表情变化时呈现非线性 分布 ,文献[ 38 ]在线性空间中通过核的方法映射到 高维的非线性空间 (核 Hilbert 空间) ,在高维空间 中的夹角(核主成分夹角) 作为矩阵的相似性度量 , 并且利用正定的核函数就可以和 SVM (Support Vector Machine) 结合起来提高分类的性能. 文献 [19220 ]首先通过 LDA 进行线性降维 ,然后对每个 人的人脸视频通过矢量量化技术或者 K 均值聚类 形成 K 个类别 ,每个类别用聚类中心和聚类的权重 来表示. 最后采用 EMD ( Eart h Mover’s Distance) 距离作为相似性度量进行人脸识别. 文献[ 39 ]利用聚类的方法建立局部参数模型 , 对数据库中的每个人脸建立多个局部流形. 首先对 数据库中的每段人脸视频经过 LDA 进行线性降 维 ,通 过 采 取 ISOMA P ( Isometric feat ure Map2 ping) [ 40 ]提取各点的测地距离(geodesic distance) 作 为人脸之间的距离 ,从而可以更准确地刻画各点在 流形空间中的位置关系 ,然后采用 HAC( Hierarchi2 cal Agglomerative Clustering) 聚类方法得到 K 个 示例 ,对每一示例采用类似文献[ 41 ]的方法对每个 局部模型建立双子空间 ( dual subspace) 概率模型 , 使用概率测度作为相似性度量 ,采用多数投票进行 识别. 文献[ 6 ]对每段人脸视频建立一个特征空间并 把视频中人脸的变化看成一个非平稳的随机过程 (AR 模型) ,采用逐步更新特征空间的方法并且引 进了权重的概念 ,对新的样本权重大 ,对以前的样本 权重小. 该文中针对每个人脸建立两个特征空间 ,包 括训练集中的特征空间和识别后不断更新建立的新 的特征空间来解决过慢学习的问题. 文献[ 42243 ]利 用数据库中的人脸视频得到三维模型生成查询人脸 视频条件下的光照和姿态变化 ,然后逐一进行比对 , 采用距离累计最大的方法得到识别结果. 3. 2. 3 概 率 采用概率作为输入描述形式的基本思想是把视 频中人脸的动态变化看成是满足一定的概率分布的 高维随机变量. 一般对数据库中视频的描述方式也 是概率方式 ,通过比较概率密度函数的相似性来度 量人脸之间相似性. 文献[ 13 ]采用 GMM 模型学习不同姿态和光 照条件下的人脸分布 ,对输入人脸视频和数据库中 的人脸视频都利用 GMM 模型进行建模 ,采用 K2L 散度( Kullback2Leibler divergence) 作为人脸之间相 似性度量. 文献[ 5 ]把人脸识别问题看成是一个假设 检验问题 ,证明了如果人脸视频中每一帧之间是相 互独立的 ,则得到的最优准则是 K2L 散度. 假设每 个人脸服从高斯分布 ,采用 K2L 散度作为相似性度 量.但是由于假设是单高斯分布 ,因此无法刻画由于 光照或者是姿态变化导致人脸呈现流形的情况 ,并且 K2L 散度本身是一种非对称的度量方式. 文献[14 ]采 用基于核函数方法把低维空间映射到高维空间 ,这 样就可以在高维空间中利用低维空间中的线性方法 (如 PCA) 来解决一般的复杂的非线性问题 ,采用 RAD (Resistor2Average Distance) 作为人脸相似性 度量. 为了解决配准误差所带来的识别率下降的问 题 ,利用了多幅图像和 RANSAC ( Random Sample Consensus) 算法来解决. 另外文献[ 44 ]利用了核的 5 期 严 严等 :基于视频的人脸识别研究进展 881
方法,把原来的矢量空间映射到高维非线性空间很好地处理人脸的大规模旋转时的识别和跟踪问 RKHS( Reproducing Kernel Hilbert Space)中计算题.文献[21首先对所有的人脸利用LLE( Locally 概率分布之间的距离 Linear Embedding)降维后建立整体分段线性模型, 3.2.4动态模型 根据到各个分段子流形的距离采用贝叶斯推理的方 无论是矢量、矩阵和概率都没有利用时间连续法计算最大后验概率.在文献[45]中作者通过实验 的信息,所以可以自然地推广到多幅人脸图像(时间结果指出,利用时空结构的HMM大于一定长度 上不必连续)作为输入时的人脸识别问题.而动态模时要优于基于静止图像的多数投票方法,但是当视 型则利用了人脸的时间和空间连续变化的信息,能频的长度过短时则不一定这说明时间长短对动态 够更好地刻画人脸的动态变化特性数据库通常的模型的识别率会有一定影响 描述方式可以是矩阵、动态模型、流形 3.2.5流形 文献[10]中采用31节中介绍的概率模型,通 人脸在不同的光照、姿态变化下会构成一个的 过自动选择人脸视频中的示例(在线K均值聚类),低维空间的流形.所以利用流形作为输入描述 把人脸示例的索引也作为状态变量,采用SIS的方可以更好地描述人脸的分布.一般对数据库中的人 法估计出联合概率密度分布,最后通过边缘化求出脸采用同样的描述方法比较输入和数据库中流形 身份变量的分布进行人脸识别文献[71中对数据库的相似性作为度量 中的每段人脸视频采用PCA变换建立了特征子空 文献[4749]使用流形来解决基于视频的人脸 间,在特征子空间中建立一个自适应隐马尔可夫模型识别问题,首先建立了一个多视角动态人脸模型,包 ( Hidden markov model,HMM),识别阶段就可以计含了一个3D模型,一个和形状姿态无关的纹理模 算每个识别序列的后验概率作为相似性度量,并且当型,一个仿射变化模型.其基本思想是基于分析的合 满足一定条件时对HMM模型进行更新文献[12]把成,通过最小化损失函数,求解出模型的参数在视 运动人脸建模成一个ARMA( Auto- Regressive and频序列中该问题可以进一步简化,利用 Kalman滤 Moving average)模型(用姿态作为状态量,采用外波求解出形状和纹理.人脸纹理通过KDA( Kernel 观作为观测量),采用ARMA子空间之间的夹角作 Discriminant Analysis)降维后对单个人脸序列建立 为相似性度量 个分段的线性流形(特征矢量随着姿态的变化) 文献[8-9]和文献[10]的想法类似,认为应该把接着就可以通过比较轨迹的匹配程度进行人脸识 跟踪和识别结合起来,减少跟踪的误配准对识别的别但是要进行3D模型的估计需要大量的多视角 影响对不同姿态下的人脸构造一个低维分段线性图像,计算复杂度较大 流形为了引进时间信息,采用贝叶斯推理的方法 有文献中的典型算法总结如表3所示 建立了不同姿态之间的转移矩阵,该文的算法能够 表3典型的“视频视频”人脸识别的方法 度量方法 典型文 PCA特征子空间 重构误差d(x,X 文献/33J LDA降维后跟踪得到身份稳定估计量 欧式距离d(x,y 混合高斯模型 多数投票/概率累加f(X PCA特征子空间 子空间夹角dx,y 文献/16-18 核 Hilbert空 核主成分角d(X,X 文献/37J 矢量量化/K均值聚类得到示例 emd d(X. x 文献/19-20J 每个人脸由多个局部模型组成 每个局部模型建立双子空间概率模型 多数投票f(X 文献/38 两个PCA特征子空间 多数投票d(X.y 文献6J 3D模型得到的合成人脸图像 距离累加d(X,y 文献/42J 概率 混合高斯模型 KL测度d(f,f 文献137 单高斯模型 KL测度d(, 文献/5 概率 核PCA建立的单高斯模型 RAD测度d(f,f 文献/14J 动态模型 在线K均值聚类得到示例 最大后验概率D(y 文献/10 动态模型 隐马尔可夫(HMM模型 最大后验概率d(D,D) 文献/7 动态模型 自回归滑动平均(ARMA模型 ARMA子空间夹角d(D,D 动态模型 PCA子空间内分段线性流 最大后验概率d(D.M 文献/8-97 动态模型 LLE降维后分段线性流形 最大后验概率dD,M 文献/21 流形 KDA降维后分段线性流形 轨迹匹配dMM 文献/47-491 91994-2009chinaAcademicJournalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
方法 ,把原来的矢量空间映射到高维非线性空间 R KHS(Rep roducing Kernel Hilbert Space) 中计算 概率分布之间的距离. 3. 2. 4 动态模型 无论是矢量、矩阵和概率都没有利用时间连续 的信息 ,所以可以自然地推广到多幅人脸图像(时间 上不必连续) 作为输入时的人脸识别问题. 而动态模 型则利用了人脸的时间和空间连续变化的信息 ,能 够更好地刻画人脸的动态变化特性. 数据库通常的 描述方式可以是矩阵、动态模型、流形. 文献[ 10 ]中采用 311 节中介绍的概率模型 ,通 过自动选择人脸视频中的示例(在线 K 均值聚类) , 把人脸示例的索引也作为状态变量 ,采用 SIS 的方 法估计出联合概率密度分布 ,最后通过边缘化求出 身份变量的分布进行人脸识别. 文献[7 ]中对数据库 中的每段人脸视频采用 PCA 变换建立了特征子空 间 ,在特征子空间中建立一个自适应隐马尔可夫模型 ( Hidden Markov Model , HMM) ,识别阶段就可以计 算每个识别序列的后验概率作为相似性度量 ,并且当 满足一定条件时对 HMM 模型进行更新. 文献[12 ]把 运动人脸建模成一个 ARMA (Auto2Regressive and Moving Average) 模型(用姿态作为状态量 ,采用外 观作为观测量) ,采用 ARMA 子空间之间的夹角作 为相似性度量. 文献[ 829 ]和文献[10 ]的想法类似 ,认为应该把 跟踪和识别结合起来 ,减少跟踪的误配准对识别的 影响. 对不同姿态下的人脸构造一个低维分段线性 流形. 为了引进时间信息 ,采用贝叶斯推理的方法 , 建立了不同姿态之间的转移矩阵 ,该文的算法能够 很好地处理人脸的大规模旋转时的识别和跟踪问 题. 文献[ 21 ]首先对所有的人脸利用 LL E (Locally Linear Embedding) 降维后建立整体分段线性模型 , 根据到各个分段子流形的距离采用贝叶斯推理的方 法计算最大后验概率. 在文献[ 45 ]中作者通过实验 结果指出 ,利用时空结构的 HMM [7 ] 大于一定长度 时要优于基于静止图像的多数投票方法 ,但是当视 频的长度过短时则不一定. 这说明时间长短对动态 模型的识别率会有一定影响. 3. 2. 5 流 形 人脸在不同的光照、姿态变化下会构成一个的 低维空间的流形[39 ,46 ] . 所以利用流形作为输入描述 可以更好地描述人脸的分布. 一般对数据库中的人 脸采用同样的描述方法. 比较输入和数据库中流形 的相似性作为度量. 文献[ 47249 ]使用流形来解决基于视频的人脸 识别问题 ,首先建立了一个多视角动态人脸模型 ,包 含了一个 3D 模型 ,一个和形状姿态无关的纹理模 型 ,一个仿射变化模型. 其基本思想是基于分析的合 成 ,通过最小化损失函数 ,求解出模型的参数. 在视 频序列中该问题可以进一步简化 ,利用 Kalman 滤 波求解出形状和纹理. 人脸纹理通过 KDA ( Kernel Discriminant Analysis) 降维后对单个人脸序列建立 一个分段的线性流形 (特征矢量随着姿态的变化) . 接着就可以通过比较轨迹的匹配程度进行人脸识 别. 但是要进行 3D 模型的估计需要大量的多视角 图像 ,计算复杂度较大. 现有文献中的典型算法总结如表 3 所示. 表 3 典型的“视频2视频”人脸识别的方法 输入描述 数据库中人脸的描述 度量方法 典型文献 矢量 PCA 特征子空间 重构误差 d( x , X) 文献[33 ] 矢量 LDA 降维后跟踪得到身份稳定估计量 欧式距离 d( x , x) 文献[34 ] 矩阵 混合高斯模型 多数投票/ 概率累加 f ( X) 文献[35 ] 矩阵 PCA 特征子空间 子空间夹角 d( X, X) 文献[16218 ] 矩阵 核 Hilbert 空间 核主成分角 d( X, X) 文献[37 ] 矩阵 矢量量化/ K2均值聚类得到示例 EMD d( X, X) 文献[19220 ] 矩阵 每个人脸由多个局部模型组成 每个局部模型建立双子空间概率模型 多数投票 f ( X) 文献[38 ] 矩阵 两个 PCA 特征子空间 多数投票 d( X, X) 文献[6 ] 矩阵 3D 模型得到的合成人脸图像 距离累加 d( X, X) 文献[42 ] 概率 混合高斯模型 K2L 测度 d ( f , f ) 文献[13 ] 概率 单高斯模型 K2L 测度 d ( f , f ) 文献[5 ] 概率 核 PCA 建立的单高斯模型 RAD 测度 d( f , f ) 文献[14 ] 动态模型 在线 K 均值聚类得到示例 最大后验概率 D( X) 文献[10 ] 动态模型 隐马尔可夫( HMM) 模型 最大后验概率 d( D , D) 文献[7 ] 动态模型 自回归滑动平均(ARMA) 模型 ARMA 子空间夹角 d( D , D) 文献[12 ] 动态模型 PCA 子空间内分段线性流形 最大后验概率 d( D , M) 文献[829 ] 动态模型 LL E 降维后分段线性流形 最大后验概率 d( D , M) 文献[21 ] 流形 KDA 降维后分段线性流形 轨迹匹配 d( M , M) 文献[47249 ] 882 计 算 机 学 报 2009 年
严严等基于视频的人脸识别研究进展 883 3.3小结 表4视频人脸数据库上典型方法的实验结果 综上可以看出“视频图像(多幅图像)”人脸识 别和“视频视频”人脸识别研究的主要问题包括 (1)如何对高维的人脸图像降维 PCA(多数投票)87.1%(MoBo) 文献[44] (2)如何对降维后的人脸序列进行描述 LDA(多数投票) 90.8%(MoBo) 文献[44 (3)如何刻画描述方式之间的度量 人脸数据降维的目的是得到表达性特征(如主隐马尔可夫模型23%0M 91.2 %(Honda/UCSD) 文献[44 成分分析等)或鉴别性特征(如线性鉴别分析等)以基于贝叶斯框架的g2%以上(MB) 文献[10 降低高维人脸数据的计算复杂度和减弱噪声、表情、 光照等因素的影响.对各种常见线性和非线性的 率外观流形法988%无遮挡)( Honda/ UCSD) 概 978%6(有遮挡)( Honda uc 降维方法研究的介绍可参考文献[51l ARMA模型 90%左右( Honda/UCSD) 文献[2L 现阶段对降维后的人脸序列描述方式包括矢 混合高斯模型94% 文献[3L 局部线性模型95.6% 文献[21L 量、矩阵、概率、动态模型、流形等.其中采用概率和 流形的方法需要大量反映人脸分布的样本才能更准 确地刻画人脸的分布达到较好的性能利用动态模5总结和展望 型能够很好地利用时间和空间的信息,但是方法相 对比较复杂,计算量一般都比较大而利用矢量作为 本文介绍了现阶段基于视频的人脸识别研究进 输入描述方式的主要缺点是样本选取的随机性矩展在对人脸识别不同情况分类的基础上,重点介绍 阵方式最为简单,并且可以应用到时间上不连续的了现阶段基于视频的人脸识别的主要方法,分析和 多幅图像情况,但如何更好地刻画矩阵之间的度量讨论了各种方法的优缺点,还介绍了常用的视频人 是一个值得研究的内容 脸数据库及一些典型方法的实验结果 现阶段基于视频的人脸识别一般都是把人脸视 4常用的视频人脸数据库及 频看成一个整体来克服分辨率低的问题.对于光 些实验结果 照或者姿态的单独变化可以通过矩阵、概率或者流 形的方式部分解决3,但是需要不同条件下的大 目前基于视频的人脸识别常用的视频人脸数据量的训练样本对于遮挡问题可以采用鲁棒统计 库包括Mobo( Motion of body)数据库21和 Honda学或者对脸部的分块处理s来解决 UCSD数据库.Mobo数据库最初是CMU为了 随着研究的深入,基于视频的人脸识别需要进 Human id计划进行步态识别而采集的数据库.整 一步研究的工作包括 个数据库包含25个人在跑步机上以四种不同的方 式行走的视频序列行走的方式包括慢速行走快速 (1)人脸特征的准确定位 本文假设已经得到了图像或者视频中人脸的位 行走、斜面行走和拿球行走,正面角度拍摄的视频序置,并且人脸的特征已经准确定位但是在实际应用 列共99段(一段丢失).UCSD/ Honda数据库包含 20个人的共52段视频数据库中的人脸视频包含中,人脸视频的分辨率过低常会使得人脸的检测和 了大规模的2D(平面内)和3D(平面外)的头部旋准确的特征定位存在一定的困难人脸的误配准也 转另外还有DXM2VTS数据库15 会严重影响人脸识别的结果作为人脸识别的基础, 这些视频人脸数据库普遍的缺点是没有考虑到准确和快速的人脸检测和特征定位方法是必不可 各种条件的变化大部分都是姿态的变化,其他的如少的 光照、表情的变化等考虑较少,并且数据库的人偏少 (2)人脸的超分辨率重建和模糊复原 (<50个人),无法进行大规模有效的实验来评价各 视频序列中的人脸由于采集条件和运动的影 种算法的优劣 响,人脸图像分辨率低且人脸模糊需要研究人脸图 目前大部分的文献中采用的数据库以及训练,像超分辨率技术和图像复原技术以得到清晰 测试方法都不尽相同但为了对目前典型方法的实的人脸图像也是未来需要重点解决的问题 验结果有一个直观的认识,表4汇集了在视频人脸 (3)人脸的3D建模 数据库上一些典型方法的实验结果 现阶段基于二维的人脸识别方法可以在一定程 c1994-2009ChinaAcademicJourmalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
3. 3 小 结 综上可以看出“视频2图像 (多幅图像) ”人脸识 别和“视频2视频”人脸识别研究的主要问题包括 : (1) 如何对高维的人脸图像降维 ; (2) 如何对降维后的人脸序列进行描述 ; (3) 如何刻画描述方式之间的度量 ; 人脸数据降维的目的是得到表达性特征 (如主 成分分析等) 或鉴别性特征 (如线性鉴别分析等) 以 降低高维人脸数据的计算复杂度和减弱噪声、表情、 光照等因素的影响[50 ] . 对各种常见线性和非线性的 降维方法研究的介绍可参考文献[51 ]. 现阶段对降维后的人脸序列描述方式包括矢 量、矩阵、概率、动态模型、流形等. 其中采用概率和 流形的方法需要大量反映人脸分布的样本才能更准 确地刻画人脸的分布 ,达到较好的性能. 利用动态模 型能够很好地利用时间和空间的信息 ,但是方法相 对比较复杂 ,计算量一般都比较大. 而利用矢量作为 输入描述方式的主要缺点是样本选取的随机性. 矩 阵方式最为简单 ,并且可以应用到时间上不连续的 多幅图像情况 ,但如何更好地刻画矩阵之间的度量 是一个值得研究的内容. 4 常用的视频人脸数据库及 一些实验结果 目前基于视频的人脸识别常用的视频人脸数据 库包括 Mobo (Motion of body) 数据库[52 ]和 Honda/ UCSD 数据库[829 ] . Mobo 数据库最初是 CMU 为了 Human ID 计划进行步态识别而采集的数据库. 整 个数据库包含 25 个人在跑步机上以四种不同的方 式行走的视频序列. 行走的方式包括慢速行走、快速 行走、斜面行走和拿球行走. 正面角度拍摄的视频序 列共 99 段 (一段丢失) . UCSD/ Honda 数据库包含 20 个人的共 52 段视频. 数据库中的人脸视频包含 了大规模的 2D (平面内) 和 3D (平面外) 的头部旋 转. 另外还有 DXM2V TS 数据库[ 53 ] . 这些视频人脸数据库普遍的缺点是没有考虑到 各种条件的变化. 大部分都是姿态的变化 ,其他的如 光照、表情的变化等考虑较少 ,并且数据库的人偏少 ( < 50 个人) ,无法进行大规模有效的实验来评价各 种算法的优劣. 目前大部分的文献中采用的数据库以及训练 , 测试方法都不尽相同. 但为了对目前典型方法的实 验结果有一个直观的认识 ,表 4 汇集了在视频人脸 数据库上一些典型方法的实验结果. 表 4 视频人脸数据库上典型方法的实验结果 方法名称 识别率 典型文献 PCA (多数投票) 8711 %(MoBo) 8916 %( Honda/ UCSD) 文献[ 44 ] LDA (多数投票) 9018 %(MoBo) 8615 %( Honda/ UCSD) 文献[ 44 ] 隐马尔可夫模型 9213 %(MoBo) 9112 %( Honda/ UCSD) 文献[ 44 ] 基于贝叶斯框架的 SIS 方法 92 %以上(MoBo) 文献[ 10 ] 概率外观流形法 9818 %(无遮挡) ( Honda/ UCSD) 9718 %(有遮挡) ( Honda/ UCSD) 文献[ 9 ] ARMA 模型 90 %左右( Honda/ UCSD) 文献[ 12 ] 混合高斯模型 94 % 文献[ 13 ] 局部线性模型 95162 % 文献[ 21 ] 5 总结和展望 本文介绍了现阶段基于视频的人脸识别研究进 展. 在对人脸识别不同情况分类的基础上 ,重点介绍 了现阶段基于视频的人脸识别的主要方法 ,分析和 讨论了各种方法的优缺点 ,还介绍了常用的视频人 脸数据库及一些典型方法的实验结果. 现阶段基于视频的人脸识别一般都是把人脸视 频看成一个整体来克服分辨率低的问题[35 ] . 对于光 照或者姿态的单独变化可以通过矩阵、概率或者流 形的方式部分解决[9 ,18 ] ,但是需要不同条件下的大 量的训练样本. 对于遮挡问题可以采用鲁棒统计 学[11 ]或者对脸部的分块处理[54 ]来解决. 随着研究的深入 ,基于视频的人脸识别需要进 一步研究的工作包括 : (1) 人脸特征的准确定位 本文假设已经得到了图像或者视频中人脸的位 置 ,并且人脸的特征已经准确定位. 但是在实际应用 中 ,人脸视频的分辨率过低常会使得人脸的检测和 准确的特征定位存在一定的困难. 人脸的误配准也 会严重影响人脸识别的结果. 作为人脸识别的基础 , 准确和快速的人脸检测和特征定位方法是必不可 少的. (2) 人脸的超分辨率重建和模糊复原 视频序列中的人脸由于采集条件和运动的影 响 ,人脸图像分辨率低且人脸模糊. 需要研究人脸图 像超分辨率技术[ 55 ] 和图像复原技术[56 ] 以得到清晰 的人脸图像也是未来需要重点解决的问题. (3) 人脸的 3D 建模 现阶段基于二维的人脸识别方法可以在一定程 5 期 严 严等 :基于视频的人脸识别研究进展 883
884 计算机学 度上解决姿态或光照的变化问题.但是人脸是一个[9]LekC,HoJ, Yang M H, Kriegman D. /isual tracking 三维的物体,利用人脸的三维信息是解决姿态,光照 ing probabilistic appe 变化问题的最本质方法现阶段利用视频数据生成 Computer Vision and Image Understanding, 2005, 99(3) 303-331 3D模型的计算复杂度很大35,无法达到使用要 [10] Zhou S, Krueger V, Chellappa R. Probabilistic recognition 求更好地降低三维人脸建模的复杂度和提高建模 of human faces from video. Computer Vision and Image Un 的精度是未来发展的一个重要方向 derstanding,2003,91(1):214245 (4)视频人脸数据库和测试方法的标准化 [11 Zhou S, Chellappa R, Moghaddam B. Visual tracking and 与基于静止图像的人脸识别相比,基于视频的 recognition using appearance-adaptive models in particle 人脸识别的最大问题是还没有一个包含各种条件变 ters. IEEE Transactions on Im (11):1434-1456 化的、统一的、大规模的视频人脸数据库和测试标121)Agwd, Chowdhury A K R, Chellappa r. A system 准.许多文章采用的视频人脸数据库和测试方法都 identification approach for video- based face recognition/ Pro- 不尽相同,无法进行算法之间的比较.建立一个公共 ceedings of the IEeE International Conference on pattern 的、大规模的视频人脸数据库和标准的测试方法是 Recognition. Cambridge. 2004: 23-26 该领域的一个首要任务 [13] Arandjelove O, Cipolla R. Face recognition from face motion (5)多模生物特征认证 manifolds using robust kernel resistoraverage distance// Pro- ceedings of the IEEE Conference on Compute Vision and Pat- 现阶段基于视频的人脸识别算法主要是基于室 ter Recognition workshop. Washington D. C, 2004: 88-93 内的环境条件室外条件下的人脸图像光照、姿态等 [14 Arandjelovie O, Shakhnarovich G, Fisher G, Cipolla R 的剧烈变化使人脸识别仍然面临着许多困难,融合 Darrell T. Face recognition with image sets using manifold 多种生物特征提高识别的性能也将是未来研究的一 density divergence// Proceedings of the IEEE Conference or 个重点0621 Computer Vision and Pattern Recognition. San Diego, 2005 参考文献 [15 Arandjelovie O, Cipolla R. A pose-wise linear illumination manifold model for face recognition using video. Computer Vision and Image Understanding, 2009, 113(1): 113-12 [1] Chellappa R, Wilson C, Sirohey S. Human and machine rec- [16] Yamaguchi O, Fukui K, Maeda K. Face recognition using ognition of faces: A survey. Proceedings of the IEEE, 1995 temporal image sequence// Proceedings of the IEEE Interna- 83(5):705740 tional Conference on automatic face and Gesture recogni- [2 Zhao w, Chellappa R, Rosenfeld A, Phillips P J. Face rec- Nara,1998:3l8-323 survey. ACM K: Yamaguchi O. Face recognition using multiview 2003,35(4):399458 B3 Li S Z, Jain A K. Handbook of Face Recognition. N patterns for robot vision// Proceedings of the Interna- York: Springer, 2005 tional Symposium of Robotics Research. Siena, Italy, 20 192-201 [4] Zhou $, Chellappa R. Beyond a single still image: Face rec- ognition from multiple still images and videos// Zhao W et al [18 Nishiyama M, Yamaguchi O, Fukui K. Face Recognition eds. Face Processing: Advanced Modeling and Met hods with the multiple constrained mut ual subspace met hod//Pro- New York. Academic Press. 2005 ceedings of the 5th International Conference on Audio and 5 Shakhnarovich G, Fisher J W, Darrell T. Face recognition Video-Based Biometric Person Authentication. New York from long-term observations// Proceedings of the European Conference on Computer Vision. Bari, 2002: 851-868 [19] LiJ W, Wang Y H, Tan T N. Video-based face recognition using a metric of average Euclidean distance// Proceedings of Ir stationary process and its application to face recognitio the 5th Chinese Conference on Biometric Recognition. Guan- Pattern Recognition, 2003, 36(9): 1945-1959 gzhu, China,2004:224-232 7) Liu X M, Chen T. Video- based face recognition using adap- [20] LiJ W, Wang Y H, Tan TN. Video-based face recognition tive hidden Markov models// Proceedings of the IEEE Inter- using earth movers distance// Proceedings of the Interna- national Conference on Computer Vision and Pattern Recog tional Conference on Audio and Videor based person Authen- nition. Madison. 2003: 340-345 tication. New York. 2005: 229-239 [8 Lee K C, Ho J, Yang M H, Kriegman D. Video based face [21 Fan W, Wang Y H, Tan T N. Videor based face recognition cognition using probabilistic appearance manifolds//Pro- using Bayesian inference model// Proceedings of the Interna- ceedings of the International IEEE Conference on Computer tional Conference on Audio- and Videor based Person Aut he- Vision and Pattern Recognition. Madison. 2003: 313-320 tication. New York 2005: 122-1 S1994-2009ChinaAcademicJOurmaleLectronicPublishingHouseAllrightsreservedhttp://www.cnki.net
度上解决姿态或光照的变化问题. 但是人脸是一个 三维的物体 ,利用人脸的三维信息是解决姿态 ,光照 变化问题的最本质方法. 现阶段利用视频数据生成 3D 模型的计算复杂度很大[42 ,57259 ] ,无法达到使用要 求. 更好地降低三维人脸建模的复杂度和提高建模 的精度是未来发展的一个重要方向. (4) 视频人脸数据库和测试方法的标准化 与基于静止图像的人脸识别相比 ,基于视频的 人脸识别的最大问题是还没有一个包含各种条件变 化的、统一的、大规模的视频人脸数据库和测试标 准. 许多文章采用的视频人脸数据库和测试方法都 不尽相同 ,无法进行算法之间的比较. 建立一个公共 的、大规模的视频人脸数据库和标准的测试方法是 该领域的一个首要任务. (5) 多模生物特征认证 现阶段基于视频的人脸识别算法主要是基于室 内的环境条件. 室外条件下的人脸图像光照、姿态等 的剧烈变化使人脸识别仍然面临着许多困难 ,融合 多种生物特征提高识别的性能也将是未来研究的一 个重点[60262 ] . 参 考 文 献 [1 ] Chellappa R , Wilson C , Sirohey S. Human and machine rec2 ognition of faces: A survey. Proceedings of t he IEEE , 1995 , 83 (5) : 7052740 [2 ] Zhao W , Chellappa R , Rosenfeld A , Phillips P J. Face rec2 ognition : A literature survey. ACM Computation Survey , 2003 , 35 (4) : 3992458 [3 ] Li S Z , J ain A K. Handbook of Face Recognition. New York : Springer , 2005 [4 ] Zhou S , Chellappa R. Beyond a single still image : Face rec2 ognition from multiple still images and videos/ / Zhao W et al eds. Face Processing : Advanced Modeling and Met hods. New York : Academic Press , 2005 [5 ] Shakhnarovich G , Fisher J W , Darrell T. Face recognition from long2term observations/ / Proceedings of t he European Conference on Computer Vision. Bari , 2002 : 8512868 [6 ] Liu X M , Chen T , Thornton S M. Eigenspace updating for non2stationary process and its application to face recognition. Pattern Recognition , 2003 , 36 (9) : 194521959 [7 ] Liu X M , Chen T. Video2based face recognition using adap2 tive hidden Markov models/ / Proceedings of t he IEEE Inter2 national Conference on Computer Vision and Pattern Recog2 nition. Madison , 2003 : 3402345 [8 ] Lee K C , Ho J , Yang M H , Kriegman D. Video2based face recognition using probabilistic appearance manifolds/ / Pro2 ceedings of t he International IEEE Conference on Computer Vision and Pattern Recognition. Madison , 2003 : 3132320 [ 9 ] Lee K C , Ho J , Yang M H , Kriegman D. Visual tracking and recognition using probabilistic appearance manifolds. Computer Vision and Image Understanding , 2005 , 99 ( 3) : 3032331 [ 10 ] Zhou S , Krueger V , Chellappa R. Probabilistic recognition of human faces from video. Computer Vision and Image Un2 derstanding , 2003 , 91 (1) : 2142245 [ 11 ] Zhou S , Chellappa R , Moghaddam B. Visual tracking and recognition using appearance2adaptive models in particle fil2 ters. IEEE Transactions on Image Processing , 2004 , 13 (11) : 143421456 [ 12 ] Aggarwal G , Chowdhury A K R , Chellappa R. A system identification approach for video2based face recognition/ / Pro2 ceedings of t he IEEE International Conference on Pattern Recognition. Cambridge , 2004 : 23226 [ 13 ] Arandjelovi’c O , Cipolla R. Face recognition from face motion manifolds using robust kernel resistor2average distance/ / Pro2 ceedings of t he IEEE Conference on Compute Vision and Pat2 ter Recognition workshop. Washington D. C , 2004 : 88293 [ 14 ] Arandjelovi’c O , Shakhnarovich G , Fisher G , Cipolla R , Darrell T. Face recognition wit h image sets using manifold density divergence/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. San Diego , 2005 : 5812588 [ 15 ] Arandjelovi’c O , Cipolla R. A pose2wise linear illumination manifold model for face recognition using video. Computer Vision and Image Understanding , 2009 , 113 (1) : 1132125 [ 16 ] Yamaguchi O , Fukui K , Maeda K. Face recognition using temporal image sequence/ / Proceedings of t he IEEE Interna2 tional Conference on Automatic Face and Gesture Recogni2 tion. Nara , 1998 : 3182323 [ 17 ] Fukui K , Yamaguchi O. Face recognition using multi2view2 point patterns for robot vision/ / Proceedings of t he Interna2 tional Symposium of Robotics Research. Siena , Italy , 2003 : 1922201 [ 18 ] Nishiyama M , Yamaguchi O , Fukui K. Face Recognition wit h t he multiple constrained mutual subspace met hod/ / Pro2 ceedings of t he 5t h International Conference on Audio2 and Video2Based Biometric Person Aut hentication. New York , 2005 : 71280 [ 19 ] Li J W , Wang Y H , Tan T N. Video2based face recognition using a metric of average Euclidean distance/ / Proceedings of t he 5t h Chinese Conference on Biometric Recognition. Guan2 gzhou , China , 2004 : 2242232 [ 20 ] Li J W , Wang Y H , Tan T N. Video2based face recognition using eart h mover’s distance/ / Proceedings of t he Interna2 tional Conference on Audio2 and Video2based person Aut hen2 tication. New York , 2005 : 2292239 [ 21 ] Fan W , Wang Y H , Tan T N. Video2based face recognition using Bayesian inference model/ / Proceedings of t he Interna2 tional Conference on Audio2 and Video2based Person Aut hen2 tication. New York , 2005 : 1222130 884 计 算 机 学 报 2009 年
严严等基于视频的人脸识别研究进展 [22] Yan Y, Zhang YJ. State-of-the-art on video-based face rec [36] Me Kenna S, Gong S, Raja Y. Face recognition in dynamic ognition. Encyclopedia of Artificial Intelligence, 2008, 1455- scenes// Proceedings of the British Machine vision Confer- [23] Jia H X, Zhang YJ. Human detection in static images//Ver- [37] Park U, Jain A K, Ross A. Face recognition in video: Adap- ma B, Blumenstein M. Pattern Recognition Technologies and tive fusion of multiple matchers// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition [24] Liu X M, Zhang YJ, Tan H C. A new Hausdorff distance Minneapolis, 2007: 1-8 based approach for face localization. Sciencepaper Online [38] Wolf L, Shashua A. Kernel principal angles for classification 2005,200512662(1-9) machines with applications to image sequence interpreta- [25 Srikantaswamy R, Samuel R D S. A novel face segmentation tion// Proceedings of the IEEE Conference on Computer Vi algorithm from a video sequence for real-time face recogni sion and Pattern Recognition. Madison, 2003: 635-642 tion. EU RASIP Journal on Advances in Signal Processi 139 Fan W, Yeung D Y, Locally linear models on face appear- 2007.2007:1-6 fication/ Proceedings of the IEEE Conference on Computer 26] Wechsler H, Kakkad V, Huang J, Gutta S, Chen V. Vision and Pattern Recognition. New York. 2006: 1384- atic video based person authentication using the RB work// Proceedings of the International Conference on audior [40 Tenenbaum J B, Silva V D, Langford J C. A global geomet- and Video-Based Person Aut hentication. Crans- Montana ric framework for nonlinear dimensionality reduction. Sci- 997:8592 ence,2000,290(5500):23192323 [27 Steffens J, Elagin E, Neven H. PersonSpotter: Fast and ro- [41]Moghaddam B, Jebara T, Pentland A. Bayesian face recogni- bust system for human detection, tracking and recognition// tion. Pattern Recognition, 2000, 33(11): 1771-1782 Proceedings of the 3rd IEEE International Conference on a 142 Xu Y, Roy-Chowdhury A, Patel K. Pose and illuminatio tomatic Face and Gesture Recognition. Nara. 1998: 516-521 ariant face recognition in video// Proceedings of the IEEE [28] Mckenna SJ, Gong S. Norrintrusive person authentication Conference on Computer Vision and Pattern Recognition for access control by visual tracking and face recognition/ Minneapolis, 2007: 1-7 lior and [43] Xu Y L, Roy- Chowdhury A, Patel K. Integrating illumina- Video-Based Person Aut hentication. Crans- Montana 1997 tion, motion, and shape models for robust face recognition in video. Eurasip Journal on Advances in Signal Processing 29] M. Duin R P w 2008:1-13 classifiers. IEEE Transactions on Pattern Analysis and [44] Zhou S, Chellappa R. From sample similarity to ensemble chine Intelligence. 1998. 20(3): 226-239 similarity: Probabilistic distance measures in reproducing [30] Moghaddam B, Pentland A. Probabilistic visual learning for kernel Hilbert space. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(6): 917-929 sis and Machine Intelligence, 1997,19(7): 696710 [45] Hadid A, PietikAnen M. From still image to video-based face [31 Li B, Chellappa R. Face verification through tracking facial recognition: An experimental analysis// Proceedings of the features. Journal of the Optical Society of America A, 2001 6th Ieee International Conference on Automatic Face and l8(12):29692981 Gesture Recognition. Seoul 2004: 813-818 [32] Li B, Chellappa R. A generic approach to simultaneous [46 Roweis S T, Saul L K. Nonlinear dimensionality reduction tracking and verification in video. IEEE Transactions on Imr by locally linear embedding. Science, 2000, 290(5500) 2323-2326 age Processing, 2002, 11(5): 530- [47] Li Y, Gong S, Lidell H. Modeling faces dynamically across [33 Torres L, Vila J. Automatic face recognition for video inde- views and over time// Proceedings of the IEEE International xing applications. Pattern Recognition, 2002, 35(3): 615- Conference on Computer Vision. Vanco [48] Li Y, Gong S, Lidell H. Video- based online face recognition [34] Edwards GJ, Taylor CJ, Taylor T F. Improving identifica- using identity surfaces/ Proceedings of the IEEE Internation- ion per formation by integrating evidence from sequences// al Conference on Computer Vision. Vancouver, 2001: 40-46 Proceedings of the IEEE International Conference on Comr (49 Li Y, Gong S, Lidell H. Constructing facial identity surfaces puter Vision and Pattern Recognition. Fort Collins, 1999 the Conference on Computer Vision and Pattern Recogniti 135 Kim MY, Kumar S, Pavlovic V, Rowley H. Face tracking and recognition with visual constraints in real-world videos// [50] Yan Y, Zhang Y J. Discriminant projection embedding for Proceedings of the 26th IEEE Conference on Computer Vi- face and palmprint recognition. Neurcomp uting, 2008,(16 sion and Pattern Recognition. Anchorage, 2008: 1-8 18):3534-3543
[ 22 ] Yan Y , Zhang YJ. State2of2t he2art on video2based face rec2 ognition. Encyclopedia of Artificial Intelligence , 2008 , 14552 1461 [ 23 ] Jia H X , Zhang YJ. Human detection in static images/ / Ver2 ma B , Blumenstein M. Pattern Recognition Technologies and Applications: Recent Advances. 2008 : 2272243 [ 24 ] Liu X M , Zhang Y J , Tan H C. A new Hausdorff distance based approach for face localization. Sciencepaper Online , 2005 , 2005122662 (129) [ 25 ] Srikantaswamy R , Samuel R D S. A novel face segmentation algorit hm from a video sequence for real2time face recogni2 tion. EURASIP Journal on Advances in Signal Processing , 2007 , 2007 : 126 [ 26 ] Wechsler H , Kakkad V , Huang J , Gutta S , Chen V. Auto2 matic video based person aut hentication using t he RBF net2 work/ / Proceedings of t he International Conference on Audio2 and Video2Based Person Aut hentication. Crans2Montana , 1997 : 85292 [ 27 ] Steffens J , Elagin E , Neven H. PersonSpotter : Fast and ro2 bust system for human detection , tracking and recognition/ / Proceedings of t he 3rd IEEE International Conference on Au2 tomatic Face and Gesture Recognition. Nara , 1998 : 5162521 [ 28 ] Mckenna S J , Gong S. Non2intrusive person aut hentication for access control by visual tracking and face recognition/ / Proceedings of t he International Conference on Audio2 and Video2Based Person Aut hentication. Crans2Montana , 1997 : 1772183 [ 29 ] Kittler J , Hatef M , Duin R P W , Matas J. On combining classifiers. IEEE Transactions on Pattern Analysis and Ma2 chine Intelligence , 1998 , 20 (3) : 2262239 [ 30 ] Moghaddam B , Pentland A. Probabilistic visual learning for object representation. IEEE Transactions on Pattern Analy2 sis and Machine Intelligence , 1997 , 19 (7) : 6962710 [ 31 ] Li B , Chellappa R. Face verification t hrough tracking facial features. Journal of t he Optical Society of America A , 2001 , 18 (12) : 296922981 [ 32 ] Li B , Chellappa R. A generic approach to simultaneous tracking and verification in video. IEEE Transactions on Im2 age Processing , 2002 , 11 (5) : 5302554 [ 33 ] Torres L , Vila J. Automatic face recognition for video inde2 xing applications. Pattern Recognition , 2002 , 35 ( 3) : 6152 625 [ 34 ] Edwards G J , Taylor C J , Taylor T F. Improving identifica2 tion per formation by integrating evidence from sequences/ / Proceedings of t he IEEE International Conference on Com2 puter Vision and Pattern Recognition. Fort Collins , 1999 : 4862491 [ 35 ] Kim M Y , Kumar S , Pavlovic V , Rowley H. Face tracking and recognition wit h visual constraints in real2world videos/ / Proceedings of t he 26t h IEEE Conference on Computer Vi2 sion and Pattern Recognition. Anchorage , 2008 : 128 [ 36 ] Mc Kenna S , Gong S , Raja Y. Face recognition in dynamic scenes/ / Proceedings of t he British Machine Vision Confer2 ence. Colchester , 1997 : 1402151 [ 37 ] Park U , J ain A K , Ross A. Face recognition in video : Adap2 tive fusion of multiple matchers/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis , 2007 : 128 [ 38 ] Wolf L , Shashua A. Kernel principal angles for classification machines wit h applications to image sequence interpreta2 tion/ / Proceedings of t he IEEE Conference on Computer Vi2 sion and Pattern Recognition. Madison , 2003 : 6352642 [ 39 ] Fan W , Yeung D Y. Locally linear models on face appear2 ance manifolds wit h application to dual2subspace based classi2 fication/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. New York , 2006 : 13842 1390 [ 40 ] Tenenbaum J B , Silva V D , Langford J C. A global geomet2 ric framework for nonlinear dimensionality reduction. Sci2 ence , 2000 , 290 (5500) : 231922323 [ 41 ] Moghaddam B , J ebara T , Pentland A. Bayesian face recogni2 tion. Pattern Recognition , 2000 , 33 (11) : 177121782 [ 42 ] Xu Y , Roy2Chowdhury A , Patel K. Pose and illumination invariant face recognition in video/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis , 2007 : 127 [ 43 ] Xu Y L , Roy2Chowdhury A , Patel K. Integrating illumina2 tion , motion , and shape models for robust face recognition in video. Eurasip Journal on Advances in Signal Processing , 2008 , 2008 : 1213 [ 44 ] Zhou S , Chellappa R. From sample similarity to ensemble similarity : Probabilistic distance measures in reproducing kernel Hilbert space. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2006 , 28 (6) : 9172929 [ 45 ] Hadid A , Pietik¾inen M. From still image to video2based face recognition : An experimental analysis/ / Proceedings of t he 6t h IEEE International Conference on Automatic Face and Gesture Recognition. Seoul , 2004 : 8132818 [ 46 ] Roweis S T , Saul L K. Nonlinear dimensionality reduction by locally linear embedding. Science , 2000 , 290 ( 5500 ) : 232322326 [ 47 ] Li Y , Gong S , Lidell H. Modeling faces dynamically across views and over time/ / Proceedings of t he IEEE International Conference on Computer Vision. Vancouver , 2001 : 5542559 [ 48 ] Li Y , Gong S , Lidell H. Video2based online face recognition using identity surfaces/ / Proceedings of t he IEEE Internation2 al Conference on Computer Vision. Vancouver , 2001 : 40246 [ 49 ] Li Y , Gong S , Lidell H. Constructing facial identity surfaces in a nonlinear discriminating space/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. Kauai , 2001 : 2582263 [ 50 ] Yan Y , Zhang Y J. Discriminant projection embedding for face and palmprint recognition. Neurcomputing , 2008 , (162 18) : 353423543 5 期 严 严等 :基于视频的人脸识别研究进展 885
886 2009年 [51] Yan SC, Xu D, Zhang B, Zhang HJ. Graph embedding and Computer Vision and Image Understanding, 2003, 91(1) 188-213 ion. IEEE Transactions on Pattern Analysis and Machine [58] Choudhury A, Clarkson B, Jebara T, Penland A. Multimo- ntelligence,2007,29(1):4051 dal person recognition using unconstrained audio and video// [52] Gross R, Shi J. The CMU Motion of Body(MoBo) datar base. Robotics Institute, Carnegie Mellon University: Tech Biometric Person Aut hentication. Washington D. C, 1999 nical Report CMU-RF TR-O1-18, 2001 176-180 [53 Teferi D, Bigun J. Damascening video databases for evalua [59 Zhang ZY, Liu Z C, Adler D, Cohen M F, Hanson E, Shan tion of face tracking and recognition -The DXM2VTS datar Y. Robust and rapid generation of animated faces from video base. Pattern Recognition Letters, 2007, 28(15): 2143-2156 images: A model-based modeling approach. International [54] Zhang Y, Martinez A M. A weighted probabilistic approach Journal of Computer Vision, 2004, 58(2): 93-119 to face recognition from multiple images and video sequences. [60 Zhou x, Bhanu B. Integrating face and gait for human recog- Image and Vision Computing, 2006, 24(6): 626-638 nition at a distance in video. IEeE Transactions on Systems [55] AF Azzeh M, Eleyan A, Demirel H. PCA-based face recogni- Man and Cybernetics, Part B, 2007, 37(5): 1119-113 tion from video using superresolution// Proceedings of the [61] Jing X Y, Yao Y F, Zhang D, Yang J Y, Li M. Face and 23rd International Symposium on Computer and Information palmprint pixel level fusion and kernel DCV-RBF classifier for small sample biometric recognition. Pattern Recognition [56] Goksel D. Exploiting space-time statistics of videos for face 2007,40(11):32093324 hallucination[ Ph D. dissertation]. Carnegie Mellon Univer- [62 Yan Y, hang Y J. Multi modal biometrics fusion using cor- sity, Pittsburgh, USA, 2007 relation filter bank// Proceedings of the 19th IAPR Interna- [57] Chowdhury A, Chellappa R. Face reconstruction from mo- tional Conference on Pattern Recognition. Tampa, 2008 ocular video using uncertainty analysis and a generic model MoBT7.3(1-4) YAN Yan. born in 1984. Ph. D ZHANG YurJin, born in 1954, Ph. D, professor His main research interests focus on pat- Ph. D. supervisor. His main research interests include image tern recognition engineering (image processing, image analysis, image under- andingandtechniqueapplication).http://www.ee.tsing hua. edu. cn/zhangyuan/ This work is supported by the National Natural Science During the past several years, many research effor oundation of China under grant No. 60872084 and have been concentrated on video-based face recognition cialized Research Fund for the doctoral program of Compared with still image- based face recognition, true video Education under grant No. 20060003 102 based face recognition algorithms that use both spatial and Traditional still image-based face recognition has achieved temporal information started only a few years ago. No com- at success in constrained environments. Ho ve survey in this field has been made, and a lot of the conditions, including illumination les in video-based face reco gnition still have not been ad- age, etc, change too much, the performance declines dra dressed well. So ntent of this paper gives an overview matically. The recent FRVT2002 shows that the recognition of the most existi hods in the field of video- based face performance of face images captured in an out door enviro recognition. A suitable classification for different methods ment and different days is still not satisf ying. Current still has been made, the respective pros and cons of typical tech- image-based face recognition algorithms are even far away niques in each method group are analyzed. The important is- from the capability of human perception system. On the oth- sues which need to be solved, the prospects for future devel- er hand, psycholo gy and physiology studies have shown that opment and some suggestions for further research works are motion can help people for better face recognition. put forward to meet the goal of this paper 01994-2009ChinaAcademicJOurmalElectronicpUblishingHouseAllrightsreservedhttp://www.cnki.net
[ 51 ] Yan S C , Xu D , Zhang B , Zhang H J. Graph embedding and extensions: A general framework for dimensionality reduc2 tion. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2007 , 29 (1) : 40251 [ 52 ] Gross R , Shi J. The CMU Motion of Body ( MoBo) data2 base. Robotics Institute , Carnegie Mellon University : Tech2 nical Report CMU2RI2TR201218 , 2001 [ 53 ] Teferi D , Bigun J. Damascening video databases for evalua2 tion of face tracking and recognition —The DXM2V TS data2 base . Pattern Recognition Letters , 2007 , 28 (15) : 214322156 [ 54 ] Zhang Y , Martinez A M. A weighted probabilistic approach to face recognition from multiple images and video sequences. Image and Vision Computing , 2006 , 24 (6) : 6262638 [ 55 ] Al2Azzeh M , Eleyan A , Demirel H. PCA2based face recogni2 tion from video using super2resolution/ / Proceedings of t he 23rd International Symposium on Computer and Information Sciences. Istanbul , 2008 : 124 [ 56 ] Goksel D. Exploiting space2time statistics of videos for face hallucination [ Ph. D. dissertation ]. Carnegie Mellon Univer2 sity , Pittsburgh , USA , 2007 [ 57 ] Chowdhury A , Chellappa R. Face reconstruction from mo2 nocular video using uncertainty analysis and a generic model. Computer Vision and Image Understanding , 2003 , 91 ( 1) : 1882213 [ 58 ] Choudhury A , Clarkson B , J ebara T , Penland A. Multimo2 dal person recognition using unconstrained audio and video/ / Proceedings of t he Conference on Audio 2 and Video 2based Biometric Person Aut hentication. Washington D. C , 1999 : 1762180 [ 59 ] Zhang Z Y , Liu Z C , Adler D , Cohen M F , Hanson E , Shan Y. Robust and rapid generation of animated faces from video images: A model2based modeling approach. International Journal of Computer Vision , 2004 , 58 (2) : 932119 [ 60 ] Zhou X , Bhanu B. Integrating face and gait for human recog2 nition at a distance in video. IEEE Transactions on Systems , Man and Cybernetics , Part B , 2007 , 37 (5) : 111921137 [ 61 ] Jing X Y , Yao Y F , Zhang D , Yang J Y , Li M. Face and palmprint pixel level fusion and kernel DCV2RBF classifier for small sample biometric recognition. Pattern Recognition , 2007 , 40 (11) : 320923324 [ 62 ] Yan Y , Zhang Y J. Multimodal biometrics fusion using cor2 relation filter bank/ / Proceedings of t he 19t h IAPR Interna2 tional Conference on Pattern Recognition. Tampa , 2008 , MoBT713 (124) YAN Yan , born in 1984 , Ph. D. . His main research interests focus on pat2 tern recognition. ZHANG Yu2Jin , born in 1954 , Ph. D. , professor , Ph. D. supervisor. His main research interests include image engineering (image processing , image analysis , image under2 standing and technique application) . http :/ / www. ee. tsing2 hua. edu. cn/ ~zhangyujin/ Background This work is supported by the National Natural Science Foundation of China under grant No160872084 and the Spe2 cialized Research Fund for the Doctoral Program of Higher Education under grant No120060003102. Traditional still image2based face recognition has achieved great success in constrained environments. However , once the conditions , including illumination , pose , expression , age , etc. , change too much , the performance declines dra2 matically. The recent FRV T2002 shows that the recognition performance of face images captured in an outdoor environ2 ment and different days is still not satisfying. Current still image2based face recognition algorithms are even far away from the capability of human perception system. On the oth2 er hand , psychology and physiology studies have shown that motion can help people for better face recognition. During the past several years , many research efforts have been concentrated on video2based face recognition. Compared with still image2based face recognition , true video2 based face recognition algorithms that use both spatial and temporal information started only a few years ago. No com2 prehensive survey in this field has been made , and a lot of is2 sues in video2based face recognition still have not been ad2 dressed well. So the content of this paper gives an overview of the most existing methods in the field of video2based face recognition. A suitable classification for different methods has been made , the respective pros and cons of typical tech2 niques in each method group are analyzed. The important is2 sues which need to be solved , the prospects for future devel2 opment and some suggestions for further research works are put forward to meet the goal of this paper. 886 计 算 机 学 报 2009 年