《计算机学报》：基于视频的人脸识别研究进展（清华大学：严严、章毓晋）

文中对近期(主要近5年)基于视频的人脸识别研究进行了详细的介绍和讨论,在对相关方法分类的基础上,分析了各类方法中典型技术的优缺点并概况介绍了常用的视频人脸数据库和实验结果最后展望了基于视频人脸识别未来的发展方向和趋势。

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：473.46KB

计算机学报 Vol. 32 No. 5 2009年5月 CHINESE JOURNAL OF COMPU TERS May 2009 基于视频的人脸识别研究进展章毓晋” (清华大学信息科学与技术国家实验室北京100084) 2)(清华大学电子工程系北京100084) 摘要近年来基于视频的人脸识别己成为人脸识别领域最为活跃的研究方向之一如何充分利用视频中人脸的时间和空间信息克服视频中人脸分辨率低,尺度变化范围大,光照姿态变化比较剧烈以及时常发生遮挡等困难是研究的重点文中对近期(主要近5年)基于视频的人脸识别研究进行了详细的介绍和讨论,在对相关方法分类的基础上,分析了各类方法中典型技术的优缺点,并概况介绍了常用的视频人脸数据库和实验结果,最后展望了基于视频人脸识别未来的发展方向和趋势关键词模式识别;人脸识别;基于视频的人脸识别;进展中图法分类号TP391 DOI号:10.3724/SP.J.1016.2009.00878 Sta te-of-the- Art on video based face recognition YAN Yan",2) ZHANG YuJ National Laboratory for Information Science and Technology, Tsinghua University, Beijing 100084) 2(Department of Electromic Engineering, Tsinghua University, Beijing 100084) Abstract Recently, video- based face reco gnition has become one of the hottest topics in the do- main of face recognition. How to fully utilize both spatial and temporal information in video to overcome the difficulties existing in the video- based face reco gnition, such as low resolution of face images in video, large variations of face scale, radical changes of illumination and pose as well as occasionally occlusion of different parts of faces, is the focus. The paper reviews most ex- isting typical methods for video- based face recognition(especially for the last 5 years)and analy- ses their respective pros and cons. Two co mmonly used video face data bases and some experime tal results are given. The prospects for future develop ment and suggestions for further research works are put forward in the end Key words pattern reco gnition; face recognition; video- based face recognition; progress 个领域也有着广泛的应用 1引言圣过多年研究,人脸识别技术已取得了长足的进步和发展随着视频监控、信息安全、访问控制等应用人脸识别具有非常重大的理论意义和应用价领域的发展需求,基于视频的人脸识别已成为人脸识值人脸识别的研究对于图像处理、模式识别、计算别领域最为活跃的研究方向之一4.如何充分利用机视觉、计算机图形学等领域的发展具有重大的推视频中人脸的时间和空间信息克服视频中人脸分辨动作用,同时在生物特征认证、视频监控、安全等各率低,尺度变化范围大,光照姿态变化剧烈以及时常收稿日期2000903;最终修改稿收到日期:2009-04-06.本课题得到国家自然科学基金(60872084)和教育部高等学校博士学科点专项科研基金( SREDP2006000102)资助严严,男,1984年生,博士,主要研究领域为人脸识别等章毓晋(通信作者),男,1954年生,博士,教授,博士生导师,主要研究领域为图像工程(图像处理、图像分析、图像理解及其技术应用). Email: zhangye@ee. tsinghua. edu S1994-2009ChinaAcademicJOumaleLectronicpUblishingHouseAllrightsreservedhttp://www.cnki.net

第 32 卷第 5 期 2009 年 5 月计算机学报 CHIN ESE J OURNAL OF COMPU TERS Vol. 32 No. 5 May 2009 收稿日期 :2006209203 ;最终修改稿收到日期 :2009204206. 本课题得到国家自然科学基金(60872084) 和教育部高等学校博士学科点专项科研基金(SRFDP220060003102) 资助. 严严 ,男 ,1984 年生 ,博士 ,主要研究领域为人脸识别等. 章毓晋(通信作者) ,男 ,1954 年生 ,博士 ,教授 ,博士生导师 ,主要研究领域为图像工程(图像处理、图像分析、图像理解及其技术应用) . E2mail : zhangyj @ee. tsinghua. edu. cn. 基于视频的人脸识别研究进展严严 1) ,2) 章毓晋 1) ,2) 1) (清华大学信息科学与技术国家实验室北京 100084) 2) (清华大学电子工程系北京 100084) 摘要近年来基于视频的人脸识别已成为人脸识别领域最为活跃的研究方向之一. 如何充分利用视频中人脸的时间和空间信息克服视频中人脸分辨率低 ,尺度变化范围大 ,光照、姿态变化比较剧烈以及时常发生遮挡等困难是研究的重点. 文中对近期(主要近 5 年) 基于视频的人脸识别研究进行了详细的介绍和讨论 ,在对相关方法分类的基础上 ,分析了各类方法中典型技术的优缺点 ,并概况介绍了常用的视频人脸数据库和实验结果 ,最后展望了基于视频人脸识别未来的发展方向和趋势. 关键词模式识别 ;人脸识别 ;基于视频的人脸识别 ;进展中图法分类号 TP391 DOI号 : 10. 3724/ SP.J. 1016. 2009. 00878 State2of2the2Art on Video2Based Face Recognition YAN Yan 1) ,2) ZHAN G Yu2Jin 1) ,2) 1) ( N ational L aboratory f or I nf ormation S cience and Technolog y , Tsinghua Universit y , Beijing 100084) 2) ( Department of Electronic Engineering , Tsinghua Universit y , Bei jing 100084) Abstract Recently , video2based face recognition has become one of the hottest topics in t he do2 main of face recognition. How to f ully utilize bot h spatial and temporal information in video to overcome the difficulties existing in t he video2based face recognition , such as low resolution of face images in video , large variations of face scale , radical changes of illumination and pose as well as occasionally occlusion of different parts of faces , is t he focus. The paper reviews most ex2 isting typical methods for video2based face recognition (especially for t he last 5 years) and analy2 ses t heir respective pros and cons. Two commonly used video face databases and some experimen2 tal results are given. The prospects for f ut ure development and suggestions for f urt her research works are p ut forward in the end. Keywords pattern recognition ; face recognition ; video2based face recognition ; progress 1 引言人脸识别具有非常重大的理论意义和应用价值. 人脸识别的研究对于图像处理、模式识别、计算机视觉、计算机图形学等领域的发展具有重大的推动作用 ,同时在生物特征认证、视频监控、安全等各个领域也有着广泛的应用. 经过多年研究 ,人脸识别技术已取得了长足的进步和发展. 随着视频监控、信息安全、访问控制等应用领域的发展需求 ,基于视频的人脸识别已成为人脸识别领域最为活跃的研究方向之一[124 ] . 如何充分利用视频中人脸的时间和空间信息克服视频中人脸分辨率低 ,尺度变化范围大 ,光照、姿态变化剧烈以及时常

严等:基于视频的人脸识别研究进展发生遮挡等困难是研究的重点.国内外众多的大学和“视频视频”人脸识别可以利用的信息最多.视频中研究机构,如美国的MIT1、CMU、UIUC9、可以利用的信息包括:多幅同一个人的人脸图 Maryland大学H、英国的剑桥大学1、日本的像,视频中人脸在时间和空间上的连续性,利用视频 Toshi ba公司1和国内的中国科学院自动化生成的三维(3D)人脸模型等.需要强调的是本文这所2都对基于视频的人脸识别进行了广泛而深入样分类的目的是为了能够对整个人脸识别领域的研的研究鉴于目前现有的人脸识别国内外综述文献究现状有一个宏观上的认识,并区分不同情况下的主要针对基于静止图像的人脸识别研究,因此有人脸识别.事实上不同情况下人脸识别采用的技术必要对现阶段基于视频的人脸识别研究情况进行分可以是相同的,例如对所有人脸视频序列的处理是析和总结,期望能够更好地指导未来的研究工作.按照某种规则(如大小、姿态清晰度等)提取一张人脸图像,则上面的情况都可以采用基于静止图像的 2人脸识别概述人脸识别技术本文首先对现阶段基于视频的人脸识别研究现个自动的基于视频的人脸识别系统包括了人状进行了详细的分析和讨论,接着介绍了常用的视脸检测模块、人脸跟踪模块、人脸特征提取模块和人频人脸数据库和实验结果最后展望了未来的发展方脸识别模块2.关于人脸检测、人脸跟踪和人脸特向本文假设已经得到图像或者视频中需识别人脸的征提取的研究进展可以参考综述文献[-3]本文重位置对静止图像中人脸的定位可参见文献[2y24] 点介绍基于视频的人脸识别研究进展对视频中人脸的定位和分割可参见文献[25 人脸识别问题可以定义成:输入(查询)场景中的静止图像或者视频使用人脸数据库识别或验证3基于视频的人脸识别场景中的一个人或者多个人21.基于静止图像的人脸识别通常是指输入(查询)一幅静止的图像,使用根据上一节的讨论,下面把基于视频的人脸识人脸数据库进行识别或验证图像中的人脸而基于别分成“视频图像(多幅图像)”人脸识别和“视频视频的人脸识别是指输入(查询)一段视频,使用人视频”人脸识别两种情况分别给予综述脸数据库进行识别或验证视频中的人脸如不考虑3.1“视频图像(多幅图像)”人脸识别视频的时间连续信息,问题也可以变成采用多幅图 “视频-图像(多幅图像)”人脸识别是指采用人像(时间上不一定连续)作为输入(查询)进行识别或脸视频作为输入(查询)利用静止图像人脸数据库进验证因此按照上面的分析,根据输入(查询)和人脸行识别或验证由于现有的大部分人脸数据库都是数据库的不同,人脸识别可以分成如表1所示的静止图像人脸数据库,如何充分利用视频中的人脸 4种情况信息更好地进行人脸识别是现阶段迫切需要解决的表1输入(查询)和数据库不同情况下的人脸识别识别方式解决这类问题的传统做法128可以分成两大数据库中图像(多幅图像)数据库中视频类:一类方法对输入视频中的人脸进行跟踪,寻找满输入(査询)图像图像-图像(多幅图像)图像视频命入(査询)视频。视频-图像(多幅图像)视频视频足一定规则(如大小、姿态清晰度等)的人脸图像,然后利用基于静止图像的人脸识别方法.这类方法的表中“图像图像(多幅图像)”人脸识别就是传缺点是规则很难定义,并且没有最大限度地利用人统的基于静止图像的人脸识别.而“图像视频”脸视频中的时间和空间连续信息.另一类方法利用人脸识别是指利用人脸图像作为输入采用视频人脸视频中的空间信息进行人脸识别通过对输入视频数据库进行识别或验证.通常的应用领域是基于人中每一幅人脸或者若干幅人脸采用基于静止图像的脸的视频信息检索.本文重点介绍的基于视频的人人脸识别方法3,利用各种联合规则(如多数投脸识别主要是指后面两种情况,即“视频-图像(多幅票或者概率/距离累加等方法)再进行最终的识别图像)”人脸识别和“视频视频”人脸识别.“视频图这类方法的缺点是联合规则常有相当的随机性像(多幅图像)”人脸识别是指输入(查询)一段人脸近年来,一些研究者开始利用视频中人脸的时视频,利用静止图像人脸数据库进行识别或验证.间和空间连续信息进行识别文献[10]讨论了在贝 “视频视频”人脸识别是指输入和数据库都利用视叶斯理论的框架下统一解决人脸识别和跟踪问题, 频进行人脸识别或验证相对于前面3种情况,采用时间序列模型刻画人脸的动态变化,把身份变 C1994-2009ChinaAcademicJournalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net

发生遮挡等困难是研究的重点. 国内外众多的大学和研究机构 ,如美国的 MIT [ 5 ] 、CMU [627 ] 、U IUC [829 ] 、 Maryland 大学[10212 ] 、英国的剑桥大学[13215 ] 、日本的 Toshiba 公司[16218 ] 和国内的中国科学院自动化所[19221 ]都对基于视频的人脸识别进行了广泛而深入的研究. 鉴于目前现有的人脸识别国内外综述文献主要针对基于静止图像的人脸识别研究[ 123 ] ,因此有必要对现阶段基于视频的人脸识别研究情况进行分析和总结 ,期望能够更好地指导未来的研究工作. 2 人脸识别概述一个自动的基于视频的人脸识别系统包括了人脸检测模块、人脸跟踪模块、人脸特征提取模块和人脸识别模块[22 ] . 关于人脸检测、人脸跟踪和人脸特征提取的研究进展可以参考综述文献[ 123 ]. 本文重点介绍基于视频的人脸识别研究进展. 人脸识别问题可以定义成 : 输入 (查询) 场景中的静止图像或者视频 ,使用人脸数据库识别或验证场景中的一个人或者多个人[ 122 ] . 基于静止图像的人脸识别通常是指输入 (查询) 一幅静止的图像 ,使用人脸数据库进行识别或验证图像中的人脸. 而基于视频的人脸识别是指输入 (查询) 一段视频 ,使用人脸数据库进行识别或验证视频中的人脸. 如不考虑视频的时间连续信息 ,问题也可以变成采用多幅图像(时间上不一定连续) 作为输入(查询) 进行识别或验证. 因此按照上面的分析 ,根据输入(查询) 和人脸数据库的不同 ,人脸识别可以分成如表 1 所示的 4 种情况. 表 1 输入(查询)和数据库不同情况下的人脸识别识别方式数据库中图像(多幅图像) 数据库中视频输入(查询) 图像图像2图像(多幅图像) 图像2视频输入(查询) 视频视频2图像(多幅图像) 视频2视频表中“图像2图像 (多幅图像) ”人脸识别就是传统的基于静止图像的人脸识别[123 ] . 而“图像2视频” 人脸识别是指利用人脸图像作为输入采用视频人脸数据库进行识别或验证. 通常的应用领域是基于人脸的视频信息检索. 本文重点介绍的基于视频的人脸识别主要是指后面两种情况 ,即“视频2图像(多幅图像) ”人脸识别和“视频2视频”人脸识别.“视频2图像(多幅图像) ”人脸识别是指输入 (查询) 一段人脸视频 ,利用静止图像人脸数据库进行识别或验证. “视频2视频”人脸识别是指输入和数据库都利用视频进行人脸识别或验证. 相对于前面 3 种情况 , “视频2视频”人脸识别可以利用的信息最多. 视频中可以利用的信息包括[4 ] : 多幅同一个人的人脸图像 ,视频中人脸在时间和空间上的连续性 ,利用视频生成的三维(3D) 人脸模型等. 需要强调的是本文这样分类的目的是为了能够对整个人脸识别领域的研究现状有一个宏观上的认识 ,并区分不同情况下的人脸识别. 事实上不同情况下人脸识别采用的技术可以是相同的 ,例如对所有人脸视频序列的处理是按照某种规则(如大小、姿态、清晰度等) 提取一张人脸图像 ,则上面的情况都可以采用基于静止图像的人脸识别技术. 本文首先对现阶段基于视频的人脸识别研究现状进行了详细的分析和讨论 ,接着介绍了常用的视频人脸数据库和实验结果 ,最后展望了未来的发展方向.本文假设已经得到图像或者视频中需识别人脸的位置.对静止图像中人脸的定位可参见文献[ 23224 ] , 对视频中人脸的定位和分割可参见文献[25 ]. 3 基于视频的人脸识别根据上一节的讨论 ,下面把基于视频的人脸识别分成“视频2图像 (多幅图像) ”人脸识别和“视频2 视频”人脸识别两种情况分别给予综述. 3. 1 “视频2图像(多幅图像) ”人脸识别 “视频2图像 (多幅图像) ”人脸识别是指采用人脸视频作为输入(查询) 利用静止图像人脸数据库进行识别或验证. 由于现有的大部分人脸数据库都是静止图像人脸数据库 ,如何充分利用视频中的人脸信息更好地进行人脸识别是现阶段迫切需要解决的问题. 解决这类问题的传统做法[26228 ] 可以分成两大类 :一类方法对输入视频中的人脸进行跟踪 ,寻找满足一定规则(如大小、姿态、清晰度等)的人脸图像 ,然后利用基于静止图像的人脸识别方法. 这类方法的缺点是规则很难定义 ,并且没有最大限度地利用人脸视频中的时间和空间连续信息. 另一类方法利用视频中的空间信息进行人脸识别. 通过对输入视频中每一幅人脸或者若干幅人脸采用基于静止图像的人脸识别方法[123 ] ,利用各种联合规则[ 29 ] (如多数投票或者概率/ 距离累加等方法) 再进行最终的识别. 这类方法的缺点是联合规则常有相当的随机性[4 ] . 近年来 ,一些研究者开始利用视频中人脸的时间和空间连续信息进行识别. 文献[ 10 ]讨论了在贝叶斯理论的框架下统一解决人脸识别和跟踪问题 , 采用时间序列模型刻画人脸的动态变化 ,把身份变 5 期严严等 :基于视频的人脸识别研究进展 879

880 量和运动矢量作为状态变量从而引进时间和空间的上述方法中都采用贝叶斯理论引进了时间信信息;利用序贯重要度采样( Sequential Importance息,极大地提高了识别率并且采用序贯重要度采样 Sampling,SIS)的方法有效估计出身份变量和运动克服非高斯分布和非线性系统带来的难以估计概率矢量的联合后验概率分布,通过边缘化提取出身份密度的问题.但是估计概率密度需要大量的粒子,导变量的概率分布.实验结果表明了该算法的有效性.致其计算量比较大不过当姿态变化时识别率只有57%之所以出现姿3.2“视频视频”人脸识别态变化时识别率低的原因是对时间连续性的利用体 ‘视频视频”人脸识别是指输入和数据库中的现在人脸外观一致上,而随着光照或姿态的变化会人脸均是以视频的形式存在大量的文献对如何同导致外观的明显不同因此文献[1进一步提出了时利用输入和数据库中的人脸视频进行了深入的研自适应外观变化模型并且采用自适应运动模型更准究现有文献中对视频中人脸信息的描述方式总结确地处理姿态的变化,对运动模型中噪声的方差和起来有下面几种采样算法中的粒子数根据计算得到外观模型的误差 (1)利用一幅代表性的图像得到的特征(矢量进行更新,采用鲁棒统计学( ro bust statistics)处理表示),如主成分分析(PCA)降维后的矢量等脸部遮挡问题.利用基于贝叶斯人脸识别方法的 (2)利用所有图像得到的特征(矩阵表示),如似然函数进行权重更新使得整个算法更加有效特征空间示例( exemplar,)等文献[3-32]通过对输入视频中人脸的脸部特 (3)利用概率密度函数刻画视频中的人脸分征或外观的跟踪进行人脸验证基本思想是,如果是布,如高斯模型等正确的输入(对应数据库中要验证的人脸),则跟踪 4)利用动态模型刻画视频中人脸随时间的动的轨迹基本一致;而如果是不正确的输入,则跟踪态变化,如隐马尔可夫模型等轨迹没有规律性相应的数学模型就是考虑所得到 (5)利用流形( manifold)刻画视频中的人脸分的运动矢量分布,如果呈现尖峰(一致的运动参数)布,如分段线性PCA子空间等则认为是正确的人脸.如果没有呈现尖峰,而是类似上述各种描述方式(矢量矩阵、概率密度、动态均匀分布,则认为是错误的人脸模型、流形)之间可能的度量如表2所示表2描述方式之间的度量输入量(y(数据库)矩阵亻ⅹ(数据库)概率密度(∫数据库)动态模型(D(数据库)流形(M(数据矢量(x frx D(x M(X 矩阵(X I(X. X d(X. x M(X 概率密度(f fIx f(X d(. f 动态模型(D d(D, D) d(D, M) 表2中d代表两个模型之间的距离或相似度,基于视频的人脸验证方法,采用形状和归一化纹理 f(X,M(y代表概率/距离累加或多数投票,D(X的联合外观模型( Active Appearance Model,AAM) 代表各帧后验概率来表示人脸,通过加入类别信息的改进线性鉴别分下面按照对输入描述方式的不同,分成矢量矩析( Linear Discriminant Analysis,LDA)分离出身阵、概率、动态模型、流形5个小节分别给予介绍份变量( identity)和其他变化因素(姿态、光照和表 3.21矢量情).采用卡尔曼滤波器( Kalman filter)对身份变量利用矢量作为输入描述方式的基本思想是利用进行跟踪得到的稳定值就是身份稳定估计量.人脸视频得到一个反映输入人脸视频特性(如均值人脸验证就可以通过对输入人脸视频进行跟踪得到的估图像、最好的正面图像等)的特征(矢量表示),和数计量和数据库得到的身份估计量进行比较看是否大据库中的人脸视频描述方式进行匹配.数据库中人于某个阈值来实现.与基于静止图像的人脸验证方脸视频的描述方式可以是矢量、矩阵、概率、动态模法相比,采用基于视频的人脸验证能利用更多的信型`流形等息,效果更好.算法采用ASM( Active Shape Model) 文献[33]对数据库中的每类人脸建立一个进行人脸定位可以避免误配准带来的影响但是一 PCA子空间,利用与各个人脸子空间的距离对输入旦定位不准,则对后继的参数跟踪会产生很大的误视频中的所有人脸进行标注文献[34]介绍了一种差,导致识别率下降.并且对于达到稳定估计值需要 c1994-2009ChinaAcademicJourmalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net

量和运动矢量作为状态变量从而引进时间和空间的信息 ;利用序贯重要度采样 (Sequential Importance Sampling ,SIS) 的方法有效估计出身份变量和运动矢量的联合后验概率分布 ,通过边缘化提取出身份变量的概率分布. 实验结果表明了该算法的有效性. 不过当姿态变化时识别率只有 57 %. 之所以出现姿态变化时识别率低的原因是对时间连续性的利用体现在人脸外观一致上 ,而随着光照或姿态的变化会导致外观的明显不同. 因此文献[ 11 ]进一步提出了自适应外观变化模型并且采用自适应运动模型更准确地处理姿态的变化 ,对运动模型中噪声的方差和采样算法中的粒子数根据计算得到外观模型的误差进行更新 ,采用鲁棒统计学 (robust statistics) 处理脸部遮挡问题. 利用基于贝叶斯人脸识别[30 ] 方法的似然函数进行权重更新使得整个算法更加有效. 文献[31232 ]通过对输入视频中人脸的脸部特征或外观的跟踪进行人脸验证. 基本思想是 ,如果是正确的输入(对应数据库中要验证的人脸) ,则跟踪的轨迹基本一致 ; 而如果是不正确的输入 ,则跟踪轨迹没有规律性. 相应的数学模型就是考虑所得到的运动矢量分布 ,如果呈现尖峰 (一致的运动参数) 则认为是正确的人脸. 如果没有呈现尖峰 ,而是类似均匀分布 ,则认为是错误的人脸. 上述方法中都采用贝叶斯理论引进了时间信息 ,极大地提高了识别率. 并且采用序贯重要度采样克服非高斯分布和非线性系统带来的难以估计概率密度的问题. 但是估计概率密度需要大量的粒子 ,导致其计算量比较大. 3. 2 “视频2视频”人脸识别 “视频2视频”人脸识别是指输入和数据库中的人脸均是以视频的形式存在. 大量的文献对如何同时利用输入和数据库中的人脸视频进行了深入的研究. 现有文献中对视频中人脸信息的描述方式总结起来有下面几种 : (1) 利用一幅代表性的图像得到的特征 (矢量表示) ,如主成分分析(PCA) 降维后的矢量等 ; (2) 利用所有图像得到的特征 (矩阵表示) ,如特征空间、示例(exemplar) 等 ; (3) 利用概率密度函数刻画视频中的人脸分布 ,如高斯模型等 ; (4) 利用动态模型刻画视频中人脸随时间的动态变化 ,如隐马尔可夫模型等 ; (5) 利用流形 (manifold) 刻画视频中的人脸分布 ,如分段线性 PCA 子空间等. 上述各种描述方式(矢量、矩阵、概率密度、动态模型、流形) 之间可能的度量如表 2 所示. 表 2 描述方式之间的度量输入度量函数矢量( x) (数据库) 矩阵( X) (数据库) 概率密度( f ) (数据库) 动态模型( D) (数据库) 流形( M) (数据库) 矢量( x) d( x , x) d( x , X) f ( x) D( x) M ( x) 矩阵( X) d( X, x) d( X, X) f ( X) D( X) M ( X) 概率密度( f ) f ( x) f ( X) d( f , f ) \ \ 动态模型( D) D( x) D( X) \ d( D , D) d( D , M) 流形( M) M ( x) M ( X) \ d( M , D) d( M , M) 表 2 中 d 代表两个模型之间的距离或相似度 , f ( X) , M ( X) 代表概率/ 距离累加或多数投票 , D ( X) 代表各帧后验概率. 下面按照对输入描述方式的不同 ,分成矢量、矩阵、概率、动态模型、流形 5 个小节分别给予介绍. 31211 矢量利用矢量作为输入描述方式的基本思想是利用视频得到一个反映输入人脸视频特性 (如均值人脸图像、最好的正面图像等) 的特征 (矢量表示) ,和数据库中的人脸视频描述方式进行匹配. 数据库中人脸视频的描述方式可以是矢量、矩阵、概率、动态模型、流形等. 文献 [ 33 ] 对数据库中的每类人脸建立一个 PCA 子空间 ,利用与各个人脸子空间的距离对输入视频中的所有人脸进行标注. 文献[ 34 ]介绍了一种基于视频的人脸验证方法 ,采用形状和归一化纹理的联合外观模型(Active Appearance Model ,AAM) 来表示人脸 ,通过加入类别信息的改进线性鉴别分析(Linear Discriminant Analysis ,LDA) 分离出身份变量(identity) 和其他变化因素 (姿态、光照和表情) . 采用卡尔曼滤波器 ( Kalman filter) 对身份变量进行跟踪得到的稳定值就是身份稳定估计量. 人脸验证就可以通过对输入人脸视频进行跟踪得到的估计量和数据库得到的身份估计量进行比较看是否大于某个阈值来实现. 与基于静止图像的人脸验证方法相比 ,采用基于视频的人脸验证能利用更多的信息 ,效果更好. 算法采用 ASM (Active Shape Model) 进行人脸定位可以避免误配准带来的影响. 但是一旦定位不准 ,则对后继的参数跟踪会产生很大的误差 ,导致识别率下降. 并且对于达到稳定估计值需要 880 计算机学报 2009 年

严等:基于视频的人脸识别研究进展 881 的视频长度无法计算和估计另一个借助视觉约束文献[39]利用聚类的方法建立局部参数模型的人脸跟踪和识别方法可见文献[35] 对数据库中的每个人脸建立多个局部流形首先对 3.2.2矩阵数据库中的每段人脸视频经过LDA进行线性降采用矩阵作为输入描述方式进行人脸识别的算维,通过采取 ISOMAP( Isometric feature Map 法可以分成两类,一类是利用得到的特征(矩阵表ping)提取各点的测地距离( geodesic distance)作示)逐个与数据库中的人脸描述方式进行比较(相当为人脸之间的距离,从而可以更准确地刻画各点在于每次取出矩阵的一行或者一列),然后利用多数投流形空间中的位置关系,然后采用HAC( Hierarch 票或者概率(距离)累加最大的方法进行识别.另一 cal Agglomerative Clustering)聚类方法得到K个类是把得到的特征(矩阵表示)看成一个整体和数据示例,对每一示例采用类似文献[41的方法对每个库中的人脸描述方式进行比较相对于前面一种方局部模型建立双子空间( dual subspace)概率模型法,后者采用矩阵作为整体更能利用视频的空间连使用概率测度作为相似性度量,采用多数投票进行续信息.数据库中人脸视频的描述方式可以是矢量、识别文献[6对每段人脸视频建立一个特征空间并矩阵、概率、动态模型`流形等把视频中人脸的变化看成一个非平稳的随机过程文献[36]采用总体PCA方法进行降维,在低维(AR模型),采用逐步更新特征空间的方法并且引空间中采用混合高斯模型( Gaussian Mixture model,进了权重的概念,对新的样本权重大,对以前的样本 GMM)来表示数据库中每个人脸通过计算输入视权重小该文中针对每个人脸建立两个特征空间,包频中每一帧人脸的后验概率,采用多数投票和概率括训练集中的特征空间和识别后不断更新建立的新累加最大的方法得到最终结果.文献[37]对数据库的特征空间来解决过慢学习的问题文献[4243利的每类人脸建立多个匹配模板,并根据视频中的动用数据库中的人脸视频得到三维模型生成查询人脸态的信息(如人脸姿态、运动模糊等)对多个模板进视频条件下的光照和姿态变化,然后逐一进行比对, 行自适应的融合文献[16]对输入的人脸序列和数用距离累计最大的方法得到识别结果据库中的人脸序列分别建立一个PCA特征子空间,3.2.3概率两个特征子空间之间的距离由它们之间的夹角确采用概率作为输入描述形式的基本思想是把视定为了进一步去除光照姿态、表情等的影响,把子频中人脸的动态变化看成是满足一定的概率分布的空间重新投影到限制子空间( constraint subspace)高维随机变量.一般对数据库中视频的描述方式也中,限制子空间只包含对识别有用的成分(身是概率方式,通过比较概率密度函数的相似性来度份)1.为了解决限制子空间中需要大量样本的问量人脸之间相似性题,进一步利用整体学习( ensemble learning)的方文献[13].用GMM模型学习不同姿态和光法训练出M个限制子空间,通过投影到这M个限照条件下的人脸分布,对输入人脸视频和数据库中制子空间的距离加权和作为人脸之间距离的度的人脸视频都利用GMM模型进行建模,采用KL 量1.该类算法的主要缺点在于没有考虑每一类人散度( Kull back- Leibler divergence作为人脸之间相脸的整体概率分布,没有利用每一类的均值和特征似性度量文献[5]把人脸识别问题看成是一个假设值,在投影到限制子空间时可能会产生一定的问题,检验问题,证明了如果人脸视频中每一帧之间是相并且参数的设定和空间维数都需要通过经验给出.互独立的,则得到的最优准则是KL散度.假设每由于人脸在姿态光照、表情变化时呈现非线性个人脸服从高斯分布,采用KL散度作为相似性度分布,文献[38在线性空间中通过核的方法映射到量但是由于假设是单高斯分布,因此无法刻画由于高维的非线性空间(核 Hil bert空间),在高维空间光照或者是姿态变化导致人脸呈现流形的情况,并且中的夹角(核主成分夹角)作为矩阵的相似性度量,KL散度本身是一种非对称的度量方式文献[4 并且利用正定的核函数就可以和SvM( Support用基于核函数方法把低维空间映射到高维空间,这 Vector machine)结合起来提高分类的性能.文献样就可以在高维空间中利用低维空间中的线性方法 [1920首先通过LDA进行线性降维,然后对每个(如PCA)来解决一般的复杂的非线性问题,采用人的人脸视频通过矢量量化技术或者K均值聚类RAD( Resistor Average Distance)作为人脸相似性形成K个类别,每个类别用聚类中心和聚类的权重度量.为了解决配准误差所带来的识别率下降的问来表示最后采用EMD( Earth mover' s Distance)题,利用了多幅图像和 RANSAC( Random Sample 距离作为相似性度量进行人脸识别 Consensus)算法来解决.另外文献[44]利用了核的 C1994-2009ChinaAcademicJOunalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net

的视频长度无法计算和估计. 另一个借助视觉约束的人脸跟踪和识别方法可见文献[35 ]. 3. 2. 2 矩阵采用矩阵作为输入描述方式进行人脸识别的算法可以分成两类 ,一类是利用得到的特征 (矩阵表示) 逐个与数据库中的人脸描述方式进行比较(相当于每次取出矩阵的一行或者一列) ,然后利用多数投票或者概率(距离) 累加最大的方法进行识别. 另一类是把得到的特征(矩阵表示) 看成一个整体和数据库中的人脸描述方式进行比较. 相对于前面一种方法 ,后者采用矩阵作为整体更能利用视频的空间连续信息. 数据库中人脸视频的描述方式可以是矢量、矩阵、概率、动态模型、流形等. 文献[36 ]采用总体 PCA 方法进行降维 ,在低维空间中采用混合高斯模型( Gaussian Mixture Model , GMM) 来表示数据库中每个人脸. 通过计算输入视频中每一帧人脸的后验概率 ,采用多数投票和概率累加最大的方法得到最终结果. 文献[ 37 ]对数据库的每类人脸建立多个匹配模板 ,并根据视频中的动态的信息(如人脸姿态、运动模糊等) 对多个模板进行自适应的融合. 文献[ 16 ]对输入的人脸序列和数据库中的人脸序列分别建立一个 PCA 特征子空间 , 两个特征子空间之间的距离由它们之间的夹角确定. 为了进一步去除光照、姿态、表情等的影响 ,把子空间重新投影到限制子空间 (constraint subspace) 中 , 限制子空间只包含对识别有用的成分 (身份) [17 ] . 为了解决限制子空间中需要大量样本的问题 ,进一步利用整体学习 (ensemble learning) 的方法训练出 M 个限制子空间 ,通过投影到这 M 个限制子空间的距离加权和作为人脸之间距离的度量[18 ] . 该类算法的主要缺点在于没有考虑每一类人脸的整体概率分布 ,没有利用每一类的均值和特征值 ,在投影到限制子空间时可能会产生一定的问题 , 并且参数的设定和空间维数都需要通过经验给出. 由于人脸在姿态、光照、表情变化时呈现非线性分布 ,文献[ 38 ]在线性空间中通过核的方法映射到高维的非线性空间 (核 Hilbert 空间) ,在高维空间中的夹角(核主成分夹角) 作为矩阵的相似性度量 , 并且利用正定的核函数就可以和 SVM (Support Vector Machine) 结合起来提高分类的性能. 文献 [19220 ]首先通过 LDA 进行线性降维 ,然后对每个人的人脸视频通过矢量量化技术或者 K 均值聚类形成 K 个类别 ,每个类别用聚类中心和聚类的权重来表示. 最后采用 EMD ( Eart h Mover’s Distance) 距离作为相似性度量进行人脸识别. 文献[ 39 ]利用聚类的方法建立局部参数模型 , 对数据库中的每个人脸建立多个局部流形. 首先对数据库中的每段人脸视频经过 LDA 进行线性降维 ,通过采取 ISOMA P ( Isometric feat ure Map2 ping) [ 40 ]提取各点的测地距离(geodesic distance) 作为人脸之间的距离 ,从而可以更准确地刻画各点在流形空间中的位置关系 ,然后采用 HAC( Hierarchi2 cal Agglomerative Clustering) 聚类方法得到 K 个示例 ,对每一示例采用类似文献[ 41 ]的方法对每个局部模型建立双子空间 ( dual subspace) 概率模型 , 使用概率测度作为相似性度量 ,采用多数投票进行识别. 文献[ 6 ]对每段人脸视频建立一个特征空间并把视频中人脸的变化看成一个非平稳的随机过程 (AR 模型) ,采用逐步更新特征空间的方法并且引进了权重的概念 ,对新的样本权重大 ,对以前的样本权重小. 该文中针对每个人脸建立两个特征空间 ,包括训练集中的特征空间和识别后不断更新建立的新的特征空间来解决过慢学习的问题. 文献[ 42243 ]利用数据库中的人脸视频得到三维模型生成查询人脸视频条件下的光照和姿态变化 ,然后逐一进行比对 , 采用距离累计最大的方法得到识别结果. 3. 2. 3 概率采用概率作为输入描述形式的基本思想是把视频中人脸的动态变化看成是满足一定的概率分布的高维随机变量. 一般对数据库中视频的描述方式也是概率方式 ,通过比较概率密度函数的相似性来度量人脸之间相似性. 文献[ 13 ]采用 GMM 模型学习不同姿态和光照条件下的人脸分布 ,对输入人脸视频和数据库中的人脸视频都利用 GMM 模型进行建模 ,采用 K2L 散度( Kullback2Leibler divergence) 作为人脸之间相似性度量. 文献[ 5 ]把人脸识别问题看成是一个假设检验问题 ,证明了如果人脸视频中每一帧之间是相互独立的 ,则得到的最优准则是 K2L 散度. 假设每个人脸服从高斯分布 ,采用 K2L 散度作为相似性度量.但是由于假设是单高斯分布 ,因此无法刻画由于光照或者是姿态变化导致人脸呈现流形的情况 ,并且 K2L 散度本身是一种非对称的度量方式. 文献[14 ]采用基于核函数方法把低维空间映射到高维空间 ,这样就可以在高维空间中利用低维空间中的线性方法 (如 PCA) 来解决一般的复杂的非线性问题 ,采用 RAD (Resistor2Average Distance) 作为人脸相似性度量. 为了解决配准误差所带来的识别率下降的问题 ,利用了多幅图像和 RANSAC ( Random Sample Consensus) 算法来解决. 另外文献[ 44 ]利用了核的 5 期严严等 :基于视频的人脸识别研究进展 881

方法,把原来的矢量空间映射到高维非线性空间很好地处理人脸的大规模旋转时的识别和跟踪问 RKHS( Reproducing Kernel Hilbert Space)中计算题.文献[21首先对所有的人脸利用LLE( Locally 概率分布之间的距离 Linear Embedding)降维后建立整体分段线性模型, 3.2.4动态模型根据到各个分段子流形的距离采用贝叶斯推理的方无论是矢量、矩阵和概率都没有利用时间连续法计算最大后验概率.在文献[45]中作者通过实验的信息,所以可以自然地推广到多幅人脸图像(时间结果指出,利用时空结构的HMM大于一定长度上不必连续)作为输入时的人脸识别问题.而动态模时要优于基于静止图像的多数投票方法,但是当视型则利用了人脸的时间和空间连续变化的信息,能频的长度过短时则不一定这说明时间长短对动态够更好地刻画人脸的动态变化特性数据库通常的模型的识别率会有一定影响描述方式可以是矩阵、动态模型、流形 3.2.5流形文献[10]中采用31节中介绍的概率模型,通人脸在不同的光照、姿态变化下会构成一个的过自动选择人脸视频中的示例(在线K均值聚类),低维空间的流形.所以利用流形作为输入描述把人脸示例的索引也作为状态变量,采用SIS的方可以更好地描述人脸的分布.一般对数据库中的人法估计出联合概率密度分布,最后通过边缘化求出脸采用同样的描述方法比较输入和数据库中流形身份变量的分布进行人脸识别文献[71中对数据库的相似性作为度量中的每段人脸视频采用PCA变换建立了特征子空文献[4749]使用流形来解决基于视频的人脸间,在特征子空间中建立一个自适应隐马尔可夫模型识别问题,首先建立了一个多视角动态人脸模型,包 ( Hidden markov model,HMM),识别阶段就可以计含了一个3D模型,一个和形状姿态无关的纹理模算每个识别序列的后验概率作为相似性度量,并且当型,一个仿射变化模型.其基本思想是基于分析的合满足一定条件时对HMM模型进行更新文献[12]把成,通过最小化损失函数,求解出模型的参数在视运动人脸建模成一个ARMA( Auto- Regressive and频序列中该问题可以进一步简化,利用 Kalman滤 Moving average)模型(用姿态作为状态量,采用外波求解出形状和纹理.人脸纹理通过KDA( Kernel 观作为观测量),采用ARMA子空间之间的夹角作 Discriminant Analysis)降维后对单个人脸序列建立为相似性度量个分段的线性流形(特征矢量随着姿态的变化) 文献[8-9]和文献[10]的想法类似,认为应该把接着就可以通过比较轨迹的匹配程度进行人脸识跟踪和识别结合起来,减少跟踪的误配准对识别的别但是要进行3D模型的估计需要大量的多视角影响对不同姿态下的人脸构造一个低维分段线性图像,计算复杂度较大流形为了引进时间信息,采用贝叶斯推理的方法有文献中的典型算法总结如表3所示建立了不同姿态之间的转移矩阵,该文的算法能够表3典型的“视频视频”人脸识别的方法度量方法典型文 PCA特征子空间重构误差d(x,X 文献/33J LDA降维后跟踪得到身份稳定估计量欧式距离d(x,y 混合高斯模型多数投票/概率累加f(X PCA特征子空间子空间夹角dx,y 文献/16-18 核 Hilbert空核主成分角d(X,X 文献/37J 矢量量化/K均值聚类得到示例 emd d(X. x 文献/19-20J 每个人脸由多个局部模型组成每个局部模型建立双子空间概率模型多数投票f(X 文献/38 两个PCA特征子空间多数投票d(X.y 文献6J 3D模型得到的合成人脸图像距离累加d(X,y 文献/42J 概率混合高斯模型 KL测度d(f,f 文献137 单高斯模型 KL测度d(, 文献/5 概率核PCA建立的单高斯模型 RAD测度d(f,f 文献/14J 动态模型在线K均值聚类得到示例最大后验概率D(y 文献/10 动态模型隐马尔可夫(HMM模型最大后验概率d(D,D) 文献/7 动态模型自回归滑动平均(ARMA模型 ARMA子空间夹角d(D,D 动态模型 PCA子空间内分段线性流最大后验概率d(D.M 文献/8-97 动态模型 LLE降维后分段线性流形最大后验概率dD,M 文献/21 流形 KDA降维后分段线性流形轨迹匹配dMM 文献/47-491 91994-2009chinaAcademicJournalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net

方法 ,把原来的矢量空间映射到高维非线性空间 R KHS(Rep roducing Kernel Hilbert Space) 中计算概率分布之间的距离. 3. 2. 4 动态模型无论是矢量、矩阵和概率都没有利用时间连续的信息 ,所以可以自然地推广到多幅人脸图像(时间上不必连续) 作为输入时的人脸识别问题. 而动态模型则利用了人脸的时间和空间连续变化的信息 ,能够更好地刻画人脸的动态变化特性. 数据库通常的描述方式可以是矩阵、动态模型、流形. 文献[ 10 ]中采用 311 节中介绍的概率模型 ,通过自动选择人脸视频中的示例(在线 K 均值聚类) , 把人脸示例的索引也作为状态变量 ,采用 SIS 的方法估计出联合概率密度分布 ,最后通过边缘化求出身份变量的分布进行人脸识别. 文献[7 ]中对数据库中的每段人脸视频采用 PCA 变换建立了特征子空间 ,在特征子空间中建立一个自适应隐马尔可夫模型 ( Hidden Markov Model , HMM) ,识别阶段就可以计算每个识别序列的后验概率作为相似性度量 ,并且当满足一定条件时对 HMM 模型进行更新. 文献[12 ]把运动人脸建模成一个 ARMA (Auto2Regressive and Moving Average) 模型(用姿态作为状态量 ,采用外观作为观测量) ,采用 ARMA 子空间之间的夹角作为相似性度量. 文献[ 829 ]和文献[10 ]的想法类似 ,认为应该把跟踪和识别结合起来 ,减少跟踪的误配准对识别的影响. 对不同姿态下的人脸构造一个低维分段线性流形. 为了引进时间信息 ,采用贝叶斯推理的方法 , 建立了不同姿态之间的转移矩阵 ,该文的算法能够很好地处理人脸的大规模旋转时的识别和跟踪问题. 文献[ 21 ]首先对所有的人脸利用 LL E (Locally Linear Embedding) 降维后建立整体分段线性模型 , 根据到各个分段子流形的距离采用贝叶斯推理的方法计算最大后验概率. 在文献[ 45 ]中作者通过实验结果指出 ,利用时空结构的 HMM [7 ] 大于一定长度时要优于基于静止图像的多数投票方法 ,但是当视频的长度过短时则不一定. 这说明时间长短对动态模型的识别率会有一定影响. 3. 2. 5 流形人脸在不同的光照、姿态变化下会构成一个的低维空间的流形[39 ,46 ] . 所以利用流形作为输入描述可以更好地描述人脸的分布. 一般对数据库中的人脸采用同样的描述方法. 比较输入和数据库中流形的相似性作为度量. 文献[ 47249 ]使用流形来解决基于视频的人脸识别问题 ,首先建立了一个多视角动态人脸模型 ,包含了一个 3D 模型 ,一个和形状姿态无关的纹理模型 ,一个仿射变化模型. 其基本思想是基于分析的合成 ,通过最小化损失函数 ,求解出模型的参数. 在视频序列中该问题可以进一步简化 ,利用 Kalman 滤波求解出形状和纹理. 人脸纹理通过 KDA ( Kernel Discriminant Analysis) 降维后对单个人脸序列建立一个分段的线性流形 (特征矢量随着姿态的变化) . 接着就可以通过比较轨迹的匹配程度进行人脸识别. 但是要进行 3D 模型的估计需要大量的多视角图像 ,计算复杂度较大. 现有文献中的典型算法总结如表 3 所示. 表 3 典型的“视频2视频”人脸识别的方法输入描述数据库中人脸的描述度量方法典型文献矢量 PCA 特征子空间重构误差 d( x , X) 文献[33 ] 矢量 LDA 降维后跟踪得到身份稳定估计量欧式距离 d( x , x) 文献[34 ] 矩阵混合高斯模型多数投票/ 概率累加 f ( X) 文献[35 ] 矩阵 PCA 特征子空间子空间夹角 d( X, X) 文献[16218 ] 矩阵核 Hilbert 空间核主成分角 d( X, X) 文献[37 ] 矩阵矢量量化/ K2均值聚类得到示例 EMD d( X, X) 文献[19220 ] 矩阵每个人脸由多个局部模型组成每个局部模型建立双子空间概率模型多数投票 f ( X) 文献[38 ] 矩阵两个 PCA 特征子空间多数投票 d( X, X) 文献[6 ] 矩阵 3D 模型得到的合成人脸图像距离累加 d( X, X) 文献[42 ] 概率混合高斯模型 K2L 测度 d ( f , f ) 文献[13 ] 概率单高斯模型 K2L 测度 d ( f , f ) 文献[5 ] 概率核 PCA 建立的单高斯模型 RAD 测度 d( f , f ) 文献[14 ] 动态模型在线 K 均值聚类得到示例最大后验概率 D( X) 文献[10 ] 动态模型隐马尔可夫( HMM) 模型最大后验概率 d( D , D) 文献[7 ] 动态模型自回归滑动平均(ARMA) 模型 ARMA 子空间夹角 d( D , D) 文献[12 ] 动态模型 PCA 子空间内分段线性流形最大后验概率 d( D , M) 文献[829 ] 动态模型 LL E 降维后分段线性流形最大后验概率 d( D , M) 文献[21 ] 流形 KDA 降维后分段线性流形轨迹匹配 d( M , M) 文献[47249 ] 882 计算机学报 2009 年

严严等基于视频的人脸识别研究进展 883 3.3小结表4视频人脸数据库上典型方法的实验结果综上可以看出“视频图像(多幅图像)”人脸识别和“视频视频”人脸识别研究的主要问题包括 (1)如何对高维的人脸图像降维 PCA(多数投票)87.1%(MoBo) 文献[44] (2)如何对降维后的人脸序列进行描述 LDA(多数投票) 90.8%(MoBo) 文献[44 (3)如何刻画描述方式之间的度量人脸数据降维的目的是得到表达性特征(如主隐马尔可夫模型23%0M 91.2 %(Honda/UCSD) 文献[44 成分分析等)或鉴别性特征(如线性鉴别分析等)以基于贝叶斯框架的g2%以上(MB) 文献[10 降低高维人脸数据的计算复杂度和减弱噪声、表情、光照等因素的影响.对各种常见线性和非线性的率外观流形法988%无遮挡)( Honda/ UCSD) 概 978%6(有遮挡)( Honda uc 降维方法研究的介绍可参考文献[51l ARMA模型 90%左右( Honda/UCSD) 文献[2L 现阶段对降维后的人脸序列描述方式包括矢混合高斯模型94% 文献[3L 局部线性模型95.6% 文献[21L 量、矩阵、概率、动态模型、流形等.其中采用概率和流形的方法需要大量反映人脸分布的样本才能更准确地刻画人脸的分布达到较好的性能利用动态模5总结和展望型能够很好地利用时间和空间的信息,但是方法相对比较复杂,计算量一般都比较大而利用矢量作为本文介绍了现阶段基于视频的人脸识别研究进输入描述方式的主要缺点是样本选取的随机性矩展在对人脸识别不同情况分类的基础上,重点介绍阵方式最为简单,并且可以应用到时间上不连续的了现阶段基于视频的人脸识别的主要方法,分析和多幅图像情况,但如何更好地刻画矩阵之间的度量讨论了各种方法的优缺点,还介绍了常用的视频人是一个值得研究的内容脸数据库及一些典型方法的实验结果现阶段基于视频的人脸识别一般都是把人脸视 4常用的视频人脸数据库及频看成一个整体来克服分辨率低的问题.对于光些实验结果照或者姿态的单独变化可以通过矩阵、概率或者流形的方式部分解决3,但是需要不同条件下的大目前基于视频的人脸识别常用的视频人脸数据量的训练样本对于遮挡问题可以采用鲁棒统计库包括Mobo( Motion of body)数据库21和 Honda学或者对脸部的分块处理s来解决 UCSD数据库.Mobo数据库最初是CMU为了随着研究的深入,基于视频的人脸识别需要进 Human id计划进行步态识别而采集的数据库.整一步研究的工作包括个数据库包含25个人在跑步机上以四种不同的方式行走的视频序列行走的方式包括慢速行走快速 (1)人脸特征的准确定位本文假设已经得到了图像或者视频中人脸的位行走、斜面行走和拿球行走,正面角度拍摄的视频序置,并且人脸的特征已经准确定位但是在实际应用列共99段(一段丢失).UCSD/ Honda数据库包含 20个人的共52段视频数据库中的人脸视频包含中,人脸视频的分辨率过低常会使得人脸的检测和了大规模的2D(平面内)和3D(平面外)的头部旋准确的特征定位存在一定的困难人脸的误配准也转另外还有DXM2VTS数据库15 会严重影响人脸识别的结果作为人脸识别的基础, 这些视频人脸数据库普遍的缺点是没有考虑到准确和快速的人脸检测和特征定位方法是必不可各种条件的变化大部分都是姿态的变化,其他的如少的光照、表情的变化等考虑较少,并且数据库的人偏少 (2)人脸的超分辨率重建和模糊复原 (<50个人),无法进行大规模有效的实验来评价各视频序列中的人脸由于采集条件和运动的影种算法的优劣响,人脸图像分辨率低且人脸模糊需要研究人脸图目前大部分的文献中采用的数据库以及训练,像超分辨率技术和图像复原技术以得到清晰测试方法都不尽相同但为了对目前典型方法的实的人脸图像也是未来需要重点解决的问题验结果有一个直观的认识,表4汇集了在视频人脸 (3)人脸的3D建模数据库上一些典型方法的实验结果现阶段基于二维的人脸识别方法可以在一定程 c1994-2009ChinaAcademicJourmalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net

3. 3 小结综上可以看出“视频2图像 (多幅图像) ”人脸识别和“视频2视频”人脸识别研究的主要问题包括 : (1) 如何对高维的人脸图像降维 ; (2) 如何对降维后的人脸序列进行描述 ; (3) 如何刻画描述方式之间的度量 ; 人脸数据降维的目的是得到表达性特征 (如主成分分析等) 或鉴别性特征 (如线性鉴别分析等) 以降低高维人脸数据的计算复杂度和减弱噪声、表情、光照等因素的影响[50 ] . 对各种常见线性和非线性的降维方法研究的介绍可参考文献[51 ]. 现阶段对降维后的人脸序列描述方式包括矢量、矩阵、概率、动态模型、流形等. 其中采用概率和流形的方法需要大量反映人脸分布的样本才能更准确地刻画人脸的分布 ,达到较好的性能. 利用动态模型能够很好地利用时间和空间的信息 ,但是方法相对比较复杂 ,计算量一般都比较大. 而利用矢量作为输入描述方式的主要缺点是样本选取的随机性. 矩阵方式最为简单 ,并且可以应用到时间上不连续的多幅图像情况 ,但如何更好地刻画矩阵之间的度量是一个值得研究的内容. 4 常用的视频人脸数据库及一些实验结果目前基于视频的人脸识别常用的视频人脸数据库包括 Mobo (Motion of body) 数据库[52 ]和 Honda/ UCSD 数据库[829 ] . Mobo 数据库最初是 CMU 为了 Human ID 计划进行步态识别而采集的数据库. 整个数据库包含 25 个人在跑步机上以四种不同的方式行走的视频序列. 行走的方式包括慢速行走、快速行走、斜面行走和拿球行走. 正面角度拍摄的视频序列共 99 段 (一段丢失) . UCSD/ Honda 数据库包含 20 个人的共 52 段视频. 数据库中的人脸视频包含了大规模的 2D (平面内) 和 3D (平面外) 的头部旋转. 另外还有 DXM2V TS 数据库[ 53 ] . 这些视频人脸数据库普遍的缺点是没有考虑到各种条件的变化. 大部分都是姿态的变化 ,其他的如光照、表情的变化等考虑较少 ,并且数据库的人偏少 ( < 50 个人) ,无法进行大规模有效的实验来评价各种算法的优劣. 目前大部分的文献中采用的数据库以及训练 , 测试方法都不尽相同. 但为了对目前典型方法的实验结果有一个直观的认识 ,表 4 汇集了在视频人脸数据库上一些典型方法的实验结果. 表 4 视频人脸数据库上典型方法的实验结果方法名称识别率典型文献 PCA (多数投票) 8711 %(MoBo) 8916 %( Honda/ UCSD) 文献[ 44 ] LDA (多数投票) 9018 %(MoBo) 8615 %( Honda/ UCSD) 文献[ 44 ] 隐马尔可夫模型 9213 %(MoBo) 9112 %( Honda/ UCSD) 文献[ 44 ] 基于贝叶斯框架的 SIS 方法 92 %以上(MoBo) 文献[ 10 ] 概率外观流形法 9818 %(无遮挡) ( Honda/ UCSD) 9718 %(有遮挡) ( Honda/ UCSD) 文献[ 9 ] ARMA 模型 90 %左右( Honda/ UCSD) 文献[ 12 ] 混合高斯模型 94 % 文献[ 13 ] 局部线性模型 95162 % 文献[ 21 ] 5 总结和展望本文介绍了现阶段基于视频的人脸识别研究进展. 在对人脸识别不同情况分类的基础上 ,重点介绍了现阶段基于视频的人脸识别的主要方法 ,分析和讨论了各种方法的优缺点 ,还介绍了常用的视频人脸数据库及一些典型方法的实验结果. 现阶段基于视频的人脸识别一般都是把人脸视频看成一个整体来克服分辨率低的问题[35 ] . 对于光照或者姿态的单独变化可以通过矩阵、概率或者流形的方式部分解决[9 ,18 ] ,但是需要不同条件下的大量的训练样本. 对于遮挡问题可以采用鲁棒统计学[11 ]或者对脸部的分块处理[54 ]来解决. 随着研究的深入 ,基于视频的人脸识别需要进一步研究的工作包括 : (1) 人脸特征的准确定位本文假设已经得到了图像或者视频中人脸的位置 ,并且人脸的特征已经准确定位. 但是在实际应用中 ,人脸视频的分辨率过低常会使得人脸的检测和准确的特征定位存在一定的困难. 人脸的误配准也会严重影响人脸识别的结果. 作为人脸识别的基础 , 准确和快速的人脸检测和特征定位方法是必不可少的. (2) 人脸的超分辨率重建和模糊复原视频序列中的人脸由于采集条件和运动的影响 ,人脸图像分辨率低且人脸模糊. 需要研究人脸图像超分辨率技术[ 55 ] 和图像复原技术[56 ] 以得到清晰的人脸图像也是未来需要重点解决的问题. (3) 人脸的 3D 建模现阶段基于二维的人脸识别方法可以在一定程 5 期严严等 :基于视频的人脸识别研究进展 883

884 计算机学度上解决姿态或光照的变化问题.但是人脸是一个[9]LekC,HoJ, Yang M H, Kriegman D. /isual tracking 三维的物体,利用人脸的三维信息是解决姿态,光照 ing probabilistic appe 变化问题的最本质方法现阶段利用视频数据生成 Computer Vision and Image Understanding, 2005, 99(3) 303-331 3D模型的计算复杂度很大35,无法达到使用要 [10] Zhou S, Krueger V, Chellappa R. Probabilistic recognition 求更好地降低三维人脸建模的复杂度和提高建模 of human faces from video. Computer Vision and Image Un 的精度是未来发展的一个重要方向 derstanding,2003,91(1):214245 (4)视频人脸数据库和测试方法的标准化 [11 Zhou S, Chellappa R, Moghaddam B. Visual tracking and 与基于静止图像的人脸识别相比,基于视频的 recognition using appearance-adaptive models in particle 人脸识别的最大问题是还没有一个包含各种条件变 ters. IEEE Transactions on Im (11):1434-1456 化的、统一的、大规模的视频人脸数据库和测试标121)Agwd, Chowdhury A K R, Chellappa r. A system 准.许多文章采用的视频人脸数据库和测试方法都 identification approach for video- based face recognition/ Pro- 不尽相同,无法进行算法之间的比较.建立一个公共 ceedings of the IEeE International Conference on pattern 的、大规模的视频人脸数据库和标准的测试方法是 Recognition. Cambridge. 2004: 23-26 该领域的一个首要任务 [13] Arandjelove O, Cipolla R. Face recognition from face motion (5)多模生物特征认证 manifolds using robust kernel resistoraverage distance// Pro- ceedings of the IEEE Conference on Compute Vision and Pat- 现阶段基于视频的人脸识别算法主要是基于室 ter Recognition workshop. Washington D. C, 2004: 88-93 内的环境条件室外条件下的人脸图像光照、姿态等 [14 Arandjelovie O, Shakhnarovich G, Fisher G, Cipolla R 的剧烈变化使人脸识别仍然面临着许多困难,融合 Darrell T. Face recognition with image sets using manifold 多种生物特征提高识别的性能也将是未来研究的一 density divergence// Proceedings of the IEEE Conference or 个重点0621 Computer Vision and Pattern Recognition. San Diego, 2005 参考文献 [15 Arandjelovie O, Cipolla R. A pose-wise linear illumination manifold model for face recognition using video. Computer Vision and Image Understanding, 2009, 113(1): 113-12 [1] Chellappa R, Wilson C, Sirohey S. Human and machine rec- [16] Yamaguchi O, Fukui K, Maeda K. Face recognition using ognition of faces: A survey. Proceedings of the IEEE, 1995 temporal image sequence// Proceedings of the IEEE Interna- 83(5):705740 tional Conference on automatic face and Gesture recogni- [2 Zhao w, Chellappa R, Rosenfeld A, Phillips P J. Face rec- Nara,1998:3l8-323 survey. ACM K: Yamaguchi O. Face recognition using multiview 2003,35(4):399458 B3 Li S Z, Jain A K. Handbook of Face Recognition. N patterns for robot vision// Proceedings of the Interna- York: Springer, 2005 tional Symposium of Robotics Research. Siena, Italy, 20 192-201 [4] Zhou $, Chellappa R. Beyond a single still image: Face rec- ognition from multiple still images and videos// Zhao W et al [18 Nishiyama M, Yamaguchi O, Fukui K. Face Recognition eds. Face Processing: Advanced Modeling and Met hods with the multiple constrained mut ual subspace met hod//Pro- New York. Academic Press. 2005 ceedings of the 5th International Conference on Audio and 5 Shakhnarovich G, Fisher J W, Darrell T. Face recognition Video-Based Biometric Person Authentication. New York from long-term observations// Proceedings of the European Conference on Computer Vision. Bari, 2002: 851-868 [19] LiJ W, Wang Y H, Tan T N. Video-based face recognition using a metric of average Euclidean distance// Proceedings of Ir stationary process and its application to face recognitio the 5th Chinese Conference on Biometric Recognition. Guan- Pattern Recognition, 2003, 36(9): 1945-1959 gzhu, China,2004:224-232 7) Liu X M, Chen T. Video- based face recognition using adap- [20] LiJ W, Wang Y H, Tan TN. Video-based face recognition tive hidden Markov models// Proceedings of the IEEE Inter- using earth movers distance// Proceedings of the Interna- national Conference on Computer Vision and Pattern Recog tional Conference on Audio and Videor based person Authen- nition. Madison. 2003: 340-345 tication. New York. 2005: 229-239 [8 Lee K C, Ho J, Yang M H, Kriegman D. Video based face [21 Fan W, Wang Y H, Tan T N. Videor based face recognition cognition using probabilistic appearance manifolds//Pro- using Bayesian inference model// Proceedings of the Interna- ceedings of the International IEEE Conference on Computer tional Conference on Audio- and Videor based Person Aut he- Vision and Pattern Recognition. Madison. 2003: 313-320 tication. New York 2005: 122-1 S1994-2009ChinaAcademicJOurmaleLectronicPublishingHouseAllrightsreservedhttp://www.cnki.net

度上解决姿态或光照的变化问题. 但是人脸是一个三维的物体 ,利用人脸的三维信息是解决姿态 ,光照变化问题的最本质方法. 现阶段利用视频数据生成 3D 模型的计算复杂度很大[42 ,57259 ] ,无法达到使用要求. 更好地降低三维人脸建模的复杂度和提高建模的精度是未来发展的一个重要方向. (4) 视频人脸数据库和测试方法的标准化与基于静止图像的人脸识别相比 ,基于视频的人脸识别的最大问题是还没有一个包含各种条件变化的、统一的、大规模的视频人脸数据库和测试标准. 许多文章采用的视频人脸数据库和测试方法都不尽相同 ,无法进行算法之间的比较. 建立一个公共的、大规模的视频人脸数据库和标准的测试方法是该领域的一个首要任务. (5) 多模生物特征认证现阶段基于视频的人脸识别算法主要是基于室内的环境条件. 室外条件下的人脸图像光照、姿态等的剧烈变化使人脸识别仍然面临着许多困难 ,融合多种生物特征提高识别的性能也将是未来研究的一个重点[60262 ] . 参考文献 [1 ] Chellappa R , Wilson C , Sirohey S. Human and machine rec2 ognition of faces: A survey. Proceedings of t he IEEE , 1995 , 83 (5) : 7052740 [2 ] Zhao W , Chellappa R , Rosenfeld A , Phillips P J. Face rec2 ognition : A literature survey. ACM Computation Survey , 2003 , 35 (4) : 3992458 [3 ] Li S Z , J ain A K. Handbook of Face Recognition. New York : Springer , 2005 [4 ] Zhou S , Chellappa R. Beyond a single still image : Face rec2 ognition from multiple still images and videos/ / Zhao W et al eds. Face Processing : Advanced Modeling and Met hods. New York : Academic Press , 2005 [5 ] Shakhnarovich G , Fisher J W , Darrell T. Face recognition from long2term observations/ / Proceedings of t he European Conference on Computer Vision. Bari , 2002 : 8512868 [6 ] Liu X M , Chen T , Thornton S M. Eigenspace updating for non2stationary process and its application to face recognition. Pattern Recognition , 2003 , 36 (9) : 194521959 [7 ] Liu X M , Chen T. Video2based face recognition using adap2 tive hidden Markov models/ / Proceedings of t he IEEE Inter2 national Conference on Computer Vision and Pattern Recog2 nition. Madison , 2003 : 3402345 [8 ] Lee K C , Ho J , Yang M H , Kriegman D. Video2based face recognition using probabilistic appearance manifolds/ / Pro2 ceedings of t he International IEEE Conference on Computer Vision and Pattern Recognition. Madison , 2003 : 3132320 [ 9 ] Lee K C , Ho J , Yang M H , Kriegman D. Visual tracking and recognition using probabilistic appearance manifolds. Computer Vision and Image Understanding , 2005 , 99 ( 3) : 3032331 [ 10 ] Zhou S , Krueger V , Chellappa R. Probabilistic recognition of human faces from video. Computer Vision and Image Un2 derstanding , 2003 , 91 (1) : 2142245 [ 11 ] Zhou S , Chellappa R , Moghaddam B. Visual tracking and recognition using appearance2adaptive models in particle fil2 ters. IEEE Transactions on Image Processing , 2004 , 13 (11) : 143421456 [ 12 ] Aggarwal G , Chowdhury A K R , Chellappa R. A system identification approach for video2based face recognition/ / Pro2 ceedings of t he IEEE International Conference on Pattern Recognition. Cambridge , 2004 : 23226 [ 13 ] Arandjelovi’c O , Cipolla R. Face recognition from face motion manifolds using robust kernel resistor2average distance/ / Pro2 ceedings of t he IEEE Conference on Compute Vision and Pat2 ter Recognition workshop. Washington D. C , 2004 : 88293 [ 14 ] Arandjelovi’c O , Shakhnarovich G , Fisher G , Cipolla R , Darrell T. Face recognition wit h image sets using manifold density divergence/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. San Diego , 2005 : 5812588 [ 15 ] Arandjelovi’c O , Cipolla R. A pose2wise linear illumination manifold model for face recognition using video. Computer Vision and Image Understanding , 2009 , 113 (1) : 1132125 [ 16 ] Yamaguchi O , Fukui K , Maeda K. Face recognition using temporal image sequence/ / Proceedings of t he IEEE Interna2 tional Conference on Automatic Face and Gesture Recogni2 tion. Nara , 1998 : 3182323 [ 17 ] Fukui K , Yamaguchi O. Face recognition using multi2view2 point patterns for robot vision/ / Proceedings of t he Interna2 tional Symposium of Robotics Research. Siena , Italy , 2003 : 1922201 [ 18 ] Nishiyama M , Yamaguchi O , Fukui K. Face Recognition wit h t he multiple constrained mutual subspace met hod/ / Pro2 ceedings of t he 5t h International Conference on Audio2 and Video2Based Biometric Person Aut hentication. New York , 2005 : 71280 [ 19 ] Li J W , Wang Y H , Tan T N. Video2based face recognition using a metric of average Euclidean distance/ / Proceedings of t he 5t h Chinese Conference on Biometric Recognition. Guan2 gzhou , China , 2004 : 2242232 [ 20 ] Li J W , Wang Y H , Tan T N. Video2based face recognition using eart h mover’s distance/ / Proceedings of t he Interna2 tional Conference on Audio2 and Video2based person Aut hen2 tication. New York , 2005 : 2292239 [ 21 ] Fan W , Wang Y H , Tan T N. Video2based face recognition using Bayesian inference model/ / Proceedings of t he Interna2 tional Conference on Audio2 and Video2based Person Aut hen2 tication. New York , 2005 : 1222130 884 计算机学报 2009 年

严严等基于视频的人脸识别研究进展 [22] Yan Y, Zhang YJ. State-of-the-art on video-based face rec [36] Me Kenna S, Gong S, Raja Y. Face recognition in dynamic ognition. Encyclopedia of Artificial Intelligence, 2008, 1455- scenes// Proceedings of the British Machine vision Confer- [23] Jia H X, Zhang YJ. Human detection in static images//Ver- [37] Park U, Jain A K, Ross A. Face recognition in video: Adap- ma B, Blumenstein M. Pattern Recognition Technologies and tive fusion of multiple matchers// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition [24] Liu X M, Zhang YJ, Tan H C. A new Hausdorff distance Minneapolis, 2007: 1-8 based approach for face localization. Sciencepaper Online [38] Wolf L, Shashua A. Kernel principal angles for classification 2005,200512662(1-9) machines with applications to image sequence interpreta- [25 Srikantaswamy R, Samuel R D S. A novel face segmentation tion// Proceedings of the IEEE Conference on Computer Vi algorithm from a video sequence for real-time face recogni sion and Pattern Recognition. Madison, 2003: 635-642 tion. EU RASIP Journal on Advances in Signal Processi 139 Fan W, Yeung D Y, Locally linear models on face appear- 2007.2007:1-6 fication/ Proceedings of the IEEE Conference on Computer 26] Wechsler H, Kakkad V, Huang J, Gutta S, Chen V. Vision and Pattern Recognition. New York. 2006: 1384- atic video based person authentication using the RB work// Proceedings of the International Conference on audior [40 Tenenbaum J B, Silva V D, Langford J C. A global geomet- and Video-Based Person Aut hentication. Crans- Montana ric framework for nonlinear dimensionality reduction. Sci- 997:8592 ence,2000,290(5500):23192323 [27 Steffens J, Elagin E, Neven H. PersonSpotter: Fast and ro- [41]Moghaddam B, Jebara T, Pentland A. Bayesian face recogni- bust system for human detection, tracking and recognition// tion. Pattern Recognition, 2000, 33(11): 1771-1782 Proceedings of the 3rd IEEE International Conference on a 142 Xu Y, Roy-Chowdhury A, Patel K. Pose and illuminatio tomatic Face and Gesture Recognition. Nara. 1998: 516-521 ariant face recognition in video// Proceedings of the IEEE [28] Mckenna SJ, Gong S. Norrintrusive person authentication Conference on Computer Vision and Pattern Recognition for access control by visual tracking and face recognition/ Minneapolis, 2007: 1-7 lior and [43] Xu Y L, Roy- Chowdhury A, Patel K. Integrating illumina- Video-Based Person Aut hentication. Crans- Montana 1997 tion, motion, and shape models for robust face recognition in video. Eurasip Journal on Advances in Signal Processing 29] M. Duin R P w 2008:1-13 classifiers. IEEE Transactions on Pattern Analysis and [44] Zhou S, Chellappa R. From sample similarity to ensemble chine Intelligence. 1998. 20(3): 226-239 similarity: Probabilistic distance measures in reproducing [30] Moghaddam B, Pentland A. Probabilistic visual learning for kernel Hilbert space. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(6): 917-929 sis and Machine Intelligence, 1997,19(7): 696710 [45] Hadid A, PietikAnen M. From still image to video-based face [31 Li B, Chellappa R. Face verification through tracking facial recognition: An experimental analysis// Proceedings of the features. Journal of the Optical Society of America A, 2001 6th Ieee International Conference on Automatic Face and l8(12):29692981 Gesture Recognition. Seoul 2004: 813-818 [32] Li B, Chellappa R. A generic approach to simultaneous [46 Roweis S T, Saul L K. Nonlinear dimensionality reduction tracking and verification in video. IEEE Transactions on Imr by locally linear embedding. Science, 2000, 290(5500) 2323-2326 age Processing, 2002, 11(5): 530- [47] Li Y, Gong S, Lidell H. Modeling faces dynamically across [33 Torres L, Vila J. Automatic face recognition for video inde- views and over time// Proceedings of the IEEE International xing applications. Pattern Recognition, 2002, 35(3): 615- Conference on Computer Vision. Vanco [48] Li Y, Gong S, Lidell H. Video- based online face recognition [34] Edwards GJ, Taylor CJ, Taylor T F. Improving identifica- using identity surfaces/ Proceedings of the IEEE Internation- ion per formation by integrating evidence from sequences// al Conference on Computer Vision. Vancouver, 2001: 40-46 Proceedings of the IEEE International Conference on Comr (49 Li Y, Gong S, Lidell H. Constructing facial identity surfaces puter Vision and Pattern Recognition. Fort Collins, 1999 the Conference on Computer Vision and Pattern Recogniti 135 Kim MY, Kumar S, Pavlovic V, Rowley H. Face tracking and recognition with visual constraints in real-world videos// [50] Yan Y, Zhang Y J. Discriminant projection embedding for Proceedings of the 26th IEEE Conference on Computer Vi- face and palmprint recognition. Neurcomp uting, 2008,(16 sion and Pattern Recognition. Anchorage, 2008: 1-8 18):3534-3543

[ 22 ] Yan Y , Zhang YJ. State2of2t he2art on video2based face rec2 ognition. Encyclopedia of Artificial Intelligence , 2008 , 14552 1461 [ 23 ] Jia H X , Zhang YJ. Human detection in static images/ / Ver2 ma B , Blumenstein M. Pattern Recognition Technologies and Applications: Recent Advances. 2008 : 2272243 [ 24 ] Liu X M , Zhang Y J , Tan H C. A new Hausdorff distance based approach for face localization. Sciencepaper Online , 2005 , 2005122662 (129) [ 25 ] Srikantaswamy R , Samuel R D S. A novel face segmentation algorit hm from a video sequence for real2time face recogni2 tion. EURASIP Journal on Advances in Signal Processing , 2007 , 2007 : 126 [ 26 ] Wechsler H , Kakkad V , Huang J , Gutta S , Chen V. Auto2 matic video based person aut hentication using t he RBF net2 work/ / Proceedings of t he International Conference on Audio2 and Video2Based Person Aut hentication. Crans2Montana , 1997 : 85292 [ 27 ] Steffens J , Elagin E , Neven H. PersonSpotter : Fast and ro2 bust system for human detection , tracking and recognition/ / Proceedings of t he 3rd IEEE International Conference on Au2 tomatic Face and Gesture Recognition. Nara , 1998 : 5162521 [ 28 ] Mckenna S J , Gong S. Non2intrusive person aut hentication for access control by visual tracking and face recognition/ / Proceedings of t he International Conference on Audio2 and Video2Based Person Aut hentication. Crans2Montana , 1997 : 1772183 [ 29 ] Kittler J , Hatef M , Duin R P W , Matas J. On combining classifiers. IEEE Transactions on Pattern Analysis and Ma2 chine Intelligence , 1998 , 20 (3) : 2262239 [ 30 ] Moghaddam B , Pentland A. Probabilistic visual learning for object representation. IEEE Transactions on Pattern Analy2 sis and Machine Intelligence , 1997 , 19 (7) : 6962710 [ 31 ] Li B , Chellappa R. Face verification t hrough tracking facial features. Journal of t he Optical Society of America A , 2001 , 18 (12) : 296922981 [ 32 ] Li B , Chellappa R. A generic approach to simultaneous tracking and verification in video. IEEE Transactions on Im2 age Processing , 2002 , 11 (5) : 5302554 [ 33 ] Torres L , Vila J. Automatic face recognition for video inde2 xing applications. Pattern Recognition , 2002 , 35 ( 3) : 6152 625 [ 34 ] Edwards G J , Taylor C J , Taylor T F. Improving identifica2 tion per formation by integrating evidence from sequences/ / Proceedings of t he IEEE International Conference on Com2 puter Vision and Pattern Recognition. Fort Collins , 1999 : 4862491 [ 35 ] Kim M Y , Kumar S , Pavlovic V , Rowley H. Face tracking and recognition wit h visual constraints in real2world videos/ / Proceedings of t he 26t h IEEE Conference on Computer Vi2 sion and Pattern Recognition. Anchorage , 2008 : 128 [ 36 ] Mc Kenna S , Gong S , Raja Y. Face recognition in dynamic scenes/ / Proceedings of t he British Machine Vision Confer2 ence. Colchester , 1997 : 1402151 [ 37 ] Park U , J ain A K , Ross A. Face recognition in video : Adap2 tive fusion of multiple matchers/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis , 2007 : 128 [ 38 ] Wolf L , Shashua A. Kernel principal angles for classification machines wit h applications to image sequence interpreta2 tion/ / Proceedings of t he IEEE Conference on Computer Vi2 sion and Pattern Recognition. Madison , 2003 : 6352642 [ 39 ] Fan W , Yeung D Y. Locally linear models on face appear2 ance manifolds wit h application to dual2subspace based classi2 fication/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. New York , 2006 : 13842 1390 [ 40 ] Tenenbaum J B , Silva V D , Langford J C. A global geomet2 ric framework for nonlinear dimensionality reduction. Sci2 ence , 2000 , 290 (5500) : 231922323 [ 41 ] Moghaddam B , J ebara T , Pentland A. Bayesian face recogni2 tion. Pattern Recognition , 2000 , 33 (11) : 177121782 [ 42 ] Xu Y , Roy2Chowdhury A , Patel K. Pose and illumination invariant face recognition in video/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. Minneapolis , 2007 : 127 [ 43 ] Xu Y L , Roy2Chowdhury A , Patel K. Integrating illumina2 tion , motion , and shape models for robust face recognition in video. Eurasip Journal on Advances in Signal Processing , 2008 , 2008 : 1213 [ 44 ] Zhou S , Chellappa R. From sample similarity to ensemble similarity : Probabilistic distance measures in reproducing kernel Hilbert space. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2006 , 28 (6) : 9172929 [ 45 ] Hadid A , Pietik¾inen M. From still image to video2based face recognition : An experimental analysis/ / Proceedings of t he 6t h IEEE International Conference on Automatic Face and Gesture Recognition. Seoul , 2004 : 8132818 [ 46 ] Roweis S T , Saul L K. Nonlinear dimensionality reduction by locally linear embedding. Science , 2000 , 290 ( 5500 ) : 232322326 [ 47 ] Li Y , Gong S , Lidell H. Modeling faces dynamically across views and over time/ / Proceedings of t he IEEE International Conference on Computer Vision. Vancouver , 2001 : 5542559 [ 48 ] Li Y , Gong S , Lidell H. Video2based online face recognition using identity surfaces/ / Proceedings of t he IEEE Internation2 al Conference on Computer Vision. Vancouver , 2001 : 40246 [ 49 ] Li Y , Gong S , Lidell H. Constructing facial identity surfaces in a nonlinear discriminating space/ / Proceedings of t he IEEE Conference on Computer Vision and Pattern Recognition. Kauai , 2001 : 2582263 [ 50 ] Yan Y , Zhang Y J. Discriminant projection embedding for face and palmprint recognition. Neurcomputing , 2008 , (162 18) : 353423543 5 期严严等 :基于视频的人脸识别研究进展 885

886 2009年 [51] Yan SC, Xu D, Zhang B, Zhang HJ. Graph embedding and Computer Vision and Image Understanding, 2003, 91(1) 188-213 ion. IEEE Transactions on Pattern Analysis and Machine [58] Choudhury A, Clarkson B, Jebara T, Penland A. Multimo- ntelligence,2007,29(1):4051 dal person recognition using unconstrained audio and video// [52] Gross R, Shi J. The CMU Motion of Body(MoBo) datar base. Robotics Institute, Carnegie Mellon University: Tech Biometric Person Aut hentication. Washington D. C, 1999 nical Report CMU-RF TR-O1-18, 2001 176-180 [53 Teferi D, Bigun J. Damascening video databases for evalua [59 Zhang ZY, Liu Z C, Adler D, Cohen M F, Hanson E, Shan tion of face tracking and recognition -The DXM2VTS datar Y. Robust and rapid generation of animated faces from video base. Pattern Recognition Letters, 2007, 28(15): 2143-2156 images: A model-based modeling approach. International [54] Zhang Y, Martinez A M. A weighted probabilistic approach Journal of Computer Vision, 2004, 58(2): 93-119 to face recognition from multiple images and video sequences. [60 Zhou x, Bhanu B. Integrating face and gait for human recog- Image and Vision Computing, 2006, 24(6): 626-638 nition at a distance in video. IEeE Transactions on Systems [55] AF Azzeh M, Eleyan A, Demirel H. PCA-based face recogni- Man and Cybernetics, Part B, 2007, 37(5): 1119-113 tion from video using superresolution// Proceedings of the [61] Jing X Y, Yao Y F, Zhang D, Yang J Y, Li M. Face and 23rd International Symposium on Computer and Information palmprint pixel level fusion and kernel DCV-RBF classifier for small sample biometric recognition. Pattern Recognition [56] Goksel D. Exploiting space-time statistics of videos for face 2007,40(11):32093324 hallucination[ Ph D. dissertation]. Carnegie Mellon Univer- [62 Yan Y, hang Y J. Multi modal biometrics fusion using cor- sity, Pittsburgh, USA, 2007 relation filter bank// Proceedings of the 19th IAPR Interna- [57] Chowdhury A, Chellappa R. Face reconstruction from mo- tional Conference on Pattern Recognition. Tampa, 2008 ocular video using uncertainty analysis and a generic model MoBT7.3(1-4) YAN Yan. born in 1984. Ph. D ZHANG YurJin, born in 1954, Ph. D, professor His main research interests focus on pat- Ph. D. supervisor. His main research interests include image tern recognition engineering (image processing, image analysis, image under- andingandtechniqueapplication).http://www.ee.tsing hua. edu. cn/zhangyuan/ This work is supported by the National Natural Science During the past several years, many research effor oundation of China under grant No. 60872084 and have been concentrated on video-based face recognition cialized Research Fund for the doctoral program of Compared with still image- based face recognition, true video Education under grant No. 20060003 102 based face recognition algorithms that use both spatial and Traditional still image-based face recognition has achieved temporal information started only a few years ago. No com- at success in constrained environments. Ho ve survey in this field has been made, and a lot of the conditions, including illumination les in video-based face reco gnition still have not been ad- age, etc, change too much, the performance declines dra dressed well. So ntent of this paper gives an overview matically. The recent FRVT2002 shows that the recognition of the most existi hods in the field of video- based face performance of face images captured in an out door enviro recognition. A suitable classification for different methods ment and different days is still not satisf ying. Current still has been made, the respective pros and cons of typical tech- image-based face recognition algorithms are even far away niques in each method group are analyzed. The important is- from the capability of human perception system. On the oth- sues which need to be solved, the prospects for future devel- er hand, psycholo gy and physiology studies have shown that opment and some suggestions for further research works are motion can help people for better face recognition. put forward to meet the goal of this paper 01994-2009ChinaAcademicJOurmalElectronicpUblishingHouseAllrightsreservedhttp://www.cnki.net

[ 51 ] Yan S C , Xu D , Zhang B , Zhang H J. Graph embedding and extensions: A general framework for dimensionality reduc2 tion. IEEE Transactions on Pattern Analysis and Machine Intelligence , 2007 , 29 (1) : 40251 [ 52 ] Gross R , Shi J. The CMU Motion of Body ( MoBo) data2 base. Robotics Institute , Carnegie Mellon University : Tech2 nical Report CMU2RI2TR201218 , 2001 [ 53 ] Teferi D , Bigun J. Damascening video databases for evalua2 tion of face tracking and recognition —The DXM2V TS data2 base . Pattern Recognition Letters , 2007 , 28 (15) : 214322156 [ 54 ] Zhang Y , Martinez A M. A weighted probabilistic approach to face recognition from multiple images and video sequences. Image and Vision Computing , 2006 , 24 (6) : 6262638 [ 55 ] Al2Azzeh M , Eleyan A , Demirel H. PCA2based face recogni2 tion from video using super2resolution/ / Proceedings of t he 23rd International Symposium on Computer and Information Sciences. Istanbul , 2008 : 124 [ 56 ] Goksel D. Exploiting space2time statistics of videos for face hallucination [ Ph. D. dissertation ]. Carnegie Mellon Univer2 sity , Pittsburgh , USA , 2007 [ 57 ] Chowdhury A , Chellappa R. Face reconstruction from mo2 nocular video using uncertainty analysis and a generic model. Computer Vision and Image Understanding , 2003 , 91 ( 1) : 1882213 [ 58 ] Choudhury A , Clarkson B , J ebara T , Penland A. Multimo2 dal person recognition using unconstrained audio and video/ / Proceedings of t he Conference on Audio 2 and Video 2based Biometric Person Aut hentication. Washington D. C , 1999 : 1762180 [ 59 ] Zhang Z Y , Liu Z C , Adler D , Cohen M F , Hanson E , Shan Y. Robust and rapid generation of animated faces from video images: A model2based modeling approach. International Journal of Computer Vision , 2004 , 58 (2) : 932119 [ 60 ] Zhou X , Bhanu B. Integrating face and gait for human recog2 nition at a distance in video. IEEE Transactions on Systems , Man and Cybernetics , Part B , 2007 , 37 (5) : 111921137 [ 61 ] Jing X Y , Yao Y F , Zhang D , Yang J Y , Li M. Face and palmprint pixel level fusion and kernel DCV2RBF classifier for small sample biometric recognition. Pattern Recognition , 2007 , 40 (11) : 320923324 [ 62 ] Yan Y , Zhang Y J. Multimodal biometrics fusion using cor2 relation filter bank/ / Proceedings of t he 19t h IAPR Interna2 tional Conference on Pattern Recognition. Tampa , 2008 , MoBT713 (124) YAN Yan , born in 1984 , Ph. D. . His main research interests focus on pat2 tern recognition. ZHANG Yu2Jin , born in 1954 , Ph. D. , professor , Ph. D. supervisor. His main research interests include image engineering (image processing , image analysis , image under2 standing and technique application) . http :/ / www. ee. tsing2 hua. edu. cn/ ～zhangyujin/ Background This work is supported by the National Natural Science Foundation of China under grant No160872084 and the Spe2 cialized Research Fund for the Doctoral Program of Higher Education under grant No120060003102. Traditional still image2based face recognition has achieved great success in constrained environments. However , once the conditions , including illumination , pose , expression , age , etc. , change too much , the performance declines dra2 matically. The recent FRV T2002 shows that the recognition performance of face images captured in an outdoor environ2 ment and different days is still not satisfying. Current still image2based face recognition algorithms are even far away from the capability of human perception system. On the oth2 er hand , psychology and physiology studies have shown that motion can help people for better face recognition. During the past several years , many research efforts have been concentrated on video2based face recognition. Compared with still image2based face recognition , true video2 based face recognition algorithms that use both spatial and temporal information started only a few years ago. No com2 prehensive survey in this field has been made , and a lot of is2 sues in video2based face recognition still have not been ad2 dressed well. So the content of this paper gives an overview of the most existing methods in the field of video2based face recognition. A suitable classification for different methods has been made , the respective pros and cons of typical tech2 niques in each method group are analyzed. The important is2 sues which need to be solved , the prospects for future devel2 opment and some suggestions for further research works are put forward to meet the goal of this paper. 886 计算机学报 2009 年

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录