的视频长度无法计算和估计. 另一个借助视觉约束的人脸跟踪和识别方法可见文

正在加载图片...

严等:基于视频的人脸识别研究进展 881 的视频长度无法计算和估计另一个借助视觉约束文献[39]利用聚类的方法建立局部参数模型的人脸跟踪和识别方法可见文献[35] 对数据库中的每个人脸建立多个局部流形首先对 3.2.2矩阵数据库中的每段人脸视频经过LDA进行线性降采用矩阵作为输入描述方式进行人脸识别的算维,通过采取 ISOMAP( Isometric feature Map 法可以分成两类,一类是利用得到的特征(矩阵表ping)提取各点的测地距离( geodesic distance)作示)逐个与数据库中的人脸描述方式进行比较(相当为人脸之间的距离,从而可以更准确地刻画各点在于每次取出矩阵的一行或者一列),然后利用多数投流形空间中的位置关系,然后采用HAC( Hierarch 票或者概率(距离)累加最大的方法进行识别.另一 cal Agglomerative Clustering)聚类方法得到K个类是把得到的特征(矩阵表示)看成一个整体和数据示例,对每一示例采用类似文献[41的方法对每个库中的人脸描述方式进行比较相对于前面一种方局部模型建立双子空间( dual subspace)概率模型法,后者采用矩阵作为整体更能利用视频的空间连使用概率测度作为相似性度量,采用多数投票进行续信息.数据库中人脸视频的描述方式可以是矢量、识别文献[6对每段人脸视频建立一个特征空间并矩阵、概率、动态模型`流形等把视频中人脸的变化看成一个非平稳的随机过程文献[36]采用总体PCA方法进行降维,在低维(AR模型),采用逐步更新特征空间的方法并且引空间中采用混合高斯模型( Gaussian Mixture model,进了权重的概念,对新的样本权重大,对以前的样本 GMM)来表示数据库中每个人脸通过计算输入视权重小该文中针对每个人脸建立两个特征空间,包频中每一帧人脸的后验概率,采用多数投票和概率括训练集中的特征空间和识别后不断更新建立的新累加最大的方法得到最终结果.文献[37]对数据库的特征空间来解决过慢学习的问题文献[4243利的每类人脸建立多个匹配模板,并根据视频中的动用数据库中的人脸视频得到三维模型生成查询人脸态的信息(如人脸姿态、运动模糊等)对多个模板进视频条件下的光照和姿态变化,然后逐一进行比对, 行自适应的融合文献[16]对输入的人脸序列和数用距离累计最大的方法得到识别结果据库中的人脸序列分别建立一个PCA特征子空间,3.2.3概率两个特征子空间之间的距离由它们之间的夹角确采用概率作为输入描述形式的基本思想是把视定为了进一步去除光照姿态、表情等的影响,把子频中人脸的动态变化看成是满足一定的概率分布的空间重新投影到限制子空间( constraint subspace)高维随机变量.一般对数据库中视频的描述方式也中,限制子空间只包含对识别有用的成分(身是概率方式,通过比较概率密度函数的相似性来度份)1.为了解决限制子空间中需要大量样本的问量人脸之间相似性题,进一步利用整体学习( ensemble learning)的方文献[13].用GMM模型学习不同姿态和光法训练出M个限制子空间,通过投影到这M个限照条件下的人脸分布,对输入人脸视频和数据库中制子空间的距离加权和作为人脸之间距离的度的人脸视频都利用GMM模型进行建模,采用KL 量1.该类算法的主要缺点在于没有考虑每一类人散度( Kull back- Leibler divergence作为人脸之间相脸的整体概率分布,没有利用每一类的均值和特征似性度量文献[5]把人脸识别问题看成是一个假设值,在投影到限制子空间时可能会产生一定的问题,检验问题,证明了如果人脸视频中每一帧之间是相并且参数的设定和空间维数都需要通过经验给出.互独立的,则得到的最优准则是KL散度.假设每由于人脸在姿态光照、表情变化时呈现非线性个人脸服从高斯分布,采用KL散度作为相似性度分布,文献[38在线性空间中通过核的方法映射到量但是由于假设是单高斯分布,因此无法刻画由于高维的非线性空间(核 Hil bert空间),在高维空间光照或者是姿态变化导致人脸呈现流形的情况,并且中的夹角(核主成分夹角)作为矩阵的相似性度量,KL散度本身是一种非对称的度量方式文献[4 并且利用正定的核函数就可以和SvM( Support用基于核函数方法把低维空间映射到高维空间,这 Vector machine)结合起来提高分类的性能.文献样就可以在高维空间中利用低维空间中的线性方法 [1920首先通过LDA进行线性降维,然后对每个(如PCA)来解决一般的复杂的非线性问题,采用人的人脸视频通过矢量量化技术或者K均值聚类RAD( Resistor Average Distance)作为人脸相似性形成K个类别,每个类别用聚类中心和聚类的权重度量.为了解决配准误差所带来的识别率下降的问来表示最后采用EMD( Earth mover' s Distance)题,利用了多幅图像和 RANSAC( Random Sample 距离作为相似性度量进行人脸识别 Consensus)算法来解决.另外文献[44]利用了核的 C1994-2009ChinaAcademicJOunalElectronicPublishingHouseAllrightsreservedhttp://www.cnki.net的视频长度无法计算和估计. 另一个借助视觉约束的人脸跟踪和识别方法可见文献[35 ]. 3. 2. 2 矩阵采用矩阵作为输入描述方式进行人脸识别的算法可以分成两类 ,一类是利用得到的特征 (矩阵表示) 逐个与数据库中的人脸描述方式进行比较(相当于每次取出矩阵的一行或者一列) ,然后利用多数投票或者概率(距离) 累加最大的方法进行识别. 另一类是把得到的特征(矩阵表示) 看成一个整体和数据库中的人脸描述方式进行比较. 相对于前面一种方法 ,后者采用矩阵作为整体更能利用视频的空间连续信息. 数据库中人脸视频的描述方式可以是矢量、矩阵、概率、动态模型、流形等. 文献[36 ]采用总体 PCA 方法进行降维 ,在低维空间中采用混合高斯模型( Gaussian Mixture Model , GMM) 来表示数据库中每个人脸. 通过计算输入视频中每一帧人脸的后验概率 ,采用多数投票和概率累加最大的方法得到最终结果. 文献[ 37 ]对数据库的每类人脸建立多个匹配模板 ,并根据视频中的动态的信息(如人脸姿态、运动模糊等) 对多个模板进行自适应的融合. 文献[ 16 ]对输入的人脸序列和数据库中的人脸序列分别建立一个 PCA 特征子空间 , 两个特征子空间之间的距离由它们之间的夹角确定. 为了进一步去除光照、姿态、表情等的影响 ,把子空间重新投影到限制子空间 (constraint subspace) 中 , 限制子空间只包含对识别有用的成分 (身份) [17 ] . 为了解决限制子空间中需要大量样本的问题 ,进一步利用整体学习 (ensemble learning) 的方法训练出 M 个限制子空间 ,通过投影到这 M 个限制子空间的距离加权和作为人脸之间距离的度量[18 ] . 该类算法的主要缺点在于没有考虑每一类人脸的整体概率分布 ,没有利用每一类的均值和特征值 ,在投影到限制子空间时可能会产生一定的问题 , 并且参数的设定和空间维数都需要通过经验给出. 由于人脸在姿态、光照、表情变化时呈现非线性分布 ,文献[ 38 ]在线性空间中通过核的方法映射到高维的非线性空间 (核 Hilbert 空间) ,在高维空间中的夹角(核主成分夹角) 作为矩阵的相似性度量 , 并且利用正定的核函数就可以和 SVM (Support Vector Machine) 结合起来提高分类的性能. 文献 [19220 ]首先通过 LDA 进行线性降维 ,然后对每个人的人脸视频通过矢量量化技术或者 K 均值聚类形成 K 个类别 ,每个类别用聚类中心和聚类的权重来表示. 最后采用 EMD ( Eart h Mover’s Distance) 距离作为相似性度量进行人脸识别. 文献[ 39 ]利用聚类的方法建立局部参数模型 , 对数据库中的每个人脸建立多个局部流形. 首先对数据库中的每段人脸视频经过 LDA 进行线性降维 ,通过采取 ISOMA P ( Isometric feat ure Map2 ping) [ 40 ]提取各点的测地距离(geodesic distance) 作为人脸之间的距离 ,从而可以更准确地刻画各点在流形空间中的位置关系 ,然后采用 HAC( Hierarchi2 cal Agglomerative Clustering) 聚类方法得到 K 个示例 ,对每一示例采用类似文献[ 41 ]的方法对每个局部模型建立双子空间 ( dual subspace) 概率模型 , 使用概率测度作为相似性度量 ,采用多数投票进行识别. 文献[ 6 ]对每段人脸视频建立一个特征空间并把视频中人脸的变化看成一个非平稳的随机过程 (AR 模型) ,采用逐步更新特征空间的方法并且引进了权重的概念 ,对新的样本权重大 ,对以前的样本权重小. 该文中针对每个人脸建立两个特征空间 ,包括训练集中的特征空间和识别后不断更新建立的新的特征空间来解决过慢学习的问题. 文献[ 42243 ]利用数据库中的人脸视频得到三维模型生成查询人脸视频条件下的光照和姿态变化 ,然后逐一进行比对 , 采用距离累计最大的方法得到识别结果. 3. 2. 3 概率采用概率作为输入描述形式的基本思想是把视频中人脸的动态变化看成是满足一定的概率分布的高维随机变量. 一般对数据库中视频的描述方式也是概率方式 ,通过比较概率密度函数的相似性来度量人脸之间相似性. 文献[ 13 ]采用 GMM 模型学习不同姿态和光照条件下的人脸分布 ,对输入人脸视频和数据库中的人脸视频都利用 GMM 模型进行建模 ,采用 K2L 散度( Kullback2Leibler divergence) 作为人脸之间相似性度量. 文献[ 5 ]把人脸识别问题看成是一个假设检验问题 ,证明了如果人脸视频中每一帧之间是相互独立的 ,则得到的最优准则是 K2L 散度. 假设每个人脸服从高斯分布 ,采用 K2L 散度作为相似性度量.但是由于假设是单高斯分布 ,因此无法刻画由于光照或者是姿态变化导致人脸呈现流形的情况 ,并且 K2L 散度本身是一种非对称的度量方式. 文献[14 ]采用基于核函数方法把低维空间映射到高维空间 ,这样就可以在高维空间中利用低维空间中的线性方法 (如 PCA) 来解决一般的复杂的非线性问题 ,采用 RAD (Resistor2Average Distance) 作为人脸相似性度量. 为了解决配准误差所带来的识别率下降的问题 ,利用了多幅图像和 RANSAC ( Random Sample Consensus) 算法来解决. 另外文献[ 44 ]利用了核的 5 期严严等 :基于视频的人脸识别研究进展 881

<<向上翻页向下翻页>>

点击下载：《计算机学报》：基于视频的人脸识别研究进展（清华大学：严严、章毓晋）