正在加载图片...
·430· 智能系统学报 第10卷 究,已经成为当今图像处理与模式识别领域研究的 1手势识别算法简介 热点问题。基于视觉的单一背景的手势识别主要包 括特征的提取与描述、分类器的选择与训练2个过 手势识别算法如图1所示。该方法主要针对单 程。其中,所选择的特征的好坏将直接影响到手势 一背景下的手势识别,因此无需对手势图像进行分 识别的准确率山。文献[2]采用边缘像素点作为手 割预处理。首先将图像分割成不同的大小的块组成 势特征,并使用Hausdorff距离匹配手势模板。该方 图像金字塔,然后对图像金字塔中的每一层的每一 法较为简单,但所提取的手势特征不具有旋转与缩 块生成BoF-SFT特征描述,最后将图像金字塔各层 放的不变性,而且受光照的影响较大。文献[3]利 特征融合组成手势图像的SPM-BoF特征,并用直方 用切线距离作为手势特征,通过K-means聚类生成 图相交核支持向量机进行特征的分类,实现对未知 匹配模板,利用相似性匹配实现手势识别。文献 手势的识别。 [4]利用图像的Zernike矩和HOG特征构建字典, 并通过求解!范数的最优化问题实现分类识别。以 测试集 SPM算法 测试 特征提取 上2种特征对于图像的缩放具有不变性,但其特征 训练集 SPM算法 训练皮持向量机 识别 提取的计算复杂度较高。文献[5]提出利用局部均 特征提取 结果 值模式描述手势特征,采用gentle-Adaboost分类算 图1基于SPM-BoF算法的支持向量机手势识别框图 法实现手势分类和识别。文献[6]提出利用基于尺 Fig.1 The diagram of posture recognition based on SPM- 度不变特征变换特征包(bag of feature-scale invariant BoF algorithm and SVM feature transformation,BoF-SIFT)模型[)]和支持向量 2 机(support vector machine,SVM)的手势识别。这2 BoF-SIFT算法提取图像特征 种方法对特征提取与描述进行了改善,但BoF-SIFT BoF-SIFT算法描述手势图像特征分为2个步 描述的手势特征丢弃了手势特征点的分布特性,其 骤:1)检测图像特征点并生成特征点的SFT描述子 识别的准确性受到限制。在分类器的选择和设计方 的特征向量形式:2)利用K-means算法对所有手势 面,gentle-Adaboost分类器相对复杂,支持向量机需 图像的SFT特征进行向量聚类,用聚类中心建立视 要选择适当的核函数和参数才能得到有效的识别效 觉词汇表,通过统计每张手势图像的视觉词汇表直 果。文献[8]利用分层的特征包算法提取手势图像 方图作为手势图像的特征表示。 特征描述子,通过比较2幅手势图像特征描述子的 2.1检测图像关键点并生成关键点的SIFT描述子 相似度实现手势识别。这种算法取得了很好的识别 尺度不变特征变换(scale invariant feature trans 率,但算法中可调参数较多,识别效果受参数选择影 fom,SIFT)是D.G.Lowe在2004年首次提出 响较大。 的)。ST特征是一种图像的局部特征,该特征对 综上所述,为了更加有效地进行手势特征的描 旋转、尺度、缩放、亮度变化均具有不变性。获取该 述和识别,本文提出利用空间金字塔(spatial pyra- 特征主要分为特征点检测与生成特征点SFT描述 mid matching,SPM)特征包对手势图像特征进行提 符2个部分。在特征点检测阶段,David提出的构造 取和表示,该特征可以有效地描述手势图像的特征 图像尺度空间金字塔的方法将特征点周围的每个像 点及其分布特性,采用直方图相交核(histogram in 素的梯度模值和方向定义为: tersection kernel,HIK)支持向量机对手势特征进行 m(x,y)= 分类和识别。该手势识别算法的优势在于:1)空间 √(L(x+1y)-(x-1y))2+((xy+)-L(xy-)) 金字塔特征包算法通过构造图像金字塔的方法,对 (1) 每层图像的不同块区域运用BoF-SFT算法来描述 L(x,y+1)-L(x,y-1) a(x,y)=ata L(x+1,y)-L(x-1,y) .(2) 特征点,既能保持BoF-SFT算法特征简单、解决图 像局部特征不一致问题的优点,还在BoF-SIFT的基 式中:(x,y)为特征点的坐标,L(x,y)是图像的高斯 础上,增加了对特征点的分布特性的描述:2)直方 卷积。构造描述子需要计算特征点周围16×16图 图相交核支持向量机可以用于解决高维、小样本、非 像块中各像素的梯度模值和方向。将坐标轴旋转为 关键点的方向,以确保旋转不变性。将16×16图像 线性向量的分类问题,并且不用像其他类型的支持 块平均分成16个4×4的子区域,在每个子区域内 向量机核函数那样需要选择参数。 统计每个采样点的梯度方向,并投影到8个方向上,究,已经成为当今图像处理与模式识别领域研究的 热点问题。 基于视觉的单一背景的手势识别主要包 括特征的提取与描述、分类器的选择与训练 2 个过 程。 其中,所选择的特征的好坏将直接影响到手势 识别的准确率[1] 。 文献[2]采用边缘像素点作为手 势特征,并使用 Hausdorff 距离匹配手势模板。 该方 法较为简单,但所提取的手势特征不具有旋转与缩 放的不变性,而且受光照的影响较大。 文献[3] 利 用切线距离作为手势特征,通过 K⁃means 聚类生成 匹配模板,利用相似性匹配实现手势识别。 文献 [4]利用图像的 Zernike 矩和 HOG 特征构建字典, 并通过求解 l 范数的最优化问题实现分类识别。 以 上 2 种特征对于图像的缩放具有不变性,但其特征 提取的计算复杂度较高。 文献[5]提出利用局部均 值模式描述手势特征,采用 gentle⁃Adaboost 分类算 法实现手势分类和识别。 文献[6]提出利用基于尺 度不变特征变换特征包(bag of feature⁃scale invariant feature transformation, BoF⁃SIFT)模型[7]和支持向量 机(support vector machine,SVM)的手势识别。 这 2 种方法对特征提取与描述进行了改善,但 BoF⁃SIFT 描述的手势特征丢弃了手势特征点的分布特性,其 识别的准确性受到限制。 在分类器的选择和设计方 面,gentle⁃Adaboost 分类器相对复杂,支持向量机需 要选择适当的核函数和参数才能得到有效的识别效 果。 文献[8]利用分层的特征包算法提取手势图像 特征描述子,通过比较 2 幅手势图像特征描述子的 相似度实现手势识别。 这种算法取得了很好的识别 率,但算法中可调参数较多,识别效果受参数选择影 响较大。 综上所述,为了更加有效地进行手势特征的描 述和识别,本文提出利用空间金字塔( spatial pyra⁃ mid matching, SPM)特征包对手势图像特征进行提 取和表示,该特征可以有效地描述手势图像的特征 点及其分布特性,采用直方图相交核( histogram in⁃ tersection kernel, HIK)支持向量机对手势特征进行 分类和识别。 该手势识别算法的优势在于:1)空间 金字塔特征包算法通过构造图像金字塔的方法,对 每层图像的不同块区域运用 BoF⁃SIFT 算法来描述 特征点,既能保持 BoF⁃SIFT 算法特征简单、解决图 像局部特征不一致问题的优点,还在 BoF⁃SIFT 的基 础上,增加了对特征点的分布特性的描述;2) 直方 图相交核支持向量机可以用于解决高维、小样本、非 线性向量的分类问题,并且不用像其他类型的支持 向量机核函数那样需要选择参数。 1 手势识别算法简介 手势识别算法如图 1 所示。 该方法主要针对单 一背景下的手势识别,因此无需对手势图像进行分 割预处理。 首先将图像分割成不同的大小的块组成 图像金字塔,然后对图像金字塔中的每一层的每一 块生成 BoF⁃SIFT 特征描述,最后将图像金字塔各层 特征融合组成手势图像的 SPM⁃BoF 特征,并用直方 图相交核支持向量机进行特征的分类,实现对未知 手势的识别。 图 1 基于 SPM⁃BoF 算法的支持向量机手势识别框图 Fig. 1 The diagram of posture recognition based on SPM⁃ BoF algorithm and SVM 2 BoF⁃SIFT 算法提取图像特征 BoF⁃SIFT 算法描述手势图像特征分为 2 个步 骤:1)检测图像特征点并生成特征点的 SIFT 描述子 的特征向量形式;2)利用 K⁃means 算法对所有手势 图像的 SIFT 特征进行向量聚类,用聚类中心建立视 觉词汇表,通过统计每张手势图像的视觉词汇表直 方图作为手势图像的特征表示。 2.1 检测图像关键点并生成关键点的 SIFT 描述子 尺度不变特征变换(scale invariant feature trans⁃ form, SIFT) 是 D. G. Lowe 在 2004 年 首 次 提 出 的[9] 。 SIFT 特征是一种图像的局部特征,该特征对 旋转、尺度、缩放、亮度变化均具有不变性。 获取该 特征主要分为特征点检测与生成特征点 SIFT 描述 符 2 个部分。 在特征点检测阶段,David 提出的构造 图像尺度空间金字塔的方法将特征点周围的每个像 素的梯度模值和方向定义为: m(x,y) = (L(x +1,y) -L(x -1,y) ) 2 + (L(x,y +1) -L(x,y -1) ) 2 (1) θ(x,y) = atan L(x,y + 1) - L(x,y - 1) L(x + 1,y) - L(x - 1,y) (2) 式中:(x,y)为特征点的坐标,L(x,y)是图像的高斯 卷积。 构造描述子需要计算特征点周围 16×16 图 像块中各像素的梯度模值和方向。 将坐标轴旋转为 关键点的方向,以确保旋转不变性。 将 16×16 图像 块平均分成 16 个 4×4 的子区域,在每个子区域内 统计每个采样点的梯度方向,并投影到 8 个方向上, ·430· 智 能 系 统 学 报 第 10 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有