第14卷第2期 智能系统学报 Vol.14 No.2 2019年3月 CAAI Transactions on Intelligent Systems Mar.2019 D0:10.11992/tis.201804028 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180516.1009.002.html 基于质心分水岭算法的静态手势分割算法模型 董旭德,许源平',舒红平',张朝龙2,卢丽,黄健 (1.成都信息工程大学软件工程学院,四川成都610225,2.英国哈德斯菲尔德大学计算与工程学院,西约克 郡哈德斯菲尔德HD13DH) 摘要:为了解决在类肤色背景下难以从图像中高效地分割出完整静态手势的问题,提出了基于质心分水岭算 法(improved centroid watershed algorithm,ICWA)的静态手势分割模型。该ICWA算法可以有效地减少图像梯度 对手势分割的影响并完整地提取出肤色区域。此外,本文设计了一种将PCA(principal component analysis)降维 和凸性检测算法相结合的方法,可以根据对凸点准确提取手腕的割线。同时,利用卷积神经网络(convolutional neural networks,.CNN)在标准数据库上进行了初步的手势自动识别实验。实验结果表明:该分割模型对于9种 静态手势的平均识别率达到了97.85%。 关键词:类肤色背景;静态手势分割;ICWA算法:手腕分割:手势识别;凸性检测;PCA降维:深度学习 中图分类号:TP18文献标志码:A文章编号:1673-4785(2019)02-0346-09 中文引用格式:董旭德,许源平,舒红平,等.基于质心分水岭算法的静态手势分割算法模型J.智能系统学报,2019,14(2): 346-354. 英文引用格式:DONG Xude,,XU Yuanping,SHU Hongping,.etal.Static gesture segmentation algorithm model based on centroid watershed algorithmJ].CAAI transactions on intelligent systems,2019,14(2):346-354. Static gesture segmentation algorithm model based on centroid watershed algorithm DONG Xude',XU Yuanping'SHU Hongping ZHANG Chaolong,LU Li',HUANG Jian (1.School of Software Engineering,Chengdu University of Information Technology,Chengdu 610225,China;2.School of Comput- ing and Engineering,University of Huddersfield,Huddersfield HD1 3DH,UK) Abstract:Considering the difficulty in effectively achieving complete static gesture segmentations from skin-like back- ground regions,this paper proposes an integrated static gesture segmentation model based on an improved centroid wa- tershed algorithm(ICWA).The ICWA algorithm significantly reduces the interference of image gradient on gesture seg- mentations such that it can completely extract skin regions from images.Moreover,a novel method is designed and im- plemented by integrating principal component analysis(PCA)dimension reduction and convexity detection algorithms, which can accurately extract the cutting line of the wrist according to convex points.Preliminary experiments of auto- matic gesture recognitions based on convolutional neural network(CNN)were carried out on a benchmark database. The experimental results show that the proposed model can achieve a recognition rate of 97.85%on average for nine dif- ferent static gestures. Keywords:skin-like background;static gesture segmentation;ICWA algorithm;wrist segmentation;gesture recogni- tion;convexity detection;PCA dimension reduction;deep learning 近年来,随着计算机的发展和普及,人机交 互(human-computer interface,HCI)应用正逐渐以 收稿日期:2018-04-18.网络出版日期:2018-05-18. 更加多样化的形式全面融入到人们的学习、工作 基金项目:国家自然科学基金项目(61203172):四川省科技厅 应用基础项目(2018JY0146,2019YFH0187):深圳市 和生活中。其中,由于手势是一种出现较早,使 重大国际合作项目(GHZ20160301164521358) 通信作者:许源平.E-mail:ypxu@cuit.edu.cn 用广泛且较为统一的人类日常交流手段,所以基
DOI: 10.11992/tis.201804028 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180516.1009.002.html 基于质心分水岭算法的静态手势分割算法模型 董旭德1 ,许源平1 ,舒红平1 ,张朝龙1,2,卢丽1 ,黄健1 (1. 成都信息工程大学 软件工程学院,四川 成都 610225; 2. 英国哈德斯菲尔德大学 计算与工程学院,西约克 郡 哈德斯菲尔德 HD1 3DH) 摘 要:为了解决在类肤色背景下难以从图像中高效地分割出完整静态手势的问题,提出了基于质心分水岭算 法 (improved centroid watershed algorithm, ICWA) 的静态手势分割模型。该 ICWA 算法可以有效地减少图像梯度 对手势分割的影响并完整地提取出肤色区域。 此外,本文设计了一种将 PCA(principal component analysis) 降维 和凸性检测算法相结合的方法,可以根据对凸点准确提取手腕的割线。同时,利用卷积神经网络 (convolutional neural networks, CNN) 在标准数据库上进行了初步的手势自动识别实验。实验结果表明:该分割模型对于 9 种 静态手势的平均识别率达到了 97.85%。 关键词:类肤色背景;静态手势分割;ICWA 算法;手腕分割;手势识别;凸性检测;PCA 降维;深度学习 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2019)02−0346−09 中文引用格式:董旭德, 许源平, 舒红平, 等. 基于质心分水岭算法的静态手势分割算法模型[J]. 智能系统学报, 2019, 14(2): 346–354. 英文引用格式:DONG Xude, XU Yuanping, SHU Hongping, et al. Static gesture segmentation algorithm model based on centroid watershed algorithm[J]. CAAI transactions on intelligent systems, 2019, 14(2): 346–354. Static gesture segmentation algorithm model based on centroid watershed algorithm DONG Xude1 ,XU Yuanping1 ,SHU Hongping1 ,ZHANG Chaolong1,2 ,LU Li1 ,HUANG Jian1 (1. School of Software Engineering, Chengdu University of Information Technology, Chengdu 610225, China; 2. School of Computing and Engineering, University of Huddersfield, Huddersfield HD1 3DH, UK) Abstract: Considering the difficulty in effectively achieving complete static gesture segmentations from skin-like background regions, this paper proposes an integrated static gesture segmentation model based on an improved centroid watershed algorithm (ICWA). The ICWA algorithm significantly reduces the interference of image gradient on gesture segmentations such that it can completely extract skin regions from images. Moreover, a novel method is designed and implemented by integrating principal component analysis (PCA) dimension reduction and convexity detection algorithms, which can accurately extract the cutting line of the wrist according to convex points. Preliminary experiments of automatic gesture recognitions based on convolutional neural network (CNN) were carried out on a benchmark database. The experimental results show that the proposed model can achieve a recognition rate of 97.85% on average for nine different static gestures. Keywords: skin-like background; static gesture segmentation; ICWA algorithm; wrist segmentation; gesture recognition; convexity detection; PCA dimension reduction; deep learning 近年来,随着计算机的发展和普及,人机交 互 (human-computer interface,HCI) 应用正逐渐以 更加多样化的形式全面融入到人们的学习、工作 和生活中。其中,由于手势是一种出现较早,使 用广泛且较为统一的人类日常交流手段,所以基 收稿日期:2018−04−18. 网络出版日期:2018−05−18. 基金项目:国家自然科学基金项目 (61203172);四川省科技厅 应用基础项目 (2018JY0146, 2019YFH0187);深圳市 重大国际合作项目 (GJHZ20160301164521358). 通信作者:许源平. E-mail:ypxu@cuit.edu.cn. 第 14 卷第 2 期 智 能 系 统 学 报 Vol.14 No.2 2019 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2019
第2期 董旭德,等:基于质心分水岭算法的静态手势分割算法模型 ·347· 于手势的HCI技术得到了越来越多的关注,特别 Hu特征矩描述手势的轮廓特征,进而用BP(back 是在难以基于统一的语言进行交流的相关应用场 propagation)神经网络进行手势分类。但是,仅基 景。手势交互包括静态手势和动态手势两种类型四, 于Hu特征矩的特征描述包含大量的冗余信息, 其中静态手势是指在某一时间点手势的形态所表 所以其后续识别的实时性无法保证。同一时期, 达的意义,而动态手势是指在时间序列中一段手 Patel等学者利用SIFT(scale invariant feature trans- 势的运动轨迹所表示的含义。传统的手势识别需 form)特征点匹配算法对美国手语(ASL)的26个 要借助于特殊的硬件设备(如数据手套),通过各 英文字母A-Z和10个数字0-9对应的静态手势 种传感器来获取用户关节的位置信息,进而进行 进行了匹配识别。 手势识别。这样的方式虽然较为准确但同时增加 综上所述,当前手势分割与识别的主要技术 了手势识别的成本,也大大降低了用户的应用体 难点为:1)类肤色背景下难以准确进行手势分 验,限制了手势识别的应用场景。另一方面,近 割;2)手臂部分的冗余信息难以去除;3)难以降 几年来,基于机器视觉的手势识别解决方案因其 低手势识别的计算复杂度⑧川。针对以上问题,本 低廉的硬件成本、方便性和易获取性等优点得到 文提出了一种能够在相对低廉的单目视觉硬件平 了快速的发展,成为了当前的研究热点。它的研 台上,基于ICWA算法和集成PCA降维与凸性检 究涉及到模式识别、计算机图形学、计算机视觉 测方法的静态手势分割算法模型。本文首先讨论 和人工智能等多个领域,在人机交互方面有着更 如何利用图像梯度信息和ICWA算法进行类肤色 广阔的应用前景,主要包括:1)手语识别,例如, 背景环境下的手势图像分割与提取,再结合 普通人与聋哑人之间的交流存在障碍,而自动手 PCA降维算法提取的手势斜率特征和凸性检测 势识别可以提供良好的手语智能交流平台,使得 获得的手势凸点信息,说明如何将手掌和手臂部 双方可以进行无障碍交流:2)在线教育,通过精 分进行分割,进而有效地减少手势识别的冗余信 准的手势识别,可以操控图像显示,使得教学课 息。本文通过展示与文献[7]中的SFT算法的对 程更具吸引力:3)机器控制,在复杂的背景环境 比实验结果验证了该模型能够高效、准确地从类 下,可以通过手势实现对智能机器人或智能家电 肤色背景环境中分割、提取出手势图像并准确地 的便捷控制。因此,此课题的研究目标是设计并 将手掌和手臂的图像区域区分开来。最后,本文 开发一套高效、准确的静态手势智能识别系统并 还展示了一个初步的基于卷积神经网络(convolu- 将其应用于机器人智能控制领域。 tional neural network,.CNN)的手势智能识别框架 依据前期相关研究工作的总结,当前智能静 并获得了良好的识别率,从而进一步验证了此模 态手势识别的核心研究点包括手势定位、手势分 型的正确性和实用性。 割、特征提取和分类识别2。其中,手势分割是 1基于ICWA的手势分割与识别 自动地将定位后的手势从背景中提取出来的图像 分割方法,手势分割的效果(完整度和准确率)对 研发基于ICWA的手势智能识别系统的主要 后续处理过程的识别率和计算效率起到至关重要 步骤为手势定位、手势分割和手势识别,其总体 的影响。因此,手势分割是整个智能手势识别过 工作流程(如图1所示)为:1)在单目视觉条件下 程中的关键处理步骤。Tara等l学者提出了一种 采集图像数据并进行手势定位;2)利用ICWA对 基于深度图像的手势分割方法,利用阈值分析技 定位后的图像进行肤色区域与类肤色背景的分 术求得手势在图像中的位置,但深度图像设备价 离;3)保留肤色区域并删除冗余的手臂区域; 格过于昂贵无法普及使用。王先军等学者运用 4)利用深度学习网络进行手势识别。 手势描述 单目视觉 模型参数 手势定位 手势分制 采集图像 高斯滤波核大小:7×7 开始 分割梯度值:22, 手势识别 (结束 手势方向斜率:k 手腕割点:P、P 手势建模 图1 手势分割与识别流程图 Fig.1 A flow chart of the gesture segmentation and recognition
于手势的 HCI 技术得到了越来越多的关注,特别 是在难以基于统一的语言进行交流的相关应用场 景。手势交互包括静态手势和动态手势两种类型[1] , 其中静态手势是指在某一时间点手势的形态所表 达的意义,而动态手势是指在时间序列中一段手 势的运动轨迹所表示的含义。传统的手势识别需 要借助于特殊的硬件设备 (如数据手套),通过各 种传感器来获取用户关节的位置信息,进而进行 手势识别。这样的方式虽然较为准确但同时增加 了手势识别的成本,也大大降低了用户的应用体 验,限制了手势识别的应用场景。另一方面,近 几年来,基于机器视觉的手势识别解决方案因其 低廉的硬件成本、方便性和易获取性等优点得到 了快速的发展,成为了当前的研究热点。它的研 究涉及到模式识别、计算机图形学、计算机视觉 和人工智能等多个领域,在人机交互方面有着更 广阔的应用前景,主要包括:1) 手语识别,例如, 普通人与聋哑人之间的交流存在障碍,而自动手 势识别可以提供良好的手语智能交流平台,使得 双方可以进行无障碍交流;2) 在线教育,通过精 准的手势识别,可以操控图像显示,使得教学课 程更具吸引力;3) 机器控制,在复杂的背景环境 下,可以通过手势实现对智能机器人或智能家电 的便捷控制。因此,此课题的研究目标是设计并 开发一套高效、准确的静态手势智能识别系统并 将其应用于机器人智能控制领域。 依据前期相关研究工作的总结,当前智能静 态手势识别的核心研究点包括手势定位、手势分 割、特征提取和分类识别[2-4]。其中,手势分割是 自动地将定位后的手势从背景中提取出来的图像 分割方法,手势分割的效果 (完整度和准确率) 对 后续处理过程的识别率和计算效率起到至关重要 的影响。因此,手势分割是整个智能手势识别过 程中的关键处理步骤。Tara 等 [5]学者提出了一种 基于深度图像的手势分割方法,利用阈值分析技 术求得手势在图像中的位置,但深度图像设备价 格过于昂贵无法普及使用。王先军等[6]学者运用 Hu 特征矩描述手势的轮廓特征,进而用 BP(back propagation) 神经网络进行手势分类。但是,仅基 于 Hu 特征矩的特征描述包含大量的冗余信息, 所以其后续识别的实时性无法保证。同一时期, Patel 等学者利用 SIFT(scale invariant feature transform) 特征点匹配算法对美国手语 (ASL) 的 26 个 英文字母 A-Z 和 10 个数字 0-9 对应的静态手势 进行了匹配识别[7]。 综上所述,当前手势分割与识别的主要技术 难点为:1) 类肤色背景下难以准确进行手势分 割;2) 手臂部分的冗余信息难以去除;3) 难以降 低手势识别的计算复杂度[8-11]。针对以上问题,本 文提出了一种能够在相对低廉的单目视觉硬件平 台上,基于 ICWA 算法和集成 PCA 降维与凸性检 测方法的静态手势分割算法模型。本文首先讨论 如何利用图像梯度信息和 ICWA 算法进行类肤色 背景环境下的手势图像分割与提取,再结 合 PCA 降维算法提取的手势斜率特征和凸性检测 获得的手势凸点信息,说明如何将手掌和手臂部 分进行分割,进而有效地减少手势识别的冗余信 息。本文通过展示与文献[7]中的 SIFT 算法的对 比实验结果验证了该模型能够高效、准确地从类 肤色背景环境中分割、提取出手势图像并准确地 将手掌和手臂的图像区域区分开来。最后,本文 还展示了一个初步的基于卷积神经网络 (convolutional neural network, CNN) 的手势智能识别框架 并获得了良好的识别率,从而进一步验证了此模 型的正确性和实用性。 1 基于 ICWA 的手势分割与识别 研发基于 ICWA 的手势智能识别系统的主要 步骤为手势定位、手势分割和手势识别,其总体 工作流程 (如图 1 所示) 为:1) 在单目视觉条件下 采集图像数据并进行手势定位;2) 利用 ICWA 对 定位后的图像进行肤色区域与类肤色背景的分 离 ; 3) 保留肤色区域并删除冗余的手臂区域; 4) 利用深度学习网络进行手势识别。 开始 单目视觉 采集图像 手势定位 手势分割 手势识别 手势建模 结束 模型参数 高斯滤波核大小:7×7 分割梯度值:22 手势方向斜率:k 手腕割点: p1、p2 手势描述 图 1 手势分割与识别流程图 Fig. 1 A flow chart of the gesture segmentation and recognition 第 2 期 董旭德,等:基于质心分水岭算法的静态手势分割算法模型 ·347·
·348· 智能系统学报 第14卷 2手势分割原理及步骤 行进一步的算法处理,其中首要的任务就是要分 离肤色和类肤色区域,从而实现手势区域的准确 2.1肤色分割 提取。首先,图3所示的结果依然包含了很多粗 肤色信息通常被用于人脸识别和手势识别等 糙点、空洞点和毛边等,所以在准确分割、提取 研究中。对于手势识别应用,只要在合适的色 前,利用形态学中的开运算(先进行腐蚀操作后 彩空间中(例如:HSV、HSI、RGB、YUV和YCrCb) 进行膨胀操作)和闭运算(先进行膨胀操作后进 对肤色图像数据进行采样并计算合适的阈值就可 行腐蚀操作)对原始静态手势图片进行预处理以 以实现肤色区域和非肤色区域的分割。由于肤色 去除图像数据噪声。腐蚀与膨胀操作的公式为 检测对亮度十分敏感,因而将RGB空间下的图片 AOB={B),≤A) (2) 转化到YCrCb空间以减少亮度对肤色检测的影 响。经过理论分析与实践可知,YCrCb空间是最 A⊕B={z(B).nA≠O} (3) 适合肤色图像区域分割的颜色空间。RGB空间 腐蚀之后图像会向内收缩,而膨胀之后图像 与YCCb空间的转换公式为 会向外扩展。如图4所示,手势图片经形态学的 Y=0.257R+0.564G+0.098B+16 开和闭运算之后消除了毛边和空洞点,图片中的 Cr=-0.148R-0.291G+0.439B+128 (1) 手势边界和类肤色区域边界均较为圆滑,适合进 Cb=0.439R-0.368G-0.071B+128 行下一步的肤色与类肤色区域的精确分割与提取。 为了进一步降低光线对目标分割的影响,需 要将亮度分量单独保存到一个颜色空间21),经 过大量实验证明,YCrCb空间最适合肤色分割且 黄种人的肤色区域阈值为:Y>80,133<Cr<173, 77<Cb<12741。因此,将图像从RGB空间转换 到YCCb空间后,根据此阈值即可以将肤色和非 肤色区域分割开。其结果如图2和图3所示。 图4经开闭运算后的手势分割图 Fig.4 The gesture segmentation image processed by open and close operations 2.3基于ICWA算法的肤色与类肤色区域分割 分水岭算法(watershed algorithm,WA)是一种 基于计算机形态学的图像分割算法,它能够高 效、准确地连通目标区域的边界,因而被广泛地 图2原始图像 Fig.2 The original image 应用于数字图像处理领域。传统的WA是一种 基于拓扑理论的数学形态学分割方法,它将一张 图像看成一幅地形图,每个像素点坐标(x,y)即成 为地形图中的平面坐标,而该像素点的灰度值即 是地形图中的海拔高度值。每一个局部极小值都 被称为积水盆地且会对其附近的区域产生影响。 由于传统的WA是一种基于图像梯度的图像分割 方法,所以当图像中拥有的局部极小值太多时就 会形成过多的初始化点,导致图像的过度分割问 图3肤色分割后的图像 题,从而得不到理想的分割结果。因此,需要在 Fig.3 The segmented image 传统的WA上进行改进,以求解决过度分割问 2.2手势区域提取 题,所以改进的算法必须能够减少原图像像素的 简单的基于YCrCb空间的肤色分割方法并 梯度差,同时减少初始分割点。本文提出的ICWA 不能达到准确地分割出手势的目的,因此需要进 的总体算法流程如图5所示
2 手势分割原理及步骤 2.1 肤色分割 肤色信息通常被用于人脸识别和手势识别等 研究中[2, 4]。对于手势识别应用,只要在合适的色 彩空间中 (例如:HSV、HSI、RGB、YUV 和 YCrCb) 对肤色图像数据进行采样并计算合适的阈值就可 以实现肤色区域和非肤色区域的分割。由于肤色 检测对亮度十分敏感,因而将 RGB 空间下的图片 转化到 YCrCb 空间以减少亮度对肤色检测的影 响。经过理论分析与实践可知,YCrCb空间是最 适合肤色图像区域分割的颜色空间。RGB 空间 与 YCrCb 空间的转换公式为 Y = 0.257R+0.564G +0.098B+16 Cr = −0.148R−0.291G +0.439B+128 Cb = 0.439R−0.368G −0.071B+128 (1) 为了进一步降低光线对目标分割的影响,需 要将亮度分量单独保存到一个颜色空间[12-13] ,经 过大量实验证明,YCrCb 空间最适合肤色分割且 黄种人的肤色区域阈值为:Y>80,133<Cr<173, 77<Cb<127[14-15]。因此,将图像从 RGB 空间转换 到 YCrCb 空间后,根据此阈值即可以将肤色和非 肤色区域分割开。其结果如图 2 和图 3 所示。 2.2 手势区域提取 简单的基于 YCrCb 空间的肤色分割方法并 不能达到准确地分割出手势的目的,因此需要进 行进一步的算法处理,其中首要的任务就是要分 离肤色和类肤色区域,从而实现手势区域的准确 提取。首先,图 3 所示的结果依然包含了很多粗 糙点、空洞点和毛边等,所以在准确分割、提取 前,利用形态学中的开运算 (先进行腐蚀操作后 进行膨胀操作) 和闭运算 (先进行膨胀操作后进 行腐蚀操作) 对原始静态手势图片进行预处理以 去除图像数据噪声。 腐蚀与膨胀操作的公式为 A⊙ B = {z|(B)z ⊆ A} (2) A⊕ B = {z|(Bˆ)z ∩ A , Ø} (3) 腐蚀之后图像会向内收缩,而膨胀之后图像 会向外扩展。如图 4 所示,手势图片经形态学的 开和闭运算之后消除了毛边和空洞点,图片中的 手势边界和类肤色区域边界均较为圆滑,适合进 行下一步的肤色与类肤色区域的精确分割与提取。 2.3 基于 ICWA 算法的肤色与类肤色区域分割 分水岭算法 (watershed algorithm, WA) 是一种 基于计算机形态学的图像分割算法,它能够高 效、准确地连通目标区域的边界,因而被广泛地 应用于数字图像处理领域[16]。传统的 WA 是一种 基于拓扑理论的数学形态学分割方法,它将一张 图像看成一幅地形图,每个像素点坐标 (x,y) 即成 为地形图中的平面坐标,而该像素点的灰度值即 是地形图中的海拔高度值。每一个局部极小值都 被称为积水盆地且会对其附近的区域产生影响。 由于传统的 WA 是一种基于图像梯度的图像分割 方法,所以当图像中拥有的局部极小值太多时就 会形成过多的初始化点,导致图像的过度分割问 题,从而得不到理想的分割结果。因此,需要在 传统的 WA 上进行改进,以求解决过度分割问 题,所以改进的算法必须能够减少原图像像素的 梯度差,同时减少初始分割点。本文提出的 ICWA 的总体算法流程如图 5 所示。 图 2 原始图像 Fig. 2 The original image 图 3 肤色分割后的图像 Fig. 3 The segmented image 图 4 经开闭运算后的手势分割图 Fig. 4 The gesture segmentation image processed by open and close operations ·348· 智 能 系 统 学 报 第 14 卷
第2期 董旭德,等:基于质心分水岭算法的静态手势分割算法模型 ·349· 手势图片 改进的质心 (a)原始图片 (b)分割后的颜色区域图片 分水岭算法 图6ICWA算法的处理效果 高斯模糊(这里原图片大小为480×480. Fig.6 Output results of ICWA 采用7×7的滤波核进行高斯滤波) Hu矩质心特征(以质心点为初始分割 点,分割梯度值为22) 分水岭算法进行分制、提取 (a)原始图片 (b)分割后的颜色区域图片 分割成功后的手势图片数据 图7传统分水龄算法(WA)的处理结果 图5改进后分水岭算法(ICWA)流程图 Fig.7 Output results of the traditional WA Fig.5 The workflow of ICWA 1)对开闭操作后的灰度图像进行高斯滤波, 以去除噪声数据。例如,经过高斯滤波后的灰度 图像可以消除大量无效的局部最小值点,以防止 过度分割。 2)计算开、闭操作后灰度图的Hu矩,再由 H山矩特征得到质心坐标。几何矩和质心坐标的 计算式为 x'yf(x,y)dxd山y (4) 图8ICWA提取的手势图片 Fig.8 The gesture image of extracted by ICWA x=m0,5=m (5) 00 o0 式(4)表示图像x,y)的p叶q阶几何矩,而式 (5)表示图像x,y)的质心坐标。 3)将质心和经过高斯滤波过滤后的图像梯度 的局部极小值作为积水盆地(经过大量实验验 证,这里选择梯度值低于22),并开始一点点填充 寻找分水岭。经过ICWA处理结果的对比实验证 明,该算法可以完整地分割、提取出浅蓝色的手 图9中值滤波处理结果 势区域,并准确地排除其他类肤色区域,如图6所 Fig.9 The processing result median filter 示。与之相比,传统WA会造成严重的过分割现 3手臂分割 象,如图7所示。此外,如图8所示,经过ICWA 分割、处理得到的图片周边会存在很多毛刺,因 在手势识别中手掌部分的信息是最重要的, 此还需要对图8进行中值滤波处理,处理后的结 其影响着手势识别的正确率,而手臂部分则是冗 果如图9所示。 余信息完全可以删除,所以实现手掌与手臂之间
1) 对开闭操作后的灰度图像进行高斯滤波, 以去除噪声数据。例如,经过高斯滤波后的灰度 图像可以消除大量无效的局部最小值点,以防止 过度分割。 2) 计算开、闭操作后灰度图的 Hu 矩,再由 Hu 矩特征得到质心坐标。几何矩和质心坐标的 计算式为 Mpq = ∫ +∞ −∞ ∫ +∞ −∞ x p y q f(x, y)dxdy (4) x = m10 m00 , y = m01 m00 (5) 式 (4) 表示图像 f(x,y) 的 p+q 阶几何矩,而式 (5) 表示图像 f(x,y) 的质心坐标。 3) 将质心和经过高斯滤波过滤后的图像梯度 的局部极小值作为积水盆地 (经过大量实验验 证,这里选择梯度值低于 22),并开始一点点填充 寻找分水岭。经过 ICWA 处理结果的对比实验证 明,该算法可以完整地分割、提取出浅蓝色的手 势区域,并准确地排除其他类肤色区域,如图 6 所 示。与之相比,传统 WA 会造成严重的过分割现 象,如图 7 所示。此外,如图 8 所示,经过 ICWA 分割、处理得到的图片周边会存在很多毛刺,因 此还需要对图 8 进行中值滤波处理,处理后的结 果如图 9 所示。 3 手臂分割 在手势识别中手掌部分的信息是最重要的, 其影响着手势识别的正确率,而手臂部分则是冗 余信息完全可以删除,所以实现手掌与手臂之间 手势图片 高斯模糊 (这里原图片大小为480×480, 采用7×7的滤波核进行高斯滤波) Hu矩质心特征(以质心点为初始分割 点,分割梯度值为22) 分割成功后的手势图片数据 改进的质心 分水岭算法 分水岭算法进行分割、提取 图 5 改进后分水岭算法 (ICWA) 流程图 Fig. 5 The workflow of ICWA (a) 原始图片 (b) 分割后的颜色区域图片 图 6 ICWA 算法的处理效果 Fig. 6 Output results of ICWA (a) 原始图片 (b) 分割后的颜色区域图片 图 7 传统分水岭算法 (WA) 的处理结果 Fig. 7 Output results of the traditional WA 图 8 ICWA 提取的手势图片 Fig. 8 The gesture image of extracted by ICWA 图 9 中值滤波处理结果 Fig. 9 The processing result median filter 第 2 期 董旭德,等:基于质心分水岭算法的静态手势分割算法模型 ·349·
·350· 智能系统学报 第14卷 的分割是手势智能识别之前的关键处理步骤,它 表1凸点位置分类及其与凸包轮廓的之间距离 可以有效地提高手势识别的计算效率以及手势识 Table 1 Convex point location classification and the dis- 别的准确率。因此,本文提出一种基于凸性检测☑ tance between location and its convex hull contour 和PCA降维算法1⑧相结合的手臂分割方法。 凸点编号 类型 位置(坐标) 距离 3.1凸性检测 1 远点 (208,191) 113152 凸性检测是理解物体轮廓的一种有效方法, 2 近点 (435,188) 608 就是求一组点集的凸包集合。它是计算机几何学 近点 (236,331) 162 的一个基本问题,其本质就是利用Graham Scan 远点 (322,158) 2468 算法来维护一个凸壳(凸包轮廓),通过不断地对 5 远点 (546,338) 8870 凸壳中加入新点或者删除影响凸性的点,来不断 地改变凸壳的形状,最终形成一个稳定的凸包, 6 近,点 (349,151) 201 其算法流程总结如下: 7 远点 (339,257) 31138 1)对点集的排序,其目的是为了梳理杂乱的 远点 (457,395) 8054 点集以提高算法的效率。这里采用极坐标系,找 9 近点 (209,190) 186 到y坐标最小的点(若y坐标相同则取x小的 10 远点 (396,183) 3597 点)记为Po,将Po与{P1,P2,,Pn}中每个点相连, 11 远点 (316,315) 21087 再以Po为极点,进而计算每条连线的极角并按从 小到大排列(若极角相等则计算距离由小到大排列)。 3)根据已有的凸包轮廓和凸点坐标,可以进 步求得凸点坐标和凸包轮廓之间的距离,将点 2)把Po、P1依次入栈,遍历剩下的点集 集分为距离凸包轮廓近的“近点”和距离凸包轮廓 Pen={P2,P3,p4,,pn}把属于凸包的点集人栈,其 远的“远点”,一般人的手腕都是凹陷处即远点, 他无关点集出栈。其中,可以根据叉积来判断入 所以寻找手臂分割线可以先从“远点”入手,若“远 栈和出栈,若依次遍历Pem中的每一个点,若当前 点”集合中没有再寻找“近点”集合。 点为凸包凸点时,则向左旋转,而没有向左旋转 3.2基于PCA降维的手臂分割线提取方法 的点则是非凸点。pP与P2的叉积在物理上可以理 PCA即主成分分析,用于图像和数据的降 解为两向量所组成的平行四边形的面积,而数学 维,其本质就是将高维数据降维到低维空间。这 上可以通过正负来判断方向。若P与2的叉积为 里探索将PCA降维方法应用于手臂分割线的提 负,相对于p%P,点P2在逆时针方向即左边人栈, 取,主要目的是要研究一种方法来便捷地得到手 若p1与p2的叉积为正,则相对于poP1,点P2在顺时 势的主要方向。基于手臂分割线与手势方向基本 针方向即右边进行栈顶元素出栈操作。依据这个 呈现垂直状态的客观事实,求得了手势的方向也 原则继续判断栈顶前两个元素与前点的位置关 就得到了手臂的分割线。基于PCA降维的手臂 系,最后栈中的点集就是本文需要找的凸点,连 分割线提取算法的具体步骤如下: 接后就是凸包。凸性检测实验判定手势凸点的输 1)求得原始静态手势图片的均值图片,并以 出结果如图10所示,其中轮廓为检测出的凸包轮 原始图片减去均值图片得到均差图片。 廓,圆圈为检测出的凸点,而表1记录了凸点位置 2)求得步骤1)中均差图片的协方差矩阵,再 与凸包轮廓之间的距离。 由协方差矩阵得到静态手势图片的特征值和特征 向量,将特征值和特征向量一一对应并按从大到 小进行排列。 3)取前k个特征向量,对均差图片进行降 维。基于只想从该方法中得到手势的方向,只要取 值meaneigval=-l(meaneigval为选取前meaneigv- al个特征值与其所对应的特征向量,因为一副静 态手势图片中,手势斜率为其主要特征且特征值 最大,因此meaneigval取值为I)即可得到原始静 图10凸性检测处理结果 态手势的斜率k。 Fig.10 A convexity detection result 4)为了有效降低计算量,此算法先遍历“远
的分割是手势智能识别之前的关键处理步骤,它 可以有效地提高手势识别的计算效率以及手势识 别的准确率。因此,本文提出一种基于凸性检测[17] 和 PCA 降维算法[18]相结合的手臂分割方法。 3.1 凸性检测 凸性检测是理解物体轮廓的一种有效方法, 就是求一组点集的凸包集合。它是计算机几何学 的一个基本问题,其本质就是利用 Graham Scan 算法来维护一个凸壳 (凸包轮廓),通过不断地对 凸壳中加入新点或者删除影响凸性的点,来不断 地改变凸壳的形状,最终形成一个稳定的凸包, 其算法流程总结如下: 1) 对点集的排序,其目的是为了梳理杂乱的 点集以提高算法的效率。这里采用极坐标系,找 到 y 坐标最小的点 (若 y 坐标相同则取 x 小的 点) 记为 p0,将 p0 与{p1,p2,...,pn}中每个点相连, 再以 p0 为极点,进而计算每条连线的极角并按从 小到大排列 (若极角相等则计算距离由小到大排列)。 p1 p2 p1 p2 p0 p1 p1 p2 p0 p1 2 ) 把 p 0 、 p 1 依次入栈,遍历剩下的点 集 PLeft={p2,p3,p4,...,pn}把属于凸包的点集入栈,其 他无关点集出栈。其中,可以根据叉积来判断入 栈和出栈,若依次遍历 PLeft 中的每一个点,若当前 点为凸包凸点时,则向左旋转,而没有向左旋转 的点则是非凸点。 与 的叉积在物理上可以理 解为两向量所组成的平行四边形的面积,而数学 上可以通过正负来判断方向。若 与 的叉积为 负,相对于 ,点 p2 在逆时针方向即左边入栈, 若 与 的叉积为正,则相对于 ,点 p2 在顺时 针方向即右边进行栈顶元素出栈操作。依据这个 原则继续判断栈顶前两个元素与前点的位置关 系,最后栈中的点集就是本文需要找的凸点,连 接后就是凸包。凸性检测实验判定手势凸点的输 出结果如图 10 所示,其中轮廓为检测出的凸包轮 廓,圆圈为检测出的凸点,而表 1 记录了凸点位置 与凸包轮廓之间的距离。 3) 根据已有的凸包轮廓和凸点坐标,可以进 一步求得凸点坐标和凸包轮廓之间的距离,将点 集分为距离凸包轮廓近的“近点”和距离凸包轮廓 远的“远点”,一般人的手腕都是凹陷处即远点, 所以寻找手臂分割线可以先从“远点”入手,若“远 点”集合中没有再寻找“近点”集合。 3.2 基于 PCA 降维的手臂分割线提取方法 PCA 即主成分分析,用于图像和数据的降 维,其本质就是将高维数据降维到低维空间。这 里探索将 PCA 降维方法应用于手臂分割线的提 取,主要目的是要研究一种方法来便捷地得到手 势的主要方向。基于手臂分割线与手势方向基本 呈现垂直状态的客观事实,求得了手势的方向也 就得到了手臂的分割线。基于 PCA 降维的手臂 分割线提取算法的具体步骤如下: 1) 求得原始静态手势图片的均值图片,并以 原始图片减去均值图片得到均差图片。 2) 求得步骤 1) 中均差图片的协方差矩阵,再 由协方差矩阵得到静态手势图片的特征值和特征 向量,将特征值和特征向量一一对应并按从大到 小进行排列。 3) 取前 k 个特征向量,对均差图片进行降 维。基于只想从该方法中得到手势的方向,只要取 值 meaneigval=1(meaneigval 为选取前 meaneigval 个特征值与其所对应的特征向量,因为一副静 态手势图片中,手势斜率为其主要特征且特征值 最大,因此 meaneigval 取值为 1) 即可得到原始静 态手势的斜率 k。 4) 为了有效降低计算量,此算法先遍历“远 表 1 凸点位置分类及其与凸包轮廓的之间距离 Table 1 Convex point location classification and the distance between location and its convex hull contour 凸点编号 类型 位置 (坐标) 距离 1 远点 (208, 191) 113 152 2 近点 (435, 188) 608 3 近点 (236, 331) 162 4 远点 (322, 158) 2 468 5 远点 (546, 338) 8 870 6 近点 (349, 151) 201 7 远点 (339, 257) 31 138 8 远点 (457, 395) 8 054 9 近点 (209, 190) 186 10 远点 (396, 183) 3 597 11 远点 (316, 315) 21 087 图 10 凸性检测处理结果 Fig. 10 A convexity detection result ·350· 智 能 系 统 学 报 第 14 卷
第2期 董旭德,等:基于质心分水岭算法的静态手势分割算法模型 ·351· 点”集合中的每两个点,求得它们之间的斜率k和 4.2实验结果比较与分析 距离d,进而根据k×k=-1,取得与-1最接近的前 本文首先使用传统的SIFT算法对无类肤色 3条连线和点集,再从中取d最大的作为手臂的 背景的静态手势图片进行了基于特征点匹配的自 分割点,因为手臂间的宽度总是大于手指间的宽 动识别,其识别结果如图13所示。其中,手势图 度。若在“远点”集合中没有寻找到分割线就再在 片为数据集中表示“平铺”意义的手势,图13(a)检 “近点”集合中进行查找。最后,还要以手势质心 测出了47个特征点,而图13b)检测出了41个特 方向判断分割线是否查找正确,若质心点在分割 征,连线表示匹配成功的特征点。可以看出,在 线之上则正确,反之错误继续查找。根据以上步 此SFT特征点匹配算法中,由于手势的旋转或者 骤进行了基于PCA降维的手臂分割线提取方法 阴影的干扰,都会造成特征点提取和匹配的误 的手腕分割实验,结果如图11和图12所示。 差,从而导致识别的准确率降低,同时由于手臂 的冗余信息无法去除会造成匹配算法的效率大大 降低。 图11提取的手臂分割线 (@)原始训练数据库手势图片(b)测试数据库手势图片 Fig.11 An extracted arm dividing line 图13SFT算法特征匹配结果 Fig.13 SIFT feature matching results 此外,本文将传统WA、主动标记的分水岭算 法AMWA(active marker watershed algorithm)和 ICWA进行了对比实验。图14在展示了在类肤 色背景下WA、AMWA和ICWA之间的静态手势 分割结果对比。其存在的主要问题在于WA算法 虽然能够分割出肤色和类肤色区域,但会出现严 重的过分割现象,将手势分割的较为零散,影响 图12手掌与手臂的分割结果 后续识别的准确率。而改进的AMWA算法,虽 Fig.12 The segmentation between the palm and arm 然不会出现过分割现象,但无法区分肤色和类肤 4实验及分析 色区域,所以同样影响识别准确率。而本文提出 的ICWA算法可以较为准确地分割出手势区域, 4.1实验硬件环境和数据集 原因在于其集成的高斯滤波可以有效地减少图像 本文的实验采用Python3..5和OpenCV3.3实 的梯度差,并且ICWA算法只由一个质心点作为 现,测试平台的硬件环境如表2所示。本文使用 初始点,有效地减少了传统静态手势分割算法中 的手势图片数据集包括Marcel标准手势数据集 的过分割和无法完全分割的问题。本实验将 和网络上收集的手势数据图片,一共包含了9种 ICWA处理后的图片(像素为48×48)作为输入数 手势,共16898张图片。 据,放入LeNet CNN中达到了较好的识别效果。 表2实验硬件环境 为了验证该实验的实用性和正确性,本实验初步 Table 2 Experimental hardware environment 采用了CNN中最经典的LeNet-5模型:首先由 设备 型号 6个卷积核为5×5、步长为1的卷积层提取图像特 征,由核为3×3、步长为2的池化层聚合特征,然 处理器 Inter®Core i5,2.5GHz 后由16个卷积核为5×5、步长为1的卷积层提取 内存 6GB 特征和核为3×3、步长为2的池化层聚合特征,再 固态硬盘 128GB 由2层全连接层平铺特征进行分类,最后输出分 显卡 GeForce GTX 650 类信息,具体结构如图15所示
点”集合中的每两个点,求得它们之间的斜率 k′和 距离 d,进而根据 k×k′=−1,取得与−1 最接近的前 3 条连线和点集,再从中取 d 最大的作为手臂的 分割点,因为手臂间的宽度总是大于手指间的宽 度。若在“远点”集合中没有寻找到分割线就再在 “近点”集合中进行查找。最后,还要以手势质心 方向判断分割线是否查找正确,若质心点在分割 线之上则正确,反之错误继续查找。根据以上步 骤进行了基于 PCA 降维的手臂分割线提取方法 的手腕分割实验,结果如图 11 和图 12所示。 4 实验及分析 4.1 实验硬件环境和数据集 本文的实验采用 Python3.5 和 OpenCV3.3 实 现,测试平台的硬件环境如表 2 所示。本文使用 的手势图片数据集包括 Marcel 标准手势数据集 和网络上收集的手势数据图片,一共包含了 9 种 手势,共 16 898 张图片。 4.2 实验结果比较与分析 本文首先使用传统的 SIFT 算法对无类肤色 背景的静态手势图片进行了基于特征点匹配的自 动识别,其识别结果如图 13 所示。其中,手势图 片为数据集中表示“平铺”意义的手势,图 13(a) 检 测出了 47 个特征点,而图 13(b) 检测出了 41 个特 征,连线表示匹配成功的特征点。可以看出,在 此 SIFT 特征点匹配算法中,由于手势的旋转或者 阴影的干扰,都会造成特征点提取和匹配的误 差,从而导致识别的准确率降低,同时由于手臂 的冗余信息无法去除会造成匹配算法的效率大大 降低。 此外,本文将传统 WA、主动标记的分水岭算 法 AMWA(active marker watershed algorithm) 和 ICWA 进行了对比实验。图 14 在展示了在类肤 色背景下 WA、AMWA 和 ICWA 之间的静态手势 分割结果对比。其存在的主要问题在于 WA 算法 虽然能够分割出肤色和类肤色区域,但会出现严 重的过分割现象,将手势分割的较为零散,影响 后续识别的准确率。而改进的 AMWA 算法,虽 然不会出现过分割现象,但无法区分肤色和类肤 色区域,所以同样影响识别准确率。而本文提出 的 ICWA 算法可以较为准确地分割出手势区域, 原因在于其集成的高斯滤波可以有效地减少图像 的梯度差,并且 ICWA 算法只由一个质心点作为 初始点,有效地减少了传统静态手势分割算法中 的过分割和无法完全分割的问题。本实验将 ICWA 处理后的图片 (像素为 48×48) 作为输入数 据,放入 LeNet CNN 中达到了较好的识别效果。 为了验证该实验的实用性和正确性,本实验初步 采用了 CNN 中最经典的 LeNet-5 模型:首先由 6 个卷积核为 5×5、步长为 1 的卷积层提取图像特 征,由核为 3×3、步长为 2 的池化层聚合特征,然 后由 16 个卷积核为 5×5、步长为 1 的卷积层提取 特征和核为 3×3、步长为 2 的池化层聚合特征,再 由 2 层全连接层平铺特征进行分类,最后输出分 类信息,具体结构如图 15 所示。 表 2 实验硬件环境 Table 2 Experimental hardware environment 设备 型号 处理器 Inter®Core i5,2.5GHz 内存 6 GB 固态硬盘 128 GB 显卡 GeForce GTX 650 图 11 提取的手臂分割线 Fig. 11 An extracted arm dividing line 图 12 手掌与手臂的分割结果 Fig. 12 The segmentation between the palm and arm (a) 原始训练数据库手势图片 (b) 测试数据库手势图片 图 13 SIFT 算法特征匹配结果 Fig. 13 SIFT feature matching results 第 2 期 董旭德,等:基于质心分水岭算法的静态手势分割算法模型 ·351·
·352· 智能系统学报 第14卷 图14类肤色区域背景下的WA、AMWA和ICWA之间处理结果的对比 Fig.14 Comparison of processing results among WA,AMWA and ICWA with skin-like background 输入 6个特征图 6个特征图16个特征图16个特征图 120个单元 84个单元输出分类标签0-9 48×48 44×44 22×22 18×18 9x9 (表示9种手势) 图15CNN手势识别结构图 Fig.15 The CNN architecture for gesture recognition 如表3所示,使用传统SIFT算法识别9种手 利用Marcel标准手势数据集,在表2所列的 势的平均识别率为83.04%,而本文所提出的ICWA+ 硬件平台上对本文所提出的ICWA和传统分水岭 LeNet CNN方法的识别率都高于SIFT算法,且其 算法进行对比实验。图16分别展示了ICWA+Le 平均识别率达到了97.85%。其主要原因在于:1) Net CNN方法和传统的分水岭算法+LeNet CNN SIFT方法会受到手势的旋转和阴影的干扰而导 方法对Marcel数据集中的每张图片进行分类识 致特征点提取的不一致和相应的匹配错误,最终 别的结果对比(按手势种类取平均值)。从实验结 无法正确进行手势识别:2)SFT算法需要进行特 果可以看出,ICWA+LeNet CNN方法识别率明显 征点匹配,若匹配不成功就会出现误据,而ICWA 高于传统分水岭算法+LeNet CNN方法。 利用CNN进行分类则不会出现误据的情况。因 ■传统分水岭算法识别率瑞ICWA算法识别率 此,ICWA算法可以完整地分割出静态手势的有 100.00r 效区域,进而能够准确地提取出静态手势的特征。 80.00 表3SIFT算法和ICWA算法准确率与误据率对比 Table 3 Comparison of accuracy and error rate 60.00 between SIFT and ICWA % 40.00 ICWA算法 SIFT算法 手势编号 20.00 识别率 误据率 识别率 误据率 0 99.75 0 79.83 18.05 2 3 4 56 7 8 9 手势种类编号 1 99.50 80.23 5.21 图16 传统分水岭算法(WA)与ICWA的平均识别率比较 2 99.03 84.57 21.37 Fig.16 Comparison of average recognition rate between 99.43 0 83.47 16.83 traditional WA and ICWA 4 96.02 S 86.31 15.50 5结束语 96.25 82.11 7.63 本文发现基于低成本单目视觉的静态手势分 6 96.16 0 87.36 12.11 割算法依然难以在复杂类肤色背景下进行准确 7 97.28 0 82.29 15.65 完整的手势图像分割与提取:1)传统分水岭算法 97.23 81.25 9.98 很容易在类肤色背景和手势前景中造成严重的过
如表 3 所示,使用传统 SIFT 算法识别 9 种手 势的平均识别率为 83.04%,而本文所提出的 ICWA+ LeNet CNN 方法的识别率都高于 SIFT 算法,且其 平均识别率达到了 97.85%。其主要原因在于:1) SIFT 方法会受到手势的旋转和阴影的干扰而导 致特征点提取的不一致和相应的匹配错误,最终 无法正确进行手势识别; 2) SIFT 算法需要进行特 征点匹配,若匹配不成功就会出现误据,而 ICWA 利用 CNN 进行分类则不会出现误据的情况。因 此,ICWA 算法可以完整地分割出静态手势的有 效区域,进而能够准确地提取出静态手势的特征。 利用 Marcel 标准手势数据集,在表 2 所列的 硬件平台上对本文所提出的 ICWA 和传统分水岭 算法进行对比实验。图 16 分别展示了 ICWA+LeNet CNN 方法和传统的分水岭算法+LeNet CNN 方法对 Marcel 数据集中的每张图片进行分类识 别的结果对比 (按手势种类取平均值)。从实验结 果可以看出,ICWA+LeNet CNN 方法识别率明显 高于传统分水岭算法+LeNet CNN 方法。 5 结束语 本文发现基于低成本单目视觉的静态手势分 割算法依然难以在复杂类肤色背景下进行准确、 完整的手势图像分割与提取:1) 传统分水岭算法 很容易在类肤色背景和手势前景中造成严重的过 表 3 SIFT 算法和 ICWA 算法准确率与误据率对比 Table 3 Comparison of accuracy and error rate between SIFT and ICWA % 手势编号 ICWA 算法 SIFT 算法 识别率 误据率 识别率 误据率 0 99.75 0 79.83 18.05 1 99.50 0 80.23 5.21 2 99.03 0 84.57 21.37 3 99.43 0 83.47 16.83 4 96.02 0 86.31 15.50 5 96.25 0 82.11 7.63 6 96.16 0 87.36 12.11 7 97.28 0 82.29 15.65 8 97.23 0 81.25 9.98 图 14 类肤色区域背景下的 WA、AMWA 和 ICWA 之间处理结果的对比 Fig. 14 Comparison of processing results among WA, AMWA and ICWA with skin-like background 输入 48 × 48 6个特征图 44 × 44 6个特征图 22 × 22 16个特征图 18 × 18 16个特征图 9 × 9 120个单元 84个单元 输出分类标签0−9 (表示9种手势) 图 15 CNN 手势识别结构图 Fig. 15 The CNN architecture for gesture recognition 100.00 80.00 60.00 40.00 20.00 0 1 2 3 4 5 6 7 8 9 手势识别率/% 手势种类编号 传统分水岭算法识别率 ICWA算法识别率 图 16 传统分水岭算法 (WA) 与 ICWA 的平均识别率比较 Fig. 16 Comparison of average recognition rate between traditional WA and ICWA ·352· 智 能 系 统 学 报 第 14 卷
第2期 董旭德,等:基于质心分水岭算法的静态手势分割算法模型 ·353· 分割现象;2)传统方法没有考虑将手臂和手掌部 proach in natural interface development[J].International 分进行高效地分割,以减少冗余信息。为了解决 journal of scientific engineering research,2012,3(5): 这个难题,本文提出了针对有大量类肤色背景的 208-215. 静态手势分割算法模型。其设计并集成了ICWA [6]王先军,白国振,杨勇明.复杂背景下BP神经网络的手 算法、PCA降维与凸性检测融合算法。该模型首 势识别方法[J].计算机应用与软件,2013,30(3): 先由ICWA算法进行肤色区域与类肤色区域的区 247-249 分,保留肤色区域,然后由PCA降维与凸性检测 WANG Xianjun,BAI Guozheng,YANG Yongming.Hand 相结合的算法求得手臂分割线,排除手臂冗余区 gesture recognition based on BP neural network in com- 域。最后,经过大量实验验证了该算法模型的准 plex background[J].Computer applications and software, 确性、有效性和实用性。其精确、高效的手掌部 2013.30(3):247-249 分图像的分割与提取为后续静态手势的快速、智 [7]PATEL DG.Point pattern matching algorithm for recogni- 能识别打下了坚实基础。 tion of 36 ASL gestures[J].International journal of science 未来的研究重点是探索一种特征描述算子来 and modern engineering,2013,7(1):24-28. [8]LEE J Y,RHEE G W,DONG W S.Hand gesture-based 描述、记录动态手势的轨迹,特别是三维深度信 tangible interactions for manipulating virtual objects in a 息。此外,需要深人研究并设计出满足实用要求 mixed reality environment[J].International journal of ad- 的深度学习网络来高效、智能地识别有缺陷的静 vanced manufacturing technology,2010,51(9/10/11/12): 态手势分割图片和使用动态的手势轨迹特征进行 1069-1082 学习。 [9]ZENG Jianchao,WANG Yue,TURNER R,et al.Vision- 参考文献: based finger tracking of breast palpation for improving breast self-examination[Cl//Proceedings of 18th Annual In- [1]易靖国,程江华,库锡树.视觉手势识别综述).计算机 ternational Conference of the IEEE Engineering in Medi- 科学,2016.43S1):103-108. cine and Biology Society.Bridging Disciplines for Bio- YI Jingguo,CHENG Jianghua,KU Xishu.Review of ges- medicine.Amsterdam.Netherlands:IEEE,1996:148-149. tures recognition based on vision[J].Computer science, [10]DAVIS J,SHAH M.Visual gesture recognition[J].IEE 2016,43(S1):103-108. proceedings-vision,image and signal processing,1994, [2]曹昕燕,赵继印,李敏.基于肤色和运动检测技术的单目 141(2):101-106. 视觉手势分割[】.湖南大学学报(自然科学版),2011, [11]DORFMULLER-ULHAAS K,SCHMALSTIEG D.Fin- 38(1):78-83 ger tracking for interaction in augmented environments[Cl/ CAO Xinyan,ZHAO Jiyin,LI Min.Monocular vision ges- Proceedings.IEEE and ACM International Symposium on ture segmentation based on skin color and motion detec- Augmented Reality.New York,NY,USA:IEEE,2001: tion[J].Journal of Hunan university (natural sciences), 55-64. 2011,38(1):78-83 [12]张国家,左敦稳,黎向锋,等.基于圆形梯度的手势分割 [3]张国亮,王展妮,王田.应用计算机视觉的动态手势识别 算法的设计与实现).机械设计与制造工程,2013, 综述].华侨大学学报(自然科学版),2014,35(6): 42(9:1-6 653-658. ZHANG Guojia,ZUO Dunwen,LI Xiangfeng,et al. ZHANG Guoliang,WANG Zhanni,WANG Tian.Survey Design and development of a new gesture segmentation on dynamic hand gesture recognition with computer vis- algorithm based on circular gradient[J].Machine design ion[J].Journal of Huaqiao university (natural science), and manufacturing engineering,2013,42(9):1-6 2014,35(6):653-658. [13]杨磊,隋云衡,姚立虎.结合肤色分割与手形匹配算法 [4]WU Ying,HUANG T S.Vision-based gesture recognition: 的静态手势检测.信息通信,2013(4):4-6. a review[Cl//International Gesture Workshop on Gesture- YANG Lei,SUI Yunheng,YAO Lihu.The static gesture Based Communication in Human-Computer Interaction. detection with combining skin color segmentation and Berlin,Heidelberg,Germany:Springer-Verlag,1999: hand-shape matching algorithm[J].Information and com- 103-115 munication,2013(4):4-6. [5]TARA R Y,PAULUS T,SANTOSA I,et al.Hand seg- [14]张羽,徐端全.OpenCV分水岭算法的改进及其在细胞 mentation from depth image using anthropometric ap- 分割中的应用円.计算机应用,2012.32(S1):134-136
分割现象;2) 传统方法没有考虑将手臂和手掌部 分进行高效地分割,以减少冗余信息。为了解决 这个难题,本文提出了针对有大量类肤色背景的 静态手势分割算法模型。其设计并集成了 ICWA 算法、PCA 降维与凸性检测融合算法。该模型首 先由 ICWA 算法进行肤色区域与类肤色区域的区 分,保留肤色区域,然后由 PCA 降维与凸性检测 相结合的算法求得手臂分割线,排除手臂冗余区 域。最后,经过大量实验验证了该算法模型的准 确性、有效性和实用性。其精确、高效的手掌部 分图像的分割与提取为后续静态手势的快速、智 能识别打下了坚实基础。 未来的研究重点是探索一种特征描述算子来 描述、记录动态手势的轨迹,特别是三维深度信 息。此外,需要深入研究并设计出满足实用要求 的深度学习网络来高效、智能地识别有缺陷的静 态手势分割图片和使用动态的手势轨迹特征进行 学习。 参考文献: 易靖国, 程江华, 库锡树. 视觉手势识别综述[J]. 计算机 科学, 2016, 43(S1): 103–108. YI Jingguo, CHENG Jianghua, KU Xishu. Review of gestures recognition based on vision[J]. Computer science, 2016, 43(S1): 103–108. [1] 曹昕燕, 赵继印, 李敏. 基于肤色和运动检测技术的单目 视觉手势分割[J]. 湖南大学学报 (自然科学版), 2011, 38(1): 78–83. CAO Xinyan, ZHAO Jiyin, LI Min. Monocular vision gesture segmentation based on skin color and motion detection[J]. Journal of Hunan university (natural sciences), 2011, 38(1): 78–83. [2] 张国亮, 王展妮, 王田. 应用计算机视觉的动态手势识别 综述[J]. 华侨大学学报 (自然科学版), 2014, 35(6): 653–658. ZHANG Guoliang, WANG Zhanni, WANG Tian. Survey on dynamic hand gesture recognition with computer vision[J]. Journal of Huaqiao university (natural science), 2014, 35(6): 653–658. [3] WU Ying, HUANG T S. Vision-based gesture recognition: a review[C]//International Gesture Workshop on GestureBased Communication in Human-Computer Interaction. Berlin, Heidelberg, Germany: Springer-Verlag, 1999: 103–115. [4] TARA R Y, PAULUS T, SANTOSA I, et al. Hand segmentation from depth image using anthropometric ap- [5] proach in natural interface development[J]. International journal of scientific & engineering research, 2012, 3(5): 208–215. 王先军, 白国振, 杨勇明. 复杂背景下 BP 神经网络的手 势识别方法[J]. 计算机应用与软件, 2013, 30(3): 247–249. WANG Xianjun, BAI Guozheng, YANG Yongming. Hand gesture recognition based on BP neural network in complex background[J]. Computer applications and software, 2013, 30(3): 247–249. [6] PATEL D G. Point pattern matching algorithm for recognition of 36 ASL gestures[J]. International journal of science and modern engineering, 2013, 7(1): 24–28. [7] LEE J Y, RHEE G W, DONG W S. Hand gesture-based tangible interactions for manipulating virtual objects in a mixed reality environment[J]. International journal of advanced manufacturing technology, 2010, 51(9/10/11/12): 1069–1082. [8] ZENG Jianchao, WANG Yue, TURNER R, et al. Visionbased finger tracking of breast palpation for improving breast self-examination[C]//Proceedings of 18th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Bridging Disciplines for Biomedicine. Amsterdam, Netherlands: IEEE, 1996: 148–149. [9] DAVIS J, SHAH M. Visual gesture recognition[J]. IEE proceedings-vision, image and signal processing, 1994, 141(2): 101–106. [10] DORFMULLER-ULHAAS K, SCHMALSTIEG D. Finger tracking for interaction in augmented environments[C]// Proceedings. IEEE and ACM International Symposium on Augmented Reality. New York, NY, USA: IEEE, 2001: 55–64. [11] 张国家, 左敦稳, 黎向锋, 等. 基于圆形梯度的手势分割 算法的设计与实现[J]. 机械设计与制造工程, 2013, 42(9): 1–6. ZHANG Guojia, ZUO Dunwen, LI Xiangfeng, et al. Design and development of a new gesture segmentation algorithm based on circular gradient[J]. Machine design and manufacturing engineering, 2013, 42(9): 1–6. [12] 杨磊, 隋云衡, 姚立虎. 结合肤色分割与手形匹配算法 的静态手势检测[J]. 信息通信, 2013(4): 4–6. YANG Lei, SUI Yunheng, YAO Lihu. The static gesture detection with combining skin color segmentation and hand-shape matching algorithm[J]. Information and communication, 2013(4): 4–6. [13] 张羽, 徐端全. OpenCV 分水岭算法的改进及其在细胞 分割中的应用[J]. 计算机应用, 2012, 32(S1): 134–136. [14] 第 2 期 董旭德,等:基于质心分水岭算法的静态手势分割算法模型 ·353·
·354· 智能系统学报 第14卷 ZHANG Yu,XU Duanquan.Improvement on watershed and Krawtchouk moments[J].Pattern recognition,2013, algorithm of OpenCV and its application in cell image 46(8):2202-2219 segmentation[J].Journal of computer applications,2012, 32(S1):134-136. 作者简介: [15]胡学敏,沈朝晓,王司雨,等.基于多边形凹凸点检测的 远距离手势识别).信息通信,2015(9少:57-58. 董旭德.男,1994年生,硕士研究 HU Xueming,SHEN Chaoxiao,WANG Siyu,et al.Re- 生,主要研究方向为计算机视觉、机器 mote gesture recognition based on polygon bump pointde- 学习与深度学习网络。 tection[J].Information and communication,2015(9): 57-58. [16]邱瑞,祝日星,许宏科.基于改进分水岭算法的图像分 割算法[J].吉林大学学报(理学版),2017,55(3): 许源平,男,1980年生,教授,主 629-634 要研究方向为智能制造专家系统、知 QIU Rui,ZHU Rixing,XU Hongke.Image segmentation 识库与知识工程、机器视觉。主持国 algorithm based on improved watershed algorithm[J]. 家自然科学基金和四川省科技项目 Journal of Jilin university (science edition),2017,55(3): 8项。发表学术论文50余篇。 629634. [l7刀王晓,踪琳.基于OpenCV视觉库的嵌入式视频处理系 统U.电子质量,20173):54-59. 舒红平,男,1974年生,教授,博士 WANG Xiao,ZONG Lin.Embedded video monitoring 生导师,主要研究方向为软件开发环 境与智能服务大数据。主持和参与了 system based on OpenCV visual library[J].Electronics 国家自然科学基金、9项973课题、四 quality,.2017(3):54-59. 川省科技支撑计划项目、四川省青年 [18]PRIYAL S P,BORA P K.A robust static hand gesture re- 科技基金等纵向项目12项。发表核 cognition system using geometry based normalizations 心期刊以上论文近40篇
ZHANG Yu, XU Duanquan. Improvement on watershed algorithm of OpenCV and its application in cell image segmentation[J]. Journal of computer applications, 2012, 32(S1): 134–136. 胡学敏, 沈朝晓, 王司雨, 等. 基于多边形凹凸点检测的 远距离手势识别[J]. 信息通信, 2015(9): 57–58. HU Xueming, SHEN Chaoxiao, WANG Siyu, et al. Remote gesture recognition based on polygon bump pointdetection[J]. Information and communication, 2015(9): 57–58. [15] 邱瑞, 祝日星, 许宏科. 基于改进分水岭算法的图像分 割算法[J]. 吉林大学学报 (理学版), 2017, 55(3): 629–634. QIU Rui, ZHU Rixing, XU Hongke. Image segmentation algorithm based on improved watershed algorithm[J]. Journal of Jilin university (science edition), 2017, 55(3): 629–634. [16] 王晓, 踪琳. 基于 OpenCV 视觉库的嵌入式视频处理系 统[J]. 电子质量, 2017(3): 54–59. WANG Xiao, ZONG Lin. Embedded video monitoring system based on OpenCV visual library[J]. Electronics quality, 2017(3): 54–59. [17] PRIYAL S P, BORA P K. A robust static hand gesture recognition system using geometry based normalizations [18] and Krawtchouk moments[J]. Pattern recognition, 2013, 46(8): 2202–2219. 作者简介: 董旭德,男,1994 年生,硕士研究 生,主要研究方向为计算机视觉、机器 学习与深度学习网络。 许源平,男,1980 年生,教授,主 要研究方向为智能制造专家系统、知 识库与知识工程、机器视觉。主持国 家自然科学基金和四川省科技项目 8 项。发表学术论文 50 余篇。 舒红平,男,1974 年生,教授,博士 生导师,主要研究方向为软件开发环 境与智能服务大数据。主持和参与了 国家自然科学基金、9 项 973 课题、四 川省科技支撑计划项目、四川省青年 科技基金等纵向项目 12 项。发表核 心期刊以上论文近 40 篇。 ·354· 智 能 系 统 学 报 第 14 卷