D0I:10.13374/j.issn1001053x.2001.03.051 第23卷第3期 北京科技大学学报 VoL23 No.3 2001年6月 Journal of University of Science and Technology Beijing June 2001 种用于手语识别的中国手语分类方法 张亚新》原魁) 杜清秀) 邹伟) 1)中国科技大学研究生院,北京1000382)中国科学院自动化研究所北京100080 摘要从手语识别的角度出发对中国手语的特征进行了分析,对现有的手语识别方法一 基于计算机视觉的方法和基于佩带式输人设备的方法进行了分析和比较,并提出了一种新的 手语分类方法, 关键词中国手语;手语识别;计算机视觉;佩带式输人装置 分类号TP391.4 手语是自然语言的一个组成部分,是具有 1计算机手语识别方法分析 听力障碍的人(以下简称为听障者)之间进行信 息交流的主要手段.手语也和正常人使用的语 目前的计算机手语识别方法基本上可以分 言一样,不但具有自己独自的词汇和语法体系, 为两种类型:基于机器视觉(machine-vision)的 并且可以表达各种细微的信息.计算机手语识 手语识别方法和基于佩带式输入设备(boy-in- 别研究的目的是使计算机能够正确理解听障者 strumentation)的手语识别方法网. 给出的手语,并给出相应的文本、语音等输出, 1.1基于机器视觉的手语识别方法 从而达到帮助正常人与听障者进行交流的目 基于计算机视觉的手语识别系统通常采用 的.近年来,许多经济发达国家都开始了手语处 CCD摄像镜头作为输人设备,但系统的构成则 理技术的研究,并在为研制开发能够帮助聋哑 各有不同.最简单的计算机视觉系统只采用一 人与正常人进行信息交流的实用手语翻译系统 个摄像镜头,而较复杂的系统则采用两个以上 而做了大量的工作 的摄像镜头采集手语的动作信息.当手语发话 中国手语是我国听障者之间进行交流时所 者在计算机视觉系统的视场内完成发话动作 使用的语言,它与正常人所使用的普通汉语相 时,计算机视觉系统可以通过CCD摄像镜头和 比有很大不同.从词汇数量方面来看,虽然在日 图像采样卡得到发话者手部动作和面部表情方 常生活中使用的汉语词汇多达2万个以上,而 面的信息,并从这些信息中提取进行手语识别 在《中国手语》词典中只规定了3300个手势词 所需要的特征,进而达到手语识别的目的.其缺 汇四.与日常生活中使用的汉语词汇相比,每个 点是提取三维空间中的信息时需要处理的信息 手语词汇包含的词义更广泛.为了研制开发出 量非常大,对于复杂动作难以实现实时识别 能够利用计算机对中国手语进行识别,并给出 1.2基于佩带式输入设备的手语识别方法 相应的文本、语音等输出,从而达到帮助正常人 基于佩带式输入设备的手语识别方法中使 与聋人交流的目的的手语识别系统,必须解决 用的输人设备主要有数据手套和三维跟踪装 中国手语的信息输人、特征提取、模式分类和词 置.从数据手套和三维跟踪装置给出的信息中 汇识别等问题.而手语词汇的特征提取和模式 提取进行手语识别所需要的特征,就可以达到 分类又对系统的性能有着重要影响.本文从手 对手语输入进行识别的目的, 语识别的角度出发对中国手语的特征进行了较 虽然基于佩带式输入设备的手语识别系统 详尽的分析,对现有的手语识别方法进行了分 的实时性很好,能够识别的手语词汇也大大超 析和比较,并提出了一种新的手语分类方法. 过基于计算机视觉的手语识别系统,但是,由于 使用佩带式输入设备时无法得到发话者面部表 收稿日期2000-12-12张亚新女,28岁,学士 ★中科院重点项目基金QNo.技[1999]075) 情和身体动作方面的信息,其应用范围受到一
第 卷 第 期 年 月 北 京 科 技 大 学 学 报 让 】俄口 幼 一种用 于手语识别 的中国手语分类方法 张亚新 ” 原 魁 ” 杜清秀 ” 邹 伟 ” 中国科技大学研究生院 , 北京 中国科学院自动化研究所 匕京 摘 要 从手语识别的角度 出发对 中国手语的特征进行了分析 , 对现有的手语识别方法 基于计算机视觉的方法和基于佩带式输人设备的方法进行 了分析和 比较 , 并提出了一种新—的 手语分类方法 关扭词 中国手语 手语识别 计算机视觉 佩带式输人装置 分类号 手语是 自然语言 的一个组成部分 , 是具有 听力 障碍的人 以下简称为听障者 之间进行信 息交流 的主要手段 手语也和正常人使用 的语 言一样 , 不但具有 自己独 自的词汇和语法体系 , 并且可 以 表达各种细微 的信息 计算机手语识 别研究 的 目的是使计算机能够正确理解听障者 给出的手语 , 并给出相应 的文本 、 语音等输 出 , 从 而 达 到 帮助 正 常人 与 听 障者进行交流 的 目 的 近年来 , 许多经济发达 国家都开始 了手语处 理技术 的研究 , 并在为研制开发能够帮助聋哑 人与正常人进行信息交流的实用手语翻译系统 而做 了大量 的工作 中国手语是我 国听障者之间进行交流时所 使用 的语言 , 它与正常人所使用 的普通汉语相 比有很大不 同 从词 汇数量方面来看 , 虽然在 日 常生活 中使用 的汉语词 汇多达 万个 以上 , 而 在《 中国手语 》词典 中只规定 了 个手势词 汇〔月 与 日常生活 中使用 的汉语词汇相 比 , 每个 手语词汇包含 的词义更广泛 为 了研制开发 出 能够利用 计算机对 中国手语进行识别 , 并给 出 相应 的文本 、 语音等输 出 , 从而达到帮助正常人 与聋人交流 的 目的的手语识别系统 , 必须解决 中国手语的信息输人 、 特征提取 、 模式分类和词 汇识别等问题 而手语词汇 的特征提取和模式 分类又对系统的性能有着重要影 响 本文从手 语识别的角度 出发对 中国手语 的特征进行 了较 详尽 的分析 , 对现有 的手语识别方法进行 了分 析和 比较 , 并提 出了一种新 的手语分类方法 收稿 日期 卜 张亚新 女 , 岁 , 学士 中科院重点项 目基金伽。 技【 计算机手语识别方法分析 目前的计算机手语识别方法基本上可 以分 为两种类型 基于机器视觉 场泊 一 的 手语识别方法和基于佩带式输人设备 一 切 的手语识别方法 基于机器视觉的手语识别 方法 基于计算机视觉的手语识别系统通常采用 摄像镜头作为输人设备 , 但系统的构成则 各有不 同 最简单的计算机视觉 系统只采用一 个摄像镜头 , 而较复杂 的系统则采用 两个 以上 的摄像镜头采集手语 的动作信息 当手语发话 者 在计算 机视觉 系统 的视场 内完 成 发话 动作 时 , 计算机视觉系统可 以 通过 摄像镜头和 图像采样卡得到发话者手部动作和面部表情方 面 的信息 , 并从这些信息 中提取进行手语识别 所需要 的特征 , 进而达到手语识别的 目的 其缺 点是提取三维空 间 中的信息时需要处理的信息 量非 常大 , 对于复杂动作难 以 实现实时识别 基于佩带式输入设备的手语识别方法 基于佩带式输人设备的手语识别方法 中使 用 的输人设备 主要 有数据手套和 三维 跟踪装 置 从数据手套和 三维跟踪装置给 出的信息 中 提取进行手语识别所需要 的特征 , 就可 以达到 对手语输人进行识别 的 目的 虽然基于佩带式输人设备的手语识别系统 的实时性很好 , 能够识别 的手语词汇也大大超 过基于计算机视觉的手语识别系统 , 但是 , 由于 使用佩带式输人设备时无法得到发话者面部表 情和 身体动作方面 的信息 , 其应用范 围受到一 DOI :10.13374/j .issn1001—053x.2001.03.051
VoL23 No.3 张亚新等:一种用于手语识别的中国手语分类方法 ·285· 定限制.此外,在对一些由手部动作和身体某一 蹈”). 部位配合所形成的词汇进行识别时,由于佩带 2.2新的手语词汇分类规则 式输入设备本身的精度和数据传输速率等方面 (1)中国手语分类规则, 的原因,其识别率也将受到很大影响 对于一个手语识别系统来说,确定合理的 以上分析中可以看出,两种手语识别方法 分类规则非常重要.笔者在对《中国手语》一书 都存在一定缺点,不能满足高性能手语识别系 中给出的手语词汇进行认真分析后,根据所可 统的需要 能使用的传感器的种类,提出了如图1所示的 中国手语分类方法. 2一种中国手语分类方法 手语词汇 如上所述,计算机手语识别方法在很大程 度上取决于得到这些信息的传感器的类型和配 单手 双手 置.而另一方面,因为手语识别过程实际上也是 手指语 手势 视觉 一种模式识别过程,所以为了提高手语识别系 统的性能,确定合理的分类规则与准确提取手 接触 静态动态☐指向身体表情 语词汇的特征同样重要. 图1中国手语分类树 2.1中国手语特征 Fig.1 Tree of chinese sign language classification 在中国手语的发话过程中,发话者的信息 因为单手手语分类树的后续内容和双手手 分别由身体动作(例如鞠躬)、手指字母与手部 语分类树的后续内容相同,简明起见,略去了单 动作(单手、双手)的配合、手部与身体某一部位 手手语分类树的后续内容 的配合(与身体的配合或与面部表情的配合)给 (2)手语分类规则说明 出.按其发话的动作来分,中国手语的词汇可以 ①区分手语词汇是单手手语还是双手手 被分为以下几种类型. 语 (1)手指语.手指语给出所有的汉语拼音字 因为手语词汇分为单手手语词汇和双手手 母以及数字,并与其他动作配合给出相应的词 语词汇,因此在对手语进行识别时应首先确定 汇.一些手语词汇由手指语单独给出,如“剪 该词是单手词汇还是双手手语词汇· 子”、“还给”、“否定”、“成功”等,而另一些词汇 ②确定词汇是手指语还是手势语 则由字母连打组成,如“支部”、“行政” 通过检测数据手套的输出,可以很容易地 (2)单手手语词汇.单手手语词汇由一只手 区分某一词汇是手指语还是手势语,从而达到 与身体的某一部位,如肩、嘴唇、耳朵、下颌、前 缩小搜索范围的目的. 额等配合给出. ③检测手指间是否有接触. (3)双手手语词汇.在双手手语词汇的发话 由于某些手语词汇的手指姿态比较接近, 过程中,一只手为主导手(通常是右手),而另外 而用于检测手指动作的数据手套本身又存在一 一只手则为从手.与主手相比,从手的动作比较 定误差,因此,仅仅利用数据手套给出的手指弯 简单,而且常常与主手动作对称.在双手手语 曲角度或外展信息难以准确区分这些词汇.而 中,约有6%的手语为静态的,即在手语发话过 另一方面,因为在此类词汇的发话过程中手指 程中起始手形和终止手形相同,而且手在空间 间往往伴随着接触信息,所以如果能够利用手 的位置也没有发生变化(如“门”、“房子”)等. 指的接触信息,就能够更准确地区分这些词汇 大部分手语词汇的发话过程为动态的.在手语 ④区分词汇是动态词汇还是静态词汇. 的发话过程中手的运动轨迹有直线(如“平(平 某些手语词汇由手部的一系列动作组成。 等)”)、圆弧(如“搬”),也有比较复杂的“之”字 而另一些词汇则仅由一些孤立的手势或手指语 型(如“芭蕾舞”),因此其识别也比较困难. 组成.因此,区分需要识别的手语词汇是静态还 (4)其他.在中国手语中还存在一些以身体 是动态词汇很有必要. 本身的动作形成的词汇(例如“鞠躬”)和一些只 ⑤需要利用视觉进行识别的词汇. 需身体与手臂的配合而形成的词汇(如“舞 在中国手语中,除去手指语之外,许多词汇
、 勺 ‘ 张亚新等 一种用于手语识别的中国手语分类方法 定 限制 此外 , 在对一些 由手部动作和身体某一 部位配合所形成 的词 汇进行识别时 , 由于佩带 式输人设备本身的精度和数据传输速率等方面 的原 因 , 其识别率也将受到很大影 响 以 上分析 中可 以 看 出 , 两种手语识别方法 都存在一定缺点 , 不能满足高性能手语识别 系 统 的需要 蹈 ,, 新的手语词 汇分类规则 中国手语分类规则 对于一个手语识别系统来说 , 确定合理 的 分类规则非常重要 笔者在对《 中国手语 》一 书 中给 出的手语词汇进行认真分析后 , 根据所可 能使用 的传感器的种类 , 提 出了如 图 所示 的 中国手语分类方法 一种中国手语分类方法 如上所述 , 计算机手语识别方法在很大程 度上取决于得到这些信息的传感器的类型 和配 置 而另一方面 , 因为手语识别过程实际上也是 一种模式识别过程 , 所 以为了提高手语识别系 统 的性能 , 确定合理 的分类规则 与准确提取手 语词汇的特征 同样重要 中国手语特征 在 中国手语 的发话过程 中 , 发话者 的信息 分别 由身体动作 例如鞠躬 、 手指字母与手部 动作 单手 、 双手 的配合 、 手部与身体某一部位 的配合 与身体的配合或与面部表情的配合 给 出 按其发话的动作来分 , 中国手语的词汇可 以 被分为 以下几种类型 手指语 手指语给出所有 的汉语拼音字 母 以及数字 , 并与其他动作配合给出相应 的词 汇 一些手语词汇 由手指语单独 给出 , 如 “ 剪 子 ” 、 “ 还给 ” 、 “ 否定 ” 、 “ 成功 ” 等 , 而另一些词汇 则 由字母连打组成 , 如 “ 支部 ” 、 “ 行政 ” 单手手语词汇 单手手语词汇 由一 只手 与身体的某一部位 , 如肩 、 嘴唇 、 耳朵 、 下领 、 前 额等配合给 出 双手手语词汇 在双手手语词汇的发话 过程 中 , 一只手为主导手 通常是右手 , 而另外 一只手则为从手 与主手相 比 , 从手的动作 比较 简单 , 而且常常与主手动作对称 在双手手语 中 , 约有 的手语为静态 的 , 即在手语发话过 程 中起始手形 和终止手形相 同 , 而且手在空 间 的位置也没有发生变化 如 “ 门 ” 、 “ 房子 ” 等 大部分手语词 汇 的发话过程为动态 的 在手语 的发话过程 中手 的运动轨迹有直线 如 “ 平 平 等 ,, 、 圆弧 如 “ 搬 ,, , 也有 比较复杂 的 “ 之 ,, 字 型 如 “ 芭蕾舞 ” , 因此其识别也 比较 困难 其他 在 中国手语 中还存在一些 以 身体 本身的动作形成的词 汇 例如 “ 鞠躬 ” 和一些只 需 身体 与手臂 的配 合而形 成 的词 汇 如 “ 舞 图 中国手语分类树 · 沙 因为单手手语分类树的后续 内容和 双手手 语分类树的后续 内容相 同 , 简明起见 , 略去 了单 手手语分类树 的后续 内容 手语分类规则说 明 ① 区 分手 语 词 汇 是 单 手 手语 还 是 双 手 手 语 因为手语词汇分为单手手语词汇和 双手手 语词 汇 , 因此在对手语进行识别时应首先确定 该词是单手词汇还是双手手语词汇 ②确定词汇是手指语还是手势语 通 过检测数据手套的输 出 , 可 以很容易地 区分某一词汇是手指 语还是手势语 , 从而达到 缩小搜索范围 的 目的 ③检测手指 间是否有接触 由于某些手语词 汇 的手指姿态 比较接近 , 而用于检测手指动作的数据手套本身又存在一 定误差 , 因此 , 仅仅利用数据手套给出的手指弯 曲角度或外展信息难 以 准确 区 分这些词 汇 而 另一方面 , 因为在此类词汇 的发话过程 中手指 间往往伴随着接触信息 , 所 以 如果能够利用手 指 的接触信息 , 就能够更准确地 区分这些词汇 ④区 分词汇是动态词 汇还是静态词汇 某些手语词 汇 由手部 的一 系列 动作组成 , 而另一些词汇则仅 由一些孤立的手势或手指语 组成 因此 , 区分需要识别的手语词汇是静态还 是动态词 汇很有必要 ⑤需要利用视觉进行识别 的词 汇 在 中国手语 中 , 除去手指语之外 , 许多词汇
·286· 北京科技大学学报 2001年第3期 都必须利用视觉才能准确地进行识别,此类手 “范畴”、“界限”、“关心”等.而在“接触”类词汇 语词汇为“视觉类”词汇.“视觉类”词汇表示应 中则存在手指或手掌与五官或身体接触的情 该或必须利用计算机视觉才能够准确地进行识 况,如“姐姐”、“父亲”、“母亲”、“业务”、“管理” 别的手语词汇.“视觉类”的手语词汇包括两种 等.由于精度和数据传输速率等方面的限制,佩 类型.一种是包括脸部表情的词汇,如“笑”、 带式装置难以准确给出此类词汇的信息,因而 “哭”等.此类手语词汇根本不可能由佩带式装 应该利用计算机视觉系统给出的信息. 置给出,因而必须利用计算机视觉系统.另外一 表1给出了按上述手语分类方法对《中国 种“视觉类”词汇是由手部动作与身体某部位配 手语》给出的3300个词汇进行分类时得到的分 合给出的词汇.如“想念”、“洗脸”、“声音”等分 类结果. 别由发话者的手指与耳朵、脸孔、嘴唇的配合给 从表1中可以看出,“手指语(包括单手手 出.对于此类词汇来说,由于佩带式装置本身在 指语和双手手指语)”和“视觉类”词汇在中国手 精度方面的限制,难以提供准确的信息,因而也 语中都占有很大的比重.佩带式装置无法解决 必须利用计算机视觉系统. “视觉类”词汇的识别问题,而计算机视觉系统 “视觉类”词汇又可以分为“指向”类词汇与 也难以解决“手指语”类词汇的实时识别问题. “接触”类词汇.在“指向”类手语词汇中,发话 因此,对于一个高性能的中国手语识别系统来 者手臂与身体存在一定的位置关系,如“忙”、 说,二者缺一不可. 表1中国手语分类结果 Table 1 Result of chinese sign language classificatin 单手手势语 双手手指语 视觉类 类别 单手手指语 表情 身体 静态 动态 表情 身体 指向 接触 指向接触 合计 281 29 390 155 315 1198 13 609 124 3 结语 的数据采集、特征提取、数据融合、模式识别等 问题提供理论基础 基于机器视觉的手语识别方法和基于佩带 参考文献 式输入设备的手语识别方法具有很好的互补 1中国聋人协会.中国手语.北京:华厦出版社,1998 性,但将二者的优势结合起来而得到实用的手 2吴江琴,高文,陈熙糕.基于数据手套的汉语手指字 语识别系统则有很多工作要做.本文提出了一 母的识别.模式识别与人工智能,1999,12(1):74 种以手语识别为目的的中国手语识别方法,并 3 Vogler C,Metaxas D.Parallel hidden Markov Models for 在此基础上对中国手语的基本词汇进行了分 American Sign Language Recognition.Greece:ICCVm 类.为今后在计算机手语识别时解决手语词汇 Kerkyra,1999 A Classification Method for Chinese Sign Language Recognition ZHANG Yaxin',YUAN Kut,DU Qingxiu,ZOU Wei 1)Graduated School,Chinese University of Sciences and Technology,Beijing 100038,China 2)Institute of Automation,Chinese Academy of Sciences,Beijing 100080,China ABSTRACT The aim of sign language recognition research is to let the computer to understand what a deaf "said"using the sign language so that the computer can output the recognition results in the form of text and/ or speaking language and help us to communicate with the deaf.The characteristics of Chinese Sign Language (CSL)are analyzed in the view of sign language recognition.The analysis and comparison of the two existing sign language recognition methods,the machine-vision-based method and the body-instrumentation-based method,are also done and a new clarification method for the CSL is also proposed. KEY WORDS chinese sign language;sign language recognition;computer-vision;body-instrumentation
北 京 科 技 大 学 学 报 年 第 期 都必须利用 视觉才能准确地进行识别 此类手 语词汇为 “ 视觉类 ” 词 汇 “ 视觉类 ” 词 汇表示应 该或必须利用计算机视觉才能够准确地进行识 别的手语词 汇 “ 视觉类 ” 的手语词汇包括两种 类型 一种是包括脸部表情 的词汇 , 如 “ 笑,’ “ 哭 ” 等 此类手语词汇根本不可能 由佩带式装 置给出 , 因而必须利用计算机视觉系统 另外一 种 “ 视觉类 ” 词汇是 由手部动作与身体某部位配 合给出的词 汇 如 “ 想念 ” 、 “ 洗脸 ” 、 “ 声音 ” 等分 别 由发话者的手指与耳朵 、 脸孔 、 嘴唇的配合给 出 对于此类词汇来说 , 由于佩带式装置本身在 精度方面 的限制 , 难 以提供准确的信息 , 因而也 必须利用计算机视觉 系统口 “ 视觉类 ” 词汇又可 以分为 “ 指 向 ” 类词汇与 “ 接触 ” 类词 汇 在 “ 指 向 ” 类手语词汇 中 , 发话 者手臂与身体存在一定 的位置关系 , 如 “ 忙 ” 、 “ 范畴 ” 、 “ 界限 ” 、 “ 关心 ” 等 而在 “ 接触 ” 类词 汇 中则 存在 手 指或 手 掌 与五 官或 身体接触 的情 况 , 如 “ 姐姐 ” 、 “ 父亲 ” 、 “ 母亲 ” 、 “ 业务 ” 、 “ 管理 ” 等 由于精度和数据传输速率等方面 的限制 , 佩 带式装置难 以准确给出此类词 汇 的信息 , 因而 应该利用 计算机视觉 系统给 出的信息 表 给出了按上述手语分类方法对 《 中国 手语 》给出的 个词汇进行分类时得到的分 类结果 从表 中可 以看 出 , “ 手指语 包括单手手 指语和双手手指语 ’ 和 “ 视觉类 ” 词汇在 中国手 语 中都 占有很大的 比重 佩带式装置无法解决 “ 视觉类 ” 词汇 的识别 问题 , 而计算机视觉 系统 也难以解决 “ 手指语 ” 类词 汇 的实时识别 问题 因此 , 对于一个高性能 的 中国手语识别系统来 说 , 二者缺一不可 表 中国手语分类结果 介 峨 啥 妞 ” 访 单手手势语 视觉类 类别 单手手指语 表情 合计 身体 静态 动态 身体 指向 接触 表情 指向 接触 结语 基于机器视觉 的手语识别方法和基于佩带 式输 人设 备 的手语识别 方法 具有 很好 的互 补 性 , 但将二者的优势结合起来而得到实用 的手 语识别 系统则有很多工作要 做 本文提 出 了一 种 以 手语识别 为 目的的 中国手语识别方法 , 并 在 此基础 上 对 中国手语 的 基本词 汇进 行 了 分 类 为今后在计算机手语识别时解决手语词汇 的数据采集 、 特征提取 、 数据融合 、 模式识别等 问题提供理论基础 考 文 献 中国聋人协会 中国手语 北京 华夏 出版社 , 吴江琴 , 高文 , 陈熙霖 基于数据手套的汉语手指字 母 的识别 模式识别与人工智能 , , , 切 , 刀划刃 饭认, 月 , 沪 , 肠 比 七 , , , , , ,, ,, 脚 , 一 娜 七 一 切 公吐 , 娜 一 一