D0I:10.13374.issn1001-053x.2012.01.013 第34卷第1期 北京科技大学学报 Vol.34 No.1 2012年1月 Journal of University of Science and Technology Beijing Jan.2012 基于语音识别的救援机器人听觉导航方法 孙 昊1》刘作军1,2 杨鹏2四董爱龙2 1)河北工业大学控制科学与工程学院,天津3001302)河北省控制工程技术研究中心,天津300130 ☒通信作者,E-mail:yphebut@yahoo..com.cn 摘要在发生火灾或地震的建筑物内,由于烟雾或墙体倒塌等原因,救援机器人往往无法通过视觉、超声和红外等传感器 直接发现建筑物内不可见区域或者其他房间中呼救的目标.利用声音信号波长较长可以衍射绕过障碍物传播的特性,结合 现有的语音识别技术,开发出基于听觉的救援机器人导航系统.该系统使机器人可以在全局运动控制中跟踪幸存者的呼救 声并向幸存者移动.通过相关实验验证了基于听觉的救援机器人导航方法的可行性. 关键词救援机器人:听觉:语音识别:导航 分类号TP242 Audio navigation of rescue robots based on speech recognition SUN Hao,LIU Zuo-jun,YANG Peng,DONG Ai-ong 1)School of Control Science and Engineering,Hebei University of Technology,Tianjin 300130,China 2)Hebei Research Center of Control Engineering,Tianjin 300130,China Corresponding author,E-mail:yphebut@yahoo.com.cn ABSTRACT A rescue robot often can not directly find the target shouting for help which is in other rooms or invisible places in the building by using visual,ultrasonic or infrared ray sensors because of smoke or collapsed walls.The sound can diffract over obstacles due to the long wavelength of audio signals.Combined with the speech recognition technology,an audio navigation system was devel- oped for the rescue robot.This navigation system makes it feasible to guide the rescue robot run to the target shouting for help in global motion control.Experimental results verified the feasibility of the navigation system. KEY WORDS rescue robots:audio;speech recognition:navigation 地震和火灾发生之后最紧急的任务就是搜救困 合和人机交互导航控制方法4 在废墟中的幸存者.然而,复杂危险的灾害现场给 在多数救灾任务中,由于灾害的破坏,现场往 救援人员及幸存者带来了巨大的困难和威胁,阻碍 往杂乱分布,有多种不规则的障碍物,而且通常因 了救援工作的快速有效进行,使用救援机器人进行 停电、烟雾等原因造成很差的视环境,使得救援机 辅助搜救是解决这一难题的有效手段. 器人导航和路径规划的难度大大增加.目前的救援 在辅助灾害救援任务中,救援机器人可以在救 机器人导航控制,主要以视觉为主,辅以超声测距 援人员无法进入的危险狭窄环境中连续执行搜索救 仪等多传感器信息融合或者人机交互/远程遥控的 援任务,所涉及的未知环境中机器人导航问题,是 方式来解决此类问题.但是,由于光和超声波的波 近年来的研究重点习,也是当前机器人学中热点 长都比较小,其在传输中的衍射能力相对很弱,因 的同时定位与建图(simultaneous localization and 而无法对灾害废墟中的幸存者有效跟踪搜索.声波 mapping,SLAM)问题的一个重要应用.目前救援机 的波长较大,具有较强的衍射能力,可以绕过障碍 器人多采用以基于视觉导航为主的多传感器信息融 物传播,利用声音的这种绕射及其反射传播等特 收稿日期:201104一15 基金项目:国家高技术研究发展计划资助项目(2007AA04Z229):河北省自然科学基金资助项目(F2010000137)
第 34 卷 第 1 期 2012 年 1 月 北京科技大学学报 Journal of University of Science and Technology Beijing Vol. 34 No. 1 Jan. 2012 基于语音识别的救援机器人听觉导航方法 孙 昊1,2) 刘作军1,2) 杨 鹏1,2) 董爱龙1,2) 1) 河北工业大学控制科学与工程学院,天津 300130 2) 河北省控制工程技术研究中心,天津 300130 通信作者,E-mail: yphebut@ yahoo. com. cn 摘 要 在发生火灾或地震的建筑物内,由于烟雾或墙体倒塌等原因,救援机器人往往无法通过视觉、超声和红外等传感器 直接发现建筑物内不可见区域或者其他房间中呼救的目标. 利用声音信号波长较长可以衍射绕过障碍物传播的特性,结合 现有的语音识别技术,开发出基于听觉的救援机器人导航系统. 该系统使机器人可以在全局运动控制中跟踪幸存者的呼救 声并向幸存者移动. 通过相关实验验证了基于听觉的救援机器人导航方法的可行性. 关键词 救援机器人; 听觉; 语音识别; 导航 分类号 TP242 Audio navigation of rescue robots based on speech recognition SUN Hao 1,2) ,LIU Zuo-jun1,2) ,YANG Peng1,2) ,DONG Ai-long1,2) 1) School of Control Science and Engineering,Hebei University of Technology,Tianjin 300130,China 2) Hebei Research Center of Control Engineering,Tianjin 300130,China Corresponding author,E-mail: yphebut@ yahoo. com. cn ABSTRACT A rescue robot often can not directly find the target shouting for help which is in other rooms or invisible places in the building by using visual,ultrasonic or infrared ray sensors because of smoke or collapsed walls. The sound can diffract over obstacles due to the long wavelength of audio signals. Combined with the speech recognition technology,an audio navigation system was developed for the rescue robot. This navigation system makes it feasible to guide the rescue robot run to the target shouting for help in global motion control. Experimental results verified the feasibility of the navigation system. KEY WORDS rescue robots; audio; speech recognition; navigation 收稿日期: 2011--04--15 基金项目: 国家高技术研究发展计划资助项目( 2007AA04Z229) ; 河北省自然科学基金资助项目( F2010000137) 地震和火灾发生之后最紧急的任务就是搜救困 在废墟中的幸存者. 然而,复杂危险的灾害现场给 救援人员及幸存者带来了巨大的困难和威胁,阻碍 了救援工作的快速有效进行,使用救援机器人进行 辅助搜救是解决这一难题的有效手段. 在辅助灾害救援任务中,救援机器人可以在救 援人员无法进入的危险狭窄环境中连续执行搜索救 援任务,所涉及的未知环境中机器人导航问题,是 近年来的研究重点[1--3],也是当前机器人学中热点 的同时定位与建图 ( simultaneous localization and mapping,SLAM) 问题的一个重要应用. 目前救援机 器人多采用以基于视觉导航为主的多传感器信息融 合和人机交互导航控制方法[1,4--5]. 在多数救灾任务中,由于灾害的破坏,现场往 往杂乱分布,有多种不规则的障碍物,而且通常因 停电、烟雾等原因造成很差的视环境,使得救援机 器人导航和路径规划的难度大大增加. 目前的救援 机器人导航控制,主要以视觉为主,辅以超声测距 仪等多传感器信息融合或者人机交互/远程遥控的 方式来解决此类问题. 但是,由于光和超声波的波 长都比较小,其在传输中的衍射能力相对很弱,因 而无法对灾害废墟中的幸存者有效跟踪搜索. 声波 的波长较大,具有较强的衍射能力,可以绕过障碍 物传播,利用声音的这种绕射及其反射传播等特 DOI:10.13374/j.issn1001-053x.2012.01.013
·72 北京科技大学学报 第34卷 性,结合与其他传感器的信息融合,就能从全局和 无线遥控操作的Ratler救援机器人,携带红外摄像 局部、导航和避障等方面实现救援机器人的听觉导 机、无线射频信号收发器、陀螺仪和危险气体传感器 航,根据遇险人的呼救声搜索目标.此外,救援机 等装备,用于灾难后的现场侦查工作.佛罗里达大 器人应排除杂音和噪声的干扰,只追踪特定的声 学研制的Simbot救援机器人小巧灵活,携带数字低 音,如“救命啊、“来人啊”和“Hlp”,才能有效地 照度摄像机、基本气体监视组件,能够通过一个钻 完成救援任务 出的小洞进入坍塌矿井或建筑废墟,使用其携带的 我国历年因地震、矿难和火灾等灾害,造成了 传感器发现被困者,探测氧气、甲烷气体含量,并 重大的人员伤亡,产生了不良的社会影响.救援工 生成地图.由Remotec公司制造的V2型救援机器 作异常困难和危险,往往还在救援工作中造成救护 人采用整体防爆设计,安装有导航和监控摄像机、 人员的伤亡,因此研发能够代替人及时进入灾害现 照明设备、气体传感器和一个机械臂,具有夜视能 场,准确判断受困人员位置以及获取灾害现场环境 力和两路语音通信功能,可在1500m以外的安全 信息的救援机器人系统,具有重要的意义.本文提 位置远程遥控,使用光纤通信传送环境信息,操纵 出的基于语音识别的救援机器人听觉导航方法能够 者能够看到实时视频信息并监测易燃、有毒气体的 根据遇险人的呼救声搜索目标 浓度.日本作为一个多地震国家,在救援机器人研 1 救援机器人的发展现状 究领域一直处于国际领先,先后研发有ACM、GENBU、 SORYU和MOIRA等多种救援机器人样机和产品, 根据废墟搜索与辅助救援的任务要求,救援机 其国际救援系统研究所提出在2010年创造出一支 器人应该能够在瓦砾上行走,并可在废墟的缝隙间 搜索、挖掘和搬运功能齐备机器人救援队伍,蛇型 运动,在远距离非接触的情况下,利用各种生命探 机器人技术、多足机器人将在其中得到重点应用. 测仪获取被困者的心跳、呼吸的超低频电波,人体 中国矿业大学研制的CUT一1型矿井搜救机器人 红外热成像,以及呼救声音信号,实现对被困者的 是我国第一台针对煤矿救援的机器人,该机器人装 探测和定位并引导救援.同时利用所搭载的视觉、 备有低照度摄像机、气体传感器和温度计等设备, 瓦斯氧气浓度、烟尘浓度等传感器和通信装置,完 成与控制中心的检测数据实时传输和遥控操作 能够探测灾害环境,实时传回灾区的瓦斯、一氧化 碳、粉尘浓度和温度,以及现场图像等信息.西安 控制 将机器人应用于灾害救援的研究己经开展了近 科技大学将地理信息系统(geographic information 30年0,1995年发生在日本的阪神大地震及其后 system,GIS)应用于救援机器人导航控制,以实现 发生在美国俄克拉荷马州的联邦大楼爆炸案中救援 机器人在救灾工作中的定位与导航.中国科学院沈 机器人开始了实际应用的新阶段,2001年的911事 阳自动化所还开发了蛇形救援机器人、救援可变形 件同样在救援机器人技术发展史上具有里程碑式的 模块机器人的样机系统.该蛇形机器人由16个单 重要意义,一大批救援机器人参与了救援行动,如 自由度关节模块和蛇头、蛇尾组成,长约1.5m,直 Foster-Miller公司的SOLEM系统、Tolon系统以及 径为0.07m,由电池供电,在监控系统的无线控制 Inuktun公司的VGTV系统和Microtac系统,救援机 下,可以实现蜿蜒前进、后退、侧移和翻滚等多种动 器人在此次行动中取得成功的同时,也暴露了一些 作,并可通过安装在蛇头上的微型摄像头将现场图 问题,如控制方式不可靠、目标搜索效果不够理想、 像传回监控系统·此外,国内和国外的一些研究机 防水性不好以及视野狭窄.2005年6月在日本神户 构还开发了用于灾害勘察的飞行机器人-习 召开的EEE安全、防卫和救援国际研讨会上EEE 目前救援机器人大多采取基于视觉的遥控方式 SSRRO5正式将救援机器人独立为一个机器人学研 进行导航控制,但在很多情况下,幸存者都是处在 究的新领域,国际RoboCup机器人竞赛也相应增加 废墟下面或墙后面的,不在可视范围之内,这使得 了救援比赛的专项RoboCup Rescue,.为救援理论和 不论是自主型救援机器人还是遥控操作员,对障碍 技术提供了仿真研究的实验平台 物后被困幸存者的求救声,都不能作出可靠的定位 近年来世界各国均发表了大量的研究成果,在 判断和导航控制.开发基于语音识别的救援机器人 理论上和实际应用上都取得了很大的进步,研制出 听觉导航系统,配合视觉、红外等其他类型的传感 了各式各样的救援机器人系统,并在实践方面积累 器,充分利用传感器融合技术,将有助于此类问题 了丰富的经验.美国智能系统和机器人中心开发了 的解决
北 京 科 技 大 学 学 报 第 34 卷 性,结合与其他传感器的信息融合,就能从全局和 局部、导航和避障等方面实现救援机器人的听觉导 航,根据遇险人的呼救声搜索目标. 此外,救援机 器人应排除杂音和噪声的干扰,只追踪特定的声 音,如“救命啊”、“来人啊”和“Help”,才能有效地 完成救援任务. 我国历年因地震、矿难和火灾等灾害,造成了 重大的人员伤亡,产生了不良的社会影响. 救援工 作异常困难和危险,往往还在救援工作中造成救护 人员的伤亡,因此研发能够代替人及时进入灾害现 场,准确判断受困人员位置以及获取灾害现场环境 信息的救援机器人系统,具有重要的意义. 本文提 出的基于语音识别的救援机器人听觉导航方法能够 根据遇险人的呼救声搜索目标. 1 救援机器人的发展现状 根据废墟搜索与辅助救援的任务要求,救援机 器人应该能够在瓦砾上行走,并可在废墟的缝隙间 运动,在远距离非接触的情况下,利用各种生命探 测仪获取被困者的心跳、呼吸的超低频电波,人体 红外热成像,以及呼救声音信号,实现对被困者的 探测和定位并引导救援. 同时利用所搭载的视觉、 瓦斯氧气浓度、烟尘浓度等传感器和通信装置,完 成与控制中心的检测数据实时传输和遥控操作 控制. 将机器人应用于灾害救援的研究已经开展了近 30 年[4],1995 年发生在日本的阪神大地震及其后 发生在美国俄克拉荷马州的联邦大楼爆炸案中救援 机器人开始了实际应用的新阶段,2001 年的 911 事 件同样在救援机器人技术发展史上具有里程碑式的 重要意义,一大批救援机器人参与了救援行动,如 Foster-Miller 公司的 SOLEM 系统、Tolon 系统以及 Inuktun 公司的 VGTV 系统和 Microtac 系统,救援机 器人在此次行动中取得成功的同时,也暴露了一些 问题,如控制方式不可靠、目标搜索效果不够理想、 防水性不好以及视野狭窄. 2005 年 6 月在日本神户 召开的 IEEE 安全、防卫和救援国际研讨会上 IEEE SSRR05 正式将救援机器人独立为一个机器人学研 究的新领域,国际 RoboCup 机器人竞赛也相应增加 了救援比赛的专项 RoboCup Rescue,为救援理论和 技术提供了仿真研究的实验平台. 近年来世界各国均发表了大量的研究成果,在 理论上和实际应用上都取得了很大的进步,研制出 了各式各样的救援机器人系统,并在实践方面积累 了丰富的经验. 美国智能系统和机器人中心开发了 无线遥控操作的 Ratler 救援机器人,携带红外摄像 机、无线射频信号收发器、陀螺仪和危险气体传感器 等装备,用于灾难后的现场侦查工作. 佛罗里达大 学研制的 Simbot 救援机器人小巧灵活,携带数字低 照度摄像机、基本气体监视组件,能够通过一个钻 出的小洞进入坍塌矿井或建筑废墟,使用其携带的 传感器发现被困者,探测氧气、甲烷气体含量,并 生成地图. 由 Remotec 公司制造的 V2 型救援机器 人采用整体防爆设计,安装有导航和监控摄像机、 照明设备、气体传感器和一个机械臂,具有夜视能 力和两路语音通信功能,可在 1500 m 以外的安全 位置远程遥控,使用光纤通信传送环境信息,操纵 者能够看到实时视频信息并监测易燃、有毒气体的 浓度. 日本作为一个多地震国家,在救援机器人研 究领域一直处于国际领先,先后研发有 ACM、GENBU、 SORYU 和 MOIRA 等多种救援机器人样机和产品, 其国际救援系统研究所提出在 2010 年创造出一支 搜索、挖掘和搬运功能齐备机器人救援队伍,蛇型 机器人技术、多足机器人将在其中得到重点应用. 中国矿业大学研制的 CUMT--1 型矿井搜救机器人 是我国第一台针对煤矿救援的机器人,该机器人装 备有低照度摄像机、气体传感器和温度计等设备, 能够探测灾害环境,实时传回灾区的瓦斯、一氧化 碳、粉尘浓度和温度,以及现场图像等信息. 西安 科技大学将地理信息系统( geographic information system,GIS) 应用于救援机器人导航控制,以实现 机器人在救灾工作中的定位与导航. 中国科学院沈 阳自动化所还开发了蛇形救援机器人、救援可变形 模块机器人的样机系统. 该蛇形机器人由 16 个单 自由度关节模块和蛇头、蛇尾组成,长约 1. 5 m,直 径为 0. 07 m,由电池供电,在监控系统的无线控制 下,可以实现蜿蜒前进、后退、侧移和翻滚等多种动 作,并可通过安装在蛇头上的微型摄像头将现场图 像传回监控系统 . 此外,国内和国外的一些研究机 构还开发了用于灾害勘察的飞行机器人[1--5]. 目前救援机器人大多采取基于视觉的遥控方式 进行导航控制,但在很多情况下,幸存者都是处在 废墟下面或墙后面的,不在可视范围之内,这使得 不论是自主型救援机器人还是遥控操作员,对障碍 物后被困幸存者的求救声,都不能作出可靠的定位 判断和导航控制. 开发基于语音识别的救援机器人 听觉导航系统,配合视觉、红外等其他类型的传感 器,充分利用传感器融合技术,将有助于此类问题 的解决. ·72·
第1期 孙吴等:基于语音识别的救援机器人听觉导航方法 ·73 多优秀的语音识别软件产品,在手机语音拨号、门 2机器人的听觉技术 禁身份识别和语音文本记录等方面都有了实际应 2.1听觉定位技术 用.清华大学语音技术与专用芯片设计课题组研发 人类的听觉系统是一个复杂、有机的信息处理 的非特定人汉语数码串连续语音识别系统的识别精 系统,它可以感受声音的强度和空间方位等信息 度达到94.8%(不定长数字串)和96.8%(定长数 同时,声波不受光照条件限制,并具有较强的衍射 字串):在有5%的拒识率情况下,系统识别率可以 能力,可以绕过障碍物传播。人耳位于头部的两 达到96.9%(不定长数字串)和98.7%(定长数字 侧,距离约20cm,由于声音到达双耳时有微小的 串),是目前国际最好的识别结果之一,其性能已 时间差、强度差和相位差,经过人脑的分析,即能 经接近实用水平. 辨别声音的方向,通常可以达到5°~15°的角精度, 进而确定声源的位置6.听觉上具有方向感这一 3基于语音识别的机器人的听觉导航 特性,使人可以在嘈杂环境中分辨出来自某个方向 3.1语音识别模块 的一个比较特殊的声音.同样,利用仿生的人工 本文以救援救灾为背景,对基于语音识别的移 耳,结合计算机信号处理和模式识别,移动机器人 动机器人听觉导航技术进行了研究.发生火灾或地 也可以实现基于听觉的导航.因此,在有声环境中 震的建筑物内,由于烟雾或墙体倒塌等原因,执行 使机器人具备听力可以弥补其他传感器视场有限且 搜救任务的移动机器人无法通过视觉、超声和红外 不能穿过非透光障碍物的局限,从而增加机器人在 等传感器直接发现建筑物内其他房间或不可见区域 未知环境可获取的环境信息的种类,提高机器人导 中呼救的目标,因此结合语音识别的听觉导航技术 航与决策的准确性 具有重要的实际应用价值.听觉传感器可弥补其他 在潜艇声纳装置中,音频信号的定位和测距功 传感器视场有限且不能穿过非透光障碍物的局 能已被广泛应用,而其在移动机器人的导航方面同 限2.基于语音识别的移动机器人听觉导航技 样具有重要的应用价值.文献8]在一个移动机器 术,在听觉导航的基础上加入了语音识别技术,使 人上安装了八个听觉传感器阵列,根据声音信号传 得机器人只追踪特定声音,例如“救命”、“来人”和 输的时间差,判断声源方向.文献9]中介绍了一 “Help”,而对其他声音无反应. 种带有声音导航系统的移动机器人,利用粒子滤波 本课题采用北京博创机器人技术有限公司开发 方法对声音信号进行分析,能够发现并接近发出声 的创意之星机器人,其所采用的ARM10 音的目标.东京大学2001年研制了具有听觉定位 MultiFlex2PXA270控制卡具有嵌入式的语音识别 系统的仿人机器人©,该系统能同时发现和区分 功能模块,只需要在模块属性对话框中以纯文本格 在同一个房间里的两个声源,并分别对其进行定 式添加“救命”、“来人”等特定词汇,即可实现对外 位.台湾交通大学的机电工程学院制作的以听觉为 界输入语音信号的对比识别,如图1所示. 移动引导的小型机器人四,该机器人以单片机为 Speerk fidret Property 控制核心,无须有线连接其他控制部分,其声源定 向误差在5°以内.我国内地从事这一领域研究的大 学和研究机构相对较少,大部分高校和研究院所都 是从信号处理的角度对声源定位技术进行研究,而 将其应用于机器人上的相对较少.近年来,哈尔滨 Bdate 工业大学、河北工业大学和华北电力大学都在开展 ⊙sd Meegitia Pt 机器人听觉技术研究工作 2.2语音识别技术 语音识别技术中的模板匹配法发展比较成熟, Cand 己达到了实用阶段.在模板匹配方法中,要经过四 图1语音识别软件界面 个步骤:特征提取、模板训练、模板分类和判决.常 Fig.1 Interface of speech recognition software 用的技术有三种:动态时间规整(DTW)、隐马尔可 夫(HMM)理论和矢量量化(VQ)技术.在此类技术 为了提高语音识别模块的灵敏度,系统中还在 的基础上,开发有中科院天语Pattek ASR SDK等很 输入麦克风前端配置了助听器,将声音识别范围扩
第 1 期 孙 昊等: 基于语音识别的救援机器人听觉导航方法 2 机器人的听觉技术 2. 1 听觉定位技术 人类的听觉系统是一个复杂、有机的信息处理 系统,它可以感受声音的强度和空间方位等信息. 同时,声波不受光照条件限制,并具有较强的衍射 能力,可以绕过障碍物传播. 人耳位于头部的两 侧,距离约 20 cm,由于声音到达双耳时有微小的 时间差、强度差和相位差,经过人脑的分析,即能 辨别声音的方向,通常可以达到 5° ~ 15°的角精度, 进而确定声源的位置[6--7]. 听觉上具有方向感这一 特性,使人可以在嘈杂环境中分辨出来自某个方向 的一个比较特殊的声音. 同样,利用仿生的人工 耳,结合计算机信号处理和模式识别,移动机器人 也可以实现基于听觉的导航. 因此,在有声环境中 使机器人具备听力可以弥补其他传感器视场有限且 不能穿过非透光障碍物的局限,从而增加机器人在 未知环境可获取的环境信息的种类,提高机器人导 航与决策的准确性. 在潜艇声纳装置中,音频信号的定位和测距功 能已被广泛应用,而其在移动机器人的导航方面同 样具有重要的应用价值. 文献[8]在一个移动机器 人上安装了八个听觉传感器阵列,根据声音信号传 输的时间差,判断声源方向. 文献[9]中介绍了一 种带有声音导航系统的移动机器人,利用粒子滤波 方法对声音信号进行分析,能够发现并接近发出声 音的目标. 东京大学 2001 年研制了具有听觉定位 系统的仿人机器人[10],该系统能同时发现和区分 在同一个房间里的两个声源,并分别对其进行定 位. 台湾交通大学的机电工程学院制作的以听觉为 移动引导的小型机器人[11],该机器人以单片机为 控制核心,无须有线连接其他控制部分,其声源定 向误差在 5°以内. 我国内地从事这一领域研究的大 学和研究机构相对较少,大部分高校和研究院所都 是从信号处理的角度对声源定位技术进行研究,而 将其应用于机器人上的相对较少. 近年来,哈尔滨 工业大学、河北工业大学和华北电力大学都在开展 机器人听觉技术研究工作. 2. 2 语音识别技术 语音识别技术中的模板匹配法发展比较成熟, 已达到了实用阶段. 在模板匹配方法中,要经过四 个步骤: 特征提取、模板训练、模板分类和判决. 常 用的技术有三种: 动态时间规整( DTW) 、隐马尔可 夫( HMM) 理论和矢量量化( VQ) 技术. 在此类技术 的基础上,开发有中科院天语 Pattek ASR SDK 等很 多优秀的语音识别软件产品,在手机语音拨号、门 禁身份识别和语音文本记录等方面都有了实际应 用. 清华大学语音技术与专用芯片设计课题组研发 的非特定人汉语数码串连续语音识别系统的识别精 度达到 94. 8% ( 不定长数字串) 和 96. 8% ( 定长数 字串) ; 在有 5% 的拒识率情况下,系统识别率可以 达到 96. 9% ( 不定长数字串) 和 98. 7% ( 定长数字 串) ,是目前国际最好的识别结果之一,其性能已 经接近实用水平. 3 基于语音识别的机器人的听觉导航 3. 1 语音识别模块 本文以救援救灾为背景,对基于语音识别的移 动机器人听觉导航技术进行了研究. 发生火灾或地 震的建筑物内,由于烟雾或墙体倒塌等原因,执行 搜救任务的移动机器人无法通过视觉、超声和红外 等传感器直接发现建筑物内其他房间或不可见区域 中呼救的目标,因此结合语音识别的听觉导航技术 具有重要的实际应用价值. 听觉传感器可弥补其他 传感器视场有限且不能穿过非透光障碍物的局 限[12--15]. 基于语音识别的移动机器人听觉导航技 术,在听觉导航的基础上加入了语音识别技术,使 得机器人只追踪特定声音,例如“救命”、“来人”和 “Help”,而对其他声音无反应. 本课题采用北京博创机器人技术有限公司开发 的创意之星机器人, 其 所 采 用 的 ARM10 MultiFlex2--PXA270 控制卡具有嵌入式的语音识别 功能模块,只需要在模块属性对话框中以纯文本格 式添加“救命”、“来人”等特定词汇,即可实现对外 界输入语音信号的对比识别,如图 1 所示. 图 1 语音识别软件界面 Fig. 1 Interface of speech recognition software 为了提高语音识别模块的灵敏度,系统中还在 输入麦克风前端配置了助听器,将声音识别范围扩 ·73·
·74 北京科技大学学报 第34卷 大到了10m范围,如图2所示 3.2听觉导航模块 由于创意之星机器人只有一路语音识别输入, 因此无法实现仿生的双耳听音辨向.为弥补此不 足,额外添加了两组麦克风用于声源的定位,如 图3所示.为进一步提高定位精度,在麦克风的外 部安装了胶质的耳廓. 听觉导航救援机器人系统的控制原理如图4所 示.当图示位置的声源发出声音信号时,由于右麦 图2机器人系统 克风距离声源比左麦克风近且接受角度正,所以接 Fig.2 Robot system 收到的信号比左麦克风强,通过电路把声音信号转 《0 图3机器人听觉系统。(a)驻极体麦克风:(b)声音采集电路板 Fig.3 Robot audio system:(a)electret microphone:(b)sound acquisition circuit board 化为电信号后,可得声强12>11·机器人左右两个 声源 车轮的驱动电压U可通过下列公式求得: U =kI2, (1) N U,=kI. (2) 语音识别 左麦克风麦空风 右麦克风 式中,k为驱动电压U相对于电声信号电流I的比 D 例放大系数. 左轮十 十右轮 由于12>1,所以U1>U2,则左轮电动机的驱 03 动电压比右轮电动机的驱动电压大,左轮比右轮向 图4移动机器人的听觉导航 声源方向运动速度快,从而实现机器人追踪声源的 Fig.4 Audio navigation of the mobile robot 导航和转向控制.当机器人正对声源运动时,两个 量中,由于信号采样时间非常短,不会影响语音信 麦克风接受到的声音信号强度相同,两个轮子的驱 号识别.如果语音信号为系统预设词汇,则再行判 动电压也就相同,机器人将正对目标前进.因此机 断左右两个传声器的输入信号的大小关系,决定移 器人就可以根据左右麦克风接收到的声音信号强度 动机器人的移动方向以及路径;如果语音信号非系 差,直接实时地控制机器人的运动,在前进中不断 统预设语音词汇,则系统继续扫描,等待特定的语 调整运动方向,实现基于行为的机器人听觉导航控 音信号输入. 制,最终到达目标点.在整个运动过程中,即使因 当语音信号为断续输入时,则沿本次声音导航 回声或其他因素干扰而导致机器人运动方向出现偏 方向前进3s后停止,继续扫描等待下一次呼救 差,也会得到很有效的纠正,这就是基于行为的控 信号 制方式执行过程虽不稳定,但整体行为却非常稳定 的基本自适应性特征 4实验结果 3.3基于语音识别的听觉导航 实验1为90°循声导航控制实验,声源为手机 在图1和图3中,前向麦克风起到语音识别的 发出的连续声源,见图5.实验2为180°循声导航 功能,用来决定救援机器人“走不走”的问题;而左 控制实验,声源为手机发出的断续声源,见图6.实 右两个麦克风起到定位导航的功能,用来决定救援 验结果表明基于语音识别的救援机器人听觉导航系 机器人“往哪边走”的问题. 统对特定词汇呼救声源具有理想的定位和跟踪导航 系统的工作过程如下:持续扫描左右两个麦克 性能,如果再配合以视觉、接触等传感器,将可以 风的输入,经过10次采样后取平均值存入两个变 显著提高救援机器人的实用性
北 京 科 技 大 学 学 报 第 34 卷 大到了 10 m 范围,如图 2 所示. 图 2 机器人系统 Fig. 2 Robot system 3. 2 听觉导航模块 由于创意之星机器人只有一路语音识别输入, 因此无法实现仿生的双耳听音辨向. 为弥补此不 足,额外添加了两组麦克风用于声源的定位,如 图 3所示. 为进一步提高定位精度,在麦克风的外 部安装了胶质的耳廓. 听觉导航救援机器人系统的控制原理如图 4 所 示. 当图示位置的声源发出声音信号时,由于右麦 克风距离声源比左麦克风近且接受角度正,所以接 收到的信号比左麦克风强,通过电路把声音信号转 图 3 机器人听觉系统. ( a) 驻极体麦克风; ( b) 声音采集电路板 Fig. 3 Robot audio system: ( a) electret microphone; ( b) sound acquisition circuit board 化为电信号后,可得声强 I2 > I1 . 机器人左右两个 车轮的驱动电压 U 可通过下列公式求得: U1 = k·I2, ( 1) U2 = k·I1 . ( 2) 式中,k 为驱动电压 U 相对于电声信号电流 I 的比 例放大系数. 由于 I2 > I1,所以 U1 > U2,则左轮电动机的驱 动电压比右轮电动机的驱动电压大,左轮比右轮向 声源方向运动速度快,从而实现机器人追踪声源的 导航和转向控制. 当机器人正对声源运动时,两个 麦克风接受到的声音信号强度相同,两个轮子的驱 动电压也就相同,机器人将正对目标前进. 因此机 器人就可以根据左右麦克风接收到的声音信号强度 差,直接实时地控制机器人的运动,在前进中不断 调整运动方向,实现基于行为的机器人听觉导航控 制,最终到达目标点. 在整个运动过程中,即使因 回声或其他因素干扰而导致机器人运动方向出现偏 差,也会得到很有效的纠正,这就是基于行为的控 制方式执行过程虽不稳定,但整体行为却非常稳定 的基本自适应性特征. 3. 3 基于语音识别的听觉导航 在图 1 和图 3 中,前向麦克风起到语音识别的 功能,用来决定救援机器人“走不走”的问题; 而左 右两个麦克风起到定位导航的功能,用来决定救援 机器人“往哪边走”的问题. 系统的工作过程如下: 持续扫描左右两个麦克 风的输入,经过 10 次采样后取平均值存入两个变 图 4 移动机器人的听觉导航 Fig. 4 Audio navigation of the mobile robot 量中,由于信号采样时间非常短,不会影响语音信 号识别. 如果语音信号为系统预设词汇,则再行判 断左右两个传声器的输入信号的大小关系,决定移 动机器人的移动方向以及路径; 如果语音信号非系 统预设语音词汇,则系统继续扫描,等待特定的语 音信号输入. 当语音信号为断续输入时,则沿本次声音导航 方向前进 3 s 后停止,继续扫描等待下一次呼救 信号. 4 实验结果 实验 1 为 90°循声导航控制实验,声源为手机 发出的连续声源,见图 5. 实验 2 为 180°循声导航 控制实验,声源为手机发出的断续声源,见图 6. 实 验结果表明基于语音识别的救援机器人听觉导航系 统对特定词汇呼救声源具有理想的定位和跟踪导航 性能,如果再配合以视觉、接触等传感器,将可以 显著提高救援机器人的实用性. ·74·
第1期 孙昊等:基于语音识别的救援机器人听觉导航方法 ·75· 图5救援机器人90听觉导航实验.(a)起始位置:()过程位置1:(c)过程位置2:(d)终点位置 Fig.50 audio navigation experiment of the rescue robot:(a)starting position:(b)passing position 1:(c)passing position2:(d)end position d 图6救援机器人180听觉导航实验.(a)起始位置:(b)过程位置1:(c)过程位置2:(d)终点位置 Fig.6 180 audio navigation experiment of the rescue robot:(a)starting position:(b)passing position 1:(c)passing position2:(d)end posi- tion (姜健,赵杰,李力坤.面向群智能机器人系统的声音协作定 5结论 向.自动化学报,2007,33(4):385) 7]John E A.Optimal Filtering and Speech Recognition with Micro- 声音信号不同于光、超声及红外信号,具有可 phone Arrays [Dissertation].Providence:Brown University,2001 以绕过障碍物传播的特性,充分利用这一特性,开 8]Jean M V,Francis M.Robust sound source localization using a 发了火灾和地震等未知环境中的救援机器人的听觉 microphone array on a mobile obo/003 IEEE/RSJ Internation- 导航系统.根据人双耳接收声音信号的场强差原 al Conference on Intelligent Robots and Systems.Piscataway, 2003:23 理,提出了基于语音识别的救援机器人听觉导航系 [9]Jean V,Francis M,Jean R.Robust localization and tracking of 统设计方案,并进行了相关实验,达到了理想的 simultaneous moving sound sources using beam forming and parti- 效果. cle filtering.Rob Auton Syst,2007,55:216 [0]Kazuhire N.Epipolar geometry based sound localization and ex- 参考文献 traction for humanoid audition//2001 IEEE/RSJ International [1]Dong X P,Wang X B.Development of rescue robot technology Conference on Intelligent Robots and Systems.Piscataway,2001: and its application in disaster.J Disaster Prer Mitigation Eng, 1395 2007,27(1):112 [11]Hu JS,Chan C Y,Wang C K,et al.Simultaneous localization (董晓坡,王绪本.救援机器人的发展及其在灾害救援中的应 of mobile robot and multiple sound sources using microphone ar- 用.防灾减灾工程学报,2007,27(1):112) rayEEE International Conference on Robotics and Automation. 2]Li Y W,Ge S R,Zhu H.Research on application of coal mine Piscataway:IEEE,2009:29 rescue robots.Coal Mine Mach,2009,30(1):164 [12]Yang L,Zhang J P,Wang D,et al.Cochlear implant signal pro- (李允旺,葛世荣,朱华.煤矿救灾机器人应用探讨.煤矿机 cessing algorithm based on frequency modulation.Acta Acust, 械,2009,30(1):164) 2009,34(2):151 B] Jia JH,Sang L L.Design and application of mine rescue robots (杨琳,张建平,王迪,等.基于频率调制信息的人工耳蜗语 based on GIS.J Xi'an Univ Sci Technol,2008,8(4)711 音处理算法研究.声学学报,2009,34(2):151) (贾建华,桑玲玲.GS系统在矿井救援机器人中的设计与应 13] Chen WX.Zhang C Y.Location system of impact point based on 用.西安科技大学学报,2008,28(4):711) acoustics detecting technique.Ordnance Ind Autom,2009,28 4]Murphy RR.Human-robot interaction in rescue robotics.IEEE (4):36 Trans Syst Man Cybern Part C,2004,34(2):138 (陈维兴,张传义.基于声学检测技术的弹若点定位系统 [5]Liu JG.Wang Y C,Li B,et al.Current research,key perform- 兵工自动化,2009,28(4):36) ances and future development of search and rescue robot.Chin J [14]Jin B A,Feng H,Wang CC.Preparation of 10 MHz band-top Mech Eng,2006,42(12):1 crystal filter.Piezoelectr Acorstoopt,2009,31 (2):204 (刘金国,王越超,李斌,等.灾难救援机器人研究现状、关键 (新宝安,冯辉,王春程.10MHz带阻型压电石英品体滤波 性能及展望.机械工程学报,2006,42(12):1) 器研制.压电与声光,2009,31(2):204) 6]Jiang J,Zhao J,Li L K.Sound-based collaborative direction esti- 05] Huang J,Supaongprapa T,Terakura I,et al.A model-based mation for swarm robotic systems.Acta Autom Sin,2007,33(4): sound localization system and its application to robot navigation. 385 Rob Auton Syst,1999.27(4):199
第 1 期 孙 昊等: 基于语音识别的救援机器人听觉导航方法 图 5 救援机器人 90°听觉导航实验. ( a) 起始位置; ( b) 过程位置 1; ( c) 过程位置 2; ( d) 终点位置 Fig. 5 90° audio navigation experiment of the rescue robot: ( a) starting position; ( b) passing position 1; ( c) passing position 2; ( d) end position 图 6 救援机器人 180°听觉导航实验. ( a) 起始位置; ( b) 过程位置 1; ( c) 过程位置 2; ( d) 终点位置 Fig. 6 180° audio navigation experiment of the rescue robot: ( a) starting position; ( b) passing position 1; ( c) passing position 2; ( d) end position 5 结论 声音信号不同于光、超声及红外信号,具有可 以绕过障碍物传播的特性,充分利用这一特性,开 发了火灾和地震等未知环境中的救援机器人的听觉 导航系统. 根据人双耳接收声音信号的场强差原 理,提出了基于语音识别的救援机器人听觉导航系 统设计方案,并进行了相关实验,达到了理想的 效果. 参 考 文 献 [1] Dong X P,Wang X B. Development of rescue robot technology and its application in disaster. J Disaster Prev Mitigation Eng, 2007,27( 1) : 112 ( 董晓坡,王绪本. 救援机器人的发展及其在灾害救援中的应 用. 防灾减灾工程学报,2007,27( 1) : 112) [2] Li Y W,Ge S R,Zhu H. Research on application of coal mine rescue robots. Coal Mine Mach,2009,30( 1) : 164 ( 李允旺,葛世荣,朱华. 煤矿救灾机器人应用探讨. 煤矿机 械,2009,30( 1) : 164) [3] Jia J H,Sang L L. Design and application of mine rescue robots based on GIS. J Xi’an Univ Sci Technol,2008,8( 4) : 711 ( 贾建华,桑玲玲. GIS 系统在矿井救援机器人中的设计与应 用. 西安科技大学学报,2008,28( 4) : 711) [4] Murphy R R. Human-robot interaction in rescue robotics. IEEE Trans Syst Man Cybern Part C,2004,34( 2) : 138 [5] Liu J G,Wang Y C,Li B,et al. Current research,key performances and future development of search and rescue robot. Chin J Mech Eng,2006,42( 12) : 1 ( 刘金国,王越超,李斌,等. 灾难救援机器人研究现状、关键 性能及展望. 机械工程学报,2006,42( 12) : 1) [6] Jiang J,Zhao J,Li L K. Sound-based collaborative direction estimation for swarm robotic systems. Acta Autom Sin,2007,33( 4) : 385 ( 姜健,赵杰,李力坤. 面向群智能机器人系统的声音协作定 向. 自动化学报,2007,33( 4) : 385) [7] John E A. Optimal Filtering and Speech Recognition with Microphone Arrays[Dissertation]. Providence: Brown University,2001 [8] Jean M V,Francis M. Robust sound source localization using a microphone array on a mobile robot / /2003 IEEE /RSJ International Conference on Intelligent Robots and Systems. Piscataway, 2003: 23 [9] Jean V,Francis M,Jean R. Robust localization and tracking of simultaneous moving sound sources using beam forming and particle filtering. Rob Auton Syst,2007,55: 216 [10] Kazuhire N. Epipolar geometry based sound localization and extraction for humanoid audition / /2001 IEEE /RSJ International Conference on Intelligent Robots and Systems. Piscataway,2001: 1395 [11] Hu J S,Chan C Y,Wang C K,et al. Simultaneous localization of mobile robot and multiple sound sources using microphone array / /IEEE International Conference on Robotics and Automation. Piscataway: IEEE,2009: 29 [12] Yang L,Zhang J P,Wang D,et al. Cochlear implant signal processing algorithm based on frequency modulation. Acta Acust, 2009,34( 2) : 151 ( 杨琳,张建平,王迪,等. 基于频率调制信息的人工耳蜗语 音处理算法研究. 声学学报,2009,34( 2) : 151) [13] Chen W X,Zhang C Y. Location system of impact point based on acoustics detecting technique. Ordnance Ind Autom,2009,28 ( 4) : 36 ( 陈维兴,张传义. 基于声学检测技术的弹着点定位系统. 兵工自动化,2009,28( 4) : 36) [14] Jin B A,Feng H,Wang C C. Preparation of 10 MHz band-stop crystal filter. Piezoelectr Acorstoopt,2009,31( 2) : 204 ( 靳宝安,冯辉,王春程. 10 MHz 带阻型压电石英晶体滤波 器研制. 压电与声光,2009,31( 2) : 204) [15] Huang J,Supaongprapa T,Terakura I,et al. A model-based sound localization system and its application to robot navigation. Rob Auton Syst,1999,27( 4) : 199 ·75·