第7卷第1期 智能系统学报 Vol.7 No.1 2012年2月 CAAI Transactions on Intelligent Systems Feh.2012 D0I:10.3969/i.issn.16734785.201201003 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20120219.2224.001.html 机器人听觉声源定位研究综述 李晓飞',刘宏12 (1.北京大学深圳研究生院集成微系统科学工程与应用重点实验室,广东深圳518055;2.北京大学机器感知与智 能教育部重,点实验室,北京100871) 摘要:声源定位技术定位出外界声源相对于机器人的方向和位置,机器人听觉声源定位系统可以极大地提高机器 人与外界交互的能力.总结和分析面向机器人听觉的声源定位技术对智能机器人技术的发展有着重要的意义.首先 总结了面向机器人听觉的声源定位系统的特点,综述了机器人听觉声源定位的关键技术,包括到达时间差、可控波 束形成、高分辨率谐估计、双耳听觉、主动听觉和视听融合技术.其次对麦克风阵列模型进行了分类,比较了基于三 维麦克风阵列、二维麦克风阵列和双耳的7个典型系统的性能.最后总结了机器人听觉声源定位系统的应用,并分 析了存在的问题和未来的发展趋势. 关键词:机器人;机器人听觉;声源定位;麦克风阵列 中图分类号:TP242.6;TN912.3文献标志码:A文章编号:16734785(2012)010009-12 A survey of sound source localization for robot audition LI Xiaofei,LIU Hong2 (1.Key Laboratory of Integrated Microsystems,Shenzhen Graduate School of Peking University,Shenzhen 518055,China;2.Key La- boratory of Machine Perception (Ministry of Education),Peking University,Beijing 100871,China) Abstract:The technology of sound source localization can localize the direction and position of a sound source rela- tive to a robot.Sound source localization system for robot audition can greatly improve the ability of a robot to inter- act with external conditions.The summary and analysis of sound source localization for robot audition can signifi- cantly promote the development of intelligent robots.In this work,first,the characteristics of sound source localiza- tion for robot audition were summarized.The key technologies were summarized,including the time delay of arri- val,steered beamforming,high resolution spectral estimation,binaural,active audition,and audio-visual.Then, the models of a microphone array were classified,and the performances of seven typical systems based on a 3-D mi- crophone array,2-D microphone array,and binaural were compared.Finally,the applications of a sound source localization system of robot audition were summarized.Several issues that sound source localization systems face as well as development trends were analyzed. Keywords:robot;robot audition;sound source localization;microphone array 机器人听觉系统是一种自然、方便、有效、智能障碍物的情况下依然可以有效地工作.一般来讲机 的机器人与外界系统交互的方式.由于声音信号的 器人听觉包括声源信号的定位与分离、自动语音识 衍射性能,听觉具有全向性,相较于视觉、激光等其 别、说话人识别等.机器人听觉声源定位是指机器人 他的传感信号听觉不需要直线视野,在有视野遮蔽 利用搭载在机器人上或者外部设备上的麦克风阵列 定位出声源的相对位置.随着信息技术、电子科学技 术、计算机科学技术和智能科学的迅速发展,自20 收稿日期:201201-10.网络出版时间:201202-19. 基金项目:国家“863”计划资助项目(2006AA04Z247);国家自然科学 世纪90年代中期始,人们对机器人听觉声源定位技 基金资助项目(60675025,60875050):深圳市科技计划及 基础研究计划资助项目(JC20090316039). 术进行了深入而广泛的研究,并取得了重要的进展。 通信作者:刘宏.E-mail:hongliu(@pkm.ed.cm 声源的位置信息包括轴向角、仰角和距离,其中
·10 智能系统学报 第7卷 轴向角可以确定声源的二维方向,轴向角和仰角可 cross correlation,GCC)2]、互功率谱相位法(cross- 以确定声源的三维方向,轴向角、仰角和距离可以确 power spectrum phase,CSP)IB1、特征值分解4、声学 定声源的三维位置.在噪声环境下,利用少量的麦克 传递函数比5]等.获取TD0A以后,乘以声速便可 风实时地定位声源的三维位置是一个实用的机器人 以得到距离差,这样就可以通过声源与麦克风的几 听觉声源定位系统的目标.虽然机器人听觉声源定 何关系得到声源位置.主要的几何定位方法包括最 位技术的研究取得了很多成果,但是该技术的实际 大似然估计(maximum likelihood estimator)[6]和最小 应用还面临很多问题, 均方估计(least square estimator)7s].TDOA方法计 算量小,可实时实现,但双步估计带来累积误差,是 1机器人听觉系统声源定位的特点 一种次最优估计,为了取得较高的分辨率,对信号采 相较于一般的声源定位系统,机器人听觉声源 样率要求较高,适用于单声源定位 定位具有以下特点: 1997年Huang等利用3个麦克风组成平面三 1)麦克风阵列易搭载:搭载在机器人平台上的 角阵列定位声源的全向轴向角.根据声音的优先 麦克风阵列应该尽量小,麦克风阵列的小型化可以 效应,通过无回响起点检测算法(echo-free onset de- 通过减少麦克风的数量和优化阵列拓扑来实现 tection)检测出无回响的声音段,利用过零点(zero- 2)机器人运动:搭载在机器人平台上的麦克风 crossing point)检测时延,然后根据几何关系定位声 阵列的运动改变了听觉场景,给声源定位带来了困 源轴向角.2002年他们利用如图1所示的三维麦克 难.但另一方面可以通过麦克风阵列的主动运动,丰 风阵列进行声源轴向角和仰角的定位,互相关函 富麦克风阵列的拓扑,提高定位能力 数和互功率谱相位差分别被用于时延估计.识别阶 3)声源移动:在大多数机器人听觉声源定位系 段,6个时间差组成时间差序列:△tm=(△t2,△t3, 统应用中,声源是移动的,需要进行移动声源的定位 △t14,△t如,△24,△4),时间差序列误差为e(0,p)= 与跟踪, ‖(0,p)-m‖,其中△(0,p)为理论时间差, 4)实时性高:机器人的运动和声源的移动造成 轴向角0和仰角p取使e(0,P)最小化的值. 机器人和声源相对位置的即时变化,要求定位具有 2007年文献[11]对于多个声源,利用6个互相关函 较高的实时性.机器人与外界交互的实时性是机器 数的几何平均: 人友好性和安全性的保障,是评价交互性能的重要 P(0,p)={ΠCg(△tg(0,p)}s 指标,因此声源定位系统的实时性是极其必要的. 表示一个声源位置存在声源的概率,概率越大则存 5)抗混响和噪声:机器人工作在真实环境中,信 在声源的可能性越大 号混响和噪声是难以避免的,因此声源定位系统的抗 混响和抗噪声能力在很大程度上影响定位性能, 2机器人听觉系统声源定位方法 4通道 1995年Iie第1次将声源定位技术用于智能机 友克风 器人),利用短时时域、频域特征和神经网络技术 区分摄像头视角内的左中右3个声源方向,其后,基 于麦克风阵列的到达时间差技术(time delay of arri- 图14通道阵列 val,TDOA)、基于最大输出功率的可控波束形成技 Fig.1 4-ch array 术(steered beamforming,BS)、高分辨率谱估计技术 2002年Sekmen等提出一种自然的人机交互方 (high resolution spectral estimation)、双耳听觉(bin- 式,把人作为一个被动的用户,不用通过键盘、鼠标 aural)、机器学习(machine learning)、主动听觉技术 等人工的方式与机器人进行交互2].机器人只是人 (active audition)、视听融合(audio-visual)等方法被 的运动的一个直接物理再现,利用声源定位和红外 用于机器人听觉声源定位, 运动跟踪,为人脸跟踪系统提供候选区域和机器人 2.1到达时间差技术 的注意力.2个麦克风摆放在一个开放的空间,头部 基于TDOA的定位技术是一种2步定位方法, 传输函数不用考虑.假设声源位于仿人机器人的前 首先估计出声源信号到达各个麦克风之间的时间延 方,利用互相关法估计时延,通过远场近似几何方法 迟,然后利用几何定位方法求出声源位置。 便可定位远场声源, 稳健的时间延迟估计是精确声源定位的基础 2003年Valind等放置8个麦克风在长方体支 常用的时延估计算法包括广义互相关(generalized 架的顶点「1,如图2所示.该麦克风阵列搭载在P
第1期 李晓飞,等:机器人听觉声源定位研究综述 ·11 oneer2机器人上,用来进行声源轴向角和仰角定 位.利用谱加权CCC-PHAT方法提取时间差,给信 噪比大的频带赋予更大的权值可以有效地抑制窄带 噪声的影响.然后利用远场几何定位方法定位声源 的轴向角和仰角。 数麦克风 阵列实验平台 图38通道麦克风阵列 Fig.3 8-ch microphone array 2010年Lee等利用远场情况下声源角度和到 达时延的几何关系建立了angle-TD0A图1s].融合 图28通道立方体阵列 该图和互相关函数得到Cross-Angle-Correlation函数 Fig.2 8-ch cube array R(0),该函数在声源方向取较大的值.对于多个声 2007年Rudzyn利用与图1相似的麦克风阵列 源,竞争K-means算法被用于基于Cross-Angle-Cor- 定位声源三维位置[41,包括距离、轴向角和仰角.利 relation函数的声源角度聚类,该系统利用正三角形 用加权互相关函数(weighted cross correlation, 麦克风阵列定位声源轴向角, WCC)估计时延:fxe=f/(fmi+8),其中fmi为平 2.2基于最大输出功率的可控波束形成技术 均幅度差函数(average magnitude difference func- 该方法对麦克风接受到的声源信号滤波并加权 tion),用于增强GCC的性能.同样使用近场几何定 求和形成波束,按照某种搜索策略全局搜索可能的 位方法来定位三维声源. 声源位置来引导波束,波束输出功率最大的位置即 2008年Kwk等利用平面正三角形阵列定位声 为声源位置[9o].延迟和波束形成算法(delay-and 源5].语音信号的声门激励信息被用于时延估计,首 sum beamforming,DSB)[2]通过对麦克风接受信号 先求出语音信号线性预测残差表示声门激励信号,然 采用时间移位以补偿声源到达各麦克风的传播延 后线性预测残差的希尔伯特包络(Hilbert envelop)信 迟,并通过相加求平均来形成波束.滤波和波束形成 号被用于基于CCC-PHAT的声源估计,再通过一种 算法(filter-and-sum beamforming,FSB)[2]在时间移 可靠的几何定位方法定位出声源轴向角.该系统成本 位的同时进行滤波,然后相加求平均形成波束。 低廉、实时性好,可用于家庭服务机器人 可控波束形成算法的定位性能取决于麦克风阵 2009年Hu等利用基于特征结构(eigen struc- 列方向图的主瓣和旁瓣的分布.主瓣能量越大,宽度 ture)的GCC方法估计多个声源的时延I6].多声源 越窄,则形成波束的分辨率越高.通常该算法要求大 情况下麦克风接受信号的频域表示为 X=∑So+N 量的麦克风以取得较好的方向图.该算法本质上是一 种最大似然估计,需要声源和噪声的先验信息,但通 式中:D为声源个数.接收信号互相关矩阵的特征分 常这些信息在实际应用中不易获得.最大似然估计是 解为 一种非线性优化问题,传统搜索算法容易陷入局部最 R.(a)=(∑K(@,kX'(,)/K= 小点,而遍历式的搜索方法的运算量极大2) ∑ia(u)y(a)(u). l999年Matsui等研制出一种办公室接待机器 人j0-2,它可在办公室环境下引导客人参规24.该 式中:λ为特征值,V为特征向量.与前D个最大特 征值对应的向量表示声源向量,利用声源向量的 机器人视觉声源定位系统基于波束形成算法,利用 平均分布于半圆弧的平面8通道麦克风阵列定位声 GCC方法进行时延估计.文献[17]利用声速的限制 求出声源个数D,定位阶段,利用最小均方估计求解 源的轴向角. 超定线性方程组定位多个声源,近场情况下求解声 2004年Valin等利用DSB定位多声源位置,预 源三维直角系坐标,远场情况下求解声源轴向角.图 求出所有对的麦克风信号频域的互相关「5] 3为该系统搭载在移动机器人平台上的8通道麦克 R(r)=∑x()x()e2n 风阵列. 每个波束输出功率可以通过N(N-1)/2个互相关
·12 智能系统学报 第7卷 累积和求得.谱加权在互相关求解中给信噪比大的 8通道麦克风阵列定位多声源,并利用粒子滤波(pati- 频带赋予更大的权值,有效地抑制了窄带噪声的影 cle filter)方法融合房间麦克风阵列和机器人麦克风阵 响.另外为了避免声源的错误检测,一个基于声源存 列的定位结果,跟踪多个声源 在概率的后处理算法被提出.2009年Badali和 麦克风 Valin等利用如图2所示的麦克风阵列测试了可控 响应功率(steered response power)和其他算法的性 能26],运用谱加权用于抑制噪声,方向优化算法是 在DSB算法定位的结果临近范围内应用高分辨率 方法,从而更精确地定位声源.上述2篇文献的麦克 风阵列如图2所示,图4显示了2种球形搜索网格. 涤 桌子 文献[26]的实验结果显示三角网格声源搜索策略 相较于矩形网格更有效,三角网格共2562个搜索 点,每个搜索区域覆盖2.5° 图6分布式麦克风阵列 Fig.6 Distributed microphone array 2006年Sasaki等利用32通道3同心圆阵列通 过机器人的运动定位多声源的二维位置3.首先利 用基本DSB算法减弱噪声,然后通过频带选择算法 (frequency band selection)消除剩余噪声并定位出多 声源的水平方向,最后根据运动的机器人可以在不 同的位置检测同一个声源的方向,通过三角定位方 (a)三角网格 (b)矩形网格 法和RANSAC算法(random sample consensus)定位 图4球形搜索网格 出声源的精确位置.2007年他们通过主瓣消除算法 Fig.4 Spherical search grids (main-lobe canceling)从DSB算法得出的空间谱中 2004年Tamai等利用搭载在Nomad机器人上 逐个检测声源的位置21.每次检测出当前具有最大 的平面圆形32通道麦克风阵列定位1~4个声源的 能量的方向作为当前声源的方向,然后减除该方向 水平方向和垂直方向27.由于麦克风数量较多, 的主瓣继续检测下一个声源.主瓣消除算法需要阵 DSB算法可以很好地抑制环境噪声和机器人机体噪 列方向图具有较小的旁瓣.图7显示了同心圆阵列 声.文献[28]提出了一种3个圆形阵列组成的32 和八边形32通道麦克风阵列,八边形阵列在700~ 通道阵列,相较于一个圆形阵列具有更好的波束方 2500Hz的频率范围内旁瓣能量较小.Kagami等利 向图分布.以上2种阵列如图5所示, 用文献[32]中的声源方向定位和粒子滤波方法,通 过机器人的运动定位静止声源的精确位置33].2010 年Sasaki等综合上述的声源定位功能,并进行短时 声音信号识别以标定声源34],通过跟踪多个声源, 画出声源图并定位机器人的位置, (a)单个圆形阵列 b)3个圆形阵列 图532通道二维麦克风阵列 Fig.5 32-ch 2-D microphone array 2005年Nakadai等利用64通道分布式麦克风阵 列在电视等噪声环境中检测真实语音信号],并定位 (a)时心圆阵列 b)八边形阵列 声源的平面二维位置.图6为麦克风阵列,麦克风分布 图7同心圆阵列和八边形阵列 在1.2m高度的墙壁和高度为0.7m的桌面上.加权 Fig.7 Concentric array and octagonal array DBs用于求解每个可能方向的方向性模式(directivity 2.3高分辨率谱估计技术 pattemn),方向性模式用于检测麦克风接收信号是否为 该方法来源于现代高分辨率谱估计技术,如自 真实的语音信号,并定位声源.2006年他们在文献[30] 回归模型(autoregressive)s1、多重信号分类(muli- 中基于MUSIC方法利用搭载在ASMO机器人头部的 ple signal classification,MUSIC)[3w]等方法,利用特
第1期 李晓飞,等:机器人听觉声源定位研究综述 ·13· 征值分解(eigenvalue decomposition)将麦克风信号 置宽带MUSIC的声源个数上限,实验证明这种方法 的协方差矩阵分解为信号子空间和噪声子空间,然 与已知声源个数情况下的定位性能差不多.图8显 后找出与噪声子空间正交的方向矢量来进行声源的 示了该机器人平台和14通道的稀疏麦克风阵列. 方向估计. 基于高分辨率谱估计的定位方法是一种超分辨 率的估计技术,其空间分辨率不会受到信号采样频 率的限制,并且在一定条件下可以达到任意定位精 度].然而,该类方法也存在一定的不足,主要表现 在:1)易受空间相关噪声的干扰,当方向性噪声的 能量与声源信号能量相当时,该算法容易定位到噪 声方向;2)房间的反射作用使信号和干扰之间有一 定的相关性,从而降低了该方法的有效性;3)需要 对整个空间进行搜索来确定声源的位置,且其估计 图8稀疏麦克风阵列 精度与空间的细分程度有关,计算复杂度偏高. Fig.8 Sparse microphone array 1999年Asano等利用搭载在办公室机器人Jiio- 2.4双耳听觉 2上的平均分布于半圆弧的平面8通道麦克风阵列 人可以通过双耳定位3D空间声源方向,双耳 定位多个声源的轴向角[3].扩展的MUSIC算法被 时间差(interaural time difference,ITD)和双耳强度 用于近场定位,近场方向向量为 差(interaural intensity difference,D)用于定位声源 a(r,0)-[ewr1,o》ear2,l e-,》]T 轴向角,由耳廓衍射和散射效应带来的声谱特性 式中:r和0分别为声源的水平距离和轴向角. (spectral cue)用于定位声源仰角].声音信号从声 大多数机器人听觉声源定位系统接收的声源信 源位置传播至人耳鼓膜处的传输函数被称为头部相 号是宽带信号,原始的MUSIC算法只能定位窄带信 关传递函数(head-related transfer functions, 号.2007年Argentieri等给出MUSIC算法的宽带声 HRTFs)【],影响HRTFs的因素有耳廓、头部、耳 源扩展「9],近场MUSIC空间谱为 道、肩膀和躯体等.基于双耳的声源定位方法对于仿 h(r,0)=1/w(r,0)ΠV(,) 人机器人是一种自然、有效的方式,利用人工头和人 工耳廓可以有效地模仿人的听觉定位能力[5] 式中:V为可能声源位置的方向向量,为噪声子空 Nakadai等基于仿人机器人SIG的双耳听觉定 间.令空间谱最大的方向向量对应于声源位置,一种 位声源轴向角[64].由立体视觉扩展的听觉Epipo- 朴素的宽带扩展方法为 lar几何可以数学化地估计出特定声源方向的PD: hn,0)=∑A,(r,0)/B △p。=2f(0+sin0)/v,其中f、r、0和v分别为信号 式中:b为信号频点数,B为频带宽度.实验证明该 频率、头部半径、声源角度和声速,一般∫小于 宽带扩展方法性能很好,但计算量太大.波束空间算 1500Hz.可能声源方向和实测信号的PD之差最 法利用频率和范围不变的波束形成聚焦频点,生成 小的为声源方向.Epipolar几何很难确定出精确的 个对所有兴趣频点有效的空间谱。 D,只能通过频率大于1500Hz的频带确定出声源 2009年Nakamura等利用广义特征值分解抑制 的大概方向.利用物理学中的散射理论(scattering 空间相关噪声的影响[o],在静音段估计出噪声的空 theory)也可以数学化地估计PD△p,(0,f)和IID 间互相关矩阵,对带噪声源信号的互相关矩阵和噪 △p,(0,),同样分别采用小于和大于1500Hz的频 声的互相关矩阵进行广义特征值分解,生成一个完 带,相较于Epipolar几何散射理论的PD估计误差 全抑制噪声的空间谱.2011年他们联合视觉跟踪算 更小,并且可以较精确地估计出D.利用Dempster- 法,利用粒子滤波进行说话人的跟踪[4 Shafe理论联合PD和ID信息,联合概率取最大的 2009年Ishi测试了MUSIC方法在办公室环境 可能位置为声源位置。 和室外环境下定位轴向角的性能].办公室环境存 2005年Kumon等根据声波在耳廓中反射决定 在空调噪声和机器人机体噪声,室外环境存在背景 的声谱特性(spectral cue)设计了一个人工耳廓9] 音乐噪声.他们分别测试了信号分帧长度对方向估 耳廓形状如图9所示,耳廓必须关于声源仰角非对 计性能和实时性的影响,宽带MUSIC频带宽度和声 称以保证可以区分不同仰角的声源信号.该耳廓对 源个数对方向估计的影响.另外还提出了一种确定 于仰角大于90°的声源具有较明显的谱峰(spectral 声源个数的方法,对每个频率采用固定声源数,并设 peak).2006年Shimoda等改进了文献[49]中设计
·14 智能系统学报 第7卷 的人工耳廓的仰角定位算法[0.由于机器人头部运 谱特性的影响,用左右耳对数谱之差表示声谱特性: 动是连续的,所以声谱特性变化也是连续的,即相邻 S()=lg(s(k)-lg(s(k)).2010年他们在文献 时刻的声谱特性不会产生突变.根据此特性对长时 [54]中联合声音幅度、谱幅度、TD和ⅢD定位声源 间检测的声谱特性进行聚类,得到更精确的声谱特 的距离 性,一定程度上抑制了噪声的干扰。 (a)仿人耳亮 )机器人 图11仿人耳廓和机器人 Fig.11 Humanoid pinnae and robot 图9人工耳廓 2011年Kim等为了降低基于信号相关的时延 Fig.9 Artificial pinnae 估计算法的信号采样率对定位分辨率的影响,利用 2006年Hornsteind等利用人工耳廓和人工头模 最大似然方法找出最大化互功率谱之和的声源轴向 拟人的听觉定位51.人工头模型如图10所示,通过 角,分辨率达到15].另外考虑机器人球形头部带 ITD,ID和谱谷(spectral notches)定位声源的轴向 来的多径效应,一个基于front--back的多径补偿因子 角和仰角以控制头部转向声源 被用来修正时延估计.2011年Skaf等[s6]测试了放 置在一个椭球人工头上的88对对称双耳的定位性 能,D和TD被分别测试,实验结果显示,综合D 和TD性能时双耳放置在人工头的后下方性能最 优.人工头及双耳位置如图12所示. 图10人工头部和耳廓 Fig.10 Artificial head and pinnae (a)IID (b)ITD 2006年Keyrouz等利用人工头和人工双耳同时 分离和定位2个声源的轴向角和仰角52],一种时域 图12最优双耳位置 的盲源分离算法被用于分离2个独立且相距不太近 Fig.12 Optimal position of two ears 的声源.令第1个声源到第2个分离信号的冲激响 2.5机器学习 应为c2,第2个声源到第1个分离信号的冲激响应 Saxena等利用单麦克风和人工耳廓基于机器学 习方法定位声源方向列.不同声源方向到麦克风的 为c21,则声源到麦克风的冲激响应h需满足: 传输函数不同,用隐马尔可夫模型表示时变的麦克 C2=h102+h1202=0, (1) 风信号Y,则声源方向可以通过式(3)估计,式(3) c21=h210u+h22021=0. (2) 可以通过前向-后向算法求解,以15°的步长遍历轴 式中:w为解混冲激响应.通过式(1)、(2)可以分别 向角求解0. 求出2个声源方向的HRT℉s,进一步可以定位声源 0=arg max P(,Y经,…,1). (3) 的全向轴向角和仰角. 2008年Rodemann等利用仿人耳蜗和双麦克风 2.6主动听觉 进行声源的3-D方向定位],耳蜗和机器人如图11 文献[58]指出机器人的感知能力应该是主动 的,可以通过机器人的移动和传感器参数的控制获 所示.在提取TD、ID和spectral cue前先进行双耳 得更好的感知环境.该文基于SG人形机器人的头 信号的同步谱减去噪.为了消除声源信号特性对声
第1期 李晓飞,等:机器人听觉声源定位研究综述 ·15 部转动建立了主动听觉系统,通过头部的转动可以 SIG机器人注意力的转移,641,其中听觉事件为 调节双耳麦克风垂直于声源方向以取得更好的定位 声源方向估计,视觉事件为多人人脸检测.Lⅴ等利 性能.机器人头部和镊像机的马达转动、齿轮、传送 用视觉物体检测修正听觉声源定位结果[s].Le等 带和滚珠会带来内部噪声,由于离麦克风较近,所以 利用视觉信息在多个人中区分出真正的说话者的 会极大影响声源定位性能,因此自适应滤波器被用 于抑制内部噪声. 3机器人听觉系统分析 文献[59]提出感知-马达(sensory-motor)融合 3.1麦克风阵列类型 的概念:感知信息指导马达的运动和导航,通过机器 声源定位系统的麦克风数量和拓扑主要取决于 人的运动消除双耳声源定位算法的前后向混淆. 声源定位方法,一般情况下TDOA方法、高分辨率方 2011年Martinson等用3台Pioneer3-AT机器人 法和波束形成方法需要的麦克风数量依次增多.麦 分别搭载2、1和1个麦克风组成动态可重置的麦克 克风阵列类型如表1所示. 风阵列[01,如图13所示.对于给定的兴趣区域,吸 表1麦克风阵列类型 引/排斥模型可以动态优化各麦克风位置以获得更 Table 1 Types of microphone array 好的声源定位性能, 麦克风阵列类型 阵列举例 覆 三维阵列 图1~3 全向摄像机 友克风阵列 二维阵列 图5、7 稀疏阵列 图8 分布式阵列 图6 动态阵列 图13 双麦克风 图9~11 单麦克风 文献[57] 二维和三维阵列一般为规则拓扑麦克风阵列,如 图13动态麦克风阵列 线性、三角形、多边形、多面体阵列等,分别具有二维平 Fig.13 Dynamic microphone array 面和三维空间声源定位能力.面向机器人听觉的声源 Portello等建立了一个动态双耳听觉模型[s] 定位的麦克风阵列应该易搭载在机器人平台上,通常 麦克风和声源相对运动的动态TD模型给无味卡尔 要求阵列的小型化,包括麦克风数量的减少和阵列尺 曼滤波器提供了一个ground credible等式,以确定 寸的减小.实时性是人机交互的重要特点,因此实时的 声源的距离和轴向角的定位,该算法不适用于声源 机器人听觉系统声源定位要求选取计算复杂度低的定 和传感器之间高速相对运动的情况。 位方法,一般来讲双耳定位和基于到达时间差的定位 Kumon提出一种主动软耳廓[62],软耳廓由具有 具有较小的计算复杂度,其次是基于高分辨率定位方 弹性的硅橡胶制成,背面覆盖一层皮毛,以保证耳廓 法,基于波束形成方法的定位复杂度较高.双麦克风模 的单向性.耳廓可以旋转和变形以提供主动听觉声 拟人耳听觉,通常需要借助人工头和耳廓的辅助,并且 源定位能力,软耳廓如图14所示 精确的头部相关传递函数较难获取, 3.2机器人听觉声源定位系统 笔者利用搭载在移动机器人平台上的二维平面 4通道十字型麦克风阵列定位说话人的轴向角和距 离,以进行友好、有效的人机交互.文献[67]提出指 )背面 导性谱时定位方法(guided ST position algorithm),通 (a)正面 过粗定位结果估计的声场条件进行二次精确定位, 图14软耳廓 可以有效地消除混响的影响.文献[68]提出一种基 Fig.14 Soft pinnae 于时间差特征的空间栅格匹配(spatial grid matc- 2.7视听融合技术 hing)算法,找到与待定位声源的时间差特征最匹配 基于视觉的物体检测与跟踪在光照条件好、视 的栅格作为声源位置.该方法可以有效地避免几何 野无遮挡的情况下具有更好的性能.融合听觉信息 定位方法的非线性方程组求解问题,复杂度较低,并 与视觉信息可以极大提高各传感器单独的感知能 且合理的麦克风阵列拓扑可以避免几何定位方法可 力.Okuno和Nakadai等融合听觉事件形成的听觉 能陷入局部最优点的问题.移动机器人和麦克风阵 流与视觉事件形成的视觉流生成联合流,以控制 列如图15所示
·16 智能系统学报 第7卷 然后基于时间差特征,利用蒙特卡洛方法为每 个栅格训练一个混合高斯模型,该模型表示平均分 布于栅格内的时间差特征.定位阶段,声源定位的问 题可以表示为 )十字型麦克风阵列 G,oc arg max P(TI G). 式中:G表示栅格,G,表示声源栅格.计算出未知声 源的时间差特征相对于所有栅格的似然值,似然值 最大的栅格被定位为声源栅格.另外有效特征检测 算法利用信号时间差之间的约束移除错误的时间 差,提高了定位性能.并且决策树提供了一种由粗到 (a)移动机器人 细的定位方式,极大减少了未知声源的时间差与栅 图15移动机器人和麦克风阵列 格的匹配次数. Fig.15 Mobile robot and microphone array 实验测试了4m以内的2016组数据,轴向角 首先,利用谱加权GCC-PHAT方法求出各个麦 栅格精度为1°,距离分为0~1.5m、1~2m和 克风对之间的信号时间差,6个时间差组成时间差 1.5~4m3个栅格.轴向角测量误差小于5°的定位 特征序列:T=(T12,TB,4,T公,T4,T4).可以证明, 率超过95%,距离定位率超过90%,可以有效定位 时间差特征与声源位置是一一对应的,即一个特定 说话人的方位和说话人是否处于人机交互的安全距 的时间差对应一个特定位置,反之亦然;另外2个声 离.而且听觉声源定位结果控制机器人转向说话人, 源位置之间的时间差特征的差与声源的位置之差成 使说话人在摄像头的视野范围之内,基于视觉的人 正比,即2个声源距离越远,另外2个位置的时间差 体检测技术被用于更精确的目标人定位,以进行进 特征的差越大.根据这2个特点,可以把二维平面按 一步的人机交互 照某种方式分割成栅格,每个栅格内的声源看作同 3.3机器人听觉声源定位系统分析 一类声源,平面栅格如图16所示. 一个机器人听觉声源定位系统可以从麦克风阵 列拓扑、麦克风数量、声源定位能力、声源个数、抗噪 ;水平面栅格 声和混响能力、定位性能等方面来评价,其中定位能 力指是否能进行声源轴向角、仰角和距离的定位.表 2列出了基于三维麦克风阵列、二维麦克风阵列和 双耳的7个典型声源定位系统,其中声源个数只是 发克风阵列位置 列出了相关文献中实验测试的声源个数,不能完全 反映该声源定位系统的能力.因为机器人听觉声源 定位算法发展的时间较短,并没有公共的测试实验 0 数据库或实验平台;所以不同系统的实验场景和性 图16平面栅格 能测量标准不同,本文只列出了相关文献中公布的 Fig.16 Horizontal grid 定位性能, 表2典型机器人听觉声源定位系统的分析 Table 2 Analysis of typical sound source localization system for robot audition 作者及文献 麦克风阵列 定位方法 声源数 抗噪声 定位能力 和混响 定位性能 J.M.Valin 11 8通道、三维阵列 TDOA 1 轴向角 抗噪声 精度:3m之外、声源3° H.Litn) 4通道、三维阵列 TDOA 1-2 轴向角、仰角 抗混响 误差:单声源小于5° Y.TAMAI 32通道、二维阵列 DSB 1-2 轴向角、仰角、距离 抗噪声 误差:轴向角小于5°、仰角 小于6°距离小于300mm Y.Sasakits1 32通道、二维阵列 DSB 多个 轴向角、距离 误差:平均282mm K.Nakamura 8通道 GEVD 1-2 轴向角 抗噪声 定位率:100% K.Nakadai] 双耳、头部 Binaural 1 180°轴向角 精度:10 F.Keyrouz] 双耳、头部、耳廓 Binaural 2 轴向角、仰角 精度:轴向角5°、仰角10°
第1期 李晓飞,等:机器人听觉声源定位研究综述 ·17 4总结与展望 是被动的,即不用通过某种不方便的主动方式与机 器人交互.这就要求机器人可以主动、透明地与人交 机器人听觉声源定位系统的应用场景主要有家 互,因此,智能声源定位技术的应用还与其他相关技 庭环境、公共场所、危险环境和一些其他特定场景 术息息相关,并且一定程度上受到它们的制约,比如 中,面向的声源有人的语音和其他各种声源,主要包 声音的检测与识别等. 括以下几类应用: 本文主要依据定位算法综述了机器人听觉声源 1)服务机器人:声源定位系统提供了一种自 定位技术,不同于传统的声源定位技术,智能机器人 然、高效的人机交互方式,主要应用在家庭、商场等 带来了一些新的问题,比如机器人平台对麦克风阵 环境.服务机器人定位的声源通常为人的语音,并且 列结构的限制、机器人运动给声源定位带来的诸多 面临复杂的噪声, 问题、人机交互对实时性的要求、机器人特定的工作 2)接待机器人:在办公室或家庭等场所接待客 场景等.依据机器人技术的声源定位系统仍然有待 人,引导客人的行动,一般具有一定的语音识别能 进一步地总结与分析,总之,实时、精确的机器人系 力,如文献[24] 统与外界系统的交互是机器人听觉声源定位技术追 3)军用机器人:战场声源的定位,如文献[69] 求的目标.声源定位技术与机器人技术的融合带来 在城市环境基于军用无人车定位枪声、尖叫声。 了很多新的挑战,但更重要的是两者会互相促进对 4)救援机器人:危险环境中救援任务的声源定 方的发展。 位,如文献[70].在危险环境中,由于对人来说工作 环境较为恶劣,因此机器人可以发挥较大的作用,比 参考文献: 如救援、事故检测等 [1]IRIE R E.Robust sound localization:an application of an 5)助残机器人:引导残疾人,特别是盲人的活 auditory perception system for a humanoid robot[D].Cam- 动,如文献[71].与机器人的语音交互和机器人的 bridge,USA:Department of Electrical Engineering and 引导可以极大地提高盲人的活动能力. Computer Science,MIT,1995. 自1995年,经过十几年的研究与探索,面向机 [2]KNAPP C H,CARTER G C.The generalized correlation method for estimation of time delay[J].IEEE Transactions 器人听觉的声源定位技术取得了一定的成果,但系 on Acoustics,Speech,and Signal Processing,1976,24 统的实用化还面临着一些问题,这些问题引导了未 (4):320-327. 来的发展趋势: [3]OMOLOGO M,SVAIZER P.Acoustic source location in 1)机器人的运动.机器人运动带来的麦克风阵 noisy and reverberant environment using CSP analysis 列的运动是机器人听觉与传统声源定位技术主要的 [C ]//IEEE International Conference on Acoustics, 差别所在,运动的麦克风阵列会面临即时变化的声 Speech,and Signal Processing.Atlanta,USA,1996:921- 学环境,要求声源定位系统具有较高的实时性.现在 924. 大多数声源定位系统的传感器数量较多,导致算法 [4]BENESTY J.Adaptive eigenvalue decomposition algorithm 计算复杂度较高.少量的麦克风和低复杂度的定位 for passive acoustic source localization[J].Journal of A- coustical Society of America,2000,107(1):384-391. 算法有待进一步探索。 [5]DVORKIND T G,GANNOT S.Time difference of arrival 2)复杂的声学环境.几乎所有的实用声源定位 estimation of speech source in a noisy and reverberant envi- 系统必然面临着复杂的声学环境,存在各种类型的 ronment[J].IEEE Transactions on Signal Processing, 噪声,现有的抗噪声技术大多只是针对某类或某几 2005,85(1):177-204. 类噪声有效,一种鲁棒的、对各种噪声广泛适用的抗 [6]HAHN W,TRETTER S.Optimum processing for delay- 噪声技术或方案也还有待进一步研究 vector estimation in passive signal arrays[J].IEEE Trans- 3)阵列的小型化.机器人搭载平台要求麦克风 actions on Information Theory,1973,19(5):608-614. 的数量尽量少,阵列尺寸尽量小,并且通常麦克风数 [7]WANG H,CHU P.Voice source localization for automatic 量的减少会有效降低运算量.现有的麦克风阵列大 camera pointing system in videoconferencing[C]//IEEE Workshop on Applications of Signal Processing to Audio and 多需要专门的搭载平台,甚至需要辅助设备,实用化 Acoustics.New Paltz,USA,1997:187-190. 比较差.双耳声源定位的发展提供了更接近于人的 [8]SCHAU H,ROBINSON A.Passive source localization em- 定位方式和能力,但特制的人工头和耳廓,以及它们 ploying intersection spherical surfaces from time-of-arrival 的数学模型的建立都带来了诸多不便 difference[J].IEEE Transactions on Acoustics,Speech, 4)友好、智能的交互方式.人机交互中人应该 and Signal Processing,1987,35(8):1223-1225
·18 智能系统学报 第7卷 [9]HUANG Jie,SUPAONGPRAPA T,TERAKURA I,et al. plied to gunshot acoustics[C]//Proceedings of SPIE De- Mobile robot and sound localization[C]//IEEE/RSJ Inter- fense,Security,and Sensing.Orlando,USA,2011. national Conference on Intelligent Robots and System. [22]KAJALA M.Filter-and-sum beamformer with adjustable Grenoble,France,1997:683-689. filter characteristics[Cl//IEEE Interational Conference [10]HUANG Jie,KUME K,SAJI A,et al.Robotic spatial on Acoustics,Speech,and Signal Processing.Salt Lake sound localization and its 3-D sound human interface City,USA,2001:2917-2920. [C]//First International Symposium on Cyber Worlds [23]曹玮玮.基于麦克风阵列的声源定位与语音增强方法 (CW2002).Toky0,Japan,2002:191-197. 研究[D].北京:清华大学,2008 [11]LI H K,YOSIARA T,ZHAO Q F.A spatial sound locali- CAO Weiwei.Study on methods of microphone array based zation system for mobile robots[C]//IEEE Instrumentation sound source localization and speech enhancement[D]. and Measurement Technology Conference.Warsaw,Po- Beijing:Tsinghua University,2008. land,2007:1-6. [24]MATSUI T,ASOH H,FRY J,et al.Integrated natural [12]SEKMEN A S,WIKES M,KAWAMURA K.An applica- spoken dialogue system of Jijo-2 mobile robot for office tion of passive human-robot interaction:human tracking services[C]//Proceedings of the Sixteenth National Con- based on attention distraction[J].IEEE Transactions on ference on Artificial Intelligence and the Eleventh Confer- Systems,Man,and Cybernetics,Part A:Systems and Hu- ence on Innovative Applications of Artificial Intelligence. mans,2002,32(2):248-259. Menlo Park,USA,1999:621-627. [13]VALIN J M,MICHAUD F,ROUAT J,et al.Robust [25]VALIN J M,MICHAUD F,HADJOU B.Localization of sound source localization using a microphone array on a simultaneous moving sound sources for mobile robot using a mobile robot[C]//IEEE/RSJ International Conference on frequency-domain steered beamformer approach [C]// Intelligent Robots and System.Las Vegas,USA,2003: IEEE Interational Conference on Robotics and Automa- 12281233. tion.New Orleans,USA,2004:1033-1038. [14]RUDZYN B,KADOUS W,SAMMUT C.Real time robot [26]BADALI A,VALIN J M,MICHAUD F.Evaluating real- audition system incorporating both 3D sound source local- time audio localization algorithms for artificial audition in isation and voice characterization[C]//IEEE International robotics[C]//IEEE/RSJ Intemational Conference on In- Conference on Robotics and Automation.Roma,Italy, telligent Robots and Systems.St.Louis,USA,2009: 2007:4733-4738. 2033-2038. [15]KWAK K C,KIM SS.Sound source localization with the [27]TAMAI Y,KAGAMI S,AMEMIYA Y,et al.Circular mi- aid of excitation source information in home robot environ- crophone array for robot's audition C]//IEEE Interna- ments[J].IEEE Transactions on Consumer Electronics, tional Conference on Sensors.Vienna,Austria,2004: 2008,54(2):852-856. 565-570. [16]HU J S,CHAN C Y,WANG C K,et al.Simultaneous lo- [28]TAMAI Y,SASAKI Y,KAGAMI S.Three ring micro- calization of mobile robot and multiple sound sources using phone array for 3D sound localization and separation for microphone array[C]//IEEE International Conference on mobile robot audition[C]//IEEE/RSJ Interational Con- Robotics and Automation.Kobe,Japan,2009:29-34. ference on Intelligent Robots and Systems.Edmonton, [17]HU J S,YANG C H,WANG C K.Estimation of sound Canada,2005:4172-4177. source number and directions under a multi-source environ- [29]NAKADAI K,NAKAJIMA H,YAMADA K,et al.Sound ment[C]//IEEE/RSJ Interational Conference on Intelli- source tracking with directivity pattem estimation using a gent Robots and System.Louis,USA,2009:181-186. 64 ch microphone array C]//IEEE/RSJ International [18]LEE B,CHOI J S.Multi-source sound localization using Conference on Intelligent Robots and Systems.Edmonton, the competitive K-means clustering[C]//IEEE Conference Canada,2005:1690-1696. on Emerging Technologies and Factory Automation. [30]NAKADAI K,NAKAJIMA H,MURASE M,et al.Robust Bilbao,Spain,2010:1-7. tracking of multiple sound sources by spatial integration of [19]HAHN W R.Optimum signal processing for passive sonar room and robot microphone arrays[C]//IEEE International range and bearing estimation[J].Journal of Acoustical So- Conference on Acoustics,Speech,and Signal Processing. ciety of America,1975,58(1):201-207. Toulouse,France,2006:929-932. [20]CARTER G.Variance bounds for passively locating an [31]SASAKI Y,KAGAMI S,MIZOGUCHI H.Multiple sound acoustic source with a symmetric line array[].Joural of source mapping for a mobile robot by self-motion triangula- Acoustical Society of America,1977,62(4):922-926. tion[C]//IEEE/RSJ International Conference on Intelli- 21]RAMOS LL,HOLM S,GUDYANGEN S,et al.Delay- gent Robots and Systems.Beijing,China,2006:380- and-sum beamforming for direction of arrival estimation ap- 385