第15卷第1期 智能系统学报 Vol.15 No.1 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 D0L:10.11992tis.201908015 基于视一触跨模态感知的智能导盲系统 朱文霖,刘华平2,王博文',孙富春 (1.河北工业大学省部共建电工装备可靠性与智能化国家重点实验室,天津300130,2.清华大学智能技术与 系统国家重点实验室,北京100084) 摘要:盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物,很少 有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求,本文提出了一种可以提供触 觉反馈的盲人辅助地面识别智能导盲杖系统。试图利用深度生成对抗训练的方法来产生振动触觉刺激,使用 改进的DiscoGAN训练了我们的端到端生成网络。为了训练我们的网络,构建了视触跨模态数据集GroVib。 通过上机实验和实物实验来评估方案的可行性,通过上机实验结果表明参与者通过触觉识别地面的准确率为 84.7%,触觉的平均真实感受得分为71.3,在真实场景实验中,参与者只需平均3.35次尝试就可以根据触觉反馈 来识别地面。 关键词:盲人用户;电子手杖:跨模态技术;触觉:数据集;深度学习;计算机视觉;生成对抗网络 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2020)01-0033-08 中文引用格式:朱文霖,刘华平,王博文,等.基于视-触跨模态感知的智能导盲系统.智能系统学报,2020,15(1):33-40. 英文引用格式:ZHU Wenlin,LIU Huaping,WANG Bowen,etal.An intelligent blind guidance system based on visual-touch cross- modal perception[J].CAAI transactions on intelligent systems,2020,15(1):33-40. An intelligent blind guidance system based on visual-touch cross-modal perception ZHU Wenlin',LIU Huaping,WANG Bowen',SUN Fuchun? (1.State Key Laboratory of Reliability and Intelligence of Electrical Equipment,Hebei University of Technology,Tianjin 300130, China;2.State Key Lab.of Intelligent Technology and Systems,Tsinghua University,Beijing 100084,China) Abstract:Blind mobility aid is a primary part of the daily life for blind people.Most of these technologies are used to help them navigate and avoid obstacles,and few researches have been done to convert ground information into tactile sensation that gives the user an intuitive feeling.To meet the above requirements,we proposed an intelligent guided rod system,which can provide tactile feedback to assist the blind to recognize ground information.We attempted to gener- ate the vibrotactile stimuli leveraging the power of deep generative adversarial training.Specifically,we used an im- proved DiscoGAN training an end-to-end generated network.To train the network,we also built GroVib,a visual touch cross-modal dataset.We set up computer experiments and physical experiments to evaluate the feasibility of the scheme. The results of computer experiments showed that the accuracy rate of the participants in recognizing the ground by tact- ile sense was 84.7%,and the average real feeling score of tactile sense was 71.3.In real scene experiments,the parti- cipants needed only 3.25 times of attempts on average to recognize the ground based on tactile feedback. Keywords:blind users;electronic cane;cross-modal technology;touch;data set;deep learning;computer vision; GANs 收稿日期:2019-08-21. 视力障得是困扰人们的最严重的问题之一。 基金项目:国家自然科学基金重点项目(U1613212):河北省自 根据WHO的报告称80%的眼睛疾病是可以预 然科学基金项目(E2017202035). 通信作者:刘华平.E-mail:hpliu@tsinghua.edu.cn 防甚至治愈的,但失明仍然是一个严重的世界性
DOI: 10.11992/tis.201908015 基于视−触跨模态感知的智能导盲系统 朱文霖1 ,刘华平2 ,王博文1 ,孙富春2 (1. 河北工业大学 省部共建电工装备可靠性与智能化国家重点实验室,天津 300130; 2. 清华大学 智能技术与 系统国家重点实验室,北京 100084) 摘 要:盲人活动援助是盲人日常生活的重要组成部分。这些技术大多用于帮助盲人导航和躲避障碍物,很少 有研究将地面信息转换成一种给用户直观感受的触觉信息。为了满足上述需求,本文提出了一种可以提供触 觉反馈的盲人辅助地面识别智能导盲杖系统。试图利用深度生成对抗训练的方法来产生振动触觉刺激,使用 改进的 DiscoGAN 训练了我们的端到端生成网络。为了训练我们的网络,构建了视触跨模态数据集 GroVib。 通过上机实验和实物实验来评估方案的可行性,通过上机实验结果表明参与者通过触觉识别地面的准确率为 84.7%,触觉的平均真实感受得分为 71.3,在真实场景实验中,参与者只需平均 3.35 次尝试就可以根据触觉反馈 来识别地面。 关键词:盲人用户;电子手杖;跨模态技术;触觉;数据集;深度学习;计算机视觉;生成对抗网络 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2020)01−0033−08 中文引用格式:朱文霖, 刘华平, 王博文, 等. 基于视−触跨模态感知的智能导盲系统 [J]. 智能系统学报, 2020, 15(1): 33–40. 英文引用格式:ZHU Wenlin, LIU Huaping, WANG Bowen, et al. An intelligent blind guidance system based on visual-touch crossmodal perception[J]. CAAI transactions on intelligent systems, 2020, 15(1): 33–40. An intelligent blind guidance system based on visual-touch cross-modal perception ZHU Wenlin1 ,LIU Huaping2 ,WANG Bowen1 ,SUN Fuchun2 (1. State Key Laboratory of Reliability and Intelligence of Electrical Equipment, Hebei University of Technology, Tianjin 300130, China; 2. State Key Lab. of Intelligent Technology and Systems, Tsinghua University, Beijing 100084, China) Abstract: Blind mobility aid is a primary part of the daily life for blind people. Most of these technologies are used to help them navigate and avoid obstacles, and few researches have been done to convert ground information into tactile sensation that gives the user an intuitive feeling. To meet the above requirements, we proposed an intelligent guided rod system, which can provide tactile feedback to assist the blind to recognize ground information. We attempted to generate the vibrotactile stimuli leveraging the power of deep generative adversarial training. Specifically, we used an improved DiscoGAN training an end-to-end generated network. To train the network, we also built GroVib, a visual touch cross-modal dataset. We set up computer experiments and physical experiments to evaluate the feasibility of the scheme. The results of computer experiments showed that the accuracy rate of the participants in recognizing the ground by tactile sense was 84.7%, and the average real feeling score of tactile sense was 71.3. In real scene experiments, the participants needed only 3.25 times of attempts on average to recognize the ground based on tactile feedback. Keywords: blind users; electronic cane; cross-modal technology; touch; data set; deep learning; computer vision; GANs 视力障碍是困扰人们的最严重的问题之一。 根据 WHO[1] 的报告称 80% 的眼睛疾病是可以预 防甚至治愈的,但失明仍然是一个严重的世界性 收稿日期:2019−08−21. 基金项目:国家自然科学基金重点项目 (U1613212);河北省自 然科学基金项目 (E2017202035). 通信作者:刘华平. E-mail:hpliu@tsinghua.edu.cn. 第 15 卷第 1 期 智 能 系 统 学 报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020
·34· 智能系统学报 第15卷 问题。除了努力在医学、神经科学和生物技术方 1相关工作 面为这些问题找到最终的解决方案外,科学技术 还可以通过提供基本功能(如独立导航和感知周 盲人辅助技术在过去的十几年中得到了突飞 围环境的能力)来为这些人提供帮助。 猛进的发展。研究结果主要针对导航辅助和识别 虽然目前的盲人辅助技术提供了一些先进 辅助两个方面。文献[5-6]设计了一款可穿戴智 的方案来解决盲人的行动指导或识别问题,但大 能服装原型,传感器探测所关注的区域,并提供 部分工作对于使用者的反馈集中在语音告知或 导航提示。文献[7)]为盲人提供了一种基于超声 提供简单的定向引导振动。然而,触觉对视障患 波的导航辅助设备,使盲人能够通过安装在肩膀 者来说是一种非常敏感的感知方式。将触觉信 上的超声波传感器和一根导盲杖在前方6内探 号引入盲人辅助中,可以使盲人用户更加直观地 索路线。针对盲人的纸币识别已经在文献[8]中 辨别地面环境,丰富盲人感知现实世界的方式, 得到了解决,其中使用了加速鲁棒特性(SURF)。 对于构建残疾人友好社会具有重要的应用价 文献[9]处理了一个超市购物场景。在这项工作 值。目前仍然缺乏从环境信息中产生触觉振动 中,射频识别(RFD)被用作定位和导航的手段, 的解决方案。 而产品识别则是通过便携式相机读取二维码来实 触觉振动反馈可以使人类通过工具与物体表 现的。产品条形码的检测和读取也在文献[10]中 面的相互作用来感知纹理的属性。为了给人类提 被解决。文献[11]提出了一种基于便携式摄像机 供这样的响应,触觉振动模型的研究已经开展了 的公交线路号码检测系统的设计方案。文献[12] 很长时间。遗憾的是,目前还没有基于工具状态 提出了室内楼梯检测方案。文献[13]提出了一个 和表面状态交互产生振动触觉响应的模型。这样 通过内置的盲文脚本为盲人阅读电子书提供便利 的模型需要学习大量复杂的输入域和输出域空间 的设备。文献[14]认为服装颜色以及模式识别是 映射:输入为工具状态(如工具速度),纹理表面状 促进盲人识别能力的一种手段。文献[15]提出了 态(如地面纹理属性),输出为振动触觉信号。并 利用光学字符识别功能来识别文本,提供语音反 且传统的振动信号生成模型只支持单一类型信号 馈的辅助文本阅读系统。 的输出。而这样的模型是无法满足现实生活中多 2系统设计 种多样地面类别的需求的。 最近,从任一高维分布中生成新样本的生成 触觉再现装置通常是通过各种方法来刺激皮 方法得到了广泛的应用。具体地说,生成对抗网 肤的设备,如空气波纹管、微针阵列、直流电脉冲 络(GAN)在合成真实世界图像方面显示出了出 器和功能性神经肌肉刺激器等。本文的触觉输出 色的能力。之前的研究表明,GANs可以有效地 模块是一种音频振动器,属于电励磁产生的振动 生成标签)、文本等条件下的图像。尽管这些 装置。其优点是采用电机作为执行机构,可以获 结果非常的出色,但很少有研究使用GANs来建 得任意方向的扭矩,响应速度相对较快,对不同 模时间序列数据分布。 频率的输人信号非常敏感。该装置可以模拟原始 现代深度学习技术对于图像特征的提取和 触觉信号采集的工具交互状态(如加速度等),这 高纬分布的拟合是非常依赖数据集的。现有的 是选择该装置作为触觉输出的主要原因。 大多数公共数据集集中在体现视觉单一模态图 处理器本文选取了华为公司生产的Hikey970 像的差异性中。触觉和视觉属于两种模态的信 智能芯片,它是华为第三代开发板,具有更强的 息,目前尚未有直接可用的视触跨模态图像数 计算能力、更丰富的硬件接口,支持主流操作系 据集。 统和人工智能模块。HiKey970集成了华为创新 本文的主要贡献有3个方面: 设计的HAI框架,以及其他主流的神经网络框 1)介绍了盲人辅助设备的发展在此基础上, 架,不但支持CPU、GPU的AI运算,还支持基于 设计了一种面向视障人群的触觉反馈智能导盲杖 NPU的神经网络计算硬件加速,能效和性能分别 装置。 可达CPU运算的50倍、25倍。本文将它烧录为 2)设计了一种基于GAN的端(地面信息)到 Debian系统并在上面运行Tensorflow框架下的深 端(振动反馈)的生成网络结构。 度学习网络。摄像机选用一款拥有200万像素的 3)构建了基于地面图像和振动信息的跨模态 USB摄像头模块,该款相机支持逆光拍摄且拍摄 数据集(GroVib)。 广角无畸变。处理器的音频输出功率相对较低
问题。除了努力在医学、神经科学和生物技术方 面为这些问题找到最终的解决方案外,科学技术 还可以通过提供基本功能 (如独立导航和感知周 围环境的能力) 来为这些人提供帮助。 虽然目前的盲人辅助技术提供了一些先进 的方案来解决盲人的行动指导或识别问题,但大 部分工作对于使用者的反馈集中在语音告知或 提供简单的定向引导振动。然而,触觉对视障患 者来说是一种非常敏感的感知方式。将触觉信 号引入盲人辅助中,可以使盲人用户更加直观地 辨别地面环境,丰富盲人感知现实世界的方式, 对于构建残疾人友好社会具有重要的应用价 值。目前仍然缺乏从环境信息中产生触觉振动 的解决方案。 触觉振动反馈可以使人类通过工具与物体表 面的相互作用来感知纹理的属性。为了给人类提 供这样的响应,触觉振动模型的研究已经开展了 很长时间。遗憾的是,目前还没有基于工具状态 和表面状态交互产生振动触觉响应的模型。这样 的模型需要学习大量复杂的输入域和输出域空间 映射:输入为工具状态 (如工具速度),纹理表面状 态 (如地面纹理属性),输出为振动触觉信号。并 且传统的振动信号生成模型只支持单一类型信号 的输出。而这样的模型是无法满足现实生活中多 种多样地面类别的需求的。 最近,从任一高维分布中生成新样本的生成 方法得到了广泛的应用。具体地说,生成对抗网 络 (GAN)[2] 在合成真实世界图像方面显示出了出 色的能力。之前的研究表明,GANs 可以有效地 生成标签[3] 、文本[4] 等条件下的图像。尽管这些 结果非常的出色,但很少有研究使用 GANs 来建 模时间序列数据分布。 现代深度学习技术对于图像特征的提取和 高纬分布的拟合是非常依赖数据集的。现有的 大多数公共数据集集中在体现视觉单一模态图 像的差异性中。触觉和视觉属于两种模态的信 息,目前尚未有直接可用的视触跨模态图像数 据集。 本文的主要贡献有 3 个方面: 1) 介绍了盲人辅助设备的发展在此基础上, 设计了一种面向视障人群的触觉反馈智能导盲杖 装置。 2) 设计了一种基于 GAN 的端 (地面信息) 到 端 (振动反馈) 的生成网络结构。 3) 构建了基于地面图像和振动信息的跨模态 数据集 (GroVib)。 1 相关工作 盲人辅助技术在过去的十几年中得到了突飞 猛进的发展。研究结果主要针对导航辅助和识别 辅助两个方面。文献 [5-6] 设计了一款可穿戴智 能服装原型,传感器探测所关注的区域,并提供 导航提示。文献 [7] 为盲人提供了一种基于超声 波的导航辅助设备,使盲人能够通过安装在肩膀 上的超声波传感器和一根导盲杖在前方 6 m 内探 索路线。针对盲人的纸币识别已经在文献 [8] 中 得到了解决,其中使用了加速鲁棒特性 (SURF)。 文献 [9] 处理了一个超市购物场景。在这项工作 中,射频识别 (RFID) 被用作定位和导航的手段, 而产品识别则是通过便携式相机读取二维码来实 现的。产品条形码的检测和读取也在文献 [10] 中 被解决。文献 [11] 提出了一种基于便携式摄像机 的公交线路号码检测系统的设计方案。文献 [12] 提出了室内楼梯检测方案。文献 [13] 提出了一个 通过内置的盲文脚本为盲人阅读电子书提供便利 的设备。文献 [14] 认为服装颜色以及模式识别是 促进盲人识别能力的一种手段。文献 [15] 提出了 利用光学字符识别功能来识别文本,提供语音反 馈的辅助文本阅读系统。 2 系统设计 触觉再现装置通常是通过各种方法来刺激皮 肤的设备,如空气波纹管、微针阵列、直流电脉冲 器和功能性神经肌肉刺激器等。本文的触觉输出 模块是一种音频振动器,属于电励磁产生的振动 装置。其优点是采用电机作为执行机构,可以获 得任意方向的扭矩,响应速度相对较快,对不同 频率的输入信号非常敏感。该装置可以模拟原始 触觉信号采集的工具交互状态 (如加速度等),这 是选择该装置作为触觉输出的主要原因。 处理器本文选取了华为公司生产的 Hikey970 智能芯片,它是华为第三代开发板,具有更强的 计算能力、更丰富的硬件接口,支持主流操作系 统和人工智能模块。HiKey970 集成了华为创新 设计的 HiAI 框架,以及其他主流的神经网络框 架,不但支持 CPU、GPU 的 AI 运算,还支持基于 NPU 的神经网络计算硬件加速,能效和性能分别 可达 CPU 运算的 50 倍、25 倍。本文将它烧录为 Debian 系统并在上面运行 Tensorflow 框架下的深 度学习网络。摄像机选用一款拥有 200 万像素的 USB 摄像头模块,该款相机支持逆光拍摄且拍摄 广角无畸变。处理器的音频输出功率相对较低, ·34· 智 能 系 统 学 报 第 15 卷
第1期 朱文霖,等:基于视-触跨模态感知的智能导盲系统 ·35· 不足以驱动振动模块,因此选取了LEPY公司生 了跨域生成对抗网络作为该方法的基本组成部 产的LP-2020A型号的功率放大器将声波信号进 分。并在此基础上建立了一个端到端完整的生成 行放大。功率放大器以及为整个系统提供电能的 网络。 移动电源均放置在用户的背包中。振动块,处理 3.1原始GAN 器,相机以及控制按钮都集成在设计的3D打印 GAN是一种在无监督情况下生成逼真图像 的导盲杖中。模型的整体结构展示如图1所示, 的有效方法。GAN利用生成网络G将一个潜在 图2展示了该设备的使用流程。 的噪声变量z~Pe转换为一个伪图像样本G()。 原始的GAN使用最小-最大博弈策略来训练生成 器G,并使用另一个网络D来区分G)和真实样 振动器 本。形式上,GAN的目标可以表示为 控制按钮 摄像机 minmax L(D.G)=E [logD(x)]+ Ep [log(1-D(G()))] 处理器 式中,鉴别器D试图最大化真实样本输出的置信 度得分。同时,它也最小化了G生成的伪样本输 出的置信度得分。相比之下,G的目标是最大化 D对其输出的评价得分,这可以看作是对D的一 种欺骗。 3.2基于DiscoGAN的图像翻译 我们的任务是将地面图像域A转换为频谱 图1系统原型 图像域B。解决这个问题最流行的方法是P2P9 Fig.1 The prototype of the proposed system CycleGAN2O和DiscoGAN2。其中Pix2Pix结合 按压 GAN损失和L1正则化损失,提出了一种新的图 控制按钮 摄像机拍摄图像 像生成方法。然而,这种方法需要一组配对的 传输 图像来监督。文献20-21]提出了无监督图像到 处理器 图像的生成方法以克服这一局限性。在这些方 生成 法中,每个域都有一对生成器和鉴别器。对于 振动信号 给定的域A到B,GAB和GBA将图像从A传输到 传输 B(或B到A),同时鉴别器D4和Ds判断样本是否 接触 振动器 人类感知触感 属于该域。CycleGAN和DiscoGAN都提出了一 个循环框架,将图像从A域转换为B域,然后再 图2使用流程 将其转换回原域,从而在两个域之间建立强映 Fig.2 Gray scale image of sensor 射。为此,这些方法的损失函数在这两个域之 间有一个对抗性损失和一个循环(重建)损失, 3系统实现 定义如下: 该系统的主要目标是自动生成可以反应目标 L(AB)=E [log(D (b))]+ 地面特征的频谱图。在计算机视觉和机器学习领 E[log(1-D (GAB (a)))]+ 域,这个问题可以看作图像到图像的翻译问题。 Ea[llGBA (GAB(a))-all2] 文献[18]提出了一种识别输入图像类别,然后输 L(B→A)=Ea[log(D.(a]+ 出相应类别信息的方法。然而,这种方法将图像 分类为类别标签,会丢失很多高纬度特征信息, E [log(1-D(GBA (b)))]+ 因此本文需要更直接的解决方案。 E [llGAB(GBA(b))-bll2] GAN是一种用于样式转换以及图像自动生 在本工作中,由于CycleGAN有一个不适合 成的方法。特别的,基于GAN的方法可以用于 我们问题的特点,即它试图保留原始图像域的轮 在相同域或是跨域样式转换的生成。为了在不受 廓,所以本文的方案最终采用了DiscoGAN。图3 用户干扰的情况下将地面图像转换成频谱,采用 展示了系统的整体框架
不足以驱动振动模块,因此选取了 LEPY 公司生 产的 LP-2020A 型号的功率放大器将声波信号进 行放大。功率放大器以及为整个系统提供电能的 移动电源均放置在用户的背包中。振动块,处理 器,相机以及控制按钮都集成在设计的 3D 打印 的导盲杖中。模型的整体结构展示如图 1 所示, 图 2 展示了该设备的使用流程。 振动器 控制按钮 摄像机 处理器 图 1 系统原型 Fig. 1 The prototype of the proposed system 控制按钮 摄像机拍摄图像 处理器 振动信号 振动器 人类感知触感 接触 传输 传输 按压 生成 图 2 使用流程 Fig. 2 Gray scale image of sensor 3 系统实现 该系统的主要目标是自动生成可以反应目标 地面特征的频谱图。在计算机视觉和机器学习领 域,这个问题可以看作图像到图像的翻译问题。 文献 [18] 提出了一种识别输入图像类别,然后输 出相应类别信息的方法。然而,这种方法将图像 分类为类别标签,会丢失很多高纬度特征信息, 因此本文需要更直接的解决方案。 GAN 是一种用于样式转换以及图像自动生 成的方法。特别的,基于 GAN 的方法可以用于 在相同域或是跨域样式转换的生成。为了在不受 用户干扰的情况下将地面图像转换成频谱,采用 了跨域生成对抗网络作为该方法的基本组成部 分。并在此基础上建立了一个端到端完整的生成 网络。 3.1 原始 GAN GAN 是一种在无监督情况下生成逼真图像 的有效方法。GAN 利用生成网络 G 将一个潜在 的噪声变量 z~Pnoise 转换为一个伪图像样本 G(z)。 原始的 GAN 使用最小−最大博弈策略来训练生成 器 G,并使用另一个网络 D 来区分 G(z) 和真实样 本。形式上,GAN 的目标可以表示为 min G max D L(D,G) = Ex∼Pdata(x) [ logD(x) ] + Ez∼Pnoise [ log(1− D(G(z)))] 式中,鉴别器 D 试图最大化真实样本输出的置信 度得分。同时,它也最小化了 G 生成的伪样本输 出的置信度得分。相比之下,G 的目标是最大化 D 对其输出的评价得分,这可以看作是对 D 的一 种欺骗。 3.2 基于 DiscoGAN 的图像翻译 我们的任务是将地面图像域 A 转换为频谱 图像域 B。解决这个问题最流行的方法是 Pix2Pix[19] 、 CycleGAN[20] 和 DiscoGAN[21]。其中 Pix2Pix 结合 GAN 损失和 L1 正则化损失,提出了一种新的图 像生成方法。然而,这种方法需要一组配对的 图像来监督。文献 [20-21] 提出了无监督图像到 图像的生成方法以克服这一局限性。在这些方 法中,每个域都有一对生成器和鉴别器。对于 给定的域 A 到 B, GAB 和 GBA 将图像从 A 传输到 B(或 B 到 A),同时鉴别器 DA 和 DB 判断样本是否 属于该域。CycleGAN 和 DiscoGAN 都提出了一 个循环框架,将图像从 A 域转换为 B 域,然后再 将其转换回原域,从而在两个域之间建立强映 射。为此,这些方法的损失函数在这两个域之 间有一个对抗性损失和一个循环 (重建) 损失, 定义如下: L(A → B) = Eb [ log(Db (b))] + Ea [ log(1− Db (GAB (a)))] + Ea [∥GBA (GAB (a))−a∥2 ] L(B → A) = Ea [ log(Da (a))] + Eb [ log(1− Da (GBA (b)))] + Eb [∥GAB (GBA (b))−b∥ 2] 在本工作中,由于 CycleGAN 有一个不适合 我们问题的特点,即它试图保留原始图像域的轮 廓,所以本文的方案最终采用了 DiscoGAN。图 3 展示了系统的整体框架。 第 1 期 朱文霖,等:基于视−触跨模态感知的智能导盲系统 ·35·
·36· 智能系统学报 第15卷 转换成频谱图,最后,利用Griffin-Lim算法2 将生成的谱图转换为声波格式。然后通过放大器 其Da 和振动器将波形数据传输给用户。图5给出了 假?A 6种场景振动信号波形的差异。 假?A 格里芬算法 振动信号 地面图片 图3结构框架 Fig.3 The framework of our proposed structure. 功率 振动块 3.3端到端生成网络 放大器 图4对数据流进行了逐级描述。当输入地面 图4端到端生成模型 图像时,它将通过训练好的生成网络G。G将它 Fig.4 The end-to-end Generate model 1.00 0.75 01 0.75 0.50 0.50 0.25 0 0.25 0.00 5 0.00 -0.25 0 -0.25 0.50 -0.50 04 -0.75 -0.75 -1.00 -1.00 0 50001000015000 50001000015000 50001000015000 频率Hz 频率Hz 频率Hz (a)柏油路 (b)户外石板路 (c)室内大理石 0.75 1.00 1.00 0.50 0.75 0.75 0.25 0.50 0.50 0.00 0.25 0.25 0.25 0.00 0.00 -025 -0.25 -0.50 -0.50 -0.50 www 0.75 -0.75 -0.75 -1.00 -1.00 -1.00 500010000 15000 0 500010000 15000 0 50001000015000 频率/Hz 频率Hz 频率Hz (d木地板 (e)橡胶跑道 (①草地 图5振动信号的波形展示 Fig.5 Tactile Signal Waveform Display 4 GroVib数据集 速度时间序列信号转换为图像。 GroVib数据集由6种常见地面类型组成:柏 视觉和触觉是人类两种重要的感知方式,它 油路、户外石板路、室内大理石、木地板、橡胶跑 们之间有着很强的联系,盲人可以通过触觉感知 道和草地。 来弥补视觉的缺失。因此,构建了一个视触交叉 41地面图像 模态数据集Gro Vib(ground-vibration)作为深度学 数据集中的地面照片是通过智能手机(小米 习网络训练的基础。 8)进行拍摄的,拍摄的高度与导盲杖中相机所处 视觉图像易于捕捉,所包含的信息也很明 位置相当(距地面约80cm)。为了保证模型可以 显。但振动信息无法直观地描述。当工具敲击或 全天候的使用,对高光照强度和昏暗条件下都进 在物体表面拖动时,会产生振动,振动可以通过 行了数据的采集,两种光强下对每一种地面各拍 加速度传感器捕捉到,相应的表面信号代表了物 摄了100张照片,因此GroVib数据集中有1200 体表面的特征2。为了便于处理这些数据,将加 张地面图像
DA DB GAB GBA GBA GAB b a a ^ b ^ A ^ B ^ 真/ 假? 真/ 假? 图 3 结构框架 Fig. 3 The framework of our proposed structure. 3.3 端到端生成网络 图 4 对数据流进行了逐级描述。当输入地面 图像时,它将通过训练好的生成网络 G。G 将它 转换成频谱图,最后,利用 Griffin-Lim 算法[ 2 2 ] 将生成的谱图转换为声波格式。然后通过放大器 和振动器将波形数据传输给用户。图 5 给出了 6 种场景振动信号波形的差异。 地面图片 频谱 振动信号 功率 放大器 振动块 格里芬算法 G 图 4 端到端生成模型 Fig. 4 The end-to-end Generate model 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 0 5 0 5 0 5 0 5 0 0 5 000 10 000 15 000 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 1.00 0.75 0.50 0.25 0.00 −0.25 −0.50 −0.75 −1.00 0 5 000 10 000 15 000 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地 加速度/(m·s−2) 频率/Hz 频率/Hz 频率/Hz 频率/Hz 频率/Hz 频率/Hz 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 加速度/(m·s−2) 图 5 振动信号的波形展示 Fig. 5 Tactile Signal Waveform Display 4 GroVib 数据集 视觉和触觉是人类两种重要的感知方式,它 们之间有着很强的联系,盲人可以通过触觉感知 来弥补视觉的缺失。因此,构建了一个视触交叉 模态数据集 GroVib(ground-vibration) 作为深度学 习网络训练的基础。 视觉图像易于捕捉,所包含的信息也很明 显。但振动信息无法直观地描述。当工具敲击或 在物体表面拖动时,会产生振动,振动可以通过 加速度传感器捕捉到,相应的表面信号代表了物 体表面的特征[23]。为了便于处理这些数据,将加 速度时间序列信号转换为图像。 GroVib 数据集由 6 种常见地面类型组成:柏 油路、户外石板路、室内大理石、木地板、橡胶跑 道和草地。 4.1 地面图像 数据集中的地面照片是通过智能手机 (小米 8) 进行拍摄的,拍摄的高度与导盲杖中相机所处 位置相当 (距地面约 80 cm)。为了保证模型可以 全天候的使用,对高光照强度和昏暗条件下都进 行了数据的采集,两种光强下对每一种地面各拍 摄了 100 张照片,因此 GroVib 数据集中有 1 200 张地面图像。 ·36· 智 能 系 统 学 报 第 15 卷
第1期 朱文霖,等:基于视-触跨模态感知的智能导盲系统 ·37· 现代智能手机的拍照质量越来越高,而我们 的频域内的信息。最后裁剪了频谱图,把它们调 的任务并不需要使用如此高分辨率的图片来完 整成到256×256的大小。短时傅里叶变换的具体 成,所以需要将收集到的图片统一到一个较小的 参数如表1所示。生成的频谱样式如图7所示。 尺寸。我们裁剪了1200张图片,并将它们调整 表1STFT的参数 为256×256的大小。图像的缩小不建议简单地缩 Table 1 STFT parameters 小尺寸,这样会造成严重的失真。因此,使用 参数名称 参数数值 TensorFlow中提供的面积插值方法对图像进行 Fs 10000 缩放。地面图像实例如图6所示。 重叠 128 时间s 1.625 汉明窗 512 nfft 512 (a)柏油路 (b)户外石板路 (c)室内大理石 频率范围/Hz 0-256 (d)木地板 (e)橡胶跑道 ()草地 图6地面图像实例 (a)柏油路 (b)户外石板路 (c)室内大理石 Fig.6 Gray scale image of sensor 4.2振动图像 在本文的模型中,加速度信号被用作振动触 觉刺激。加速度信号参考了公开数据集LMT lO8-Surface Materials-.DatabaseR中的结果,该数据 (d)木地板 (e)橡胶跑道 ()草地 集包含了各种类型的纹理图像和相应工具产生的 图7频谱图像实例 用于滑动任务的加速度信号。每种类型有20组 Fig.7 Gray scale image of sensor 加速度信号样本,每组包含X、Y、Z等3个时间序 5 列的信号。这些信号和图像均用108个类标签进 生成结果 行了标注。 5.1 实验装置 从108类中,选择6个小类对应于设置的地面 我们的模型是使用一台配备英特尔酷睿7 类型:G2 Brick对应柏油路,G2 Stone Tile Version2 875 OH CPU、16 GB DDR4RAM和NVidia Geforce 对应户外石板路,G2 Marble对应室内大理石, GTX1080Ti的台式电脑完成的。 G4 CherryTree对应木地板,G5 ProfiledRubber-. 5.2数据预处理 Plate对应橡胶跑道,G6 FineArtificialGrassFibers对 虽然本文GroVib数据集对于每一类地面都 应草地。 有200张照片,但是对于训练一个神经网络来说 目前,很少有研究使用GANs生成时间序列 仍然是不够的,所以在训练模型时遵循数据增强 数据。这是因为GANs虽然擅长生成二维图像, 设置。将每张图像进行水平和垂直翻转,以及随 但在生成时间序列数据方面却很差。因此,选择 机旋转它们的角度,除了传统方法外,还使用随 频谱图作为加速度信号的表示。原始数据库中每 机擦除和混合技术。将每个类别的地面数据扩展 个信号有4s长,采样率为10kHz。本文使用短 到1000个,因此总共有6000个大小为256×256 时傅里叶变换(STFT)完成信号的转换步骤。 的地面图像。而频谱图不能用于数据增强,因为 ST℉T用于确定时变信号局部区域正弦波的频率 它们代表了振动信号的时间序列特征和振幅强 和相位,其处理的信号具有时域和频域的局域特 度,类似的处理方法会严重影响隐藏信息。本文 性。在这一步中,对变换的结果进行对数运算和 对地面图像和频谱图都进行了标注,这样在训练 归一化运算,并且提取0~1.625s,频率在0-256Hz 模型时可以根据类别信息选择相应的数据
现代智能手机的拍照质量越来越高,而我们 的任务并不需要使用如此高分辨率的图片来完 成,所以需要将收集到的图片统一到一个较小的 尺寸。我们裁剪了 1 200 张图片,并将它们调整 为 256×256 的大小。图像的缩小不建议简单地缩 小尺寸,这样会造成严重的失真。因此,使用 TensorFlow 中提供的面积插值方法对图像进行 缩放。地面图像实例如图 6 所示。 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地 图 6 地面图像实例 Fig. 6 Gray scale image of sensor 4.2 振动图像 在本文的模型中,加速度信号被用作振动触 觉刺激。加速度信号参考了公开数据集 LMT- 108-Surface Materials-Database[24] 中的结果,该数据 集包含了各种类型的纹理图像和相应工具产生的 用于滑动任务的加速度信号。每种类型有 20 组 加速度信号样本,每组包含 X、Y、Z 等 3 个时间序 列的信号。这些信号和图像均用 108 个类标签进 行了标注。 从 108 类中,选择 6 个小类对应于设置的地面 类型: G2Brick 对应柏油路, G2StoneTileVersion2 对应户外石板路, G2Marble 对应室内大理石, G4CherryTree 对应木地板, G5ProfiledRubberPlate 对应橡胶跑道, G6FineArtificialGrassFibers 对 应草地。 目前,很少有研究使用 GANs 生成时间序列 数据。这是因为 GANs 虽然擅长生成二维图像, 但在生成时间序列数据方面却很差。因此,选择 频谱图作为加速度信号的表示。原始数据库中每 个信号有 4 s 长,采样率为 10 kHz。本文使用短 时傅里叶变换 (STFT) 完成信号的转换步骤。 STFT 用于确定时变信号局部区域正弦波的频率 和相位,其处理的信号具有时域和频域的局域特 性。在这一步中,对变换的结果进行对数运算和 归一化运算,并且提取 0~1.625 s,频率在 0~256 Hz 的频域内的信息。最后裁剪了频谱图,把它们调 整成到 256×256 的大小。短时傅里叶变换的具体 参数如表 1 所示。生成的频谱样式如图 7 所示。 表 1 STFT 的参数 Table 1 STFT parameters 参数名称 参数数值 Fs 10 000 重叠 128 时间/s 1.625 汉明窗 512 nfft 512 频率范围/ Hz 0~256 (a) 柏油路 (b) 户外石板路 (c) 室内大理石 (d) 木地板 (e) 橡胶跑道 (f) 草地 图 7 频谱图像实例 Fig. 7 Gray scale image of sensor 5 生成结果 5.1 实验装置 我们的模型是使用一台配备英特尔酷睿 i7- 8750H CPU、16 GB DDR4 RAM 和 NVidia Geforce GTX 1080 Ti 的台式电脑完成的。 5.2 数据预处理 虽然本文 GroVib 数据集对于每一类地面都 有 200 张照片,但是对于训练一个神经网络来说 仍然是不够的,所以在训练模型时遵循数据增强 设置。将每张图像进行水平和垂直翻转,以及随 机旋转它们的角度,除了传统方法外,还使用随 机擦除和混合技术。将每个类别的地面数据扩展 到 1 000 个,因此总共有 6 000 个大小为 256×256 的地面图像。而频谱图不能用于数据增强,因为 它们代表了振动信号的时间序列特征和振幅强 度,类似的处理方法会严重影响隐藏信息。本文 对地面图像和频谱图都进行了标注,这样在训练 模型时可以根据类别信息选择相应的数据。 第 1 期 朱文霖,等:基于视−触跨模态感知的智能导盲系统 ·37·
·38 智能系统学报 第15卷 5.3 生成结果 绪状态的影响。 从实验结果图8可以看出,本文方法可以根 6.1振动结果感受实验 据地面图像的输入生成相应类别的频谱图,生成 产生具有强烈真实感的振动信号对提高用户 效果可以既保证良好的多样性,同时又不失很强 体验具有重要意义。在测试过程中,受试者被蒙 的相似性。从不同轮次生成的结果可以看出, 住眼睛,用惯用手握住导盲杖的把手部分(图9)。 10个轮次之后生成的图像与真实的频谱已经具 研究人员在测试界面上选择信号的类别以及是真 有一定的相似性,但细节模糊,粒度感较强。经 实还是生成的数据类型。在产生振动之后,参与 过200个轮次的训练,生成结果有较高的清晰度, 者将回答3个问题:他们感觉到的是什么类别的 经过400个轮次的训练,生成的频谱与真实数据 触感,这种振动是真实的还是生成的。此外,他 有很高的相似性,所以在400个轮次之后停止了 们还通过视觉模拟量表(VAS)P来描述每个刺激 网络训练。 的真实度。参与者在这个测试方法的模拟尺度上 轮数: 10 200 400 真实频谱 对他们的真实感受进行评分。他们将要描述的是 “该触觉感觉有多么的真实?”参与者通过观察和 记忆实验前的一条9等分线段(图9),其中0表示 他们感觉到的振动是随机的、不真实的,10表示 振动非常接近真实的感觉。每个参与者在每个类 别中测试5个真实的振动和5个生成的振动。结 果总共记录了600个测试结果。为了防止顺序效 应,这些类别的呈现顺序被随机分配,并在参与 者之间进行平衡。 (a)室内大理石 轮数:10 200 400 真实频谱 图9实验硬件框架 Fig.9 Experimental hardware diagram (b)户外石板路 如图10所示,参与者平均识别精度为84.7%, 这些结果表明振动信号具有足够的可分辨性,用 图8不同轮次频谱生成的结果 Fig.8 The result of generated spectrograms with different 户可以识别出地面类别,证明了通过触觉感知地 epochs 面信息的可行性。图11(a)显示了正确识别是哪 个刺激产生的百分比。我们把这个值称为正确答 6用户测试 案率。如果这个值接近50%,则意味着参与者无 在实际场景中评估了所提出系统的性能。首 法区分真实数据和生成的数据。在问卷调查后, 先,测试了方法是否能够生成近乎真实的振动触 所有参与者都回答说,他们没有发现真实的刺激 觉刺激,以及用户是否能够区分出振动所属的类 和生成的刺激之间的区别。因此,可以说我们的 别。然后,进行了另一项用户研究,以评估在真 系统有潜力产生高逼真的振动触觉信号。另一方 实场景中模拟盲人用户正确识别地面信息所需尝 面,图11(b)显示了参与者对每个类别的真实感 试的次数。10名年龄在21~26岁之间的志愿者 受。我们可以直观的看出,生成的数据与真实数 (7名男性和3名女性)参与了这些研究。研究人 据的没有显著的差异,它们平均真实感得分为713, 员对他们进行了筛选,以确定他们没有抑郁,也 生成数据的平均真实感得分为大多在70分以上。 没有极度疲劳,因为他们的知觉会受到身体或情 结合这些实验结果可以看出,草地的识别精
5.3 生成结果 从实验结果图 8 可以看出,本文方法可以根 据地面图像的输入生成相应类别的频谱图,生成 效果可以既保证良好的多样性,同时又不失很强 的相似性。从不同轮次生成的结果可以看出, 10 个轮次之后生成的图像与真实的频谱已经具 有一定的相似性,但细节模糊,粒度感较强。经 过 200 个轮次的训练,生成结果有较高的清晰度, 经过 400 个轮次的训练,生成的频谱与真实数据 有很高的相似性,所以在 400 个轮次之后停止了 网络训练。 轮数: 10 200 400 真实频谱 轮数: 10 200 400 真实频谱 (a) 室内大理石 (b) 户外石板路 图 8 不同轮次频谱生成的结果 Fig. 8 The result of generated spectrograms with different epochs 6 用户测试 在实际场景中评估了所提出系统的性能。首 先,测试了方法是否能够生成近乎真实的振动触 觉刺激,以及用户是否能够区分出振动所属的类 别。然后,进行了另一项用户研究,以评估在真 实场景中模拟盲人用户正确识别地面信息所需尝 试的次数。10 名年龄在 21~26 岁之间的志愿者 (7 名男性和 3 名女性) 参与了这些研究。研究人 员对他们进行了筛选,以确定他们没有抑郁,也 没有极度疲劳,因为他们的知觉会受到身体或情 绪状态的影响。 6.1 振动结果感受实验 产生具有强烈真实感的振动信号对提高用户 体验具有重要意义。在测试过程中,受试者被蒙 住眼睛,用惯用手握住导盲杖的把手部分 (图 9)。 研究人员在测试界面上选择信号的类别以及是真 实还是生成的数据类型。在产生振动之后,参与 者将回答 3 个问题:他们感觉到的是什么类别的 触感,这种振动是真实的还是生成的。此外,他 们还通过视觉模拟量表 (VAS)[25] 来描述每个刺激 的真实度。参与者在这个测试方法的模拟尺度上 对他们的真实感受进行评分。他们将要描述的是 “该触觉感觉有多么的真实?”参与者通过观察和 记忆实验前的一条 9 等分线段 (图 9),其中 0 表示 他们感觉到的振动是随机的、不真实的,10 表示 振动非常接近真实的感觉。每个参与者在每个类 别中测试 5 个真实的振动和 5 个生成的振动。结 果总共记录了 600 个测试结果。为了防止顺序效 应,这些类别的呈现顺序被随机分配,并在参与 者之间进行平衡。 图 9 实验硬件框架 Fig. 9 Experimental hardware diagram 如图 10 所示,参与者平均识别精度为 84.7%, 这些结果表明振动信号具有足够的可分辨性,用 户可以识别出地面类别,证明了通过触觉感知地 面信息的可行性。图 11(a) 显示了正确识别是哪 个刺激产生的百分比。我们把这个值称为正确答 案率。如果这个值接近 50%,则意味着参与者无 法区分真实数据和生成的数据。在问卷调查后, 所有参与者都回答说,他们没有发现真实的刺激 和生成的刺激之间的区别。因此,可以说我们的 系统有潜力产生高逼真的振动触觉信号。另一方 面,图 11(b) 显示了参与者对每个类别的真实感 受。我们可以直观的看出,生成的数据与真实数 据的没有显著的差异,它们平均真实感得分为 71.3, 生成数据的平均真实感得分为大多在 70 分以上。 结合这些实验结果可以看出,草地的识别精 ·38· 智 能 系 统 学 报 第 15 卷
第1期 朱文霖,等:基于视-触跨模态感知的智能导盲系统 ·39· 度最高,但真实性得分却很低。反之,识别结果 杖,按下控制器拍下地面的照片,然后根据他们 处于中等水平的室外石板路获得的真实感得分最 感觉到的触觉振动回答他们的识别结果。当参与 高。因此,真实度评价值与生成数据的识别率之 者做出正确的判断时,实验结束,研究人员记录 间不存在相关性。 下他们回答的次数。真实场景仿真实验结果如 图12所示,正确识别平均所需次数为3.35次,其 柏油 户外石板路 室内大理石 木地 橡胶跑道 套地 中正确识别草地所需的尝试次数最少。这是因为 人们草的触感的分辨率最高。这一结论与前面的 柏油路83.00 实验结果是一致的。 户外石板路 85.00 柏油路 室内大理石 83.00 草地 户外石板路 木地板 80.00 橡胶跑道 85.00 草地 92.00 橡胶跑道 室内大理石 图10触觉识别结果的混淆矩阵 木地板 Fig.10 Confusion matrix of tactile recognition results 图12参与者做出正确识别所需的平均次数 柏油路 Fig.12 The average number of times participants needed 户外石板路 to make a correct recognition 室内大理石 木地板 7结束语 橡胶跑道 草地■ 本文介绍了一种为视障人士提供触觉识别辅 0 10 203040 50 60 助的导盲杖设备。为了训练模型,我们建立了一 (a)正确回答率 个跨模态数据集GroVib,将时间序列信号转换成 80 二维图像进行网络处理。本文利用GAN的思想 60 对振动信号的生成网络进行训练。实验结果表 40 20 明,用户使用我们的导盲杖系统可以仅经过3次 0 左右的尝试就可以识别出所处地面的信息,该系 户外石板路 柏油路 室内大理 木地板 橡胶跑道 草地 统可以为盲人用户带来更好的旅行体验。本文的 研究朝着更全面的盲人辅助技术迈出了重要的一步。 ■真实数据■生成数据 (b)参与者感受到的真实感评分 参考文献: 图11参与者触觉感受的结果 [1]CHOPRA S,HADSELL R,LECUN Y.Learning a similar- Fig.11 The results of the participants'tactile perception ity metric discriminatively,with application to face verific- 6.2真实使用场景模拟实验 ation[C]//2005 IEEE Computer Society Conference on 我们蒙住所有志愿者的眼晴,让他们戴上隔 Computer Vision and Pattern Recognition.San Diego, USA.2005:539-546 音耳塞,因此他们听不到环境中动态障碍物产生 [2]GOODFELLOW I J,POUGET-ABADIE J,MIRZA M,et 的噪音,比如在柏油路上行驶的汽车,这样他们 al.Generative adversarial nets[Cl/Proceedings of the 27th 就不能通过联想来判断地面。在每个场景中,参 International Conference on Neural Information Pro- 与者都有足够的活动空间,为了保证志愿者的安 cessing Systems.Cambridge,USA,2014:2672-2680. 全,每组实验的参与者都有研究人员的指导。还 [3]MIRZA M,OSINDERO S.Conditional generative ad- 有一件需要考虑的事情是,由于视觉正常的参与 versarial nets[J].arXiv:1411.1784,2014. 者被带到某个场景中会产生记忆效应,严重影响 [4]REED S,AKATA Z,YAN Xinchen,et al.Generative ad- versarial text to image synthesis[C]//Proceedings of the 测试的准确性,所以他们必须被研究人员牵引到 33rd International Conference on International Conference 个陌生的环境中再进行实验。参与者手持导盲 on Machine Learning.New York,USA,2016:1060-1069
度最高,但真实性得分却很低。反之,识别结果 处于中等水平的室外石板路获得的真实感得分最 高。因此,真实度评价值与生成数据的识别率之 间不存在相关性。 柏油路 户外石板路 室内大理石 木地板 橡胶跑道 草地 柏油路 户外石板路 室内大理石 木地板 橡胶跑道 草地 83.00 83.00 80.00 85.00 92.00 85.00 图 10 触觉识别结果的混淆矩阵 Fig. 10 Confusion matrix of tactile recognition results 柏油路 户外石板路 室内大理石 木地板 橡胶跑道 草地 0 10 20 30 40 50 60 80 60 40 20 0 柏油路 户外石板路 室内大理石 木地板 橡胶跑道 草地 真实数据 生成数据 (a) 正确回答率 (b) 参与者感受到的真实感评分 图 11 参与者触觉感受的结果 Fig. 11 The results of the participants’ tactile perception 6.2 真实使用场景模拟实验 我们蒙住所有志愿者的眼睛,让他们戴上隔 音耳塞,因此他们听不到环境中动态障碍物产生 的噪音,比如在柏油路上行驶的汽车,这样他们 就不能通过联想来判断地面。在每个场景中,参 与者都有足够的活动空间,为了保证志愿者的安 全,每组实验的参与者都有研究人员的指导。还 有一件需要考虑的事情是,由于视觉正常的参与 者被带到某个场景中会产生记忆效应,严重影响 测试的准确性,所以他们必须被研究人员牵引到 一个陌生的环境中再进行实验。参与者手持导盲 杖,按下控制器拍下地面的照片,然后根据他们 感觉到的触觉振动回答他们的识别结果。当参与 者做出正确的判断时,实验结束,研究人员记录 下他们回答的次数。真实场景仿真实验结果如 图 12 所示,正确识别平均所需次数为 3.35 次,其 中正确识别草地所需的尝试次数最少。这是因为 人们草的触感的分辨率最高。这一结论与前面的 实验结果是一致的。 柏油路 草地 橡胶跑道 木地板 室内大理石 5 4 3 2 1 0 户外石板路 图 12 参与者做出正确识别所需的平均次数 Fig. 12 The average number of times participants needed to make a correct recognition 7 结束语 本文介绍了一种为视障人士提供触觉识别辅 助的导盲杖设备。为了训练模型,我们建立了一 个跨模态数据集 GroVib,将时间序列信号转换成 二维图像进行网络处理。本文利用 GAN 的思想 对振动信号的生成网络进行训练。实验结果表 明,用户使用我们的导盲杖系统可以仅经过 3 次 左右的尝试就可以识别出所处地面的信息,该系 统可以为盲人用户带来更好的旅行体验。本文的 研究朝着更全面的盲人辅助技术迈出了重要的一步。 参考文献: CHOPRA S, HADSELL R, LECUN Y. Learning a similarity metric discriminatively, with application to face verification[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, USA, 2005:539–546 [1] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems. Cambridge, USA, 2014: 2672–2680. [2] MIRZA M, OSINDERO S. Conditional generative adversarial nets[J]. arXiv: 1411.1784, 2014. [3] REED S, AKATA Z, YAN Xinchen, et al. Generative adversarial text to image synthesis[C]//Proceedings of the 33rd International Conference on International Conference on Machine Learning. New York, USA, 2016: 1060–1069. [4] 第 1 期 朱文霖,等:基于视−触跨模态感知的智能导盲系统 ·39·
·40· 智能系统学报 第15卷 [5]BAHADIR S K,KONCAR V,KALAOGLU F.Wearable Proceedings of 2017 IEEE Conference on Computer Vis- obstacle detection system fully integrated to textile struc- ion and Pattern Recognition.Honolulu,USA,2017: tures for visually impaired people[J].Sensors and actuat- 5967-5976. orsA:physical,,2012,179:297-311. [20]ZHU Junyan,PARK T,ISOLA P,et al.Unpaired image- [6]SHIN B S,LIM C S.Obstacle detection and avoidance to-image translation using cycle-consistent adversarial system for visually impaired people[C]//Proceedings of the networks[C]//Proceedings of 2017 IEEE International 2nd International Workshop on Haptic and Audio Interac- Conference on Computer Vision.Venice,Italy,2017: tion Design.Seoul,South Korea,2007:78-85 2242-2251. [7]BOUSBIA-SALAH M.BETTAYEB M.LARBI A.A nav- [21]KIM T,CHA M,KIM H,et al.Learning to discover igation aid for blind people[J]Journal of intelligent&ro- cross-domain relations with generative adversarial networks[CV botic systems,.2011,643/4):387-400. Proceedings of the 34th International Conference on Ma- [8]HASANUZZAMAN F M,YANG Xiaodong,TIAN Yingli.Robust and effective component-based banknote chine Learning.Sydney,Australia,2017:1857-1865. recognition for the blind[J].IEEE transactions on systems, [22]GRIFFIN D,LIM J.Signal estimation from modified man,and cybernetics,part C (applications and reviews), short-time fourier transform[J].IEEE transactions on 2012,42(6:1021-1030. acoustics,speech,and signal processing,1984,32(2): [9]GUEST S,DESSIRIER J,MEHRABYAN A.The devel- 236-243. opment and validation of sensory and emotional scales of [23]UJITOKO Y,BAN Y.Vibrotactile signal generation from touch perception[J].Attention perception psychophysics, texture images or attributes using generative adversarial 2011,73(2):531-550. network[Cl//Proceedings of the 11th International Confer- [10]KIM D Y,YI K Y.A user-steered guide robot for the ence on Human Haptic Sensing and Touch Enabled Com- blind[C]//Proceedings of 2008 IEEE International Confer- puter Applications.Pisa,Italy,2018:25-36 ence on Robotics and Biomimetics.Bangkok,Thailand, [24]HUANG G,WANG D.LAN Y.Extreme learning ma- 2009:114-119. chines:a survey[J].International journal of machine [11]TIWANA M,REDMOND S,LOVELL N.A review of tactile sensing technologies with applications in biomed- learning&cybernetics,2011,2(2):107-122. ical engineering[J].Sensors and actuators:a physical, [25]LEE K A,HICKS G,NINO-MURCIA G.Validity and re- 2012,179(5:17-31. liability of a scale to assess fatigue[J].Psychiatry re- [12]TANG T J J,LUI W L D,LI W H.Plane-based detection search,1991,36(3):291-298. of staircases using inverse depth[Cl//Proceedings of 2012 作者简介: Australasian Conference on Robotics and Automation. New Zealand.2012:1-10. 朱文霖,男,1994年生,硕士研究 [13]AL KALBANI J.SUWAILAM R B.AL YAFAI A.et al. 生,主要研究方向为新型磁性材料与 Bus detection system for blind people using RFID[C]// 器件、触觉交互。 Proceedings of the 2015 IEEE 8th GCC Conference& Exhibition.Muscat,Oman,2015:1-6. [14]KULKARNI A.BHURCHANDI K.Low cost E-book reading device for blind people[Cl//Proceedings of 2015 International Conference on Computing Communication Control and Automation.Pune,India,2015:516-520. 刘华平,男.1976年生,副教授 [15]THILAGAVATHI B.Recognizing clothes patterns and 博士生导师,主要研究机器人感知、学 colours for blind people using neural network[C]// 习与控制,多模态信息融合。利用稀 Proceedings of 2015 International Conference on Innova- 疏编码建立了机器人多模态融合感知 tions in Information,Embedded and Communication Sys- 与学习框架,在此基础上结合机器人 tems.Coimbatore,India,2015:1-5. 的光学、红外、深度和触觉等不同模态 [16]NICHOLLS H,LEE M.A survey of robot tactile sensing 信息开发了一系列多模态稀疏编码方 technology[J].The international journal of robotics re- 法,并在移动机器人、灵巧机械臂等机器人平台上开展多模 search,1989,8(3):3-30. 态感知融合的方法验证与应用。发表学术论文10余篇。 [17]STRESE M,SCHUWERK C,IEPURE A,et al.Mul- timodal feature-based surface material classification[J]. 王博文,男.1956年生,教授.博士 IEEE transactions on haptics,2017,10(2):226-239 生导师,主要研究方向为磁致伸缩材料 [18]LI Xinwu,LIU Huaping,ZHOU Junfeng,et al.Learning 与器件、振动发电技术、磁特性测试技 cross-modal visual-tactile representation using ensembled 术。承担国家自然科学基金等项目 generative adversarial networks[J].Cognitive computa 8项(其中主持5项)、省部级科研项目 tion and systems,2019,1(2):40-44. 10项(其中主持8项):河北省科学技 [19]ISOLA P,ZHU Junyan,ZHOU Tinghui,et al.Image-to- 术突出贡献奖和省科技进步三等奖各 image translation with conditional adversarial networks[Cl/ 1项。获专利授权6项:出版专著2部,发表学术论文200多篇
BAHADIR S K, KONCAR V, KALAOGLU F. Wearable obstacle detection system fully integrated to textile structures for visually impaired people[J]. Sensors and actuators A: physical, 2012, 179: 297–311. [5] SHIN B S, LIM C S. Obstacle detection and avoidance system for visually impaired people[C]//Proceedings of the 2nd International Workshop on Haptic and Audio Interaction Design. Seoul, South Korea, 2007: 78–85. [6] BOUSBIA-SALAH M, BETTAYEB M, LARBI A. A navigation aid for blind people[J]. Journal of intelligent & robotic systems, 2011, 64(3/4): 387–400. [7] HASANUZZAMAN F M, YANG Xiaodong, TIAN Yingli. Robust and effective component-based banknote recognition for the blind[J]. IEEE transactions on systems, man, and cybernetics, part C (applications and reviews), 2012, 42(6): 1021–1030. [8] GUEST S, DESSIRIER J, MEHRABYAN A. The development and validation of sensory and emotional scales of touch perception[J]. Attention perception & psychophysics, 2011, 73(2): 531–550. [9] KIM D Y, YI K Y. A user-steered guide robot for the blind[C]//Proceedings of 2008 IEEE International Conference on Robotics and Biomimetics. Bangkok, Thailand, 2009: 114–119. [10] TIWANA M, REDMOND S, LOVELL N. A review of tactile sensing technologies with applications in biomedical engineering[J]. Sensors and actuators: a physical, 2012, 179(5):17–31. [11] TANG T J J, LUI W L D, LI W H. Plane-based detection of staircases using inverse depth[C]//Proceedings of 2012 Australasian Conference on Robotics and Automation. New Zealand, 2012: 1–10. [12] AL KALBANI J, SUWAILAM R B, AL YAFAI A, et al. Bus detection system for blind people using RFID[C]// Proceedings of the 2015 IEEE 8th GCC Conference & Exhibition. Muscat, Oman, 2015: 1–6. [13] KULKARNI A, BHURCHANDI K. Low cost E-book reading device for blind people[C]//Proceedings of 2015 International Conference on Computing Communication Control and Automation. Pune, India, 2015: 516–520. [14] THILAGAVATHI B. Recognizing clothes patterns and colours for blind people using neural network[C]// Proceedings of 2015 International Conference on Innovations in Information, Embedded and Communication Systems. Coimbatore, India, 2015: 1–5. [15] NICHOLLS H, LEE M. A survey of robot tactile sensing technology[J]. The international journal of robotics research, 1989, 8(3):3–30. [16] STRESE M, SCHUWERK C, IEPURE A, et al. Multimodal feature-based surface material classification[J]. IEEE transactions on haptics, 2017, 10(2): 226–239. [17] LI Xinwu, LIU Huaping, ZHOU Junfeng, et al. Learning cross-modal visual-tactile representation using ensembled generative adversarial networks[J]. Cognitive computation and systems, 2019, 1(2): 40–44. [18] ISOLA P, ZHU Junyan, ZHOU Tinghui, et al. Image-toimage translation with conditional adversarial networks[C]// [19] Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, USA, 2017: 5967–5976. ZHU Junyan, PARK T, ISOLA P, et al. Unpaired imageto-image translation using cycle-consistent adversarial networks[C]//Proceedings of 2017 IEEE International Conference on Computer Vision. Venice, Italy, 2017: 2242–2251. [20] KIM T, CHA M, KIM H, et al. Learning to discover cross-domain relations with generative adversarial networks[C]// Proceedings of the 34th International Conference on Machine Learning. Sydney, Australia, 2017: 1857–1865. [21] GRIFFIN D, LIM J. Signal estimation from modified short-time fourier transform[J]. IEEE transactions on acoustics, speech, and signal processing, 1984, 32(2): 236–243. [22] UJITOKO Y, BAN Y. Vibrotactile signal generation from texture images or attributes using generative adversarial network[C]//Proceedings of the 11th International Conference on Human Haptic Sensing and Touch Enabled Computer Applications. Pisa, Italy, 2018: 25–36. [23] HUANG G, WANG D, LAN Y. Extreme learning machines: a survey[J]. International journal of machine learning & cybernetics, 2011, 2(2): 107–122. [24] LEE K A, HICKS G, NINO-MURCIA G. Validity and reliability of a scale to assess fatigue[J]. Psychiatry research, 1991, 36(3): 291–298. [25] 作者简介: 朱文霖,男,1994 年生,硕士研究 生,主要研究方向为新型磁性材料与 器件、触觉交互。 刘华平,男,1976 年生,副教授, 博士生导师,主要研究机器人感知、学 习与控制,多模态信息融合。利用稀 疏编码建立了机器人多模态融合感知 与学习框架,在此基础上结合机器人 的光学、红外、深度和触觉等不同模态 信息开发了一系列多模态稀疏编码方 法,并在移动机器人、灵巧机械臂等机器人平台上开展多模 态感知融合的方法验证与应用。发表学术论文 10 余篇。 王博文,男,1956 年生,教授,博士 生导师,主要研究方向为磁致伸缩材料 与器件、振动发电技术、磁特性测试技 术。承担国家自然科学基金等项目 8 项 (其中主持 5 项)、省部级科研项目 10 项 (其中主持 8 项);河北省科学技 术突出贡献奖和省科技进步三等奖各 1 项。获专利授权 6 项;出版专著 2 部,发表学术论文 200 多篇。 ·40· 智 能 系 统 学 报 第 15 卷