CHINESE JOURNAL OF COMPUTERS 神经形态视觉传感器的研究进展及应用综述 李家宁田永鸿2 北京大学计算机科学技术系北京100871) 2鹏城实验室深圳518055 摘要神经形态视觉传感器具有高时域分辨率、高动态范围、低数据冗余和低功耗等优势,近年来在自动驾驶、 无人机视觉导航、工业检测及视觉监控等领域(尤其在涉及高速运动和极端光照等条件下)产生了巨大的应用前景.神经 形态视觉是一个包含硬件、软件、生物神经模型等的视觉感知系统,终极目标是模拟生物视觉感知结构与机理,以硅视网 膜达到、扩展或超越人类智能.作为神经形态工程的重要分支,神经形态视觉是计算神经科学与计算机视觉领域的交叉学 科与研究热点.本文从生物视觉采样模型、神经形态视觉传感器的采样模型及类型、视觉信号处理与特征表达、视觉仼务 应用等视角进行了系统性的回顾与综述,展望了该领域未来研究的技术挑战与可能发展方向,同时探讨了其对未来机器视 觉和人工智能领域的潜在影响 关键词类脑智能:人工智能:硅视网膜;仿生视觉:神经形态工程 中图法分类号TP18 Recent Advances in Neuromorphic Vision Sensors: A Survey LI Jia-Ning TIAN Yong-Hong Department of Computer Science and Technology, Peking University, Beijing 100871) ( Peng Cheng Laboratory, Shenzhen 518055) Abstract Recently, neuromorphic vision sensors are gaining more and more attention in computer vision owning to the advantages over conventional cameras: high temporal resolution, high dynamic range(HDR), low redundancy and low power. The applications of which include autonomous driving, drone visual navigation, industrial inspection, video surveillance, and the internet of things (loT), especially in fast motion and challenging illumination conditions. Neuromorphic vision is an important branch of neuromorphic engineering, which uses the silicon retina to mimic the structure and mechanism of the biological visual sensing system and aims to address the shortages of traditional frame-based cameras, and it is also a research hotspot in the field of neuroscience and computer vision. Indeed, neuromorphic vision sensors work in a completely different way and use what it called"spikes"to compute instead of frame-by-frame basis, in which asynchronous spatial-temporal spikes are continuous-time and sparse point-sets in three-dimensional space. This novel technology fundamentally changes the sensing and computing ways in vision information, so that existing computer vision techniques cannot be directly applied to asynchronous spikes from neuromorphic cameras. Nevertheless, neuromorphic vision remains an active area of research in academia and efforts are ongoing to overcome some 本课题得到国家自然科学基金项目(No.61825101No.Ul611461)、“中国人工智能20发展战略研究”重大咨询研究项目(三期)中课题3“跨媒体智 能及其类脑计算融合”资助.李家宁,男,1990年生,博士研究生,主要研究领域为时空点过程学习、脉冲神经网络、神经形态视觉与工程.Emal jianing@pku.edu.cn.田永鸿(逦信作着),男,1975年生,博士,教授,中国计算机学会CCF高级会员,主要研究领域为视频大数据分析处理、机 器学习与类脑计算.E-mail:yutian@pku.edu.cn
计 算 机 学 报 CHINESE JOURNAL OF COMPUTERS ——————————————— 本课题得到国家自然科学基金项目(No. 61825101, No. U1611461)、“中国人工智能2.0发展战略研究”重大咨询研究项目(三期)中课题3“跨媒体智 能及其类脑计算融合”资助.李家宁,男,1990年生,博士研究生, 主要研究领域为时空点过程学习、脉冲神经网络、神经形态视觉与工程.E-mail: lijianing@pku.edu.cn. 田永鸿(通信作者),男,1975年生,博士,教授,中国计算机学会(CCF)高级会员, 主要研究领域为视频大数据分析处理、机 器学习与类脑计算.E-mail: yhtian@pku.edu.cn. 神经形态视觉传感器的研究进展及应用综述 李家宁 1) 田永鸿 1),2) 1) (北京大学计算机科学技术系 北京 100871) 2) (鹏城实验室 深圳 518055) 摘 要 神经形态视觉传感器具有高时域分辨率、高动态范围、低数据冗余和低功耗等优势,近年来在自动驾驶、 无人机视觉导航、工业检测及视觉监控等领域(尤其在涉及高速运动和极端光照等条件下)产生了巨大的应用前景.神经 形态视觉是一个包含硬件、软件、生物神经模型等的视觉感知系统,终极目标是模拟生物视觉感知结构与机理,以硅视网 膜达到、扩展或超越人类智能.作为神经形态工程的重要分支,神经形态视觉是计算神经科学与计算机视觉领域的交叉学 科与研究热点.本文从生物视觉采样模型、神经形态视觉传感器的采样模型及类型、视觉信号处理与特征表达、视觉任务 应用等视角进行了系统性的回顾与综述,展望了该领域未来研究的技术挑战与可能发展方向,同时探讨了其对未来机器视 觉和人工智能领域的潜在影响. 关键词 类脑智能;人工智能;硅视网膜;仿生视觉;神经形态工程 中图法分类号 TP18 Recent Advances in Neuromorphic Vision Sensors: A Survey LI Jia-Ning1) TIAN Yong-Hong1), 2) 1) (Department of Computer Science and Technology, Peking University, Beijing 100871) 2) (Peng Cheng Laboratory, Shenzhen 518055) Abstract Recently, neuromorphic vision sensors are gaining more and more attention in computer vision owning to the advantages over conventional cameras: high temporal resolution, high dynamic range (HDR), low redundancy and low power. The applications of which include autonomous driving, drone visual navigation, industrial inspection, video surveillance, and the internet of things (IoT), especially in fast motion and challenging illumination conditions. Neuromorphic vision is an important branch of neuromorphic engineering, which uses the silicon retina to mimic the structure and mechanism of the biological visual sensing system and aims to address the shortages of traditional frame-based cameras, and it is also a research hotspot in the field of neuroscience and computer vision. Indeed, neuromorphic vision sensors work in a completely different way and use what it called “spikes” to compute instead of frame-by-frame basis, in which asynchronous spatial-temporal spikes are continuous-time and sparse point-sets in three-dimensional space. This novel technology fundamentally changes the sensing and computing ways in vision information, so that existing computer vision techniques cannot be directly applied to asynchronous spikes from neuromorphic cameras. Nevertheless, neuromorphic vision remains an active area of research in academia and efforts are ongoing to overcome some significant challenges
计算机学报 2020年 In this paper, the first part presents a comprehensive overview of the emerging field of neuromorphic vision consisting of the millstones, two bio-inspired vision sampling models (i.e, dynamic vision sampling model and integrating vision sampling model), the types of representative neuromorphic sensors(e.g, DVS, ATIS, DAVIS, CeleX, and Vidar), asynchronous event-based signal processing, event-based feature representation and the typical vision applications. Specially, we introduce the fundamentals of neuromorphic signal processing methods such as asynchronous spatial-temporal filtering, spike metric, and spike coding. According to the literature, w summarize and report experimental results on the key issue, namely event-based feature representation, from four perspectives consisting of rate-based images, hand-crafted features, spiking neural networks (SNNS), and deep neural networks(DNNs). The second part next highlights the following challenges: (i) Building some large-scale neuromorphic vision datasets for supervised learning approaches; (ii) Defining an effective spike metric for neuromorphic signal processing;(iii) Learning a better spatial-temporal representation from asynchronous spikes;(iv) Exploring high-speed computing paradigm via neuromorphic chips(e.g, TrueNorth Loihi, and SpiNNaker);(v) Developing the open-source framework applied to asynchronous spatial-temporal spikes. The last part further discusses the meaningful future research directions on neuromorphic vision sensors More precisely, we look forward to new materials to enhance the sensing abilities in computational speed memory, communication overhead, and power consumption. Then, we analyze the potential profound influence that can be extended to multi-band sampling rather than only visible spectrum, multi-task learning just like human vision systems and multi-sensor fusion. Finally, we anticipate a neuromorphic community combing neuroscience and computer vision, which benefits from each other. We believe that the most alluring characteristic of the comprehensive survey paper is that it acts as a bridge between neuromorphic cameras and many computer vision tasks, thus brining the mainstream of computer vision research to leverage the benefits of these novel sensors and enlarging the footprint of neuromorphic vision towards a broader array of applications Key words brain-inspired intelligence; artificial intelligence, silicon retina; bio-inspired vision; neuromorphic ng 人类视觉系统具有低冗余、低功耗、高动态及 1引言 鲁棒性强等优势,可以高效地自适应处理动态与静 态信息,且具有极强地小样本泛化能力和全面的复 视觉是智慧生物和智能体的基本功能,负责理杂场景感知能力.探索人类视觉系统的奥秘,并 解与感知外部世界.人类感知系统有超过80%信息借鉴人类视觉系统的神经网络结构和视觉信息采 量来自视觉系统,远远超过听觉系统、触觉系统以样加工处理机理明,建立起一套新的视觉信息感知 及其他感知系统之和叫.如何设计强大的视觉感知与处理理论、技术标准、芯片和应用工程系统,从 系统,以应用于计算机视觉技术和人工智能技术,而更好模拟、扩展或超越人类视觉感知系统的能 直是科学界和工业界的研究热点 力.这是神经科学与信息科学的交叉学科,称之为 视频即静止图像序列,是随着电影电视技术发神经形态视觉!011 展起来的一个人造概念,利用了人类视觉系统的视 神经形态视觉是一个包含硬件开发,软件支 觉暂留现象,将两帧图像刷新的时间间隔小于50撑,生物神经模型,三者不可缺一的视觉感知系统 毫秒,会产生连续的视觉感受.近年来,传统视频其终极目标之一是模拟生物视觉感知结构与机理 在视觉观赏角度取得了重大进展向,但存在数据采以硅视网膜( Silicon retina)来以期达到真正的 样冗余大、感光动态范围小和时域采集低分辨率,机器视觉 在高速运动场景易产生运动模糊等缺点S.此外, 神经形态视觉传感器的研制是建立在神经科 计算机视觉一直朝着“视频摄像头±计算杋+算法=学、生理学等领域对生物视网膜结构与功能机理的 机器视觉”的主流方向,却很少人质疑用图像序研究基础上.1943年 McCulloch和Pit提出一种 列(视频)表达视觉信息的合理性,更少人质疑是具有计算能力的神经元模型.1952年 Hodgkin和 否凭借该计算机视觉算法就能实现真正机器视觉. Huxley对神经元建立动力学微分方程描述神经
2 计 算 机 学 报 2020 年 In this paper, the first part presents a comprehensive overview of the emerging field of neuromorphic vision consisting of the millstones, two bio-inspired vision sampling models (i.e., dynamic vision sampling model and integrating vision sampling model), the types of representative neuromorphic sensors (e.g., DVS, ATIS, DAVIS, CeleX, and Vidar), asynchronous event-based signal processing, event-based feature representation and the typical vision applications. Specially, we introduce the fundamentals of neuromorphic signal processing methods, such as asynchronous spatial-temporal filtering, spike metric, and spike coding. According to the literature, we summarize and report experimental results on the key issue, namely event-based feature representation, from four perspectives consisting of rate-based images, hand-crafted features, spiking neural networks (SNNs), and deep neural networks (DNNs). The second part next highlights the following challenges: (i) Building some large-scale neuromorphic vision datasets for supervised learning approaches; (ii) Defining an effective spike metric for neuromorphic signal processing; (iii) Learning a better spatial-temporal representation from asynchronous spikes; (iv) Exploring high-speed computing paradigm via neuromorphic chips (e.g., TrueNorth, Loihi, and SpiNNaker); (v) Developing the open-source framework applied to asynchronous spatial-temporal spikes. The last part further discusses the meaningful future research directions on neuromorphic vision sensors. More precisely, we look forward to new materials to enhance the sensing abilities in computational speed, memory, communication overhead, and power consumption. Then, we analyze the potential profound influence that can be extended to multi-band sampling rather than only visible spectrum, multi-task learning just like human vision systems and multi-sensor fusion. Finally, we anticipate a neuromorphic community combing neuroscience and computer vision, which benefits from each other. We believe that the most alluring characteristic of the comprehensive survey paper is that it acts as a bridge between neuromorphic cameras and many computer vision tasks, thus brining the mainstream of computer vision research to leverage the benefits of these novel sensors and enlarging the footprint of neuromorphic vision towards a broader array of applications. Key words brain-inspired intelligence; artificial intelligence; silicon retina; bio-inspired vision; neuromorphic engineering 1 引言 视觉是智慧生物和智能体的基本功能,负责理 解与感知外部世界.人类感知系统有超过 80%信息 量来自视觉系统,远远超过听觉系统、触觉系统以 及其他感知系统之和[1].如何设计强大的视觉感知 系统,以应用于计算机视觉技术和人工智能技术, 一直是科学界和工业界的研究热点[2]. 视频即静止图像序列,是随着电影电视技术发 展起来的一个人造概念,利用了人类视觉系统的视 觉暂留现象[3],将两帧图像刷新的时间间隔小于 50 毫秒,会产生连续的视觉感受.近年来,传统视频 在视觉观赏角度取得了重大进展[4],但存在数据采 样冗余大、感光动态范围小和时域采集低分辨率, 在高速运动场景易产生运动模糊等缺点[5].此外, 计算机视觉一直朝着“视频摄像头+计算机+算法= 机器视觉”的主流方向[6-7],却很少人质疑用图像序 列(视频)表达视觉信息的合理性,更少人质疑是 否凭借该计算机视觉算法就能实现真正机器视觉. 人类视觉系统具有低冗余、低功耗、高动态及 鲁棒性强等优势,可以高效地自适应处理动态与静 态信息,且具有极强地小样本泛化能力和全面的复 杂场景感知能力[8].探索人类视觉系统的奥秘,并 借鉴人类视觉系统的神经网络结构和视觉信息采 样加工处理机理[9],建立起一套新的视觉信息感知 与处理理论、技术标准、芯片和应用工程系统,从 而更好模拟、扩展或超越人类视觉感知系统的能 力.这是神经科学与信息科学的交叉学科,称之为 神经形态视觉[10-12]. 神经形态视觉是一个包含硬件开发,软件支 撑,生物神经模型,三者不可缺一的视觉感知系统, 其终极目标之一是模拟生物视觉感知结构与机理, 以硅视网膜(Silicon Retina)[13]来以期达到真正的 机器视觉. 神经形态视觉传感器的研制是建立在神经科 学、生理学等领域对生物视网膜结构与功能机理的 研究基础上.1943 年 McCulloch 和 Pitts[14]提出一种 具有计算能力的神经元模型.1952 年 Hodgkin 和 Huxley[15]对神经元建立动力学微分方程描述神经
李家宁等:神经形态视觉传感器的研究进展及应用综述 Mcculloch和Pits Mead提出神经形态 Mahowald队 Delbruck团队| Delbruck团队 Delbruck团队 提出神经元模型 ( Neuromorphic)概念提出AER方式研制首款DvS提出DAS发彩色DMVs346 1952 2016 1990 Hodgkin Mahowald和Mead研 Culureiello等人 Posh等人陈守顺教授团队黄铁军教授团队 建立动力 制第一款硅视网膜设计章鱼网膜 研制ATS 研制Ceex 开发vda 描述神 图1神经形态视觉传感器的发展历程,蓝色框为里程碑事件 元动作电位的产生与传递过程,该动作电位称为脉器( Dynamic and Active Pixel Vision Sensor 冲( Spike).1986年加州理工学院的博士研究生 DAVIS),即一种双模的技术路线,增加额外独立的 Mahowald所想:“大脑是想象力的发源地,这让我传统图像采样电路弥补DⅤS纹理成像的缺陷,随 很兴奋,我希望可以创造一个想象事物的芯片”,后在2017年又将其扩展为彩色 DAVIS34621.2016 那时与导师 Carver Mead教授开始萌发从生物神经年陈守顺教授团队采用了增加事件的位宽,让事 科学和工程学角度研究立体视觉的问题.1990年件携带像素光强信息输出以恢复场景纹理.2018年 Mead首次在《 Proceedings of ieee》上提出神经形黄铁军教授团队叫采用了章鱼视网膜8的光强积 态( Neuromorphic)的概念,利用大规模集成电分发放采样原理,将脉冲平面传输替换AER方式 路来模拟生物神经系统.199Ⅰ年 Mahowald和以节约传输带宽,验证了积分型采样原理可高速重 Mead在《 Scientific American》的封面刊登了一只构场景纹理细节,即仿视网膜中央凹采样模型 运动的猫,标志了第一款硅视网膜的诞生,其模拟( Fovea- like Sampling Model,FSM),也称 Vidar, 了视网膜上视锥细胞、水平细胞以及双极细胞的生如图1所示.神经形态视觉传感器92模拟生物视 物功能,正式点燃了神经形态视觉传感器这一新兴觉感知系统,其具有高的时域分辨率、数据冗余少 领域.1993年 Mahowald团队为了解决集成电路低功耗和高动态范围的优势,在自动驾驶p2、无 的稠密三维连线的问题,提出了一种新型的集成电人机视觉导航128、工业检测及视频监控等机 路通信协议,即地址事件协议( Address- Event器视觉领域,尤其在涉及高速运动和极端光照场景 Representation,AER),实现了事件的异步读下有着巨大的市场潜力.此外,神经形态视觉釆样、 出.2003年 Culurciello等人1设计了一种AER方处理及应用是神经形态工程的重要分支,为计算 式的积分发放的脉冲模型,将像素光强编码为频率神经科学的脑启发视觉模型提供了验证,也是探 或脉冲间隔,称为章鱼视网膜( Octopus索人类智能的有效途径之一.目前神经形态视觉传 Retina).2005年 Delbruck团队9研制出动态视觉感器的研究与应用尚处于初期阶段,达到或超越人 传感器( Dynamic Vision Sensor,DVS),以时空异类视觉系统在复杂交互环境下的感知能力还需要 步稀疏的事件( Event)表示像素光强变化,其商业大量的探索研究. 化具有里程牌的意义.然而,DVS无法捕捉自然场 本文从神经形态视觉的发展历程、生物视觉神 景的精细纹理图像.2008年Posh等人提出了一经采样模型到神经形态视觉传感器的采样机理及 种基于异步视觉的图像传感器( Asynchronous类型、神经视觉信号处理与特征表达及视觉应用的 Time-based Image Sensor,ATS),引入了基于事件触视角进行系统性回顾与综述,并展望了该领域未来 发的光强测量电路来重构变化处的像素灰度.2013研究的重大挑战与可能发展方向,同时探讨了其对 年 Delbruck团队2开发了动态有源像素视觉传感未来机器视觉和人工智能领域的潜在影响
李家宁等:神经形态视觉传感器的研究进展及应用综述 3 图 1 神经形态视觉传感器的发展历程,蓝色框为里程碑事件 元动作电位的产生与传递过程,该动作电位称为脉 冲(Spike).1986 年加州理工学院的博士研究生 Mahowald 所想:“大脑是想象力的发源地,这让我 很兴奋,我希望可以创造一个想象事物的芯片”, 那时与导师 Carver Mead 教授开始萌发从生物神经 科学和工程学角度研究立体视觉的问题.1990 年 Mead 首次在《Proceedings of IEEE》上提出神经形 态(Neuromorphic)的概念[16],利用大规模集成电 路来模拟生物神经系统.1991 年 Mahowald 和 Mead[13]在《Scientific American》的封面刊登了一只 运动的猫,标志了第一款硅视网膜的诞生,其模拟 了视网膜上视锥细胞、水平细胞以及双极细胞的生 物功能,正式点燃了神经形态视觉传感器这一新兴 领域.1993 年 Mahowald[17]团队为了解决集成电路 的稠密三维连线的问题,提出了一种新型的集成电 路通信协议,即地址事件协议(Address-Event Representation, AER ), 实 现 了 事 件 的 异 步 读 出.2003 年 Culurciello 等人[18]设计了一种 AER 方 式的积分发放的脉冲模型,将像素光强编码为频率 或 脉 冲 间 隔 , 称 为 章 鱼 视 网 膜 ( Octopus Retina).2005 年 Delbruck 团队[19]研制出动态视觉 传感器(Dynamic Vision Sensor, DVS),以时空异 步稀疏的事件(Event)表示像素光强变化,其商业 化具有里程牌的意义.然而,DVS 无法捕捉自然场 景的精细纹理图像.2008 年 Posh 等人[20]提出了一 种基于异步视觉的图像传感器(Asynchronous Time-based Image Sensor, ATIS),引入了基于事件触 发的光强测量电路来重构变化处的像素灰度.2013 年 Delbruck 团队[21]开发了动态有源像素视觉传感 器 ( Dynamic and Active Pixel Vision Sensor, DAVIS),即一种双模的技术路线,增加额外独立的 传统图像采样电路弥补 DVS 纹理成像的缺陷,随 后在 2017 年又将其扩展为彩色 DAVIS346[22].2016 年陈守顺教授团队[23]采用了增加事件的位宽,让事 件携带像素光强信息输出以恢复场景纹理.2018 年 黄铁军教授团队[24]采用了章鱼视网膜[18]的光强积 分发放采样原理,将脉冲平面传输替换 AER 方式 以节约传输带宽,验证了积分型采样原理可高速重 构场景纹理细节,即仿视网膜中央凹采样模型 (Fovea-like Sampling Model, FSM),也称 Vidar, 如图 1 所示.神经形态视觉传感器[19-23]模拟生物视 觉感知系统,其具有高的时域分辨率、数据冗余少、 低功耗和高动态范围的优势,在自动驾驶[25-26]、无 人机视觉导航[27-28]、工业检测[29]及视频监控[30]等机 器视觉领域,尤其在涉及高速运动和极端光照场景 下有着巨大的市场潜力.此外,神经形态视觉采样、 处理及应用是神经形态工程的重要分支[31] ,为计算 神经科学的脑启发视觉模型提供了验证[32],也是探 索人类智能的有效途径之一.目前神经形态视觉传 感器的研究与应用尚处于初期阶段,达到或超越人 类视觉系统在复杂交互环境下的感知能力还需要 大量的探索研究. 本文从神经形态视觉的发展历程、生物视觉神 经采样模型到神经形态视觉传感器的采样机理及 类型、神经视觉信号处理与特征表达及视觉应用的 视角进行系统性回顾与综述,并展望了该领域未来 研究的重大挑战与可能发展方向,同时探讨了其对 未来机器视觉和人工智能领域的潜在影响.
计算机学报 2020年 2神经形态视觉模型与采样机理 神经形态视觉的技术路线总体上分为三个层 次:结构层次模仿视网膜,器件功能层次逼近视网 膜,智能层次超越视网膜.如果说传统相机是对人 类视觉系统的模拟,那么这种仿生物视网膜只是器 件功能层次的初级模拟.实际上,传统相机无论是 水平红胞。双极细跑 在结构层次、功能层次,甚至智能层次都远不及人 类视网膜在各种复杂环境的感知能力 近年来,各国“脑计划”的相继布局与展开, 神经节细胞 图3灵长类生物视网膜横截面示意图叫 将从结构层次解析类脑视觉列为重要内容之一支 持,主要通过神经科学家采用精细解析与先进探测 技术,获取视网膜基本单元的结构、功能及其网络包括光感受器细胞、双极细胞、水平细胞、神经节 连接,为器件功能层次逼近生物视觉感知系统提供 细胞等主要构成,如图3所示.光感受器细胞分 理论支撑.神经形态视觉传感器正是从器件功能层 为视杆细胞和视锥细胞两类,负责将进入眼球的光 次仿真入手,即采用光电纳米器件模拟生物视觉采 信号转化为电信号,并传导至双极细胞和水平细 样模型与信息处理功能,在有限的物理空间和功耗胞.视锥细胞对颜色敏感,主要负责颜色的识别, 条件下构造出具有或超越生物视觉能力的感知系 通常在场景光照较强条件下工作;视杆细胞对光线 敏感,能够感受弱光,主要提供夜晚场景下工作, 统.简而言之,神经形态视觉传感器不用等完全理 解视网膜的解析结构与机理再进行模拟,而是借鉴 但其没有颜色辨别能力.双极细胞接受光感受器的 结构层次研究机理并绕过这个更为困难的问题,通信号输入,其根据感受野的区域不同分为ON型和 过器件功能层次逼近等仿真工程技术手段达到、扩 OFF型两类细胞,分别感知光强增加和光强减 弱.水平细胞与光感受器、双极细胞横向互连,对 展或超越人类视觉感知系统的能力 目前,神经形态视觉传感器已经取得了阶段性 光感受器输出的信号进行亮度调节,同时也负责增 成果,有模拟视网膜外周感知运动功能的差分型视强视觉对象边缘凸显轮廓.神经节细胞负责接受双 觉采样模型,如DVS剛、ATIS2、 DAVIS212) 极细胞的视觉信号输入,并以时空脉冲信号 Ceex23:也有模拟视网膜中央凹感知精细纹理功 ( Spatial- emporal Spike)的形式做出响应,再经 能的积分型视觉采样模型,如章鱼视网膜1S 视觉纤维传递至视觉皮层.此外,视网膜细胞 Ⅴidar24 有多条并行通路传递和处理视觉信号,有极大的带 宽传输与速度优势,其中 Magnocellular和 Parvocellular通路是最主要的两条信号通路,分 外膝体 别对场景的时域变化敏感和空间结构敏感. 灵长类生物视网膜具有以下优势 (1)光感受器的局部自适应增益控制:以记 录光强变化替代绝对光强来消除冗余,对光强感知 腹侧通路 有高动态范围( High Dynamic Range,HDR) 图2视觉通路模型 2)视杆细胞的空间带通滤波器:滤除低频 信息的视觉信息冗余和高频信息的噪声 (3)ON和OFF类型:神经节细胞及视网膜 2.1生物视网膜视觉模型 输出均为ON和OFF脉冲信号编码,降低了单通道 脊椎动物的视网膜是在6亿年前由光感受神经细胞的脉冲发放频率 演变而成,位于后半眼球的多层复杂神经网状结 (4)感光功能区:视网膜中央凹具有高的空 构,如图2所示.灵长类生物视网膜大致可以分为间分辨率,可捕捉精细纹理;其外周的区域具有高 三层结构:光感受器层、内丛状层和外丛状层,其的时间分辨率,捕获快速运动信息
4 计 算 机 学 报 2020 年 2 神经形态视觉模型与采样机理 神经形态视觉的技术路线总体上分为三个层 次:结构层次模仿视网膜,器件功能层次逼近视网 膜,智能层次超越视网膜.如果说传统相机是对人 类视觉系统的模拟,那么这种仿生物视网膜只是器 件功能层次的初级模拟.实际上,传统相机无论是 在结构层次、功能层次,甚至智能层次都远不及人 类视网膜在各种复杂环境的感知能力. 近年来,各国“脑计划”[33]相继布局与展开, 将从结构层次解析类脑视觉列为重要内容之一支 持,主要通过神经科学家采用精细解析与先进探测 技术,获取视网膜基本单元的结构、功能及其网络 连接,为器件功能层次逼近生物视觉感知系统提供 理论支撑.神经形态视觉传感器正是从器件功能层 次仿真入手,即采用光电纳米器件模拟生物视觉采 样模型与信息处理功能,在有限的物理空间和功耗 条件下构造出具有或超越生物视觉能力的感知系 统.简而言之,神经形态视觉传感器不用等完全理 解视网膜的解析结构与机理再进行模拟,而是借鉴 结构层次研究机理并绕过这个更为困难的问题,通 过器件功能层次逼近等仿真工程技术手段达到、扩 展或超越人类视觉感知系统的能力. 目前,神经形态视觉传感器已经取得了阶段性 成果,有模拟视网膜外周感知运动功能的差分型视 觉采样模型,如 DVS[19]、ATIS[20]、DAVIS[21-22]、 CeleX[23];也有模拟视网膜中央凹感知精细纹理功 能的积分型视觉采样模型,如章鱼视网膜[18]、 Vidar[24]. 图 2 视觉通路模型 2.1 生物视网膜视觉模型 脊椎动物的视网膜是在 6 亿年前由光感受神经细胞 演变而成,位于后半眼球的多层复杂神经网状结 构,如图 2 所示.灵长类生物视网膜大致可以分为 三层结构:光感受器层、内丛状层和外丛状层,其 图 3 灵长类生物视网膜横截面示意图[34] 包括光感受器细胞、双极细胞、水平细胞、神经节 细胞等主要构成[34],如图 3 所示.光感受器细胞分 为视杆细胞和视锥细胞两类,负责将进入眼球的光 信号转化为电信号,并传导至双极细胞和水平细 胞.视锥细胞对颜色敏感,主要负责颜色的识别, 通常在场景光照较强条件下工作;视杆细胞对光线 敏感,能够感受弱光,主要提供夜晚场景下工作, 但其没有颜色辨别能力.双极细胞接受光感受器的 信号输入,其根据感受野的区域不同分为 ON 型和 OFF 型两类细胞,分别感知光强增加和光强减 弱.水平细胞与光感受器、双极细胞横向互连,对 光感受器输出的信号进行亮度调节,同时也负责增 强视觉对象边缘凸显轮廓.神经节细胞负责接受双 极细胞的视觉信号输入,并以时空脉冲信号 (Spatial-Temporal Spike)的形式做出响应,再经 视觉纤维传递至视觉皮层[11]. 此外,视网膜细胞 有多条并行通路传递和处理视觉信号,有极大的带 宽 传 输 与 速 度 优 势 , 其 中 Magnocellular 和 Parvocellular 通路是最主要的两条信号通路[35],分 别对场景的时域变化敏感和空间结构敏感. 灵长类生物视网膜具有以下优势[11]: (1)光感受器的局部自适应增益控制:以记 录光强变化替代绝对光强来消除冗余,对光强感知 有高动态范围(High Dynamic Range, HDR); (2)视杆细胞的空间带通滤波器:滤除低频 信息的视觉信息冗余和高频信息的噪声; (3)ON 和 OFF 类型:神经节细胞及视网膜 输出均为 ON 和 OFF 脉冲信号编码,降低了单通道 的脉冲发放频率; (4)感光功能区:视网膜中央凹具有高的空 间分辨率,可捕捉精细纹理;其外周的区域具有高 的时间分辨率,捕获快速运动信息.
李家宁等:神经形态视觉传感器的研究进展及应用综述 此外,依据 Nyquist采样定理传统相机需要传间先后顺序异步传出,而不是类似传统相机那样以 输超过20Gb/s的数据才能匹配人类视觉的动态范固定频率的图像传出,解码电路依据地址及时间解 围与空间分辨率,而生物视觉以二进制脉冲信息表析事件属性.AER方式用于神经形态视觉传感器的 示与编码,视觉神经仅需传输20Mb/s数据至视觉主要特点在于: 皮层,数据量少将近1000倍.因此,视网膜通过 (1)硅视网膜像素输出事件模拟视网膜的神 神经节细胞将光强信息转换为时空脉冲阵列信号,经元发放脉冲信号的功能; 是一种高效的视觉信息表示与编码的方法狗,为 2)硅视网膜像素之间光强感知、脉冲产生 神经形态视觉传感器提供了理论支撑与功能层次及传输均异步; 的启发 (3)硅视网膜输出异步事件稀疏时,事件表 生物视觉系统的信息获取、加工和处理主要发示及传输更高效 生在视网膜、外膝体与视皮层等处門,如图2所 差分型视觉采样是神经形态视觉传感器感知 示,视网膜是接收视觉信息的第一站;外膝体是将模型的主流,如DVs、AIIS2、DAVs21-2 视网膜视觉信号传输到初级视皮层的信息中转站;CeeX2,其对灵长类视网膜外周中光感受器、双 视皮层是视觉中央处理器,在学习记忆、思维语言极细胞、神经节细胞三层结构的抽象,从器件功能 以及知觉意识等高级视觉功能方面发挥至关重要层次上逼近或超越视网膜外周的高时间分辨率感 的重要.视皮层信息处理的整个过程由两条并行知的能力,如图5(a).为了提高光强感知动态范 通路完成:Vl、V2和4等组成腹侧通路主要处理围,DⅤS系列视觉传感器多采用对数差分模型,即 物体形状、颜色等信息识别,也称what通路;光电流与电压采用对数映射关系,如图5(b).随着 V1、V2和MT等组成的背侧通路主要处理空间位光强的相对变化引起电压变化超过设定阈值θ,像 置、运动等信息,也称 where通路.因此,借鉴素产生一个脉冲信号,如图5(c)所示,其原理如 神经计算模型探索人类视觉系统信息处理与分析下: 机制,为计算机视觉与人工智能技术提供借鉴思路 AL=InL(u, tInL(u, t-4t=p0 (1) 与指导方向,进一步启发类脑视觉理论模型与计算 差分型视觉传感器采用AER方式,每个脉冲 方法,从而更好的挖掘视觉特征信息,以逼近生物信号采用事件形式表示,包括像素位置u=(x,y)、 视觉的高效自适应地处理动静信息、极强的小样本发放时间t和事件极性p,即一个四元组表示 泛化能力与全面视觉分析能力 (x,y,L,p).前三项唯一确定时空域的位置,最后 22差分型视觉采样及AER传输协议 项极性p={-1,l}分别表示光强的减弱OFF和光强 神经元之间的复杂连接,脉冲信号在神经元之增强ON.差分型神经形态视觉传感器与传统相机 间的传递是异步的,那么神经形态工程系统如何模相比,其优势在于: 拟这一特性呢?正是 Mahowald团队提出新型的 (1)输出异步稀疏脉冲也不存在“帧”的概 通信协议AER方式,如图4所示,用于脉冲信号念,不再受限于快门时间和帧率,感知光强的变化, 多路异步传输,也解决了大规模集成电路的三维稠可消除静态不变的视觉冗余 密连线难题,即“连线问题”( Wiring problem) (2)采样具有高时间分辨率,适用于高速运 动视觉任务分析 像素脉冲事件 脉冲事件 (3)光电流与电压的对数映射关系,增强了 高低光照的感知能力进而提升动态范围。 (1,2) 2.3积分型视觉采样 (2,2)(1.1)(21)(1,2 (2,1) 积分型视觉采样在功能上对灵长类视网膜中 央凹区域的光感受器、双极细胞、神经节细胞三层 结构的抽象,如章鱼视网膜、vdar24.积分型 图4AER方式示意图 视觉传感器模拟了神经元积分发放模型,将像素光 强编码为频率或脉冲间隔182·34,具有对视觉场 AER方式将传感器上每个像素视为独立,脉冲景的精细纹理高速重构的能力网,如图6所示.光 信号以事件( Event)的形式传输,并按事件产生时感受器将光信号转化为电信号,积分器在光照条件
李家宁等:神经形态视觉传感器的研究进展及应用综述 5 此外,依据 Nyquist 采样定理传统相机需要传 输超过 20Gb/s 的数据才能匹配人类视觉的动态范 围与空间分辨率,而生物视觉以二进制脉冲信息表 示与编码,视觉神经仅需传输 20Mb/s 数据至视觉 皮层,数据量少将近 1000 倍.因此,视网膜通过 神经节细胞将光强信息转换为时空脉冲阵列信号, 是一种高效的视觉信息表示与编码的方法[11, 36],为 神经形态视觉传感器提供了理论支撑与功能层次 的启发. 生物视觉系统的信息获取、加工和处理主要发 生在视网膜、外膝体与视皮层等处[9],如图 2 所 示.视网膜是接收视觉信息的第一站;外膝体是将 视网膜视觉信号传输到初级视皮层的信息中转站; 视皮层是视觉中央处理器,在学习记忆、思维语言 以及知觉意识等高级视觉功能方面发挥至关重要 的重要[37].视皮层信息处理的整个过程由两条并行 通路完成:V1、V2 和 V4 等组成腹侧通路主要处理 物体形状、颜色等信息识别[38],也称 what 通路; V1、V2 和 MT 等组成的背侧通路主要处理空间位 置、运动等信息[39],也称 where 通路.因此,借鉴 神经计算模型探索人类视觉系统信息处理与分析 机制,为计算机视觉与人工智能技术提供借鉴思路 与指导方向,进一步启发类脑视觉理论模型与计算 方法,从而更好的挖掘视觉特征信息,以逼近生物 视觉的高效自适应地处理动静信息、极强的小样本 泛化能力与全面视觉分析能力. 2.2 差分型视觉采样及AER传输协议 神经元之间的复杂连接,脉冲信号在神经元之 间的传递是异步的,那么神经形态工程系统如何模 拟这一特性呢?正是 Mahowald 团队[17]提出新型的 通信协议 AER 方式,如图 4 所示,用于脉冲信号 多路异步传输,也解决了大规模集成电路的三维稠 密连线难题,即“连线问题”(Wiring Problem). 图 4 AER 方式示意图 AER 方式将传感器上每个像素视为独立,脉冲 信号以事件(Event)的形式传输,并按事件产生时 间先后顺序异步传出,而不是类似传统相机那样以 固定频率的图像传出,解码电路依据地址及时间解 析事件属性.AER 方式用于神经形态视觉传感器的 主要特点[40]在于: (1)硅视网膜像素输出事件模拟视网膜的神 经元发放脉冲信号的功能; (2)硅视网膜像素之间光强感知、脉冲产生 及传输均异步; (3)硅视网膜输出异步事件稀疏时,事件表 示及传输更高效. 差分型视觉采样是神经形态视觉传感器感知 模型的主流,如 DVS[19]、ATIS[20]、DAVIS[21-22]、 CeleX[23],其对灵长类视网膜外周中光感受器、双 极细胞、神经节细胞三层结构的抽象,从器件功能 层次上逼近或超越视网膜外周的高时间分辨率感 知的能力,如图 5(a).为了提高光强感知动态范 围,DVS 系列视觉传感器多采用对数差分模型,即 光电流与电压采用对数映射关系,如图 5(b).随着 光强的相对变化引起电压变化超过设定阈值 ,像 素产生一个脉冲信号,如图 5(c)所示,其原理如 下: 𝛥𝐿≐ln𝐿(𝑢,𝑡)−ln𝐿(𝑢,𝑡−𝛥𝑡)=𝑝𝜃 (1) 差分型视觉传感器采用 AER 方式,每个脉冲 信号采用事件形式表示,包括像素位置 u x y ( , ) 、 发放时间 t 和事件极性 p ,即一个四元组表示 ( , , , ) x y t p .前三项唯一确定时空域的位置,最后一 项极性 p { 1,1} 分别表示光强的减弱 OFF 和光强 增强 ON.差分型神经形态视觉传感器与传统相机 相比,其优势在于: (1)输出异步稀疏脉冲也不存在“帧”的概 念,不再受限于快门时间和帧率,感知光强的变化, 可消除静态不变的视觉冗余; (2)采样具有高时间分辨率,适用于高速运 动视觉任务分析; (3)光电流与电压的对数映射关系,增强了 高低光照的感知能力进而提升动态范围。 2.3 积分型视觉采样 积分型视觉采样在功能上对灵长类视网膜中 央凹区域的光感受器、双极细胞、神经节细胞三层 结构的抽象,如章鱼视网膜[18]、Vidar[24].积分型 视觉传感器模拟了神经元积分发放模型,将像素光 强编码为频率或脉冲间隔[18, 24, 38-45],具有对视觉场 景的精细纹理高速重构的能力[44],如图 6 所示.光 感受器将光信号转化为电信号,积分器在光照条件
计算机学报 2020年 v C2 n van 计:复位 (b)光强差分采样 光感受器日:双极细胞 F神经节细胞 ⊙ (a)灵长类视网膜外层三层结构及DVS电路 (c)DS脉冲信号累计平面 图5差分型视觉采样 readout Spikes vp (b)光强积分采样 光感受器 经节细胞 +) (a)灵长类视网膜中央凹三层结构及Ⅴidar电路 (c) Vidar脉冲信号纹理成像 图6积分型视觉采样 ()条件下进行累计到达累计强度A(),当该强度 值超过脉冲发放阅值q时,则像素点输出一个脉冲3神经形态视觉传感器类型 信号,同时积分器复位清空电荷,其原理如下: 神经形态视觉传感器借鉴生物视觉系统的神 A(0=1()dr (2) 经网络结构和视觉信息采样加工处理机理,以器件 积分型视觉传感器的像素间彼此独立,章鱼视功能层次模拟、扩展或超越生物视觉感知系统.近 网膜采用AER方式将脉冲信号进行输出,尤其年来,一大批代表性的神经形态视觉传感器涌现, 在光强充足时积分型视觉传感器脉冲发放稠密,事是人类在探索仿生视觉技术的雏形,有模拟视网膜 件表示容易出现同一位置及相邻位置多次请求脉外周感知运动功能的差分型视觉采样模型,如 冲输出,会出现数据传输的巨大压力,不得不设计DⅤs、ATS2、DAVS212)、cleX23;也有模 总线仲裁机制,为脉冲输出确定优先级,甚至会因拟视网膜中央凹感知精细纹理功能的积分型视觉 带宽限制丢失脉冲信号. Vidar探索高速轮询的采样模型,如vdar24. 方式以脉冲矩阵的形式传输每个采样时刻的脉冲31DVs 发放,此方式不需要输出脉冲的坐标与时间戳,只 需将像素是否发放标记为“1”和“0”.将脉冲平 DVS对灵长类视网膜外周中的光感受器、双 面轮询的方式代替AER方式可以节约传输带宽 极细胞、神经节细胞三层结构的功能抽象,由光电 转换电路、动态检测电路和比较器输出电路组成
6 计 算 机 学 报 2020 年 (a)灵长类视网膜外层三层结构及 DVS 电路 (b)光强差分采样 (c)DVS 脉冲信号累计平面 图 5 差分型视觉采样[11] (a)灵长类视网膜中央凹三层结构及 Vidar 电路 (b)光强积分采样 (c)Vidar 脉冲信号纹理成像 图 6 积分型视觉采样 It() 条件下进行累计到达累计强度 At(),当该强度 值超过脉冲发放阈值 时,则像素点输出一个脉冲 信号,同时积分器复位清空电荷[45],其原理如下: 0 ( ) ( ) t A t I t dt (2) 积分型视觉传感器的像素间彼此独立,章鱼视 网膜[18]采用 AER 方式将脉冲信号进行输出,尤其 在光强充足时积分型视觉传感器脉冲发放稠密,事 件表示容易出现同一位置及相邻位置多次请求脉 冲输出,会出现数据传输的巨大压力,不得不设计 总线仲裁机制,为脉冲输出确定优先级,甚至会因 带宽限制丢失脉冲信号. Vidar[24]探索高速轮询的 方式以脉冲矩阵的形式传输每个采样时刻的脉冲 发放,此方式不需要输出脉冲的坐标与时间戳,只 需将像素是否发放标记为“1”和“0”.将脉冲平 面轮询的方式代替 AER 方式可以节约传输带宽. 3 神经形态视觉传感器类型 神经形态视觉传感器借鉴生物视觉系统的神 经网络结构和视觉信息采样加工处理机理,以器件 功能层次模拟、扩展或超越生物视觉感知系统.近 年来,一大批代表性的神经形态视觉传感器涌现, 是人类在探索仿生视觉技术的雏形,有模拟视网膜 外周感知运动功能的差分型视觉采样模型,如 DVS[19]、ATIS[20]、DAVIS[21-22]、CeleX[23];也有模 拟视网膜中央凹感知精细纹理功能的积分型视觉 采样模型,如 Vidar[24]. 3.1 DVS DVS[19]对灵长类视网膜外周中的光感受器、双 极细胞、神经节细胞三层结构的功能抽象,由光电 转换电路、动态检测电路和比较器输出电路组成
李家宁等:神经形态视觉传感器的研究进展及应用综述 如图5所示.光电转换电路采用对数光强感知模型,的劣势,即ON或OFF事件不携带绝对光强信号, 提高了光强感知范围,也更加接近生物视网膜的高且光强变化较弱时无脉冲信号发放,从而无法重构 动态适应的能力.动态检测电路采用差分型采样模精细化纹理图像.为了解决DVS面向视觉纹理可 型,即对光强变化做出响应,无光强变化则不响视化,便衍生出ATIS2、 DAVIS212)和 CeleX231 应.比较器依据光强的增加或减弱输出ON或OFF等神经形态视觉传感器 事件 3.2 ATIS ATS在DVS的基础上巧妙地引入了基于时 动模糊 间间隔的光强测量电路来实现图像重构,其思路是 每次DVS电路产生事件时,触发光强测量电路进 传统相机 行工作;光强测量设定了两个不同的参考电压,通 过对光强进行积分,并记录达到两个电压发放的事 件;由于不同光强的条件下,电压变化相同量所需 的时间不同,通过建立光强与时间的映射可以推断 时空脉冲信号 出光强大小,从而输出光强变化像素处的光强信 息,也称为脉冲宽度调制( Pulse width modulation, DVS PWM).此外,为了解决静态区域没有DVS脉 冲信号发放依然无法获得静态区域的视觉纹理信 息,AS引入了一套全局发放机制,即所有像素可 图 被强制发放一次脉冲,这样在ATIS初始工作时可 7DS时空脉冲信号示意图 获得一整幅图像作为背景,然后运动区域不断产生 织专统相机以固定帧率的采样方式,在高速场景陈冲进而不断的触发光强测量电路获得运动区域 生运动模糊而DVS采用AER异步传输方式的灰度来更新背景 的差分型视觉采样模型,以异步时空脉冲信号表示 Posch团队和 Prophesee公司研制的商用 场景光强变化,对场景的变化十分敏感且高时间分 AIS,其空间分辨率为304×240,时域采样频率 辨率,尤其适用于高速运动的视觉任务分析,如图 为10Hz,动态范围为143dB,在涉及高速视觉任 所示,DVS相比传统相机具有以下优势:高时间务存在着广泛应用.另外, Prophessee公司也受到 分辨率(10Hz)、高动态范围(120dB)、低功耗、 了 Intel公司1500万美金的项目资助,将ATIS应 用于自动驾驶汽车的视觉处理系统.随后 数据冗余少和时延低 Bensman5团队进一步验证了在RGB三个通道的 Delbruck团队和 Ini vation公司开发的第一款商 用的DVS1289,其空间分辨率为128×128,时域分别用ATS采样脉冲信号再融合彩色的技术方案 ATS在面向高速运动时,依然存在事件与灰度 采样频率为10°Hz,动态范围为120dB,在高速运 重构更新不匹配的情况,其原因有以下两点:脉冲 动对象识别、检测与跟踪广泛应用.此外,DⅤS及 其衍生的AS2、DAVS212.和 celeX2)等神经形 发放后触发光强测量电路,其测量结果是脉冲发放 态视觉传感器的研究及产品也备受关注,并逐渐被后一段时间的平均光强,造成运动不匹配;场景稍 微变化未引起脉冲发放,从而像素未及时更新,随 应用于自动驾驶、无人机视觉导航和工业检测等涉 及高速运动视觉任务.例如, Samsung公司开发了看时间推移会造成纹理差异明显 的空间分辨率为640×480的DVSG2,且像素尺33DVAS 寸为94m×9m.BM公司采用了DⅤS128作为 DAVS2l2)是一种最直观且有效的融合技术思 类脑芯片 TrueNorth'的视觉感知系统来进行快速路,将DⅤsS和传统相机二者结合,在DⅤS基础上 手势识别 额外引入有源像素传感器( Active Pixel Senso DS利用差分视觉采样模型可以滤过静止不APS),用于视觉场景纹理成像 变或变化较弱的视觉信息以降低数据冗余,同时具 Delbruck团队和 Ini vation公司在空间分辨率为 有感知高速运动.然而,这种优势带来了视觉重构240×180的DAⅥS240的基础上进一步推出了彩
李家宁等:神经形态视觉传感器的研究进展及应用综述 7 如图 5 所示.光电转换电路采用对数光强感知模型, 提高了光强感知范围,也更加接近生物视网膜的高 动态适应的能力.动态检测电路采用差分型采样模 型,即对光强变化做出响应,无光强变化则不响 应.比较器依据光强的增加或减弱输出 ON 或 OFF 事件. 图 7 DVS 时空脉冲信号示意图 传统相机以固定帧率的采样方式,在高速场景 易产生运动模糊.而 DVS 采用 AER 异步传输方式 的差分型视觉采样模型,以异步时空脉冲信号表示 场景光强变化,对场景的变化十分敏感且高时间分 辨率,尤其适用于高速运动的视觉任务分析,如图 7 所示.DVS 相比传统相机具有以下优势:高时间 分辨率(106Hz)、高动态范围(120dB)、低功耗、 数据冗余少和时延低. Delbruck团队和IniVation公司开发的第一款商 用的 DVS128[19],其空间分辨率为 128 128,时域 采样频率为 106Hz,动态范围为 120dB,在高速运 动对象识别、检测与跟踪广泛应用.此外,DVS 及 其衍生的 ATIS[20]、DAVIS[21-22]和 CeleX[23]等神经形 态视觉传感器的研究及产品也备受关注,并逐渐被 应用于自动驾驶、无人机视觉导航和工业检测等涉 及高速运动视觉任务.例如,Samsung 公司开发了 的空间分辨率为 640 480 的 DVS-G2[46],且像素尺 寸为 9 m 9 m.IBM 公司采用了 DVS128 作为 类脑芯片 TrueNorth[47]的视觉感知系统来进行快速 手势识别[48]. DVS 利用差分视觉采样模型可以滤过静止不 变或变化较弱的视觉信息以降低数据冗余,同时具 有感知高速运动.然而,这种优势带来了视觉重构 的劣势,即 ON 或 OFF 事件不携带绝对光强信号, 且光强变化较弱时无脉冲信号发放,从而无法重构 精细化纹理图像.为了解决 DVS 面向视觉纹理可 视化,便衍生出 ATIS[20]、DAVIS[21-22]和 CeleX[23] 等神经形态视觉传感器. 3.2 ATIS ATIS[20]在 DVS 的基础上巧妙地引入了基于时 间间隔的光强测量电路来实现图像重构,其思路是 每次 DVS 电路产生事件时,触发光强测量电路进 行工作;光强测量设定了两个不同的参考电压,通 过对光强进行积分,并记录达到两个电压发放的事 件;由于不同光强的条件下,电压变化相同量所需 的时间不同,通过建立光强与时间的映射可以推断 出光强大小,从而输出光强变化像素处的光强信 息,也称为脉冲宽度调制(Pulse Width Modulation, PWM)[49].此外,为了解决静态区域没有 DVS 脉 冲信号发放依然无法获得静态区域的视觉纹理信 息,ATIS 引入了一套全局发放机制,即所有像素可 被强制发放一次脉冲,这样在 ATIS 初始工作时可 获得一整幅图像作为背景,然后运动区域不断产生 脉冲进而不断的触发光强测量电路获得运动区域 的灰度来更新背景. Posch 团队和 Prophesee 公司研制的商用 ATIS[49],其空间分辨率为 304 240,时域采样频率 为 106Hz,动态范围为 143dB,在涉及高速视觉任 务存在着广泛应用.另外,Prophessee 公司也受到 了 Intel 公司 1500 万美金的项目资助,将 ATIS 应 用于自动驾驶汽车的视觉处理系统.随后, Benosman [50]团队进一步验证了在 RGB 三个通道的 分别用ATIS采样脉冲信号再融合彩色的技术方案. ATIS 在面向高速运动时,依然存在事件与灰度 重构更新不匹配的情况,其原因有以下两点:脉冲 发放后触发光强测量电路,其测量结果是脉冲发放 后一段时间的平均光强,造成运动不匹配;场景稍 微变化未引起脉冲发放,从而像素未及时更新,随 着时间推移会造成纹理差异明显. 3.3 DVAIS DAVIS[21-22]是一种最直观且有效的融合技术思 路,将 DVS 和传统相机二者结合,在 DVS 基础上 额外引入有源像素传感器(Active Pixel Sensor, APS),用于视觉场景纹理成像. Delbruck团队和IniVation公司在空间分辨率为 240 180 的 DAVIS240[21]的基础上进一步推出了彩
8 计算机学报 2020年 表1神经形态视觉传感器性能参数对比 传感器类型 DVS128l9] ATIS[ 20 DAVIS346 2 DvS-G2143 Celex-v1231 vidar [24 商用时间 2008 2017 2018 2018 空间分辨率 304×240 346×260 1280×800400×250 最大采样率(Hz)1×10° 1×10 12×107 3×10° 1.6×10 4×104 动态范围(dB) 143 120 功耗(mW 50-175 10-170 390-470 芯片大小Ymm 6.3×6 99×8.2 8×6 8×5.8 14.3×11.6 0×6 像元尺寸(m2)40×40 18.5×18.5 9.8×98 填充因子 20% 100% 13.75% 延迟(Hs) 65-410 电源电压( 3.3 1.8&3.3 1.8&3.3 1.2&28 1.2&3.31.5&3.3 纹理图像 彩色 色DAⅥIS34621,其空间分辨率达到346×260,时 陈守顺教授团队和 CelePixel公司最新发布的 域采样频率为10Hz,动态范围为120dB,并将DVS第五代 Celex-vi2,其空间分辨率达为1280×800 所产生的事件坐标的空间位置(x,y)携带RGB彩色基本达到了传统相机的水平,同时时域最大输出采 信息,但是APS电路采样速度远不如DⅤS电路,样频率为160MHz,动态范围为120dB,该产品的 APS模式的帧率为50FPS,动态范围为567B,两高空间分辨率、高时域分辨率及高动态范围的“三 套采样电路产生的图像无法做到精准同步,尤其在高”优势引起了当前神经形态工程领域的关注.此 高速运动场景,且APS图像在高速运动场景存在运外, Celepixel公司也受到了Badu公司4000万的 动模糊. 项目资助,采用 CeleX-V用于汽车自动驾驶辅助系 当前,DAⅥS是神经形态视觉传感器商用产统,利用其优势对驾驶异常行为进行实时监测 品、工业应用及学术研究的主流,源于DVS系列 CeleX的脉冲事件采用9bt信息输出,在场景 性传感器(DS18、DAⅥS240、DAⅥS346和彩剧烈运动或高速运动场景时,面临数据量大而无法 色DAVS346)的学术研究推广,相关视觉任务数及时传输,甚至丢弃部分脉冲数据以至采样信号无 据集的公开、代码及软件的开源等营造的良好生态法保真,同时对轻微光照也无法做出响应及时更新 环境.因此,在本文介绍脉冲信号处理与特征表达、等缺点.但是, CeleX的“三高”性能及其光流信 视觉应用等均以差分型视觉采样模型的DⅴS系列息的输出等优势,在自动驾驶、无人机视觉导航、 传感器为主 工业检测和视频监控等涉及高速运动视觉任务有 3.4 CeleX 着巨大的应用潜力 ceex2在考虑到ATS的光强测量电路存在3.5vdar 滞后,在DⅤS电路输出脉冲事件的地址(x,y)和发 vdar24对灵长类视网膜中央凹的光感受器、双 放时间t时同时,也及时的将该像素的光强信息Ⅰ极细胞、神经节细胞三层结构的功能抽象,采用了 输出,即 CeleX输出事件可用四元组(x,y,l,)表积分型视觉采样模型,将像素光强编码为频率或脉 示. CeleX的设计思路主要包括三个部分5:(1)冲间隔182.34,具有对视觉场景的精细纹理高速 引入缓冲和读出开关电路直接将对数光感受器的重构的能力叫. Vidar由光电转换电路、积分器电 电路转换为光强信息输出;(2)采用全局控制信号路和比较器输出电路组成,如图6(a)所示.光感 输出一整帧图像,便于初始工作时可获得整幅图像受器将光信号转换为电信号,积分器将电信号进行 作为背景和及时全局更新;(3)专门设计列模拟读积分累计,比较器将该累计值与脉冲发放阈值比较 出电路输出缓冲器的光强值. CeleX巧妙地将脉冲判断输出脉冲信号,同时积分器被复位,也称为脉 事件的位宽设计为9比特,既保证了脉冲本身的语冲频率调制( Pulse Frequency Modulation,PFM) 义信息,又携带了一定量的光强信息 18. Vidar像素间的脉冲信号输出彼此独立,单个
8 计 算 机 学 报 2020 年 表 1 神经形态视觉传感器性能参数对比 传感器类型 DVS128[19] ATIS[20] DAVIS346[22] DVS-G2[43] CeleX-V [23] Vidar[24] 商用时间 2008 2011 2017 2017 2018 2018 空间分辨率 128 128 304 240 346 260 640 480 1280 800 400 250 最大采样率(Hz) 1 106 1 10 6 1.2 10 7 3 10 9 1.6 108 4 10 4 动态范围(dB) 120 143 120 90 120 70 功耗(mW) 23 50-175 10-170 27-50 390-470 370 芯片大小(mm2 ) 6.3 6 9.9 8.2 8 6 8 5.8 14.3 11.6 10 6 像元尺寸( m 2 ) 40 40 30 30 18.5 18.5 9 9 9.8 9.8 20 20 填充因子 8.1% 20% 22% 100% 9% 13.75% 延迟( s) 12 3 20 65-410 1 25 电源电压(V) 3.3 1.8&3.3 1.8&3.3 1.2&2.8 1.2&3.3 1.5&3.3 纹理图像 否 灰度 彩色 否 灰度 灰度 色 DAVIS346[22],其空间分辨率达到 346 260,时 域采样频率为 106Hz,动态范围为 120dB,并将 DVS 所产生的事件坐标的空间位置 ( , ) x y 携带 RGB 彩色 信息,但是 APS 电路采样速度远不如 DVS 电路, APS 模式的帧率为 50FPS,动态范围为 56.7dB,两 套采样电路产生的图像无法做到精准同步,尤其在 高速运动场景,且 APS 图像在高速运动场景存在运 动模糊. 当前,DAVIS 是神经形态视觉传感器商用产 品、工业应用及学术研究的主流,源于 DVS 系列 性传感器(DVS128、DAVIS240、DAVIS346 和彩 色 DAVIS346)的学术研究推广,相关视觉任务数 据集的公开、代码及软件的开源等营造的良好生态 环境.因此,在本文介绍脉冲信号处理与特征表达、 视觉应用等均以差分型视觉采样模型的 DVS 系列 传感器为主. 3.4 CeleX CeleX[23]在考虑到 ATIS 的光强测量电路存在 滞后,在 DVS 电路输出脉冲事件的地址 ( , ) x y 和发 放时间 t 时同时,也及时的将该像素的光强信息 I 输出,即 CeleX 输出事件可用四元组 ( , , , ) x y t I 表 示.CeleX 的设计思路主要包括三个部分[51]:(1) 引入缓冲和读出开关电路直接将对数光感受器的 电路转换为光强信息输出;(2)采用全局控制信号 输出一整帧图像,便于初始工作时可获得整幅图像 作为背景和及时全局更新;(3)专门设计列模拟读 出电路输出缓冲器的光强值.CeleX 巧妙地将脉冲 事件的位宽设计为 9 比特,既保证了脉冲本身的语 义信息,又携带了一定量的光强信息. 陈守顺教授团队和 CelePixel 公司最新发布的 第五代 CeleX-V [52],其空间分辨率达为 1280 800 基本达到了传统相机的水平,同时时域最大输出采 样频率为 160MHz,动态范围为 120dB, 该产品的 高空间分辨率、高时域分辨率及高动态范围的“三 高”优势引起了当前神经形态工程领域的关注.此 外,CelePixel 公司也受到了 Baidu 公司 4000 万的 项目资助,采用 CeleX-V 用于汽车自动驾驶辅助系 统,利用其优势对驾驶异常行为进行实时监测. CeleX 的脉冲事件采用 9bit 信息输出,在场景 剧烈运动或高速运动场景时,面临数据量大而无法 及时传输,甚至丢弃部分脉冲数据以至采样信号无 法保真,同时对轻微光照也无法做出响应及时更新 等缺点.但是,CeleX 的“三高”性能及其光流信 息的输出等优势,在自动驾驶、无人机视觉导航、 工业检测和视频监控等涉及高速运动视觉任务有 着巨大的应用潜力. 3.5 Vidar Vidar[24]对灵长类视网膜中央凹的光感受器、双 极细胞、神经节细胞三层结构的功能抽象,采用了 积分型视觉采样模型,将像素光强编码为频率或脉 冲间隔[18, 24, 38-45],具有对视觉场景的精细纹理高速 重构的能力[44].Vidar 由光电转换电路、积分器电 路和比较器输出电路组成,如图 6(a)所示.光感 受器将光信号转换为电信号,积分器将电信号进行 积分累计,比较器将该累计值与脉冲发放阈值比较 判断输出脉冲信号,同时积分器被复位,也称为脉 冲频率调制(Pulse Frequency Modulation, PFM) [18]. Vidar 像素间的脉冲信号输出彼此独立,单个
李家宁等:神经形态视觉传感器的研究进展及应用综述 像素的脉冲信号按照时间先后顺序排成“脉冲序 神经形态视觉传感器具有两大优势:(1)高速 列”,所有像素按照空间位置相互关系构成“脉冲视觉采样的能力,在高速运动视觉仼务有着巨大的 阵列”,脉冲阵列的每个时刻的截面称为“脉冲平应用潜力:(2)低功耗,也是Mead所提出的神经 面”,脉冲信号以“1”表示,没有脉冲信号以“0”形态工程的本质优势和未来可能的终极形态.然 表示,如图8所示 而,如何对神经形态视觉传感器输出的时空脉冲信 脉冲平面 号进行处理、特征表达及高速视觉任务分析是当前 神经形态视觉的研究热点;同时如何采样类脑芯片 对脉冲信号进行高速处理,应用于涉及高速视觉任 务是神经形态工程产业界的关注重点,如IBM公司 的 Truenorth'+芯片、 Intel公司的Loh5芯片和曼 脉冲阵列 切斯特大学的 SpiNNakers芯片等 当前,神经形态视觉传感器的空间分辨率从 Ini vation公司开发的第一款商用DVS12819的 脉冲序列 y 128×128发展到三星公司DVS-G2的640×480 Celepixel公司 Celex-v2的1280×800,但相比传 图8vdar时空脉冲信号示意图 统高清与超高清相机在空间分辨率与成像质量上 有较大的差距,源于:(1)高空间分辨率与高时域 黄铁军教授团队研制的第一款vdar,其空分辨率将给数据传输与存储带来了巨大挑战:(2) 间分辨率为400×250,时域采样频率为4×10Hz,动态视觉传感器设计的初衷是感知高速运动而非 每秒输出476.3M的数据量,并可依据脉冲发放的面向高质量视觉观看.总之,神经形态视觉传感器 时空特性来对静态场景或高速运动场景进行精细目前尚处于探索的初期阶段,达到人类视觉系统在 化纹理重构,如采用滑动窗口累计法或脉冲间隔映复杂交互环境下的感知能力还需要大量探索研究 射的方法向.此外,Ⅴdar可自由设定时长的脉冲 信号进行影像重构,在成像的动态的动态范围上具4异步时空脉冲信号处理 有灵活性.该积分型视觉采样芯片能对高速运动进 行精细化纹理重构,可用于高速运动场景的物体检 神经形态视觉传感器模拟了生物视网膜的脉 测、跟踪和识别,在自动驾驶、无人机视觉导航、冲发放机理,如采用差分型视觉采样模型的DVS 机器视觉等涉及高速视觉任务领域的应用潜力巨系列传感器,受到视觉场景光强变化刺激发放脉冲 信号并记录为地址事件,脉冲信号在空域和时域呈 Vidar采用积分型视觉采样模型,将光强信号现三维空间的稀疏离散点阵,如图7所示 进行频率或脉冲间隔编码,本质是将光强信息的变 传统视频信号以“图像帧”范式进行视觉信息 换为频率编码,相比面向运动感知的DⅤS系列传表征与信号处理,也是现有机器视觉的主流方 感器,更加友好地面向视觉精细重构的优势.然而,向.然而,“异步时空脉冲信号”不同于“图像帧” Vidar无论在静态场景还是运动区域都会产生脉冲,现有的图像信号处理机制并不能直接迁移应用.如 采样上存在巨大的数据冗余,以及如何控制脉冲发何建立一套新的信号处理理论与技术体系巧,是神 放阈值以便自适应感知不同光照场景和控制数据经形态视觉信号处理领域的研究难点与热点 量是积分视觉采样需要亟待解决的问题 41异步时空脉冲信号分析 3.6仿视网膜视觉传感器性能对比 近年来,异步时空脉冲信号分析阿主要集中在 近期,大量的神经形态视觉传感器涌现并商业滤波、降噪及频域变化分析等方向 化应用,有模拟视网膜外周感知运动功能的差分型 脉冲信号的滤波分析是从信号处理角度的预处 视觉采样模型,如DVS1281明、ATIS0、理技术,也是神经形态视觉传感器视觉分析任务的 DAVIS346212、DvsG2、 Celex-v23;也有模基础. Benosman'团队提出了一种异步时空 拟视网膜中央凹功能的积分型视觉采样模型,如脉冲信号的通用滤波方法,即时域或空域构成的层 idar24,具体的各性能参数的对比如表1所示 级滤波,可扩展到复杂的非线性滤波器,如边缘检
李家宁等:神经形态视觉传感器的研究进展及应用综述 9 像素的脉冲信号按照时间先后顺序排成“脉冲序 列”,所有像素按照空间位置相互关系构成“脉冲 阵列”,脉冲阵列的每个时刻的截面称为“脉冲平 面”,脉冲信号以“1”表示,没有脉冲信号以“0” 表示,如图 8 所示. 图 8 Vidar 时空脉冲信号示意图 黄铁军教授团队研制的第一款 Vidar[24],其空 间分辨率为 400 250,时域采样频率为 4 104Hz, 每秒输出 476.3M 的数据量,并可依据脉冲发放的 时空特性来对静态场景或高速运动场景进行精细 化纹理重构,如采用滑动窗口累计法或脉冲间隔映 射的方法[44].此外,Vidar 可自由设定时长的脉冲 信号进行影像重构,在成像的动态的动态范围上具 有灵活性.该积分型视觉采样芯片能对高速运动进 行精细化纹理重构,可用于高速运动场景的物体检 测、跟踪和识别,在自动驾驶、无人机视觉导航、 机器视觉等涉及高速视觉任务领域的应用潜力巨 大. Vidar 采用积分型视觉采样模型,将光强信号 进行频率或脉冲间隔编码,本质是将光强信息的变 换为频率编码,相比面向运动感知的 DVS 系列传 感器,更加友好地面向视觉精细重构的优势.然而, Vidar 无论在静态场景还是运动区域都会产生脉冲, 采样上存在巨大的数据冗余,以及如何控制脉冲发 放阈值以便自适应感知不同光照场景和控制数据 量是积分视觉采样需要亟待解决的问题. 3.6 仿视网膜视觉传感器性能对比 近期,大量的神经形态视觉传感器涌现并商业 化应用,有模拟视网膜外周感知运动功能的差分型 视 觉 采 样 模 型 , 如 DVS128[19] 、 ATIS[20] 、 DAVIS346[21-22]、DVS-G2[46]、CeleX-V [23];也有模 拟视网膜中央凹功能的积分型视觉采样模型,如 Vidar[24],具体的各性能参数的对比如表 1 所示. 神经形态视觉传感器具有两大优势:(1)高速 视觉采样的能力,在高速运动视觉任务有着巨大的 应用潜力;(2)低功耗,也是 Mead 所提出的神经 形态工程[16]的本质优势和未来可能的终极形态.然 而,如何对神经形态视觉传感器输出的时空脉冲信 号进行处理、特征表达及高速视觉任务分析是当前 神经形态视觉的研究热点;同时如何采样类脑芯片 对脉冲信号进行高速处理,应用于涉及高速视觉任 务是神经形态工程产业界的关注重点,如 IBM 公司 的 TrueNorth[47]芯片、Intel 公司的 Loihi[53]芯片和曼 切斯特大学的 SpiNNaker[54]芯片等. 当前,神经形态视觉传感器的空间分辨率从 IniVation 公司开发的第一款商用 DVS128[19]的 128 128 发展到三星公司 DVS-G2[46]的 640 480, CelePixel 公司 CeleX-V [52]的 1280 800,但相比传 统高清与超高清相机在空间分辨率与成像质量上 有较大的差距,源于:(1)高空间分辨率与高时域 分辨率将给数据传输与存储带来了巨大挑战;(2) 动态视觉传感器设计的初衷是感知高速运动而非 面向高质量视觉观看.总之,神经形态视觉传感器 目前尚处于探索的初期阶段,达到人类视觉系统在 复杂交互环境下的感知能力还需要大量探索研究. 4 异步时空脉冲信号处理 神经形态视觉传感器模拟了生物视网膜的脉 冲发放机理,如采用差分型视觉采样模型的 DVS 系列传感器,受到视觉场景光强变化刺激发放脉冲 信号并记录为地址事件,脉冲信号在空域和时域呈 现三维空间的稀疏离散点阵,如图 7 所示. 传统视频信号以“图像帧”范式进行视觉信息 表征与信号处理,也是现有机器视觉的主流方 向.然而,“异步时空脉冲信号”不同于“图像帧”, 现有的图像信号处理机制并不能直接迁移应用.如 何建立一套新的信号处理理论与技术体系[55],是神 经形态视觉信号处理领域的研究难点与热点. 4.1 异步时空脉冲信号分析 近年来,异步时空脉冲信号分析[56]主要集中在 滤波、降噪及频域变化分析等方向. 脉冲信号的滤波分析是从信号处理角度的预处 理技术,也是神经形态视觉传感器视觉分析任务的 应用基础.Benosman[57]团队提出了一种异步时空 脉冲信号的通用滤波方法,即时域或空域构成的层 级滤波,可扩展到复杂的非线性滤波器,如边缘检
计算机学报 2020年 测. Linares- Barranco等人将异步时空脉冲信号计, Gallego等人从视觉特征角度系统性将DvS 在FPGA上进行滤波降噪和水平特征提取,可显输出的时空脉冲信号进行度量,并在运动补偿、深 著提升目标识别与跟踪性能.施路平教授团队例度估计、光流估计等视觉任务中应用.这些方法是 针对脉冲信号的发放率进行时空差值滤波,再采用将时空脉冲信号进行时间累积的频率特征,并未充 非齐次泊松生成过程实现异步时空脉冲信号的上分利用脉冲信号的时域特性.Park等人从信号域 采样 的角度综述核方法度量,即将离散的时域脉冲信号 神经形态视觉传感器输出的异步时空脉冲信变换为连续函数,在希尔伯特空间以内积计算脉冲 号存在背景噪声和漏电流噪声等干扰12,序列之间的距离. Chichinisky团队采用卷积神经 Khodamoradi等人阿采用时空相关滤波器来降低网络结构将离散脉冲信号映射到特征空间再度量 DS的背景噪声并在传感器上硬件实现. Orchard脉冲信号之间距离,并应用到视网膜假体数据测试 团队6利用 True North芯片上实现脉冲神经网络验证.此类方法在神经生理或模拟生成的脉冲数 ( Spiking Neural Network,SNN)对AIS输出的时据上实验,并未考虑真实异步时空脉冲信号的标记 空脉冲信号进行降噪,且降噪信号提升了目标对象属性 检测与识别的性能,Wang等人2将运动对象以外 田永鸿教授团队网提出了一种脉冲标记属性 的事件视为噪声,通过光流来判断运动一致性对独立的脉冲序列度量方法,即DⅤS输出的ON和 DVS输出的时空脉冲信号进行降噪 OFF的标记属性的脉冲信号分别度量,采用高斯核 变换域分析是信号处理的基本方法,把时空函数将离散的脉冲序列变换为平滑连续函数,利用 域变化到频率域,进而研究信号的频谱结构与变化希尔伯特空间的内积度量脉冲序列的距离.该方法 规律. Bensman(团队针对异步时空脉冲信号提将脉冲序列作为操作单元,并未考虑脉冲信号的空 出了一种基于事件的快速傅里叶变换,对脉冲信号间结构关系.随后,该团队进一步将异步时空脉 的频率域有损变换和计算时间做了权衡分析 冲信号建模为标记的时空点过程,用条件概率密度 异步时空脉冲信号分析与处理存在以下几个函数刻画脉冲信号的空间位置和标记属性,该方法 探索的方向 应用于异步脉冲信号有损编码中的运动搜索和失 (1)异步时空脉冲信号在数据分布上可描述真度量 为时空点过程6,可引入点过程信号处理、学习与 异步时空脉冲信号是非结构化数据,不同于可 推理理论的6; 归一化的结构化的“图像帧”,且在主观视觉上差 (2)异步时空脉冲信号在时空结构上与点云异无法直接度量.如何将异步脉冲信号度量面向视 相似,可利用深度学习在点云网络的结构与方法觉任务和归一化的评价也是亟需解决的难点问题 68-701 3异步时空脉冲信号编码 (3)脉冲信号视为图模型的节点,可采用图 模型信号处理与学习理论2 随着DVS系列传感器的空间分辨率不断提高, (4)异步时空脉冲信号的高时间分辨率的时序如三星公司DVSG21的空间分辨率为640×480, 优势,挖掘时序记忆模型5·3和借鉴类脑视觉信号 CeleX-v12的空间分辨率为1280×800,在剧烈运动 处理机理4 的场景产生的异步时空脉冲信号面临着传输和存 储的巨大挑战,如何对异步时空脉冲信号进行编码 42异步时空脉冲信号度量 压缩,是一个全新的时空数据压缩问②行编码 异步时空脉冲信号度量是衡量脉冲流之间的 田永鸿教授团队首次提出了一种面向时空 相似性,即在度量空间里计算脉冲流之间的距离异步脉冲信号的编码压缩框架,其以脉冲长方体为 门,是异步时空脉冲信号处理的关键技术之一,在编码单元,设计了地址优先和时间优先的预测编码 计算神经科学、脉冲编码压缩、机器视觉仼务等领策略,可实现对脉冲信号的有效压缩.随后,该团 域有着广泛且重要的应用 队网进一步探索了更加灵活的时空域八叉树自适 异步脉冲信号在时空域上呈现为稀疏离散点应划分、编码单元内的预测及编码单元间的预测等 阵,缺乏在欧式空间的代数运算度量.立体视觉硏编码策略,进一步提升了时空脉冲信号的压缩效 究阿将输出脉冲信号在二维空间投影和提取时空率.此外,该团队对脉冲空域位置和时域发放时 关系的时间面进行度量,应用于三维视觉中深度估间的失真进行了度量分析,并探讨了面向视觉任务
10 计 算 机 学 报 2020 年 测.Linares-Barranco 等人[58]将异步时空脉冲信号 在 FPGA 上进行滤波降噪和水平特征提取,可显 著提升目标识别与跟踪性能.施路平教授团队[59] 针对脉冲信号的发放率进行时空差值滤波,再采用 非齐次泊松生成过程实现异步时空脉冲信号的上 采样. 神经形态视觉传感器输出的异步时空脉冲信 号 存 在背 景 噪声 和漏电 流 噪声 等 干扰 [19-23] , Khodamoradi 等人[60]采用时空相关滤波器来降低 DVS 的背景噪声并在传感器上硬件实现.Orchard 团队[61]利用 TrueNorth 芯片上实现脉冲神经网络 (Spiking Neural Network, SNN)对 ATIS 输出的时 空脉冲信号进行降噪,且降噪信号提升了目标对象 检测与识别的性能.Wang 等人[62]将运动对象以外 的事件视为噪声,通过光流来判断运动一致性对 DVS 输出的时空脉冲信号进行降噪. 变换域分析是信号处理的基本方法[63],把时空 域变化到频率域,进而研究信号的频谱结构与变化 规律. Benosman[64]团队针对异步时空脉冲信号提 出了一种基于事件的快速傅里叶变换,对脉冲信号 的频率域有损变换和计算时间做了权衡分析. 异步时空脉冲信号分析与处理存在以下几个 探索的方向: (1)异步时空脉冲信号在数据分布上可描述 为时空点过程[65],可引入点过程信号处理、学习与 推理理论[66-67]; (2)异步时空脉冲信号在时空结构上与点云 相似,可利用深度学习在点云网络的结构与方法 [68-70]; (3)脉冲信号视为图模型的节点,可采用图 模型信号处理与学习理论[71-72]; (4)异步时空脉冲信号的高时间分辨率的时序 优势,挖掘时序记忆模型[55,73]和借鉴类脑视觉信号 处理机理[74]. 4.2 异步时空脉冲信号度量 异步时空脉冲信号度量是衡量脉冲流之间的 相似性,即在度量空间里计算脉冲流之间的距离 [75],是异步时空脉冲信号处理的关键技术之一,在 计算神经科学、脉冲编码压缩、机器视觉任务等领 域有着广泛且重要的应用. 异步脉冲信号在时空域上呈现为稀疏离散点 阵,缺乏在欧式空间的代数运算度量.立体视觉研 究[76]将输出脉冲信号在二维空间投影和提取时空 关系的时间面进行度量,应用于三维视觉中深度估 计.Gallego 等人[77]从视觉特征角度系统性将 DVS 输出的时空脉冲信号进行度量,并在运动补偿、深 度估计、光流估计等视觉任务中应用.这些方法是 将时空脉冲信号进行时间累积的频率特征,并未充 分利用脉冲信号的时域特性.Park 等人[75]从信号域 的角度综述核方法度量,即将离散的时域脉冲信号 变换为连续函数,在希尔伯特空间以内积计算脉冲 序列之间的距离.Chichinisky 团队[78]采用卷积神经 网络结构将离散脉冲信号映射到特征空间再度量 脉冲信号之间距离,并应用到视网膜假体数据测试 验证. 此类方法在神经生理或模拟生成的脉冲数 据上实验,并未考虑真实异步时空脉冲信号的标记 属性. 田永鸿教授团队[79]提出了一种脉冲标记属性 独立的脉冲序列度量方法,即 DVS 输出的 ON 和 OFF 的标记属性的脉冲信号分别度量,采用高斯核 函数将离散的脉冲序列变换为平滑连续函数,利用 希尔伯特空间的内积度量脉冲序列的距离.该方法 将脉冲序列作为操作单元,并未考虑脉冲信号的空 间结构关系.随后,该团队[80]进一步将异步时空脉 冲信号建模为标记的时空点过程,用条件概率密度 函数刻画脉冲信号的空间位置和标记属性,该方法 应用于异步脉冲信号有损编码中的运动搜索和失 真度量. 异步时空脉冲信号是非结构化数据,不同于可 归一化的结构化的“图像帧”,且在主观视觉上差 异无法直接度量.如何将异步脉冲信号度量面向视 觉任务和归一化的评价也是亟需解决的难点问题. 4.3 异步时空脉冲信号编码 随着 DVS 系列传感器的空间分辨率不断提高, 如三星公司 DVS-G2[46]的空间分辨率为 640 480, CeleX-V [52]的空间分辨率为 1280 800,在剧烈运动 的场景产生的异步时空脉冲信号面临着传输和存 储的巨大挑战,如何对异步时空脉冲信号进行编码 压缩,是一个全新的时空数据压缩问题[81-82]. 田永鸿教授团队[83]首次提出了一种面向时空 异步脉冲信号的编码压缩框架,其以脉冲长方体为 编码单元,设计了地址优先和时间优先的预测编码 策略,可实现对脉冲信号的有效压缩.随后,该团 队[79]进一步探索了更加灵活的时空域八叉树自适 应划分、编码单元内的预测及编码单元间的预测等 编码策略,进一步提升了时空脉冲信号的压缩效 率.此外,该团队[80]对脉冲空域位置和时域发放时 间的失真进行了度量分析,并探讨了面向视觉任务