《计算机学报 CHINESE JOURNAL OF COMPUTERS》：神经形态视觉传感器的研究进展及应用综述（北京大学：李家宁、田永鸿）

本文从生物视觉采样模型、神经形态视觉传感器的采样模型及类型、视觉信号处理与特征表达、视觉任务应用等视角进行了系统性的回顾与综述,展望了该领域未来研究的技术挑战与可能发展方向,同时探讨了其对未来机器视觉和人工智能领域的潜在影响。

团购合买资源类别：文库，文档格式：PDF，文档页数：29，文件大小：1.36MB

CHINESE JOURNAL OF COMPUTERS 神经形态视觉传感器的研究进展及应用综述李家宁田永鸿2 北京大学计算机科学技术系北京100871) 2鹏城实验室深圳518055 摘要神经形态视觉传感器具有高时域分辨率、高动态范围、低数据冗余和低功耗等优势,近年来在自动驾驶、无人机视觉导航、工业检测及视觉监控等领域(尤其在涉及高速运动和极端光照等条件下)产生了巨大的应用前景.神经形态视觉是一个包含硬件、软件、生物神经模型等的视觉感知系统,终极目标是模拟生物视觉感知结构与机理,以硅视网膜达到、扩展或超越人类智能.作为神经形态工程的重要分支,神经形态视觉是计算神经科学与计算机视觉领域的交叉学科与研究热点.本文从生物视觉采样模型、神经形态视觉传感器的采样模型及类型、视觉信号处理与特征表达、视觉仼务应用等视角进行了系统性的回顾与综述,展望了该领域未来研究的技术挑战与可能发展方向,同时探讨了其对未来机器视觉和人工智能领域的潜在影响关键词类脑智能:人工智能:硅视网膜;仿生视觉:神经形态工程中图法分类号TP18 Recent Advances in Neuromorphic Vision Sensors: A Survey LI Jia-Ning TIAN Yong-Hong Department of Computer Science and Technology, Peking University, Beijing 100871) ( Peng Cheng Laboratory, Shenzhen 518055) Abstract Recently, neuromorphic vision sensors are gaining more and more attention in computer vision owning to the advantages over conventional cameras: high temporal resolution, high dynamic range(HDR), low redundancy and low power. The applications of which include autonomous driving, drone visual navigation, industrial inspection, video surveillance, and the internet of things (loT), especially in fast motion and challenging illumination conditions. Neuromorphic vision is an important branch of neuromorphic engineering, which uses the silicon retina to mimic the structure and mechanism of the biological visual sensing system and aims to address the shortages of traditional frame-based cameras, and it is also a research hotspot in the field of neuroscience and computer vision. Indeed, neuromorphic vision sensors work in a completely different way and use what it called"spikes"to compute instead of frame-by-frame basis, in which asynchronous spatial-temporal spikes are continuous-time and sparse point-sets in three-dimensional space. This novel technology fundamentally changes the sensing and computing ways in vision information, so that existing computer vision techniques cannot be directly applied to asynchronous spikes from neuromorphic cameras. Nevertheless, neuromorphic vision remains an active area of research in academia and efforts are ongoing to overcome some 本课题得到国家自然科学基金项目(No.61825101No.Ul611461)、“中国人工智能20发展战略研究”重大咨询研究项目(三期)中课题3“跨媒体智能及其类脑计算融合”资助.李家宁,男,1990年生,博士研究生,主要研究领域为时空点过程学习、脉冲神经网络、神经形态视觉与工程.Emal jianing@pku.edu.cn.田永鸿(逦信作着),男,1975年生,博士,教授,中国计算机学会CCF高级会员,主要研究领域为视频大数据分析处理、机器学习与类脑计算.E-mail:yutian@pku.edu.cn

计算机学报 CHINESE JOURNAL OF COMPUTERS ——————————————— 本课题得到国家自然科学基金项目(No. 61825101, No. U1611461)、“中国人工智能2.0发展战略研究”重大咨询研究项目（三期）中课题3“跨媒体智能及其类脑计算融合”资助．李家宁，男，1990年生，博士研究生, 主要研究领域为时空点过程学习、脉冲神经网络、神经形态视觉与工程．E-mail: lijianing@pku.edu.cn. 田永鸿（通信作者），男，1975年生，博士，教授，中国计算机学会(CCF)高级会员, 主要研究领域为视频大数据分析处理、机器学习与类脑计算．E-mail: yhtian@pku.edu.cn．神经形态视觉传感器的研究进展及应用综述李家宁 1) 田永鸿 1),2) 1) (北京大学计算机科学技术系北京 100871) 2) (鹏城实验室深圳 518055) 摘要神经形态视觉传感器具有高时域分辨率、高动态范围、低数据冗余和低功耗等优势，近年来在自动驾驶、无人机视觉导航、工业检测及视觉监控等领域（尤其在涉及高速运动和极端光照等条件下）产生了巨大的应用前景．神经形态视觉是一个包含硬件、软件、生物神经模型等的视觉感知系统，终极目标是模拟生物视觉感知结构与机理，以硅视网膜达到、扩展或超越人类智能．作为神经形态工程的重要分支，神经形态视觉是计算神经科学与计算机视觉领域的交叉学科与研究热点．本文从生物视觉采样模型、神经形态视觉传感器的采样模型及类型、视觉信号处理与特征表达、视觉任务应用等视角进行了系统性的回顾与综述，展望了该领域未来研究的技术挑战与可能发展方向，同时探讨了其对未来机器视觉和人工智能领域的潜在影响. 关键词类脑智能；人工智能；硅视网膜；仿生视觉；神经形态工程中图法分类号 TP18 Recent Advances in Neuromorphic Vision Sensors: A Survey LI Jia-Ning1) TIAN Yong-Hong1), 2) 1) (Department of Computer Science and Technology, Peking University, Beijing 100871) 2) (Peng Cheng Laboratory, Shenzhen 518055) Abstract Recently, neuromorphic vision sensors are gaining more and more attention in computer vision owning to the advantages over conventional cameras: high temporal resolution, high dynamic range (HDR), low redundancy and low power. The applications of which include autonomous driving, drone visual navigation, industrial inspection, video surveillance, and the internet of things (IoT), especially in fast motion and challenging illumination conditions. Neuromorphic vision is an important branch of neuromorphic engineering, which uses the silicon retina to mimic the structure and mechanism of the biological visual sensing system and aims to address the shortages of traditional frame-based cameras, and it is also a research hotspot in the field of neuroscience and computer vision. Indeed, neuromorphic vision sensors work in a completely different way and use what it called “spikes” to compute instead of frame-by-frame basis, in which asynchronous spatial-temporal spikes are continuous-time and sparse point-sets in three-dimensional space. This novel technology fundamentally changes the sensing and computing ways in vision information, so that existing computer vision techniques cannot be directly applied to asynchronous spikes from neuromorphic cameras. Nevertheless, neuromorphic vision remains an active area of research in academia and efforts are ongoing to overcome some significant challenges

计算机学报 2020年 In this paper, the first part presents a comprehensive overview of the emerging field of neuromorphic vision consisting of the millstones, two bio-inspired vision sampling models (i.e, dynamic vision sampling model and integrating vision sampling model), the types of representative neuromorphic sensors(e.g, DVS, ATIS, DAVIS, CeleX, and Vidar), asynchronous event-based signal processing, event-based feature representation and the typical vision applications. Specially, we introduce the fundamentals of neuromorphic signal processing methods such as asynchronous spatial-temporal filtering, spike metric, and spike coding. According to the literature, w summarize and report experimental results on the key issue, namely event-based feature representation, from four perspectives consisting of rate-based images, hand-crafted features, spiking neural networks (SNNS), and deep neural networks(DNNs). The second part next highlights the following challenges: (i) Building some large-scale neuromorphic vision datasets for supervised learning approaches; (ii) Defining an effective spike metric for neuromorphic signal processing;(iii) Learning a better spatial-temporal representation from asynchronous spikes;(iv) Exploring high-speed computing paradigm via neuromorphic chips(e.g, TrueNorth Loihi, and SpiNNaker);(v) Developing the open-source framework applied to asynchronous spatial-temporal spikes. The last part further discusses the meaningful future research directions on neuromorphic vision sensors More precisely, we look forward to new materials to enhance the sensing abilities in computational speed memory, communication overhead, and power consumption. Then, we analyze the potential profound influence that can be extended to multi-band sampling rather than only visible spectrum, multi-task learning just like human vision systems and multi-sensor fusion. Finally, we anticipate a neuromorphic community combing neuroscience and computer vision, which benefits from each other. We believe that the most alluring characteristic of the comprehensive survey paper is that it acts as a bridge between neuromorphic cameras and many computer vision tasks, thus brining the mainstream of computer vision research to leverage the benefits of these novel sensors and enlarging the footprint of neuromorphic vision towards a broader array of applications Key words brain-inspired intelligence; artificial intelligence, silicon retina; bio-inspired vision; neuromorphic ng 人类视觉系统具有低冗余、低功耗、高动态及 1引言鲁棒性强等优势,可以高效地自适应处理动态与静态信息,且具有极强地小样本泛化能力和全面的复视觉是智慧生物和智能体的基本功能,负责理杂场景感知能力.探索人类视觉系统的奥秘,并解与感知外部世界.人类感知系统有超过80%信息借鉴人类视觉系统的神经网络结构和视觉信息采量来自视觉系统,远远超过听觉系统、触觉系统以样加工处理机理明,建立起一套新的视觉信息感知及其他感知系统之和叫.如何设计强大的视觉感知与处理理论、技术标准、芯片和应用工程系统,从系统,以应用于计算机视觉技术和人工智能技术,而更好模拟、扩展或超越人类视觉感知系统的能直是科学界和工业界的研究热点力.这是神经科学与信息科学的交叉学科,称之为视频即静止图像序列,是随着电影电视技术发神经形态视觉!011 展起来的一个人造概念,利用了人类视觉系统的视神经形态视觉是一个包含硬件开发,软件支觉暂留现象,将两帧图像刷新的时间间隔小于50撑,生物神经模型,三者不可缺一的视觉感知系统毫秒,会产生连续的视觉感受.近年来,传统视频其终极目标之一是模拟生物视觉感知结构与机理在视觉观赏角度取得了重大进展向,但存在数据采以硅视网膜( Silicon retina)来以期达到真正的样冗余大、感光动态范围小和时域采集低分辨率,机器视觉在高速运动场景易产生运动模糊等缺点S.此外, 神经形态视觉传感器的研制是建立在神经科计算机视觉一直朝着“视频摄像头±计算杋+算法=学、生理学等领域对生物视网膜结构与功能机理的机器视觉”的主流方向,却很少人质疑用图像序研究基础上.1943年 McCulloch和Pit提出一种列(视频)表达视觉信息的合理性,更少人质疑是具有计算能力的神经元模型.1952年 Hodgkin和否凭借该计算机视觉算法就能实现真正机器视觉. Huxley对神经元建立动力学微分方程描述神经

2 计算机学报 2020 年 In this paper, the first part presents a comprehensive overview of the emerging field of neuromorphic vision consisting of the millstones, two bio-inspired vision sampling models (i.e., dynamic vision sampling model and integrating vision sampling model), the types of representative neuromorphic sensors (e.g., DVS, ATIS, DAVIS, CeleX, and Vidar), asynchronous event-based signal processing, event-based feature representation and the typical vision applications. Specially, we introduce the fundamentals of neuromorphic signal processing methods, such as asynchronous spatial-temporal filtering, spike metric, and spike coding. According to the literature, we summarize and report experimental results on the key issue, namely event-based feature representation, from four perspectives consisting of rate-based images, hand-crafted features, spiking neural networks (SNNs), and deep neural networks (DNNs). The second part next highlights the following challenges: (i) Building some large-scale neuromorphic vision datasets for supervised learning approaches; (ii) Defining an effective spike metric for neuromorphic signal processing; (iii) Learning a better spatial-temporal representation from asynchronous spikes; (iv) Exploring high-speed computing paradigm via neuromorphic chips (e.g., TrueNorth, Loihi, and SpiNNaker); (v) Developing the open-source framework applied to asynchronous spatial-temporal spikes. The last part further discusses the meaningful future research directions on neuromorphic vision sensors. More precisely, we look forward to new materials to enhance the sensing abilities in computational speed, memory, communication overhead, and power consumption. Then, we analyze the potential profound influence that can be extended to multi-band sampling rather than only visible spectrum, multi-task learning just like human vision systems and multi-sensor fusion. Finally, we anticipate a neuromorphic community combing neuroscience and computer vision, which benefits from each other. We believe that the most alluring characteristic of the comprehensive survey paper is that it acts as a bridge between neuromorphic cameras and many computer vision tasks, thus brining the mainstream of computer vision research to leverage the benefits of these novel sensors and enlarging the footprint of neuromorphic vision towards a broader array of applications. Key words brain-inspired intelligence; artificial intelligence; silicon retina; bio-inspired vision; neuromorphic engineering 1 引言视觉是智慧生物和智能体的基本功能，负责理解与感知外部世界．人类感知系统有超过 80%信息量来自视觉系统，远远超过听觉系统、触觉系统以及其他感知系统之和[1]．如何设计强大的视觉感知系统，以应用于计算机视觉技术和人工智能技术，一直是科学界和工业界的研究热点[2]．视频即静止图像序列，是随着电影电视技术发展起来的一个人造概念，利用了人类视觉系统的视觉暂留现象[3]，将两帧图像刷新的时间间隔小于 50 毫秒，会产生连续的视觉感受．近年来，传统视频在视觉观赏角度取得了重大进展[4]，但存在数据采样冗余大、感光动态范围小和时域采集低分辨率，在高速运动场景易产生运动模糊等缺点[5]．此外，计算机视觉一直朝着“视频摄像头+计算机+算法= 机器视觉”的主流方向[6-7]，却很少人质疑用图像序列（视频）表达视觉信息的合理性，更少人质疑是否凭借该计算机视觉算法就能实现真正机器视觉．人类视觉系统具有低冗余、低功耗、高动态及鲁棒性强等优势，可以高效地自适应处理动态与静态信息，且具有极强地小样本泛化能力和全面的复杂场景感知能力[8]．探索人类视觉系统的奥秘，并借鉴人类视觉系统的神经网络结构和视觉信息采样加工处理机理[9]，建立起一套新的视觉信息感知与处理理论、技术标准、芯片和应用工程系统，从而更好模拟、扩展或超越人类视觉感知系统的能力．这是神经科学与信息科学的交叉学科，称之为神经形态视觉[10-12]．神经形态视觉是一个包含硬件开发，软件支撑，生物神经模型，三者不可缺一的视觉感知系统，其终极目标之一是模拟生物视觉感知结构与机理，以硅视网膜（Silicon Retina）[13]来以期达到真正的机器视觉．神经形态视觉传感器的研制是建立在神经科学、生理学等领域对生物视网膜结构与功能机理的研究基础上．1943 年 McCulloch 和 Pitts[14]提出一种具有计算能力的神经元模型．1952 年 Hodgkin 和 Huxley[15]对神经元建立动力学微分方程描述神经

李家宁等:神经形态视觉传感器的研究进展及应用综述 Mcculloch和Pits Mead提出神经形态 Mahowald队 Delbruck团队| Delbruck团队 Delbruck团队提出神经元模型 ( Neuromorphic)概念提出AER方式研制首款DvS提出DAS发彩色DMVs346 1952 2016 1990 Hodgkin Mahowald和Mead研 Culureiello等人 Posh等人陈守顺教授团队黄铁军教授团队建立动力制第一款硅视网膜设计章鱼网膜研制ATS 研制Ceex 开发vda 描述神图1神经形态视觉传感器的发展历程,蓝色框为里程碑事件元动作电位的产生与传递过程,该动作电位称为脉器( Dynamic and Active Pixel Vision Sensor 冲( Spike).1986年加州理工学院的博士研究生 DAVIS),即一种双模的技术路线,增加额外独立的 Mahowald所想:“大脑是想象力的发源地,这让我传统图像采样电路弥补DⅤS纹理成像的缺陷,随很兴奋,我希望可以创造一个想象事物的芯片”,后在2017年又将其扩展为彩色 DAVIS34621.2016 那时与导师 Carver Mead教授开始萌发从生物神经年陈守顺教授团队采用了增加事件的位宽,让事科学和工程学角度研究立体视觉的问题.1990年件携带像素光强信息输出以恢复场景纹理.2018年 Mead首次在《 Proceedings of ieee》上提出神经形黄铁军教授团队叫采用了章鱼视网膜8的光强积态( Neuromorphic)的概念,利用大规模集成电分发放采样原理,将脉冲平面传输替换AER方式路来模拟生物神经系统.199Ⅰ年 Mahowald和以节约传输带宽,验证了积分型采样原理可高速重 Mead在《 Scientific American》的封面刊登了一只构场景纹理细节,即仿视网膜中央凹采样模型运动的猫,标志了第一款硅视网膜的诞生,其模拟( Fovea- like Sampling Model,FSM),也称 Vidar, 了视网膜上视锥细胞、水平细胞以及双极细胞的生如图1所示.神经形态视觉传感器92模拟生物视物功能,正式点燃了神经形态视觉传感器这一新兴觉感知系统,其具有高的时域分辨率、数据冗余少领域.1993年 Mahowald团队为了解决集成电路低功耗和高动态范围的优势,在自动驾驶p2、无的稠密三维连线的问题,提出了一种新型的集成电人机视觉导航128、工业检测及视频监控等机路通信协议,即地址事件协议( Address- Event器视觉领域,尤其在涉及高速运动和极端光照场景 Representation,AER),实现了事件的异步读下有着巨大的市场潜力.此外,神经形态视觉釆样、出.2003年 Culurciello等人1设计了一种AER方处理及应用是神经形态工程的重要分支,为计算式的积分发放的脉冲模型,将像素光强编码为频率神经科学的脑启发视觉模型提供了验证,也是探或脉冲间隔,称为章鱼视网膜( Octopus索人类智能的有效途径之一.目前神经形态视觉传 Retina).2005年 Delbruck团队9研制出动态视觉感器的研究与应用尚处于初期阶段,达到或超越人传感器( Dynamic Vision Sensor,DVS),以时空异类视觉系统在复杂交互环境下的感知能力还需要步稀疏的事件( Event)表示像素光强变化,其商业大量的探索研究. 化具有里程牌的意义.然而,DVS无法捕捉自然场本文从神经形态视觉的发展历程、生物视觉神景的精细纹理图像.2008年Posh等人提出了一经采样模型到神经形态视觉传感器的采样机理及种基于异步视觉的图像传感器( Asynchronous类型、神经视觉信号处理与特征表达及视觉应用的 Time-based Image Sensor,ATS),引入了基于事件触视角进行系统性回顾与综述,并展望了该领域未来发的光强测量电路来重构变化处的像素灰度.2013研究的重大挑战与可能发展方向,同时探讨了其对年 Delbruck团队2开发了动态有源像素视觉传感未来机器视觉和人工智能领域的潜在影响

李家宁等：神经形态视觉传感器的研究进展及应用综述 3 图 1 神经形态视觉传感器的发展历程，蓝色框为里程碑事件元动作电位的产生与传递过程，该动作电位称为脉冲（Spike）．1986 年加州理工学院的博士研究生 Mahowald 所想：“大脑是想象力的发源地，这让我很兴奋，我希望可以创造一个想象事物的芯片”，那时与导师 Carver Mead 教授开始萌发从生物神经科学和工程学角度研究立体视觉的问题．1990 年 Mead 首次在《Proceedings of IEEE》上提出神经形态（Neuromorphic）的概念[16]，利用大规模集成电路来模拟生物神经系统．1991 年 Mahowald 和 Mead[13]在《Scientific American》的封面刊登了一只运动的猫，标志了第一款硅视网膜的诞生，其模拟了视网膜上视锥细胞、水平细胞以及双极细胞的生物功能，正式点燃了神经形态视觉传感器这一新兴领域．1993 年 Mahowald[17]团队为了解决集成电路的稠密三维连线的问题，提出了一种新型的集成电路通信协议，即地址事件协议（Address-Event Representation, AER ），实现了事件的异步读出．2003 年 Culurciello 等人[18]设计了一种 AER 方式的积分发放的脉冲模型,将像素光强编码为频率或脉冲间隔 , 称为章鱼视网膜（ Octopus Retina）．2005 年 Delbruck 团队[19]研制出动态视觉传感器（Dynamic Vision Sensor, DVS），以时空异步稀疏的事件（Event）表示像素光强变化，其商业化具有里程牌的意义．然而，DVS 无法捕捉自然场景的精细纹理图像．2008 年 Posh 等人[20]提出了一种基于异步视觉的图像传感器（Asynchronous Time-based Image Sensor, ATIS），引入了基于事件触发的光强测量电路来重构变化处的像素灰度．2013 年 Delbruck 团队[21]开发了动态有源像素视觉传感器（ Dynamic and Active Pixel Vision Sensor, DAVIS），即一种双模的技术路线，增加额外独立的传统图像采样电路弥补 DVS 纹理成像的缺陷，随后在 2017 年又将其扩展为彩色 DAVIS346[22]．2016 年陈守顺教授团队[23]采用了增加事件的位宽，让事件携带像素光强信息输出以恢复场景纹理．2018 年黄铁军教授团队[24]采用了章鱼视网膜[18]的光强积分发放采样原理，将脉冲平面传输替换 AER 方式以节约传输带宽，验证了积分型采样原理可高速重构场景纹理细节，即仿视网膜中央凹采样模型（Fovea-like Sampling Model, FSM），也称 Vidar，如图 1 所示．神经形态视觉传感器[19-23]模拟生物视觉感知系统，其具有高的时域分辨率、数据冗余少、低功耗和高动态范围的优势，在自动驾驶[25-26]、无人机视觉导航[27-28]、工业检测[29]及视频监控[30]等机器视觉领域，尤其在涉及高速运动和极端光照场景下有着巨大的市场潜力．此外，神经形态视觉采样、处理及应用是神经形态工程的重要分支[31] ,为计算神经科学的脑启发视觉模型提供了验证[32]，也是探索人类智能的有效途径之一．目前神经形态视觉传感器的研究与应用尚处于初期阶段，达到或超越人类视觉系统在复杂交互环境下的感知能力还需要大量的探索研究．本文从神经形态视觉的发展历程、生物视觉神经采样模型到神经形态视觉传感器的采样机理及类型、神经视觉信号处理与特征表达及视觉应用的视角进行系统性回顾与综述，并展望了该领域未来研究的重大挑战与可能发展方向，同时探讨了其对未来机器视觉和人工智能领域的潜在影响．

计算机学报 2020年 2神经形态视觉模型与采样机理神经形态视觉的技术路线总体上分为三个层次:结构层次模仿视网膜,器件功能层次逼近视网膜,智能层次超越视网膜.如果说传统相机是对人类视觉系统的模拟,那么这种仿生物视网膜只是器件功能层次的初级模拟.实际上,传统相机无论是水平红胞。双极细跑在结构层次、功能层次,甚至智能层次都远不及人类视网膜在各种复杂环境的感知能力近年来,各国“脑计划”的相继布局与展开, 神经节细胞图3灵长类生物视网膜横截面示意图叫将从结构层次解析类脑视觉列为重要内容之一支持,主要通过神经科学家采用精细解析与先进探测技术,获取视网膜基本单元的结构、功能及其网络包括光感受器细胞、双极细胞、水平细胞、神经节连接,为器件功能层次逼近生物视觉感知系统提供细胞等主要构成,如图3所示.光感受器细胞分理论支撑.神经形态视觉传感器正是从器件功能层为视杆细胞和视锥细胞两类,负责将进入眼球的光次仿真入手,即采用光电纳米器件模拟生物视觉采信号转化为电信号,并传导至双极细胞和水平细样模型与信息处理功能,在有限的物理空间和功耗胞.视锥细胞对颜色敏感,主要负责颜色的识别, 条件下构造出具有或超越生物视觉能力的感知系通常在场景光照较强条件下工作;视杆细胞对光线敏感,能够感受弱光,主要提供夜晚场景下工作, 统.简而言之,神经形态视觉传感器不用等完全理解视网膜的解析结构与机理再进行模拟,而是借鉴但其没有颜色辨别能力.双极细胞接受光感受器的结构层次研究机理并绕过这个更为困难的问题,通信号输入,其根据感受野的区域不同分为ON型和过器件功能层次逼近等仿真工程技术手段达到、扩 OFF型两类细胞,分别感知光强增加和光强减弱.水平细胞与光感受器、双极细胞横向互连,对展或超越人类视觉感知系统的能力目前,神经形态视觉传感器已经取得了阶段性光感受器输出的信号进行亮度调节,同时也负责增成果,有模拟视网膜外周感知运动功能的差分型视强视觉对象边缘凸显轮廓.神经节细胞负责接受双觉采样模型,如DVS剛、ATIS2、 DAVIS212) 极细胞的视觉信号输入,并以时空脉冲信号 Ceex23:也有模拟视网膜中央凹感知精细纹理功 ( Spatial- emporal Spike)的形式做出响应,再经能的积分型视觉采样模型,如章鱼视网膜1S 视觉纤维传递至视觉皮层.此外,视网膜细胞 Ⅴidar24 有多条并行通路传递和处理视觉信号,有极大的带宽传输与速度优势,其中 Magnocellular和 Parvocellular通路是最主要的两条信号通路,分外膝体别对场景的时域变化敏感和空间结构敏感. 灵长类生物视网膜具有以下优势 (1)光感受器的局部自适应增益控制:以记录光强变化替代绝对光强来消除冗余,对光强感知腹侧通路有高动态范围( High Dynamic Range,HDR) 图2视觉通路模型 2)视杆细胞的空间带通滤波器:滤除低频信息的视觉信息冗余和高频信息的噪声 (3)ON和OFF类型:神经节细胞及视网膜 2.1生物视网膜视觉模型输出均为ON和OFF脉冲信号编码,降低了单通道脊椎动物的视网膜是在6亿年前由光感受神经细胞的脉冲发放频率演变而成,位于后半眼球的多层复杂神经网状结 (4)感光功能区:视网膜中央凹具有高的空构,如图2所示.灵长类生物视网膜大致可以分为间分辨率,可捕捉精细纹理;其外周的区域具有高三层结构:光感受器层、内丛状层和外丛状层,其的时间分辨率,捕获快速运动信息

4 计算机学报 2020 年 2 神经形态视觉模型与采样机理神经形态视觉的技术路线总体上分为三个层次：结构层次模仿视网膜，器件功能层次逼近视网膜，智能层次超越视网膜．如果说传统相机是对人类视觉系统的模拟，那么这种仿生物视网膜只是器件功能层次的初级模拟．实际上，传统相机无论是在结构层次、功能层次，甚至智能层次都远不及人类视网膜在各种复杂环境的感知能力．近年来，各国“脑计划”[33]相继布局与展开，将从结构层次解析类脑视觉列为重要内容之一支持，主要通过神经科学家采用精细解析与先进探测技术，获取视网膜基本单元的结构、功能及其网络连接，为器件功能层次逼近生物视觉感知系统提供理论支撑．神经形态视觉传感器正是从器件功能层次仿真入手，即采用光电纳米器件模拟生物视觉采样模型与信息处理功能，在有限的物理空间和功耗条件下构造出具有或超越生物视觉能力的感知系统．简而言之，神经形态视觉传感器不用等完全理解视网膜的解析结构与机理再进行模拟，而是借鉴结构层次研究机理并绕过这个更为困难的问题，通过器件功能层次逼近等仿真工程技术手段达到、扩展或超越人类视觉感知系统的能力．目前，神经形态视觉传感器已经取得了阶段性成果，有模拟视网膜外周感知运动功能的差分型视觉采样模型，如 DVS[19]、ATIS[20]、DAVIS[21-22]、 CeleX[23]；也有模拟视网膜中央凹感知精细纹理功能的积分型视觉采样模型，如章鱼视网膜[18]、 Vidar[24]．图 2 视觉通路模型 2.1 生物视网膜视觉模型脊椎动物的视网膜是在 6 亿年前由光感受神经细胞演变而成，位于后半眼球的多层复杂神经网状结构，如图 2 所示．灵长类生物视网膜大致可以分为三层结构：光感受器层、内丛状层和外丛状层，其图 3 灵长类生物视网膜横截面示意图[34] 包括光感受器细胞、双极细胞、水平细胞、神经节细胞等主要构成[34]，如图 3 所示．光感受器细胞分为视杆细胞和视锥细胞两类，负责将进入眼球的光信号转化为电信号，并传导至双极细胞和水平细胞．视锥细胞对颜色敏感，主要负责颜色的识别，通常在场景光照较强条件下工作；视杆细胞对光线敏感，能够感受弱光，主要提供夜晚场景下工作，但其没有颜色辨别能力．双极细胞接受光感受器的信号输入，其根据感受野的区域不同分为 ON 型和 OFF 型两类细胞，分别感知光强增加和光强减弱．水平细胞与光感受器、双极细胞横向互连，对光感受器输出的信号进行亮度调节，同时也负责增强视觉对象边缘凸显轮廓．神经节细胞负责接受双极细胞的视觉信号输入，并以时空脉冲信号（Spatial-Temporal Spike）的形式做出响应，再经视觉纤维传递至视觉皮层[11]．此外，视网膜细胞有多条并行通路传递和处理视觉信号，有极大的带宽传输与速度优势，其中 Magnocellular 和 Parvocellular 通路是最主要的两条信号通路[35]，分别对场景的时域变化敏感和空间结构敏感．灵长类生物视网膜具有以下优势[11]：（1）光感受器的局部自适应增益控制：以记录光强变化替代绝对光强来消除冗余，对光强感知有高动态范围（High Dynamic Range, HDR）；（2）视杆细胞的空间带通滤波器：滤除低频信息的视觉信息冗余和高频信息的噪声；（3）ON 和 OFF 类型：神经节细胞及视网膜输出均为 ON 和 OFF 脉冲信号编码，降低了单通道的脉冲发放频率；（4）感光功能区：视网膜中央凹具有高的空间分辨率，可捕捉精细纹理；其外周的区域具有高的时间分辨率，捕获快速运动信息．

李家宁等:神经形态视觉传感器的研究进展及应用综述此外,依据 Nyquist采样定理传统相机需要传间先后顺序异步传出,而不是类似传统相机那样以输超过20Gb/s的数据才能匹配人类视觉的动态范固定频率的图像传出,解码电路依据地址及时间解围与空间分辨率,而生物视觉以二进制脉冲信息表析事件属性.AER方式用于神经形态视觉传感器的示与编码,视觉神经仅需传输20Mb/s数据至视觉主要特点在于: 皮层,数据量少将近1000倍.因此,视网膜通过 (1)硅视网膜像素输出事件模拟视网膜的神神经节细胞将光强信息转换为时空脉冲阵列信号,经元发放脉冲信号的功能; 是一种高效的视觉信息表示与编码的方法狗,为 2)硅视网膜像素之间光强感知、脉冲产生神经形态视觉传感器提供了理论支撑与功能层次及传输均异步; 的启发 (3)硅视网膜输出异步事件稀疏时,事件表生物视觉系统的信息获取、加工和处理主要发示及传输更高效生在视网膜、外膝体与视皮层等处門,如图2所差分型视觉采样是神经形态视觉传感器感知示,视网膜是接收视觉信息的第一站;外膝体是将模型的主流,如DVs、AIIS2、DAVs21-2 视网膜视觉信号传输到初级视皮层的信息中转站;CeeX2,其对灵长类视网膜外周中光感受器、双视皮层是视觉中央处理器,在学习记忆、思维语言极细胞、神经节细胞三层结构的抽象,从器件功能以及知觉意识等高级视觉功能方面发挥至关重要层次上逼近或超越视网膜外周的高时间分辨率感的重要.视皮层信息处理的整个过程由两条并行知的能力,如图5(a).为了提高光强感知动态范通路完成:Vl、V2和4等组成腹侧通路主要处理围,DⅤS系列视觉传感器多采用对数差分模型,即物体形状、颜色等信息识别,也称what通路;光电流与电压采用对数映射关系,如图5(b).随着 V1、V2和MT等组成的背侧通路主要处理空间位光强的相对变化引起电压变化超过设定阈值θ,像置、运动等信息,也称 where通路.因此,借鉴素产生一个脉冲信号,如图5(c)所示,其原理如神经计算模型探索人类视觉系统信息处理与分析下: 机制,为计算机视觉与人工智能技术提供借鉴思路 AL=InL(u, tInL(u, t-4t=p0 (1) 与指导方向,进一步启发类脑视觉理论模型与计算差分型视觉传感器采用AER方式,每个脉冲方法,从而更好的挖掘视觉特征信息,以逼近生物信号采用事件形式表示,包括像素位置u=(x,y)、视觉的高效自适应地处理动静信息、极强的小样本发放时间t和事件极性p,即一个四元组表示泛化能力与全面视觉分析能力 (x,y,L,p).前三项唯一确定时空域的位置,最后 22差分型视觉采样及AER传输协议项极性p={-1,l}分别表示光强的减弱OFF和光强神经元之间的复杂连接,脉冲信号在神经元之增强ON.差分型神经形态视觉传感器与传统相机间的传递是异步的,那么神经形态工程系统如何模相比,其优势在于: 拟这一特性呢?正是 Mahowald团队提出新型的 (1)输出异步稀疏脉冲也不存在“帧”的概通信协议AER方式,如图4所示,用于脉冲信号念,不再受限于快门时间和帧率,感知光强的变化, 多路异步传输,也解决了大规模集成电路的三维稠可消除静态不变的视觉冗余密连线难题,即“连线问题”( Wiring problem) (2)采样具有高时间分辨率,适用于高速运动视觉任务分析像素脉冲事件脉冲事件 (3)光电流与电压的对数映射关系,增强了高低光照的感知能力进而提升动态范围。 (1,2) 2.3积分型视觉采样 (2,2)(1.1)(21)(1,2 (2,1) 积分型视觉采样在功能上对灵长类视网膜中央凹区域的光感受器、双极细胞、神经节细胞三层结构的抽象,如章鱼视网膜、vdar24.积分型图4AER方式示意图视觉传感器模拟了神经元积分发放模型,将像素光强编码为频率或脉冲间隔182·34,具有对视觉场 AER方式将传感器上每个像素视为独立,脉冲景的精细纹理高速重构的能力网,如图6所示.光信号以事件( Event)的形式传输,并按事件产生时感受器将光信号转化为电信号,积分器在光照条件

李家宁等：神经形态视觉传感器的研究进展及应用综述 5 此外，依据 Nyquist 采样定理传统相机需要传输超过 20Gb/s 的数据才能匹配人类视觉的动态范围与空间分辨率，而生物视觉以二进制脉冲信息表示与编码，视觉神经仅需传输 20Mb/s 数据至视觉皮层，数据量少将近 1000 倍．因此，视网膜通过神经节细胞将光强信息转换为时空脉冲阵列信号，是一种高效的视觉信息表示与编码的方法[11, 36]，为神经形态视觉传感器提供了理论支撑与功能层次的启发．生物视觉系统的信息获取、加工和处理主要发生在视网膜、外膝体与视皮层等处[9]，如图 2 所示．视网膜是接收视觉信息的第一站；外膝体是将视网膜视觉信号传输到初级视皮层的信息中转站；视皮层是视觉中央处理器，在学习记忆、思维语言以及知觉意识等高级视觉功能方面发挥至关重要的重要[37]．视皮层信息处理的整个过程由两条并行通路完成：V1、V2 和 V4 等组成腹侧通路主要处理物体形状、颜色等信息识别[38]，也称 what 通路； V1、V2 和 MT 等组成的背侧通路主要处理空间位置、运动等信息[39]，也称 where 通路．因此，借鉴神经计算模型探索人类视觉系统信息处理与分析机制，为计算机视觉与人工智能技术提供借鉴思路与指导方向，进一步启发类脑视觉理论模型与计算方法，从而更好的挖掘视觉特征信息，以逼近生物视觉的高效自适应地处理动静信息、极强的小样本泛化能力与全面视觉分析能力． 2.2 差分型视觉采样及AER传输协议神经元之间的复杂连接，脉冲信号在神经元之间的传递是异步的，那么神经形态工程系统如何模拟这一特性呢？正是 Mahowald 团队[17]提出新型的通信协议 AER 方式，如图 4 所示，用于脉冲信号多路异步传输，也解决了大规模集成电路的三维稠密连线难题，即“连线问题”（Wiring Problem）．图 4 AER 方式示意图 AER 方式将传感器上每个像素视为独立，脉冲信号以事件（Event）的形式传输，并按事件产生时间先后顺序异步传出，而不是类似传统相机那样以固定频率的图像传出，解码电路依据地址及时间解析事件属性．AER 方式用于神经形态视觉传感器的主要特点[40]在于：（1）硅视网膜像素输出事件模拟视网膜的神经元发放脉冲信号的功能；（2）硅视网膜像素之间光强感知、脉冲产生及传输均异步；（3）硅视网膜输出异步事件稀疏时，事件表示及传输更高效．差分型视觉采样是神经形态视觉传感器感知模型的主流，如 DVS[19]、ATIS[20]、DAVIS[21-22]、 CeleX[23]，其对灵长类视网膜外周中光感受器、双极细胞、神经节细胞三层结构的抽象，从器件功能层次上逼近或超越视网膜外周的高时间分辨率感知的能力，如图 5（a）．为了提高光强感知动态范围，DVS 系列视觉传感器多采用对数差分模型，即光电流与电压采用对数映射关系,如图 5（b）．随着光强的相对变化引起电压变化超过设定阈值  ，像素产生一个脉冲信号，如图 5（c）所示，其原理如下： 𝛥𝐿≐ln𝐿(𝑢,𝑡)−ln𝐿(𝑢,𝑡−𝛥𝑡)=𝑝𝜃 （1）差分型视觉传感器采用 AER 方式，每个脉冲信号采用事件形式表示，包括像素位置 u x y  ( , ) 、发放时间 t 和事件极性 p ，即一个四元组表示 ( , , , ) x y t p ．前三项唯一确定时空域的位置，最后一项极性 p  { 1,1} 分别表示光强的减弱 OFF 和光强增强 ON．差分型神经形态视觉传感器与传统相机相比，其优势在于：（1）输出异步稀疏脉冲也不存在“帧”的概念，不再受限于快门时间和帧率，感知光强的变化，可消除静态不变的视觉冗余；（2）采样具有高时间分辨率，适用于高速运动视觉任务分析；（3）光电流与电压的对数映射关系，增强了高低光照的感知能力进而提升动态范围。 2.3 积分型视觉采样积分型视觉采样在功能上对灵长类视网膜中央凹区域的光感受器、双极细胞、神经节细胞三层结构的抽象，如章鱼视网膜[18]、Vidar[24]．积分型视觉传感器模拟了神经元积分发放模型，将像素光强编码为频率或脉冲间隔[18, 24, 38-45]，具有对视觉场景的精细纹理高速重构的能力[44]，如图 6 所示．光感受器将光信号转化为电信号，积分器在光照条件

计算机学报 2020年 v C2 n van 计:复位 (b)光强差分采样光感受器日:双极细胞 F神经节细胞 ⊙ (a)灵长类视网膜外层三层结构及DVS电路 (c)DS脉冲信号累计平面图5差分型视觉采样 readout Spikes vp (b)光强积分采样光感受器经节细胞 +) (a)灵长类视网膜中央凹三层结构及Ⅴidar电路 (c) Vidar脉冲信号纹理成像图6积分型视觉采样 ()条件下进行累计到达累计强度A(),当该强度值超过脉冲发放阅值q时,则像素点输出一个脉冲3神经形态视觉传感器类型信号,同时积分器复位清空电荷,其原理如下: 神经形态视觉传感器借鉴生物视觉系统的神 A(0=1()dr (2) 经网络结构和视觉信息采样加工处理机理,以器件积分型视觉传感器的像素间彼此独立,章鱼视功能层次模拟、扩展或超越生物视觉感知系统.近网膜采用AER方式将脉冲信号进行输出,尤其年来,一大批代表性的神经形态视觉传感器涌现, 在光强充足时积分型视觉传感器脉冲发放稠密,事是人类在探索仿生视觉技术的雏形,有模拟视网膜件表示容易出现同一位置及相邻位置多次请求脉外周感知运动功能的差分型视觉采样模型,如冲输出,会出现数据传输的巨大压力,不得不设计DⅤs、ATS2、DAVS212)、cleX23;也有模总线仲裁机制,为脉冲输出确定优先级,甚至会因拟视网膜中央凹感知精细纹理功能的积分型视觉带宽限制丢失脉冲信号. Vidar探索高速轮询的采样模型,如vdar24. 方式以脉冲矩阵的形式传输每个采样时刻的脉冲31DVs 发放,此方式不需要输出脉冲的坐标与时间戳,只需将像素是否发放标记为“1”和“0”.将脉冲平 DVS对灵长类视网膜外周中的光感受器、双面轮询的方式代替AER方式可以节约传输带宽极细胞、神经节细胞三层结构的功能抽象,由光电转换电路、动态检测电路和比较器输出电路组成

6 计算机学报 2020 年（a）灵长类视网膜外层三层结构及 DVS 电路（b）光强差分采样（c）DVS 脉冲信号累计平面图 5 差分型视觉采样[11] （a）灵长类视网膜中央凹三层结构及 Vidar 电路（b）光强积分采样（c）Vidar 脉冲信号纹理成像图 6 积分型视觉采样 It() 条件下进行累计到达累计强度 At()，当该强度值超过脉冲发放阈值  时，则像素点输出一个脉冲信号，同时积分器复位清空电荷[45]，其原理如下： 0 ( ) ( ) t A t I t dt    （2）积分型视觉传感器的像素间彼此独立，章鱼视网膜[18]采用 AER 方式将脉冲信号进行输出，尤其在光强充足时积分型视觉传感器脉冲发放稠密，事件表示容易出现同一位置及相邻位置多次请求脉冲输出，会出现数据传输的巨大压力，不得不设计总线仲裁机制，为脉冲输出确定优先级，甚至会因带宽限制丢失脉冲信号． Vidar[24]探索高速轮询的方式以脉冲矩阵的形式传输每个采样时刻的脉冲发放，此方式不需要输出脉冲的坐标与时间戳，只需将像素是否发放标记为“1”和“0”．将脉冲平面轮询的方式代替 AER 方式可以节约传输带宽． 3 神经形态视觉传感器类型神经形态视觉传感器借鉴生物视觉系统的神经网络结构和视觉信息采样加工处理机理，以器件功能层次模拟、扩展或超越生物视觉感知系统．近年来，一大批代表性的神经形态视觉传感器涌现，是人类在探索仿生视觉技术的雏形，有模拟视网膜外周感知运动功能的差分型视觉采样模型，如 DVS[19]、ATIS[20]、DAVIS[21-22]、CeleX[23]；也有模拟视网膜中央凹感知精细纹理功能的积分型视觉采样模型，如 Vidar[24]． 3.1 DVS DVS[19]对灵长类视网膜外周中的光感受器、双极细胞、神经节细胞三层结构的功能抽象，由光电转换电路、动态检测电路和比较器输出电路组成

李家宁等:神经形态视觉传感器的研究进展及应用综述如图5所示.光电转换电路采用对数光强感知模型,的劣势,即ON或OFF事件不携带绝对光强信号, 提高了光强感知范围,也更加接近生物视网膜的高且光强变化较弱时无脉冲信号发放,从而无法重构动态适应的能力.动态检测电路采用差分型采样模精细化纹理图像.为了解决DVS面向视觉纹理可型,即对光强变化做出响应,无光强变化则不响视化,便衍生出ATIS2、 DAVIS212)和 CeleX231 应.比较器依据光强的增加或减弱输出ON或OFF等神经形态视觉传感器事件 3.2 ATIS ATS在DVS的基础上巧妙地引入了基于时动模糊间间隔的光强测量电路来实现图像重构,其思路是每次DVS电路产生事件时,触发光强测量电路进传统相机行工作;光强测量设定了两个不同的参考电压,通过对光强进行积分,并记录达到两个电压发放的事件;由于不同光强的条件下,电压变化相同量所需的时间不同,通过建立光强与时间的映射可以推断时空脉冲信号出光强大小,从而输出光强变化像素处的光强信息,也称为脉冲宽度调制( Pulse width modulation, DVS PWM).此外,为了解决静态区域没有DVS脉冲信号发放依然无法获得静态区域的视觉纹理信息,AS引入了一套全局发放机制,即所有像素可图被强制发放一次脉冲,这样在ATIS初始工作时可 7DS时空脉冲信号示意图获得一整幅图像作为背景,然后运动区域不断产生织专统相机以固定帧率的采样方式,在高速场景陈冲进而不断的触发光强测量电路获得运动区域生运动模糊而DVS采用AER异步传输方式的灰度来更新背景的差分型视觉采样模型,以异步时空脉冲信号表示 Posch团队和 Prophesee公司研制的商用场景光强变化,对场景的变化十分敏感且高时间分 AIS,其空间分辨率为304×240,时域采样频率辨率,尤其适用于高速运动的视觉任务分析,如图为10Hz,动态范围为143dB,在涉及高速视觉任所示,DVS相比传统相机具有以下优势:高时间务存在着广泛应用.另外, Prophessee公司也受到分辨率(10Hz)、高动态范围(120dB)、低功耗、了 Intel公司1500万美金的项目资助,将ATIS应用于自动驾驶汽车的视觉处理系统.随后数据冗余少和时延低 Bensman5团队进一步验证了在RGB三个通道的 Delbruck团队和 Ini vation公司开发的第一款商用的DVS1289,其空间分辨率为128×128,时域分别用ATS采样脉冲信号再融合彩色的技术方案 ATS在面向高速运动时,依然存在事件与灰度采样频率为10°Hz,动态范围为120dB,在高速运重构更新不匹配的情况,其原因有以下两点:脉冲动对象识别、检测与跟踪广泛应用.此外,DⅤS及其衍生的AS2、DAVS212.和 celeX2)等神经形发放后触发光强测量电路,其测量结果是脉冲发放态视觉传感器的研究及产品也备受关注,并逐渐被后一段时间的平均光强,造成运动不匹配;场景稍微变化未引起脉冲发放,从而像素未及时更新,随应用于自动驾驶、无人机视觉导航和工业检测等涉及高速运动视觉任务.例如, Samsung公司开发了看时间推移会造成纹理差异明显的空间分辨率为640×480的DVSG2,且像素尺33DVAS 寸为94m×9m.BM公司采用了DⅤS128作为 DAVS2l2)是一种最直观且有效的融合技术思类脑芯片 TrueNorth'的视觉感知系统来进行快速路,将DⅤsS和传统相机二者结合,在DⅤS基础上手势识别额外引入有源像素传感器( Active Pixel Senso DS利用差分视觉采样模型可以滤过静止不APS),用于视觉场景纹理成像变或变化较弱的视觉信息以降低数据冗余,同时具 Delbruck团队和 Ini vation公司在空间分辨率为有感知高速运动.然而,这种优势带来了视觉重构240×180的DAⅥS240的基础上进一步推出了彩

李家宁等：神经形态视觉传感器的研究进展及应用综述 7 如图 5 所示．光电转换电路采用对数光强感知模型，提高了光强感知范围，也更加接近生物视网膜的高动态适应的能力．动态检测电路采用差分型采样模型，即对光强变化做出响应，无光强变化则不响应．比较器依据光强的增加或减弱输出 ON 或 OFF 事件．图 7 DVS 时空脉冲信号示意图传统相机以固定帧率的采样方式，在高速场景易产生运动模糊．而 DVS 采用 AER 异步传输方式的差分型视觉采样模型，以异步时空脉冲信号表示场景光强变化，对场景的变化十分敏感且高时间分辨率，尤其适用于高速运动的视觉任务分析，如图 7 所示．DVS 相比传统相机具有以下优势:高时间分辨率（106Hz）、高动态范围（120dB）、低功耗、数据冗余少和时延低． Delbruck团队和IniVation公司开发的第一款商用的 DVS128[19]，其空间分辨率为 128  128，时域采样频率为 106Hz，动态范围为 120dB，在高速运动对象识别、检测与跟踪广泛应用．此外，DVS 及其衍生的 ATIS[20]、DAVIS[21-22]和 CeleX[23]等神经形态视觉传感器的研究及产品也备受关注，并逐渐被应用于自动驾驶、无人机视觉导航和工业检测等涉及高速运动视觉任务．例如，Samsung 公司开发了的空间分辨率为 640  480 的 DVS-G2[46]，且像素尺寸为 9  m  9  m．IBM 公司采用了 DVS128 作为类脑芯片 TrueNorth[47]的视觉感知系统来进行快速手势识别[48]． DVS 利用差分视觉采样模型可以滤过静止不变或变化较弱的视觉信息以降低数据冗余，同时具有感知高速运动．然而，这种优势带来了视觉重构的劣势，即 ON 或 OFF 事件不携带绝对光强信号，且光强变化较弱时无脉冲信号发放，从而无法重构精细化纹理图像．为了解决 DVS 面向视觉纹理可视化，便衍生出 ATIS[20]、DAVIS[21-22]和 CeleX[23] 等神经形态视觉传感器． 3.2 ATIS ATIS[20]在 DVS 的基础上巧妙地引入了基于时间间隔的光强测量电路来实现图像重构，其思路是每次 DVS 电路产生事件时，触发光强测量电路进行工作；光强测量设定了两个不同的参考电压，通过对光强进行积分，并记录达到两个电压发放的事件；由于不同光强的条件下，电压变化相同量所需的时间不同，通过建立光强与时间的映射可以推断出光强大小，从而输出光强变化像素处的光强信息，也称为脉冲宽度调制（Pulse Width Modulation, PWM）[49]．此外，为了解决静态区域没有 DVS 脉冲信号发放依然无法获得静态区域的视觉纹理信息，ATIS 引入了一套全局发放机制，即所有像素可被强制发放一次脉冲，这样在 ATIS 初始工作时可获得一整幅图像作为背景，然后运动区域不断产生脉冲进而不断的触发光强测量电路获得运动区域的灰度来更新背景． Posch 团队和 Prophesee 公司研制的商用 ATIS[49]，其空间分辨率为 304  240，时域采样频率为 106Hz，动态范围为 143dB，在涉及高速视觉任务存在着广泛应用．另外，Prophessee 公司也受到了 Intel 公司 1500 万美金的项目资助，将 ATIS 应用于自动驾驶汽车的视觉处理系统．随后， Benosman [50]团队进一步验证了在 RGB 三个通道的分别用ATIS采样脉冲信号再融合彩色的技术方案． ATIS 在面向高速运动时，依然存在事件与灰度重构更新不匹配的情况，其原因有以下两点：脉冲发放后触发光强测量电路，其测量结果是脉冲发放后一段时间的平均光强，造成运动不匹配；场景稍微变化未引起脉冲发放，从而像素未及时更新，随着时间推移会造成纹理差异明显． 3.3 DVAIS DAVIS[21-22]是一种最直观且有效的融合技术思路，将 DVS 和传统相机二者结合，在 DVS 基础上额外引入有源像素传感器（Active Pixel Sensor, APS），用于视觉场景纹理成像． Delbruck团队和IniVation公司在空间分辨率为 240  180 的 DAVIS240[21]的基础上进一步推出了彩

8 计算机学报 2020年表1神经形态视觉传感器性能参数对比传感器类型 DVS128l9] ATIS[ 20 DAVIS346 2 DvS-G2143 Celex-v1231 vidar [24 商用时间 2008 2017 2018 2018 空间分辨率 304×240 346×260 1280×800400×250 最大采样率(Hz)1×10° 1×10 12×107 3×10° 1.6×10 4×104 动态范围(dB) 143 120 功耗(mW 50-175 10-170 390-470 芯片大小Ymm 6.3×6 99×8.2 8×6 8×5.8 14.3×11.6 0×6 像元尺寸(m2)40×40 18.5×18.5 9.8×98 填充因子 20% 100% 13.75% 延迟(Hs) 65-410 电源电压( 3.3 1.8&3.3 1.8&3.3 1.2&28 1.2&3.31.5&3.3 纹理图像彩色色DAⅥIS34621,其空间分辨率达到346×260,时陈守顺教授团队和 CelePixel公司最新发布的域采样频率为10Hz,动态范围为120dB,并将DVS第五代 Celex-vi2,其空间分辨率达为1280×800 所产生的事件坐标的空间位置(x,y)携带RGB彩色基本达到了传统相机的水平,同时时域最大输出采信息,但是APS电路采样速度远不如DⅤS电路,样频率为160MHz,动态范围为120dB,该产品的 APS模式的帧率为50FPS,动态范围为567B,两高空间分辨率、高时域分辨率及高动态范围的“三套采样电路产生的图像无法做到精准同步,尤其在高”优势引起了当前神经形态工程领域的关注.此高速运动场景,且APS图像在高速运动场景存在运外, Celepixel公司也受到了Badu公司4000万的动模糊. 项目资助,采用 CeleX-V用于汽车自动驾驶辅助系当前,DAⅥS是神经形态视觉传感器商用产统,利用其优势对驾驶异常行为进行实时监测品、工业应用及学术研究的主流,源于DVS系列 CeleX的脉冲事件采用9bt信息输出,在场景性传感器(DS18、DAⅥS240、DAⅥS346和彩剧烈运动或高速运动场景时,面临数据量大而无法色DAVS346)的学术研究推广,相关视觉任务数及时传输,甚至丢弃部分脉冲数据以至采样信号无据集的公开、代码及软件的开源等营造的良好生态法保真,同时对轻微光照也无法做出响应及时更新环境.因此,在本文介绍脉冲信号处理与特征表达、等缺点.但是, CeleX的“三高”性能及其光流信视觉应用等均以差分型视觉采样模型的DⅴS系列息的输出等优势,在自动驾驶、无人机视觉导航、传感器为主工业检测和视频监控等涉及高速运动视觉任务有 3.4 CeleX 着巨大的应用潜力 ceex2在考虑到ATS的光强测量电路存在3.5vdar 滞后,在DⅤS电路输出脉冲事件的地址(x,y)和发 vdar24对灵长类视网膜中央凹的光感受器、双放时间t时同时,也及时的将该像素的光强信息Ⅰ极细胞、神经节细胞三层结构的功能抽象,采用了输出,即 CeleX输出事件可用四元组(x,y,l,)表积分型视觉采样模型,将像素光强编码为频率或脉示. CeleX的设计思路主要包括三个部分5:(1)冲间隔182.34,具有对视觉场景的精细纹理高速引入缓冲和读出开关电路直接将对数光感受器的重构的能力叫. Vidar由光电转换电路、积分器电电路转换为光强信息输出;(2)采用全局控制信号路和比较器输出电路组成,如图6(a)所示.光感输出一整帧图像,便于初始工作时可获得整幅图像受器将光信号转换为电信号,积分器将电信号进行作为背景和及时全局更新;(3)专门设计列模拟读积分累计,比较器将该累计值与脉冲发放阈值比较出电路输出缓冲器的光强值. CeleX巧妙地将脉冲判断输出脉冲信号,同时积分器被复位,也称为脉事件的位宽设计为9比特,既保证了脉冲本身的语冲频率调制( Pulse Frequency Modulation,PFM) 义信息,又携带了一定量的光强信息 18. Vidar像素间的脉冲信号输出彼此独立,单个

8 计算机学报 2020 年表 1 神经形态视觉传感器性能参数对比传感器类型 DVS128[19] ATIS[20] DAVIS346[22] DVS-G2[43] CeleX-V [23] Vidar[24] 商用时间 2008 2011 2017 2017 2018 2018 空间分辨率 128  128 304  240 346  260 640  480 1280  800 400  250 最大采样率(Hz) 1  106 1  10 6 1.2  10 7 3  10 9 1.6  108 4  10 4 动态范围(dB) 120 143 120 90 120 70 功耗(mW) 23 50-175 10-170 27-50 390-470 370 芯片大小(mm2 ) 6.3  6 9.9  8.2 8  6 8  5.8 14.3  11.6 10  6 像元尺寸(  m 2 ) 40  40 30  30 18.5  18.5 9  9 9.8  9.8 20  20 填充因子 8.1% 20% 22% 100% 9% 13.75% 延迟(  s) 12 3 20 65-410 1 25 电源电压(V) 3.3 1.8&3.3 1.8&3.3 1.2&2.8 1.2&3.3 1.5&3.3 纹理图像否灰度彩色否灰度灰度色 DAVIS346[22]，其空间分辨率达到 346  260，时域采样频率为 106Hz，动态范围为 120dB，并将 DVS 所产生的事件坐标的空间位置 ( , ) x y 携带 RGB 彩色信息，但是 APS 电路采样速度远不如 DVS 电路， APS 模式的帧率为 50FPS，动态范围为 56.7dB，两套采样电路产生的图像无法做到精准同步，尤其在高速运动场景，且 APS 图像在高速运动场景存在运动模糊．当前，DAVIS 是神经形态视觉传感器商用产品、工业应用及学术研究的主流，源于 DVS 系列性传感器（DVS128、DAVIS240、DAVIS346 和彩色 DAVIS346）的学术研究推广，相关视觉任务数据集的公开、代码及软件的开源等营造的良好生态环境．因此，在本文介绍脉冲信号处理与特征表达、视觉应用等均以差分型视觉采样模型的 DVS 系列传感器为主． 3.4 CeleX CeleX[23]在考虑到 ATIS 的光强测量电路存在滞后，在 DVS 电路输出脉冲事件的地址 ( , ) x y 和发放时间 t 时同时，也及时的将该像素的光强信息 I 输出，即 CeleX 输出事件可用四元组 ( , , , ) x y t I 表示．CeleX 的设计思路主要包括三个部分[51]：（1）引入缓冲和读出开关电路直接将对数光感受器的电路转换为光强信息输出；（2）采用全局控制信号输出一整帧图像，便于初始工作时可获得整幅图像作为背景和及时全局更新；（3）专门设计列模拟读出电路输出缓冲器的光强值．CeleX 巧妙地将脉冲事件的位宽设计为 9 比特，既保证了脉冲本身的语义信息，又携带了一定量的光强信息．陈守顺教授团队和 CelePixel 公司最新发布的第五代 CeleX-V [52]，其空间分辨率达为 1280  800 基本达到了传统相机的水平，同时时域最大输出采样频率为 160MHz，动态范围为 120dB，该产品的高空间分辨率、高时域分辨率及高动态范围的“三高”优势引起了当前神经形态工程领域的关注．此外，CelePixel 公司也受到了 Baidu 公司 4000 万的项目资助，采用 CeleX-V 用于汽车自动驾驶辅助系统，利用其优势对驾驶异常行为进行实时监测． CeleX 的脉冲事件采用 9bit 信息输出，在场景剧烈运动或高速运动场景时，面临数据量大而无法及时传输，甚至丢弃部分脉冲数据以至采样信号无法保真，同时对轻微光照也无法做出响应及时更新等缺点．但是，CeleX 的“三高”性能及其光流信息的输出等优势，在自动驾驶、无人机视觉导航、工业检测和视频监控等涉及高速运动视觉任务有着巨大的应用潜力． 3.5 Vidar Vidar[24]对灵长类视网膜中央凹的光感受器、双极细胞、神经节细胞三层结构的功能抽象，采用了积分型视觉采样模型，将像素光强编码为频率或脉冲间隔[18, 24, 38-45]，具有对视觉场景的精细纹理高速重构的能力[44]．Vidar 由光电转换电路、积分器电路和比较器输出电路组成，如图 6（a）所示．光感受器将光信号转换为电信号，积分器将电信号进行积分累计，比较器将该累计值与脉冲发放阈值比较判断输出脉冲信号，同时积分器被复位，也称为脉冲频率调制（Pulse Frequency Modulation, PFM） [18]． Vidar 像素间的脉冲信号输出彼此独立，单个

李家宁等:神经形态视觉传感器的研究进展及应用综述像素的脉冲信号按照时间先后顺序排成“脉冲序神经形态视觉传感器具有两大优势:(1)高速列”,所有像素按照空间位置相互关系构成“脉冲视觉采样的能力,在高速运动视觉仼务有着巨大的阵列”,脉冲阵列的每个时刻的截面称为“脉冲平应用潜力:(2)低功耗,也是Mead所提出的神经面”,脉冲信号以“1”表示,没有脉冲信号以“0”形态工程的本质优势和未来可能的终极形态.然表示,如图8所示而,如何对神经形态视觉传感器输出的时空脉冲信脉冲平面号进行处理、特征表达及高速视觉任务分析是当前神经形态视觉的研究热点;同时如何采样类脑芯片对脉冲信号进行高速处理,应用于涉及高速视觉任务是神经形态工程产业界的关注重点,如IBM公司的 Truenorth'+芯片、 Intel公司的Loh5芯片和曼脉冲阵列切斯特大学的 SpiNNakers芯片等当前,神经形态视觉传感器的空间分辨率从 Ini vation公司开发的第一款商用DVS12819的脉冲序列 y 128×128发展到三星公司DVS-G2的640×480 Celepixel公司 Celex-v2的1280×800,但相比传图8vdar时空脉冲信号示意图统高清与超高清相机在空间分辨率与成像质量上有较大的差距,源于:(1)高空间分辨率与高时域黄铁军教授团队研制的第一款vdar,其空分辨率将给数据传输与存储带来了巨大挑战:(2) 间分辨率为400×250,时域采样频率为4×10Hz,动态视觉传感器设计的初衷是感知高速运动而非每秒输出476.3M的数据量,并可依据脉冲发放的面向高质量视觉观看.总之,神经形态视觉传感器时空特性来对静态场景或高速运动场景进行精细目前尚处于探索的初期阶段,达到人类视觉系统在化纹理重构,如采用滑动窗口累计法或脉冲间隔映复杂交互环境下的感知能力还需要大量探索研究射的方法向.此外,Ⅴdar可自由设定时长的脉冲信号进行影像重构,在成像的动态的动态范围上具4异步时空脉冲信号处理有灵活性.该积分型视觉采样芯片能对高速运动进行精细化纹理重构,可用于高速运动场景的物体检神经形态视觉传感器模拟了生物视网膜的脉测、跟踪和识别,在自动驾驶、无人机视觉导航、冲发放机理,如采用差分型视觉采样模型的DVS 机器视觉等涉及高速视觉任务领域的应用潜力巨系列传感器,受到视觉场景光强变化刺激发放脉冲信号并记录为地址事件,脉冲信号在空域和时域呈 Vidar采用积分型视觉采样模型,将光强信号现三维空间的稀疏离散点阵,如图7所示进行频率或脉冲间隔编码,本质是将光强信息的变传统视频信号以“图像帧”范式进行视觉信息换为频率编码,相比面向运动感知的DⅤS系列传表征与信号处理,也是现有机器视觉的主流方感器,更加友好地面向视觉精细重构的优势.然而,向.然而,“异步时空脉冲信号”不同于“图像帧” Vidar无论在静态场景还是运动区域都会产生脉冲,现有的图像信号处理机制并不能直接迁移应用.如采样上存在巨大的数据冗余,以及如何控制脉冲发何建立一套新的信号处理理论与技术体系巧,是神放阈值以便自适应感知不同光照场景和控制数据经形态视觉信号处理领域的研究难点与热点量是积分视觉采样需要亟待解决的问题 41异步时空脉冲信号分析 3.6仿视网膜视觉传感器性能对比近年来,异步时空脉冲信号分析阿主要集中在近期,大量的神经形态视觉传感器涌现并商业滤波、降噪及频域变化分析等方向化应用,有模拟视网膜外周感知运动功能的差分型脉冲信号的滤波分析是从信号处理角度的预处视觉采样模型,如DVS1281明、ATIS0、理技术,也是神经形态视觉传感器视觉分析任务的 DAVIS346212、DvsG2、 Celex-v23;也有模基础. Benosman'团队提出了一种异步时空拟视网膜中央凹功能的积分型视觉采样模型,如脉冲信号的通用滤波方法,即时域或空域构成的层 idar24,具体的各性能参数的对比如表1所示级滤波,可扩展到复杂的非线性滤波器,如边缘检

李家宁等：神经形态视觉传感器的研究进展及应用综述 9 像素的脉冲信号按照时间先后顺序排成“脉冲序列”，所有像素按照空间位置相互关系构成“脉冲阵列”，脉冲阵列的每个时刻的截面称为“脉冲平面”，脉冲信号以“1”表示，没有脉冲信号以“0” 表示，如图 8 所示．图 8 Vidar 时空脉冲信号示意图黄铁军教授团队研制的第一款 Vidar[24]，其空间分辨率为 400  250，时域采样频率为 4  104Hz，每秒输出 476.3M 的数据量，并可依据脉冲发放的时空特性来对静态场景或高速运动场景进行精细化纹理重构，如采用滑动窗口累计法或脉冲间隔映射的方法[44]．此外，Vidar 可自由设定时长的脉冲信号进行影像重构，在成像的动态的动态范围上具有灵活性．该积分型视觉采样芯片能对高速运动进行精细化纹理重构，可用于高速运动场景的物体检测、跟踪和识别，在自动驾驶、无人机视觉导航、机器视觉等涉及高速视觉任务领域的应用潜力巨大． Vidar 采用积分型视觉采样模型，将光强信号进行频率或脉冲间隔编码，本质是将光强信息的变换为频率编码，相比面向运动感知的 DVS 系列传感器，更加友好地面向视觉精细重构的优势．然而， Vidar 无论在静态场景还是运动区域都会产生脉冲，采样上存在巨大的数据冗余，以及如何控制脉冲发放阈值以便自适应感知不同光照场景和控制数据量是积分视觉采样需要亟待解决的问题． 3.6 仿视网膜视觉传感器性能对比近期，大量的神经形态视觉传感器涌现并商业化应用，有模拟视网膜外周感知运动功能的差分型视觉采样模型，如 DVS128[19] 、 ATIS[20] 、 DAVIS346[21-22]、DVS-G2[46]、CeleX-V [23]；也有模拟视网膜中央凹功能的积分型视觉采样模型，如 Vidar[24]，具体的各性能参数的对比如表 1 所示．神经形态视觉传感器具有两大优势：（1）高速视觉采样的能力，在高速运动视觉任务有着巨大的应用潜力；（2）低功耗，也是 Mead 所提出的神经形态工程[16]的本质优势和未来可能的终极形态．然而，如何对神经形态视觉传感器输出的时空脉冲信号进行处理、特征表达及高速视觉任务分析是当前神经形态视觉的研究热点；同时如何采样类脑芯片对脉冲信号进行高速处理，应用于涉及高速视觉任务是神经形态工程产业界的关注重点，如 IBM 公司的 TrueNorth[47]芯片、Intel 公司的 Loihi[53]芯片和曼切斯特大学的 SpiNNaker[54]芯片等．当前，神经形态视觉传感器的空间分辨率从 IniVation 公司开发的第一款商用 DVS128[19]的 128  128 发展到三星公司 DVS-G2[46]的 640  480， CelePixel 公司 CeleX-V [52]的 1280  800，但相比传统高清与超高清相机在空间分辨率与成像质量上有较大的差距，源于：（1）高空间分辨率与高时域分辨率将给数据传输与存储带来了巨大挑战；（2）动态视觉传感器设计的初衷是感知高速运动而非面向高质量视觉观看．总之，神经形态视觉传感器目前尚处于探索的初期阶段，达到人类视觉系统在复杂交互环境下的感知能力还需要大量探索研究． 4 异步时空脉冲信号处理神经形态视觉传感器模拟了生物视网膜的脉冲发放机理，如采用差分型视觉采样模型的 DVS 系列传感器，受到视觉场景光强变化刺激发放脉冲信号并记录为地址事件，脉冲信号在空域和时域呈现三维空间的稀疏离散点阵，如图 7 所示．传统视频信号以“图像帧”范式进行视觉信息表征与信号处理，也是现有机器视觉的主流方向．然而，“异步时空脉冲信号”不同于“图像帧”，现有的图像信号处理机制并不能直接迁移应用．如何建立一套新的信号处理理论与技术体系[55]，是神经形态视觉信号处理领域的研究难点与热点． 4.1 异步时空脉冲信号分析近年来，异步时空脉冲信号分析[56]主要集中在滤波、降噪及频域变化分析等方向．脉冲信号的滤波分析是从信号处理角度的预处理技术，也是神经形态视觉传感器视觉分析任务的应用基础．Benosman[57]团队提出了一种异步时空脉冲信号的通用滤波方法，即时域或空域构成的层级滤波，可扩展到复杂的非线性滤波器，如边缘检

计算机学报 2020年测. Linares- Barranco等人将异步时空脉冲信号计, Gallego等人从视觉特征角度系统性将DvS 在FPGA上进行滤波降噪和水平特征提取,可显输出的时空脉冲信号进行度量,并在运动补偿、深著提升目标识别与跟踪性能.施路平教授团队例度估计、光流估计等视觉任务中应用.这些方法是针对脉冲信号的发放率进行时空差值滤波,再采用将时空脉冲信号进行时间累积的频率特征,并未充非齐次泊松生成过程实现异步时空脉冲信号的上分利用脉冲信号的时域特性.Park等人从信号域采样的角度综述核方法度量,即将离散的时域脉冲信号神经形态视觉传感器输出的异步时空脉冲信变换为连续函数,在希尔伯特空间以内积计算脉冲号存在背景噪声和漏电流噪声等干扰12,序列之间的距离. Chichinisky团队采用卷积神经 Khodamoradi等人阿采用时空相关滤波器来降低网络结构将离散脉冲信号映射到特征空间再度量 DS的背景噪声并在传感器上硬件实现. Orchard脉冲信号之间距离,并应用到视网膜假体数据测试团队6利用 True North芯片上实现脉冲神经网络验证.此类方法在神经生理或模拟生成的脉冲数 ( Spiking Neural Network,SNN)对AIS输出的时据上实验,并未考虑真实异步时空脉冲信号的标记空脉冲信号进行降噪,且降噪信号提升了目标对象属性检测与识别的性能,Wang等人2将运动对象以外田永鸿教授团队网提出了一种脉冲标记属性的事件视为噪声,通过光流来判断运动一致性对独立的脉冲序列度量方法,即DⅤS输出的ON和 DVS输出的时空脉冲信号进行降噪 OFF的标记属性的脉冲信号分别度量,采用高斯核变换域分析是信号处理的基本方法,把时空函数将离散的脉冲序列变换为平滑连续函数,利用域变化到频率域,进而研究信号的频谱结构与变化希尔伯特空间的内积度量脉冲序列的距离.该方法规律. Bensman(团队针对异步时空脉冲信号提将脉冲序列作为操作单元,并未考虑脉冲信号的空出了一种基于事件的快速傅里叶变换,对脉冲信号间结构关系.随后,该团队进一步将异步时空脉的频率域有损变换和计算时间做了权衡分析冲信号建模为标记的时空点过程,用条件概率密度异步时空脉冲信号分析与处理存在以下几个函数刻画脉冲信号的空间位置和标记属性,该方法探索的方向应用于异步脉冲信号有损编码中的运动搜索和失 (1)异步时空脉冲信号在数据分布上可描述真度量为时空点过程6,可引入点过程信号处理、学习与异步时空脉冲信号是非结构化数据,不同于可推理理论的6; 归一化的结构化的“图像帧”,且在主观视觉上差 (2)异步时空脉冲信号在时空结构上与点云异无法直接度量.如何将异步脉冲信号度量面向视相似,可利用深度学习在点云网络的结构与方法觉任务和归一化的评价也是亟需解决的难点问题 68-701 3异步时空脉冲信号编码 (3)脉冲信号视为图模型的节点,可采用图模型信号处理与学习理论2 随着DVS系列传感器的空间分辨率不断提高, (4)异步时空脉冲信号的高时间分辨率的时序如三星公司DVSG21的空间分辨率为640×480, 优势,挖掘时序记忆模型5·3和借鉴类脑视觉信号 CeleX-v12的空间分辨率为1280×800,在剧烈运动处理机理4 的场景产生的异步时空脉冲信号面临着传输和存储的巨大挑战,如何对异步时空脉冲信号进行编码 42异步时空脉冲信号度量压缩,是一个全新的时空数据压缩问②行编码异步时空脉冲信号度量是衡量脉冲流之间的田永鸿教授团队首次提出了一种面向时空相似性,即在度量空间里计算脉冲流之间的距离异步脉冲信号的编码压缩框架,其以脉冲长方体为门,是异步时空脉冲信号处理的关键技术之一,在编码单元,设计了地址优先和时间优先的预测编码计算神经科学、脉冲编码压缩、机器视觉仼务等领策略,可实现对脉冲信号的有效压缩.随后,该团域有着广泛且重要的应用队网进一步探索了更加灵活的时空域八叉树自适异步脉冲信号在时空域上呈现为稀疏离散点应划分、编码单元内的预测及编码单元间的预测等阵,缺乏在欧式空间的代数运算度量.立体视觉硏编码策略,进一步提升了时空脉冲信号的压缩效究阿将输出脉冲信号在二维空间投影和提取时空率.此外,该团队对脉冲空域位置和时域发放时关系的时间面进行度量,应用于三维视觉中深度估间的失真进行了度量分析,并探讨了面向视觉任务

10 计算机学报 2020 年测．Linares-Barranco 等人[58]将异步时空脉冲信号在 FPGA 上进行滤波降噪和水平特征提取，可显著提升目标识别与跟踪性能．施路平教授团队[59] 针对脉冲信号的发放率进行时空差值滤波，再采用非齐次泊松生成过程实现异步时空脉冲信号的上采样．神经形态视觉传感器输出的异步时空脉冲信号存在背景噪声和漏电流噪声等干扰 [19-23] ， Khodamoradi 等人[60]采用时空相关滤波器来降低 DVS 的背景噪声并在传感器上硬件实现．Orchard 团队[61]利用 TrueNorth 芯片上实现脉冲神经网络（Spiking Neural Network, SNN）对 ATIS 输出的时空脉冲信号进行降噪，且降噪信号提升了目标对象检测与识别的性能．Wang 等人[62]将运动对象以外的事件视为噪声，通过光流来判断运动一致性对 DVS 输出的时空脉冲信号进行降噪．变换域分析是信号处理的基本方法[63]，把时空域变化到频率域，进而研究信号的频谱结构与变化规律． Benosman[64]团队针对异步时空脉冲信号提出了一种基于事件的快速傅里叶变换，对脉冲信号的频率域有损变换和计算时间做了权衡分析．异步时空脉冲信号分析与处理存在以下几个探索的方向：（1）异步时空脉冲信号在数据分布上可描述为时空点过程[65]，可引入点过程信号处理、学习与推理理论[66-67]；（2）异步时空脉冲信号在时空结构上与点云相似，可利用深度学习在点云网络的结构与方法 [68-70]；（3）脉冲信号视为图模型的节点，可采用图模型信号处理与学习理论[71-72]； (4)异步时空脉冲信号的高时间分辨率的时序优势，挖掘时序记忆模型[55,73]和借鉴类脑视觉信号处理机理[74]． 4.2 异步时空脉冲信号度量异步时空脉冲信号度量是衡量脉冲流之间的相似性，即在度量空间里计算脉冲流之间的距离 [75]，是异步时空脉冲信号处理的关键技术之一，在计算神经科学、脉冲编码压缩、机器视觉任务等领域有着广泛且重要的应用．异步脉冲信号在时空域上呈现为稀疏离散点阵，缺乏在欧式空间的代数运算度量．立体视觉研究[76]将输出脉冲信号在二维空间投影和提取时空关系的时间面进行度量，应用于三维视觉中深度估计．Gallego 等人[77]从视觉特征角度系统性将 DVS 输出的时空脉冲信号进行度量，并在运动补偿、深度估计、光流估计等视觉任务中应用．这些方法是将时空脉冲信号进行时间累积的频率特征，并未充分利用脉冲信号的时域特性．Park 等人[75]从信号域的角度综述核方法度量，即将离散的时域脉冲信号变换为连续函数，在希尔伯特空间以内积计算脉冲序列之间的距离．Chichinisky 团队[78]采用卷积神经网络结构将离散脉冲信号映射到特征空间再度量脉冲信号之间距离，并应用到视网膜假体数据测试验证．此类方法在神经生理或模拟生成的脉冲数据上实验，并未考虑真实异步时空脉冲信号的标记属性．田永鸿教授团队[79]提出了一种脉冲标记属性独立的脉冲序列度量方法，即 DVS 输出的 ON 和 OFF 的标记属性的脉冲信号分别度量，采用高斯核函数将离散的脉冲序列变换为平滑连续函数，利用希尔伯特空间的内积度量脉冲序列的距离．该方法将脉冲序列作为操作单元，并未考虑脉冲信号的空间结构关系．随后，该团队[80]进一步将异步时空脉冲信号建模为标记的时空点过程，用条件概率密度函数刻画脉冲信号的空间位置和标记属性，该方法应用于异步脉冲信号有损编码中的运动搜索和失真度量．异步时空脉冲信号是非结构化数据，不同于可归一化的结构化的“图像帧”，且在主观视觉上差异无法直接度量．如何将异步脉冲信号度量面向视觉任务和归一化的评价也是亟需解决的难点问题． 4.3 异步时空脉冲信号编码随着 DVS 系列传感器的空间分辨率不断提高，如三星公司 DVS-G2[46]的空间分辨率为 640  480， CeleX-V [52]的空间分辨率为 1280  800，在剧烈运动的场景产生的异步时空脉冲信号面临着传输和存储的巨大挑战，如何对异步时空脉冲信号进行编码压缩，是一个全新的时空数据压缩问题[81-82]．田永鸿教授团队[83]首次提出了一种面向时空异步脉冲信号的编码压缩框架，其以脉冲长方体为编码单元，设计了地址优先和时间优先的预测编码策略，可实现对脉冲信号的有效压缩．随后，该团队[79]进一步探索了更加灵活的时空域八叉树自适应划分、编码单元内的预测及编码单元间的预测等编码策略，进一步提升了时空脉冲信号的压缩效率．此外，该团队[80]对脉冲空域位置和时域发放时间的失真进行了度量分析，并探讨了面向视觉任务

点击进入文档下载页（PDF格式）

共29页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录