第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 城市大脑的痛点与对策 City brain:challenges and solution 高文 (北京大学信息科学技术学院,北京100871) 智慧城市是一个由传感器网络、云中心以及 进行分析识别,分类识别出人脸、车辆等目标或 决策支持系统等要素组成的复杂系统,而城市大 者聚集打架、车辆闯红灯等行为。 脑是智慧城市的核心,它将数据、算力、算法汇聚 2)第2种模式是智能终端。智能终端设备具 在一起,提供信息社会最强的生产力和生产资 有识别能力,在前端就把人脸或者车牌等信息识 料。我们把互联网数据、政务数据和社会数据汇 别出来,识别出来的结构化信息被传送到云端, 聚在一起,通过智能、数据、业务等中台服务打造 直接可以分析使用。 城市大脑,结合云计算服务,就可以根据特定场 这两种模式各自都存在一些问题。如果仅仅 景形成重大决策,支撑各种应用,提供便民服务, 使用视频采集终端,则传送回云端的数据是非结 提升政府效率,提速企业创新。 构化的,无法直接使用。若想分析使用这些视频 数据,除了解码外,还要进行特征提取等工作,这 城市大脑是智慧城市的核心 ®© 需要在云端进行大量的计算,非常耗费算力资 ■城由大利是草为和老帮的江家热,极生产力和生天路机的每中得强 源。例如当传感器网络规模达到百万路摄像头 时,可能需要超过百亿元规模的云计算服务器投 物联数据 效率 我府著玻 人,即使真有这么多钱买服务器,其每年电力消 条轮 市名 惠民 政务数据 创新 耗也是一笔巨大的开销。如果全都使用智能终 业 兴业 端,由于各终端厂家以及软件系统商使用的特征 以及算法不统一,当原来系统中存在未被定义的 物体分类识别以及行为分析时,不同厂商的智能 在智慧城市汇集的各种数据中,80%~90%与 设备互操作难度大,无法开展异构系统的新业务 图像、视频相关联。对城市大脑而言,“如何处理 布局。所以,我们需要一个更好的系统,不仅云 好海量图像和视频数据”极其关键。 上算力资源配备需求不应过大,而且可以容易升 级部署新的分析识别任务。 城市大脑的核心是视觉认知计算(VCC) 袋0 库 1城市大脑1.0 我们将仅仅由传感器网络和云中心两级组织 人脸识别 通分析 架构组成的智慧城市系统,称为城市大脑1.0。 备 城市大脑1.0一超大规模人工视觉系统应用©© A computer vision system in cloud,connected with one or more camera network systems 现有的网络视觉感知系统有两种典型的应用 模式: 1)第1种模式是视频采集终端。摄像头是一 个简单的传感与编码压缩装置,捕捉到图像或者 视频后,进行编码压缩,然后传送至云端。云端 可以存储,也可以将它读出解码,然后抽取特征
城市大脑的痛点与对策 City brain: challenges and solution 高文 (北京大学 信息科学技术学院,北京 100871) 智慧城市是一个由传感器网络、云中心以及 决策支持系统等要素组成的复杂系统,而城市大 脑是智慧城市的核心,它将数据、算力、算法汇聚 在一起,提供信息社会最强的生产力和生产资 料。我们把互联网数据、政务数据和社会数据汇 聚在一起,通过智能、数据、业务等中台服务打造 城市大脑,结合云计算服务,就可以根据特定场 景形成重大决策,支撑各种应用,提供便民服务, 提升政府效率,提速企业创新。 效率 城市大脑是智慧城市的核心 政府 市名 企业 体验 创新 善政 惠民 兴业 城市数据感知与汇聚 物联数据 政务数据 社会数据(互联网) 城市驾驶舱 智能决策 城市数据治理与融合 城市中枢智能与挖掘 城市中枢共享与赋能 交通指挥中心 智慧交通 医疗服务中心 智慧医疗 …… ■ 城市大脑是算力和数据的汇聚地,是生产力和生产资料的集中展现 ■ 通过数据的汇聚、治理、计算、分析、挖掘和调度,完成数据的全流程加工,面向行业提供不同层次的产品和服务 在智慧城市汇集的各种数据中,80%~90% 与 图像、视频相关联。对城市大脑而言,“如何处理 好海量图像和视频数据”极其关键。 城市大脑的核心是视觉认知计算(VCC) 现有的网络视觉感知系统有两种典型的应用 模式: 1) 第 1 种模式是视频采集终端。摄像头是一 个简单的传感与编码压缩装置,捕捉到图像或者 视频后,进行编码压缩,然后传送至云端。云端 可以存储,也可以将它读出解码,然后抽取特征 进行分析识别,分类识别出人脸、车辆等目标或 者聚集打架、车辆闯红灯等行为。 2) 第 2 种模式是智能终端。智能终端设备具 有识别能力,在前端就把人脸或者车牌等信息识 别出来,识别出来的结构化信息被传送到云端, 直接可以分析使用。 这两种模式各自都存在一些问题。如果仅仅 使用视频采集终端,则传送回云端的数据是非结 构化的,无法直接使用。若想分析使用这些视频 数据,除了解码外,还要进行特征提取等工作,这 需要在云端进行大量的计算,非常耗费算力资 源。例如当传感器网络规模达到百万路摄像头 时,可能需要超过百亿元规模的云计算服务器投 入,即使真有这么多钱买服务器,其每年电力消 耗也是一笔巨大的开销。如果全都使用智能终 端,由于各终端厂家以及软件系统商使用的特征 以及算法不统一,当原来系统中存在未被定义的 物体分类识别以及行为分析时,不同厂商的智能 设备互操作难度大,无法开展异构系统的新业务 布局。所以,我们需要一个更好的系统,不仅云 上算力资源配备需求不应过大,而且可以容易升 级部署新的分析识别任务。 1 城市大脑 1.0 我们将仅仅由传感器网络和云中心两级组织 架构组成的智慧城市系统,称为城市大脑 1.0。 城市大脑1.0—超大规模人工视觉系统应用 ■ A computer vision system in cloud, connected with one or more camera network systems 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 高文:城市大脑的痛点与对策 ·819· 城市大脑1.0,虽然拥有海量数据,但是它并 完成现在还没有定义的任务。这个问题,在十 不等于大数据。因为90%的海量数据没有结构 年前还几乎是不可完成的任务,因为那时候手 化,只是进行编码压缩后存储了起来。所以虽然 工特征盛行,识别分析系统的性能(准确度)都 数据是海量级别的,但这并不是大数据。 是与自己的手工特征紧密相关的,那是算法的 核心竞争力。现在不同了,大家都是在使用深 挑战之一:海量数据≠大数据 度神经网络,独具特点的手工特征已经不再当 作核心机密不和外面交流了,深度网络特征已 经成为首选。当然,即使是深度特征,数据表达 199520002005201020152020年 想要得到一个比较好的结果,基于大数据的模 线大数:数据量巨大◆存储分散 数据量两年增长一倍←◆压十年增长一倍 型训练是必不可少的,那样系统整体才能做得 用于存 数稀天 更好。所以城市大脑应该有一套评测基准,包 用于传输 大据 H2配 H25/652 括系统的智力、性能(响应时间、并发、吞吐)、效 其次,这些非结构化视频数据除了作为案件 率(耗电多大)等等。 的事后追踪可以发挥一定作用,事实上很难使 城市大脑1.0的弊端在于实现智能的代价比 用大数据挖掘工具找到有用的规律,因此价值 较高,造价和耗电都非常惊人。如果希望城市大 比较低。这也是很多智慧城市的视频数据一段 脑变得更智能,更高效,那就需要城市大脑1.0升 时间后(最短2周,最长3个月)就会被覆盖的重 级进化到2.0,即边端云结合城市大脑。 要原因。 2城市大脑2.0 挑战之二:数据海量vs低价值 表 城市大脑2.0的关键就是任务合理划分:把 原来的传感器网络与云中心一体化的系统架 大量正常花碳→低价值密度 少量收域规一高阶值度 构,演变成边端云协同的系统架构。云上只需 配备最低的算力,一部分计算放置于边缘,一部 分计算分配给终端,这样组合起来使得整个系 量、光条件、行为等变花 统最优。 内客保蜜度 城市大脑从云计算向端边云协同演进 藤 为什么会出现海量数据却是低价值的情况 呢?问题的实质就是现有的城市大脑里的视频数 Cloud 据表达不到位,是非结构化的,即使有些声称已 经结构化了也只是特定厂商针对自己的使用做了 局部的结构化,没有形成真正可以开放给任何应 。大 用软件开发商使用的结构化数据。 线大收.壁紧:药高口 问题根源?数据表达不到位 系统升级策略可以借鉴人的视觉系统。人的 视觉系统是一个非常合理、能效比非常高的系 等例压喻夫直 统。人消耗的能量,相当于20W电灯泡的能耗, 工 但是我们的视觉系统比任何超级计算机构成的计 算机视觉系统分析和识别能力都不差,有时还更 n(x) 好。人的视觉系统为何可以做到如此低功耗、高 效率?人的视觉系统主要由3部分组成:眼睛、 视觉通路和大脑的视觉野。3个部分分工严密, 要想解决上述问题,我们需要一种泛化能力 比如来自眼睛视网膜的信号,通过视觉通路传到 更强的数据表达:基元表达,或者特征元数据表 大脑不同的视觉野,不同的视觉野做出不同的响 达。这些基元,既可以完成现有的任务,也可以 应,就可以完成诸如感知、识别、决策等很多任
城市大脑 1.0,虽然拥有海量数据,但是它并 不等于大数据。因为 90% 的海量数据没有结构 化,只是进行编码压缩后存储了起来。所以虽然 数据是海量级别的,但这并不是大数据。 挑战之一: 海量数据 ≠大数据 数据量-压缩率鸿沟 用于存储 …×5Mbps×1Month =5EB …×10Mbps×1Month = 10 EB 一个城市 10 万个 摄像头 H.264/AVC H.265/AVS2 …×5Mbps =500 Gbps …×10Mbps 用于传输 = 1 Tbps 数据大 ≠ 大数据 城市管理 社会 生产生活 交通 卫生 安全 视频监控网 视频数据中心 1995 2000 2005 2010 2015 2020 10 20 30 40 MPEG-2 75 MPEG-4 100 H.264/AVC AVS1 150 H.265/HEVC AVS2 300 年 数据量 数据增长率 视频压缩率 视频大数据:数据量巨大 存储分散 数据量两年增长一倍 压缩率十年增长一倍 其次,这些非结构化视频数据除了作为案件 的事后追踪可以发挥一定作用,事实上很难使 用大数据挖掘工具找到有用的规律,因此价值 比较低。这也是很多智慧城市的视频数据一段 时间后 (最短 2 周,最长 3 个月) 就会被覆盖的重 要原因。 挑战之二: 数据海量 vs 低价值 内容保留度 (Recall) 价 值 密 ) 度 noisicerP( 普通监控图像/视频: 价值密度极低 重点目标/异常事件: 价值密度高 正常视频:各种日常场景,涉及对 象外观、姿态、尺度、视点、复杂 背景、光照条件、行为等变化 敏感视频:特殊场景或行为,涉及暴恐、 突发热点、群体事件等 大量正常视频→低价值密度 少量敏感视频→高价值密度 为什么会出现海量数据却是低价值的情况 呢?问题的实质就是现有的城市大脑里的视频数 据表达不到位,是非结构化的,即使有些声称已 经结构化了也只是特定厂商针对自己的使用做了 局部的结构化,没有形成真正可以开放给任何应 用软件开发商使用的结构化数据。 问题根源? 数据表达不到位 监视摄像头 人工监视 监视摄像头 视频 编码器 视频 编码器 网络 视频 编码器 监视摄像头 部分路 云服务器 云服务器 压缩视频流 原始信号表示 压缩信号表示 ~ = Enc( ) 重建信号表示 ~ = Dec(~ ) ≈ 多种分析任务的特征表示 = Feat(~ ) ≈Feat( ) 编码压缩失真 压缩导致的特征失真 编码压缩码率节省 ( ~ )<< ( ) 机器分析 单一压缩信号表 示无法满足多种 任务的矛盾 要想解决上述问题,我们需要一种泛化能力 更强的数据表达:基元表达,或者特征元数据表 达。这些基元,既可以完成现有的任务,也可以 完成现在还没有定义的任务。这个问题,在十 年前还几乎是不可完成的任务,因为那时候手 工特征盛行,识别分析系统的性能 (准确度) 都 是与自己的手工特征紧密相关的,那是算法的 核心竞争力。现在不同了,大家都是在使用深 度神经网络,独具特点的手工特征已经不再当 作核心机密不和外面交流了,深度网络特征已 经成为首选。当然,即使是深度特征,数据表达 想要得到一个比较好的结果,基于大数据的模 型训练是必不可少的,那样系统整体才能做得 更好。所以城市大脑应该有一套评测基准,包 括系统的智力、性能 (响应时间、并发、吞吐)、效 率 (耗电多大) 等等。 城市大脑 1.0 的弊端在于实现智能的代价比 较高,造价和耗电都非常惊人。如果希望城市大 脑变得更智能,更高效,那就需要城市大脑 1.0 升 级进化到 2.0,即边端云结合城市大脑。 2 城市大脑 2.0 城市大脑 2.0 的关键就是任务合理划分:把 原来的传感器网络与云中心一体化的系统架 构,演变成边端云协同的系统架构。云上只需 配备最低的算力,一部分计算放置于边缘,一部 分计算分配给终端,这样组合起来使得整个系 统最优。 城市大脑从云计算向端边云协同演进 城市大脑1.0:云计算中心,整合垂直子系统,解 决信息孤岛的问题 城市大脑2.0:端边云协同体系,通过标准和接口 规范,解决融合、智慧的问题。 电子警察 平安城市 楼宇、大厦 气象 Geo distributed Sensor Edge Analytic System City Brain 系统升级策略可以借鉴人的视觉系统。人的 视觉系统是一个非常合理、能效比非常高的系 统。人消耗的能量,相当于 20 W 电灯泡的能耗, 但是我们的视觉系统比任何超级计算机构成的计 算机视觉系统分析和识别能力都不差,有时还更 好。人的视觉系统为何可以做到如此低功耗、高 效率?人的视觉系统主要由 3 部分组成:眼睛、 视觉通路和大脑的视觉野。3 个部分分工严密, 比如来自眼睛视网膜的信号,通过视觉通路传到 大脑不同的视觉野,不同的视觉野做出不同的响 应,就可以完成诸如感知、识别、决策等很多任 第 4 期 高文:城市大脑的痛点与对策 ·819·
·820· 智能系统学报 第15卷 务。不同的感知路径或者不同复杂度的任务,其 优化或者能量高效化,就可以按照仿生视网膜的 响应时间是不一样的。下图是1992年的一张研 架构来构建城市大脑。 究成果示意图。当给一个人下达指令:“你给我按 一下绿色按钮”,这个指令的执行是经过一定延迟 生物视觉系统的简化模型 的,首先视网膜有35s的延迟,从视网膜到下一 靠构特性 行为特性 个环节又有30ms的延迟,最后到肌肉带动手指 特征提取 智能主体 通用计算 执行按下按钮的动作,大概有250ms的延迟。这 定制轻计 有限带宛通 个例子告诉我们,对于不同的任务,我们整个视 编码压缩 觉通道和大脑的处理分工是非常严密的,简单的 任务响应快,复杂的任务响应慢。只有分工合 ■这个模型是自然选择的生物进化找到的答案 ■其中蕴含的结构和行为特性可以借鉴于城市大脑的优化 作,系统才能做到能量最优化。 所以信息从视网膜传到大脑,是经过特征压 大脑对视觉图像的响应路径与延迟 缩处理的,又称为特征编码,和现在传统的图像 编码不同的是,它是把特征编码压缩的结果送到 It is believed the clear ima the 大脑中去。 另外,现在城市大脑不能仅传特征,也要传压 30ms:LGN 40ms:VI (orientatioe-selective response) 缩图像,因为某些情况下还需要用人眼确认,这 就使得城市大脑的架构和人类的视觉系统并不完 aeon) More and more details known on what happens 全一样,而是两个综合或者绑定的系统。基于以 in the retina and primary visual system,but a Maunsell and Gibson 192:Raiguel et al anmd b 上分析,即可进行城市大脑2.0的设计。显然它 必须是一个边、端、云合理分工的系统,在这个系 视觉系统最前端是视网膜,视网膜由感光细 统中,边、端、云结合的最核心的技术叫做数字视 胞、双极细胞和神经节细胞3类细胞组成。视 网膜,是整个城市大脑2.0的基本架构,我们把它 网膜大概有12亿~1.26亿个感光细胞,其中有锥 叫做仿生视网膜的计算架构。 状细胞和杆状细胞,锥状细胞有600多万个,杆 状细胞有1.2亿个,它们可以感知光线的强弱, 数字视网膜:仿生物视网膜的视觉计算架构露 这些感光细胞的输出信号通过双极细胞,最后 数字混限D1 gital gotiaa) 汇聚到神经节细胞,进入神经纤维、视觉通道, 国 并传输至大脑。神经节细胞的数量只有差不多 100万个,也就是说,从视网膜到视神经,已经有 大约125:1的缩减,这个减缩可以理解成视觉信 号的压缩,或者特征压缩,该压缩过程对整个大 脑的有效工作起到非常关键的作用。当然这不 仅仅是压缩处理,而是特征编码,与后续的感知 紧密相关。根据任务的复杂程度不同,所需提 数字视网膜 取的视觉特征也不同;简单的任务就会优先采 我们给数字视网膜定义了8个特征属性,原 取快速处理和响应的策略,复杂的任务就把相 则上分成三大组。 关的信息往后传。 第1组特征属性是与时空有关的。一个数字 一个生物识别系统的简化模型:感知信息从 视网膜的终端必须要有全局统一的时空D,包括 视网膜到大脑,经过特征提取和编码压缩后向后 全网统一的时间戳和精确的地理位置,比如 传输,最终传到智能主体(脑)。因此,在视网膜 GPS或者北斗提供的位置,从而便于城市大脑的 端,完成的是定制化轻量级计算,然后通过视神 同步和标校。 经这样一个有限带宽的通信通路将视网膜计算结 第2组特征属性简单来说是视频编码+特征 果送到智能主体。仿生视网膜的架构具有非常好 编码+联合优化,这是所有摄像头都应该支持的 的能量优化特点,为了使整个城市大脑达到能量 项功能属性。而当前绝大部分摄像头只支持
务。不同的感知路径或者不同复杂度的任务,其 响应时间是不一样的。下图是 1992 年的一张研 究成果示意图。当给一个人下达指令:“你给我按 一下绿色按钮”,这个指令的执行是经过一定延迟 的,首先视网膜有 35 ms 的延迟,从视网膜到下一 个环节又有 30 ms 的延迟,最后到肌肉带动手指 执行按下按钮的动作,大概有 250 ms 的延迟。这 个例子告诉我们,对于不同的任务,我们整个视 觉通道和大脑的处理分工是非常严密的,简单的 任务响应快,复杂的任务响应慢。只有分工合 作,系统才能做到能量最优化。 大脑对视觉图像的响应路径与延迟 Maunsell and Gibson 1992; Raiguel et al. 1989; Nowak et al. 1995; Schmolesky et al. 1998; Thorpe, Fize& Marlot 1996 □ It is believed the clear image on the outside world is reconstructed in the first 50ms after the optical stimulus ■ 0ms: photoreceptors output ■ 20ms: Retina ■ 30ms: LGN ■ 40ms: V1 (orientation-selective response) ■ 50ms: V1 (temporary memory) ■ 80-100ms: IT (Face-selective response) ■ 160-220ms: objects recognition(animal, food,…in category) □ More and more details known on what happens in the retina and primary visual system, but a whole picture and model is absent (what happens?) 视觉系统最前端是视网膜,视网膜由感光细 胞、双极细胞和神经节细胞 3 类细胞组成。视 网膜大概有 1.2 亿~1.26 亿个感光细胞,其中有锥 状细胞和杆状细胞,锥状细胞有 600 多万个,杆 状细胞有 1.2 亿个,它们可以感知光线的强弱, 这些感光细胞的输出信号通过双极细胞,最后 汇聚到神经节细胞,进入神经纤维、视觉通道, 并传输至大脑。神经节细胞的数量只有差不多 100 万个,也就是说,从视网膜到视神经,已经有 大约 125:1 的缩减,这个减缩可以理解成视觉信 号的压缩,或者特征压缩,该压缩过程对整个大 脑的有效工作起到非常关键的作用。当然这不 仅仅是压缩处理,而是特征编码,与后续的感知 紧密相关。根据任务的复杂程度不同,所需提 取的视觉特征也不同;简单的任务就会优先采 取快速处理和响应的策略,复杂的任务就把相 关的信息往后传。 一个生物识别系统的简化模型:感知信息从 视网膜到大脑,经过特征提取和编码压缩后向后 传输,最终传到智能主体 (脑)。因此,在视网膜 端,完成的是定制化轻量级计算,然后通过视神 经这样一个有限带宽的通信通路将视网膜计算结 果送到智能主体。仿生视网膜的架构具有非常好 的能量优化特点,为了使整个城市大脑达到能量 优化或者能量高效化,就可以按照仿生视网膜的 架构来构建城市大脑。 生物视觉系统的简化模型 编码压缩 特征提取 智能主体 定制轻计算 有限带宽通信 通用计算 结构特性 行为特性 ■ 这个模型是自然选择的生物进化找到的答案 ■ 其中蕴含的结构和行为特性可以借鉴于城市大脑的优化 所以信息从视网膜传到大脑,是经过特征压 缩处理的,又称为特征编码,和现在传统的图像 编码不同的是,它是把特征编码压缩的结果送到 大脑中去。 另外,现在城市大脑不能仅传特征,也要传压 缩图像,因为某些情况下还需要用人眼确认,这 就使得城市大脑的架构和人类的视觉系统并不完 全一样,而是两个综合或者绑定的系统。基于以 上分析,即可进行城市大脑 2.0 的设计。显然它 必须是一个边、端、云合理分工的系统,在这个系 统中,边、端、云结合的最核心的技术叫做数字视 网膜,是整个城市大脑 2.0 的基本架构,我们把它 叫做仿生视网膜的计算架构。 数字视网膜:仿生物视网膜的视觉计算架构 SC IE N T IA SIN IC A Inform ationis 中国科学 :信息科学 2018 年 第 48 卷 第 8 期 :1076–1082 观点与争鸣 数字视网膜: 智慧城市系统演进的关键环节 高文1 , 田永鸿1*, 王坚2 1.北京大学信息科学技术学院,北京 100871 2.阿里巴巴集团,杭州 311121 * 通信作者. E -m ail: yhtian@ pk u.edu.cn 收稿日期: 2018–01–31; 接受日期: 2018–03–03; 网络出版日期: 2018–05–21 国家重点研发计划 “云计算与大数据” 重点专项 (批准号: 2017Y F B 1002400)、国家重点基础研究发展计划 (973) (批准号: 2015C B 351800) 和国家自然科学基金大数据科学中心项目 (批准号: U 1611461) 资助 摘要 本文阐述了作者对智慧城市建设和发展的主要观点: (1) 如何实时聚合各类城市大数据,特 别是来自视频监控网络的图像视频数据,并通过构建基于云计算的 “城市大脑”来分析和挖掘大数 据价值并服务于城市运营与管理,是智慧城市发展中亟待解决的一个关键问题.(2) 现阶段智慧城市 建设的现状是 “有眼、有脑”,但作为 “眼睛”的摄像头功能过于单一使得 “脑强眼弱”,其根源在于 传统监控摄像机网络所采用的技术体系是为存储而不是分析设计的. 尽管近期有些智能摄像头具有 车牌或人脸识别功能,但是这种单纯强调 “边缘计算”的方案仍然无法解决 “眼脑合一”的问题. (3) 为了解决目前阻碍智慧城市系统功能快速演进的难题,我们应借鉴人类进化了数十万年的视觉系统 之 “人类视网膜同时具有影像编码与特征编码功能”这一特性,研究与设计数字视网膜,使之具有统 一时间戳和精确地理位置,能同时进行高效视频编码和紧凑特征表达的联合优化,并有效支持云端 大规模监控视频分析与快速视觉搜索等功能. (4) 为利用数字视网膜来构筑智慧城市的 “慧眼”, 应 积极布局与推进相关标准制定、芯片与硬件实现、支撑软件开发与软硬件开源社区,并开展大规模 测试与应用. 关键词 智慧城市,城市大脑,数字视网膜 现有智慧城市系统存在的问题 智慧城市是把云计算、大数据和人工智能等信息技术应用在城市管理系统中 通过对各类城市大 数据的有效聚合、分析与挖掘 实现信息化、智能化与城镇化深度融合 从而有助于缓解 大城市病 实现城市的精细化运营和动态管理 因此 如何集合各类城市大数据 充分分析和挖掘大数据价值 是 智慧城市发展中亟待解决的一个关键问题 引用格式 高文 田永鸿 王坚 数字视网膜 智慧城市系统演进的关键环节 中国科学 信息科学 数字视网膜(Digital Retina) 3 数字视网膜 我们给数字视网膜定义了 8 个特征属性,原 则上分成三大组。 第 1 组特征属性是与时空有关的。一个数字 视网膜的终端必须要有全局统一的时空 ID,包括 全网统一的时间戳和精确的地理位置,比 如 GPS 或者北斗提供的位置,从而便于城市大脑的 同步和标校。 第 2 组特征属性简单来说是视频编码+特征 编码+联合优化,这是所有摄像头都应该支持的 一项功能属性。而当前绝大部分摄像头只支持 ·820· 智 能 系 统 学 报 第 15 卷
第4期 高文:城市大脑的痛点与对策 ·821· 视频编码,没有特征编码。视频编码是为了存 40%gain in coding efficiency over HEVC 储和离线观看影像重构。特征编码是为了模式 ☐HEVC HM12.0s.BHO 识别和场景理解的紧凑特征表达。由于城市大 脑2.0至少有两个码流,一个是视频编码压缩 流,一个是特征编码压缩流,这两个码流会捆绑 到一起进行传输,因此,还需要通过联合优化, 把带宽合理分配给视频编码和特征编码,使得 uits:BHO can ac 整个系统是最优的。 第3组特征属性,简单来说就是模型可更新、 这里有很详细的一些数据测试作为依据,而 注意可调节、软件可定义。模型可更新是指当模 且相关研究成果都已经发表论文,比如2014年我 型需要切换或升级时,终端要能够进行实时更 们在EEET-P发表了一篇论文,里面有这样一些 新,以更好地支持多种神经网络和算法。注意可 研究结果。AVS2于2016年成为我国的视频编码 调整是指摄像头能够自动调节焦距、拍摄角度等 标准,同时它也是EEE1857标准的第4部分。目 配置参数。软件可定义则是指可以通过软件定义 前正在制定的AVS3,是IEEE1857标准的第 的方法对系统进行自动升级。如果具备这3个特 10部分。2019年3月发布了AVS3标准第1版, 点,终端就可以做得非常智能。 而H.266第1版直到2020年7月才发布,我们超 当然,要想把数字视网膜技术全部用起来,这 前了H266一年零三个月,这是有史以来第一次, 里面有一些使能技术。 国内标准超前于国际标准完成。AVS3标准 第一个使能技术是视频编码。目前城市大 2019年3月第1版发布以后,同年9月海思就完 脑、监控系统都离不开视频编码,摄像头里面都 成了芯片制造,这款芯片在阿姆斯特丹的一次广 有一个视频编码芯片,视频编码芯片使用的标 电展上一经面市,就引起了很大的轰动。它可以 准,最早期是H264或者AVS+,最近开始转变为 支持AVS3、8K解码,支持高动态和每秒120帧速 H.265或者AVS2的标准,未来不久就会用上 率。该款芯片现在已经装配于很多4K电视、 AVS3或者AV1或者H.266,该标准几乎每10年 8K电视、机顶盒等。 就会更新一代,编码效率相应地提高一倍。 第2个使能技术就是特征编码,是非常关键 ·段视频是一个图像序列,图像序列里包含 的一个使能技术,该技术的标准有两部分核心内 了很多数据的冗余,基本上可分为三大类:一类 容,一部分叫CDVS,另一部分叫CDVA,现在也 是和空间有关的冗余,一类是和时间有关的冗 是国际标准MPEG-7里的两个部分,一个是 余,另外一类是和编码有关的冗余。为了消除 MPEG-7第13部分,2015年9月发布,一个是 冗余数据,就要对视频进行编码压缩。现在整 MPEG-7第15部分,2019年7月分布。 个视频编码用的算法一般是混合视频编码架 从图像中提取出来的特征数据可能很大,如 构,即将上述3种主流冗余数据用不同的算法去 果不压缩的话,特征数据很可能比图像本身都 除掉。比如为了去除空间冗余,一般采用正交 大,因此,同样需要对视觉特征进行编码压缩。 变换(DCT变换等):为了去除时间冗余,就是帧 如何进行特征压缩也是一个值得考虑的问 与帧之间的冗余,一般会采取预测编码,比如各 题。一种途径是先把图像降质编码传过去,然 种各样的滤波器;为了使编码的分配最符合熵 后提取特征,再进行识别:另一种途径是先把特 的定义,我们使用信息熵编码来去除编码上的 征提取出来,然后把特征传过去再识别。这两 冗余。这3类冗余都去除了,整个视频流就可以 种途径存在一个剪刀差,可能导致识别率相差 压缩得很小。 百分之二十、三十甚至更高。因为先进行图像 要把视频编码做好,算法要做得很精,随着时 压缩可能造成一些有用特征的丢失,传统编码 间的推移,可以用计算、带宽把这些冗余一点点 压缩,倾向保留符合人眼视觉特性的公共部分、 都去除掉。当然,这些年我们除了不断地优化算 压缩掉一些非公共的、非常见的信息,而非常见 法之外,还提出了一种背景建模技术,使得编码 的部分恰恰可能是面向机器识别的有用特征, 效率在原有的技术上再提高一倍。 所以该压缩处理很可能导致识别率的下降,因
视频编码,没有特征编码。视频编码是为了存 储和离线观看影像重构。特征编码是为了模式 识别和场景理解的紧凑特征表达。由于城市大 脑 2.0 至少有两个码流,一个是视频编码压缩 流,一个是特征编码压缩流,这两个码流会捆绑 到一起进行传输,因此,还需要通过联合优化, 把带宽合理分配给视频编码和特征编码,使得 整个系统是最优的。 第 3 组特征属性,简单来说就是模型可更新、 注意可调节、软件可定义。模型可更新是指当模 型需要切换或升级时,终端要能够进行实时更 新,以更好地支持多种神经网络和算法。注意可 调整是指摄像头能够自动调节焦距、拍摄角度等 配置参数。软件可定义则是指可以通过软件定义 的方法对系统进行自动升级。如果具备这 3 个特 点,终端就可以做得非常智能。 当然,要想把数字视网膜技术全部用起来,这 里面有一些使能技术。 第一个使能技术是视频编码。目前城市大 脑、监控系统都离不开视频编码,摄像头里面都 有一个视频编码芯片,视频编码芯片使用的标 准,最早期是 H.264 或者 AVS+,最近开始转变为 H.265 或者 AVS2 的标准,未来不久就会用上 AVS3 或者 AV1 或者 H.266,该标准几乎每 10 年 就会更新一代,编码效率相应地提高一倍。 一段视频是一个图像序列,图像序列里包含 了很多数据的冗余,基本上可分为三大类:一类 是和空间有关的冗余,一类是和时间有关的冗 余,另外一类是和编码有关的冗余。为了消除 冗余数据,就要对视频进行编码压缩。现在整 个视频编码用的算法一般是混合视频编码架 构,即将上述 3 种主流冗余数据用不同的算法去 除掉。比如为了去除空间冗余,一般采用正交 变换 (DCT 变换等);为了去除时间冗余,就是帧 与帧之间的冗余,一般会采取预测编码,比如各 种各样的滤波器;为了使编码的分配最符合熵 的定义,我们使用信息熵编码来去除编码上的 冗余。这 3 类冗余都去除了,整个视频流就可以 压缩得很小。 要把视频编码做好,算法要做得很精,随着时 间的推移,可以用计算、带宽把这些冗余一点点 都去除掉。当然,这些年我们除了不断地优化算 法之外,还提出了一种背景建模技术,使得编码 效率在原有的技术上再提高一倍。 □ HEVC HM12.0 vs. BHO 40% gain in coding efficiency over HEVC Surveillance Videos BEO vs. HM 12.0 BD Rate (Y,U,V) Time Saving Crossroad-cif -18.39% -46.41% -43.20% 32.28% Overbridge-cif -30.60% -79.59% -51.80% 26.03% Snowgate-cif -55.88% -77.13% -74.02% 44.22% Snowroad-cif -53.18% -66.21% -66.40% 60.06% Bank-sd -48.88% -72.46% -73.78% 60.79% Crossroad-sd -29.24% -71.06% -67.37% 37.73% Office-sd -16.17% -54.70% -50.88% 27.28% Overbridge-sd -46.91% -71.84% -70.48% 56.05% Intersection-hd -21.45% -33.74% -31.28% 26.28% Mainroad-hd -70.15% -83.13% -75.49% 65.59% Average -39.09% -65.63% -60.47% 43.63% Conference Videos BEO vs. HM BD Rate (Y,U,V) Time Saving FourPeople-720p -8.02% -15.86% -14.41% 37.31% Johnny-720p 1.82% -15.91% -14.53% 48.33% Kristen&Sara- 720p -9.06% -19.28% -18.70% 41.18% Vidyo1-720p -5.99% -11.15% -13.02% 38.14% Vidyo3-720p -10.10% -16.53% -33.67% 56.90% Vidyo4-720p -0.26% -13.37% -15.18% 40.19% Average -5.27% -15.35% -18.25% 43.68% Results: BHO can achieve ~40% bit saving and 43.63% complexity reduction on surveillance videos, while those are ~6% and 43.68% on conference videos. Xianguo Zhang, Yonghong Tian, Tiejun Huang, Siwei Dong, Wen Gao, Optimizing the Hierarchical Prediction and Coding in HEVC for Surveillance and Conference Videos with Background Modeling, IEEE Transactions on Image Processing, 23(10), Oct. 2014. 4511-4526. 这里有很详细的一些数据测试作为依据,而 且相关研究成果都已经发表论文,比如 2014 年我 们在 IEEE T-IP 发表了一篇论文,里面有这样一些 研究结果。AVS2 于 2016 年成为我国的视频编码 标准,同时它也是 IEEE1857 标准的第 4 部分。目 前正在制定的 AVS3,是 IEEE 1857 标准的第 10 部分。2019 年 3 月发布了 AVS3 标准第 1 版, 而 H.266 第 1 版直到 2020 年 7 月才发布,我们超 前了 H.266 一年零三个月,这是有史以来第一次, 国内标准超前于国际标准完成。 AVS3 标 准 2019 年 3 月第 1 版发布以后,同年 9 月海思就完 成了芯片制造,这款芯片在阿姆斯特丹的一次广 电展上一经面市,就引起了很大的轰动。它可以 支持 AVS3、8K 解码,支持高动态和每秒 120 帧速 率。该款芯片现在已经装配于很多 4K 电视、 8K 电视、机顶盒等。 第 2 个使能技术就是特征编码,是非常关键 的一个使能技术,该技术的标准有两部分核心内 容,一部分叫 CDVS,另一部分叫 CDVA,现在也 是国际标 准 MPEG- 7 里的两个部分,一个 是 MPEG-7 第 13 部分,2015 年 9 月发布,一个是 MPEG-7 第 15 部分,2019 年 7 月分布。 从图像中提取出来的特征数据可能很大,如 果不压缩的话,特征数据很可能比图像本身都 大,因此,同样需要对视觉特征进行编码压缩。 如何进行特征压缩也是一个值得考虑的问 题。一种途径是先把图像降质编码传过去,然 后提取特征,再进行识别;另一种途径是先把特 征提取出来,然后把特征传过去再识别。这两 种途径存在一个剪刀差,可能导致识别率相差 百分之二十、三十甚至更高。因为先进行图像 压缩可能造成一些有用特征的丢失,传统编码 压缩,倾向保留符合人眼视觉特性的公共部分、 压缩掉一些非公共的、非常见的信息,而非常见 的部分恰恰可能是面向机器识别的有用特征, 所以该压缩处理很可能导致识别率的下降,因 第 4 期 高文:城市大脑的痛点与对策 ·821·
·822· 智能系统学报 第15卷 此我们采取先提取特征然后在云端识别的技术 比如我们看到的上面这部分,是一个视频编 策略,就可以保证特征信息不被视频编码流程 码优化的流程,上面的虚线框是视频编码,下面 所丢失。 的实线是特征编码,这两个编码合成一个流,就 先提特征,怎样使提取的特征体量比较小? 是视频和特征流。 我们初期针对手工特征,设计了低比特、高性能 Joint R-D and R-A optimization ®e 低复杂度的全局与局部特征表示,形成对图像的 Framework 一种全局紧凑描述,实现图像快速比对,并支持 ■Feature coding ■Video coding 局部特征的快速匹配,检测几何一致性。我们做 了第1版以后,又专门做了一个面向深度学习特 征的编码压缩框架,主要是针对小视频来做的, 提供了数据驱动的几何与语义不变性紧凑特征表 示。有了这2个部分以后,基本上可以应对图像 特征编码和视频特征编码这两个需求。 将视频和特征流放入联合优化流程中一起优 化。视频编码的优化模型叫RDO,RDO就是给定 图像特征编码即CDVS,视频特征编码即 CDVA。CDVS是手工特征,使用的是一个类 码率条件下损失最小的优化模型,它的优化曲线 就是右下角这个曲线。在识别特征表达这一块, SFT的特征集,当输入的比特数据比较少时,就 有一个RAO,就是给定码率条件下,让精确度最 给出一些比较宏观的特征。CDVS为单幅图像 高的优化模型。 提供了512B/1KB/2KB/4KB/8KB/16KB的可伸 缩码率,这一特性有利于克服无线传输面临的 Rate-distortion optimization 袋© 带宽受限、带宽波动等技术挑战。基于这样的 DMultiple prediction modes 思路,用这种类SFT,我们提出了一个特征紧凑 araepreticon ◆ 表达的标准,然后评测它的性能,经过几年的时 Using mation vector to speed up the searching process 间,性能越来越高,最后固定下来。对比图像压 Reconstructed-frame prediction 缩,特征压缩效率提升百倍(测算依据:压缩图 像大小400KB/典型特征大小4KB)。CDVS从 F(Ng)log (Na) DJ”aN+c 2012年2月份启动,到2015年6月份完成,最后 成为国际标准,投入了将近4年的时间。CDVS 这个优化模型给的曲线是反过来的,所以把 完成后,标准化组织团队便立即转向研究利用 这两个需要优化的东西放到一个优化函数里面表 深度学习进行视频分析特征压缩的问题,花费 达出来,就是这张图的表达,据此联合求解一个 两三年的时间完成了技术攻关,可以利用深度 优化的解,这就是联合优化。 网络对短视频进行特征提取与表达,并且特征 的性能一直在逐步提高,在不同网络环境下,其 Joint R-D and R-A optimization 袋。 特征提取和特征识别的效率也在逐步提高,并 Input:DataY put Optimal entation S 进一步实现了融合深度学习特征与传统手工特 S*arg min(V()+RYS:eR) Processing task 征的高性能视频特征压缩技术。对比源端视 Representation fidelity 频,实现了近万倍压缩比(测算依据:源端视频 ce Vid 流码率1.5Gbps/特征流码率150Kbps)。现在 CDVA也已经成为国际标准。 第3个使能技术叫做联合优化。所谓联合优 第4个使能技术是深度学习模型编码的使能 化,就是在视频编码和特征编码之间,找到一个 技术,使用多个源模型来增强目标模型学习,提 最优的结合点,使得这两个流捆绑到一起的时 升目标模型的性能与泛化性,并通过构建模型之 候,码率分配是最优的,这样送到云里,它们合起 间的预测机制,实现增量式模型更新,降低模型 来是最优的。怎么能够做到最优呢?因为各自的 更新带来的码率开销,提升模型部署效率。 优化模型都是有的。 多模型重用既包括现有模型的重复使用,也
此我们采取先提取特征然后在云端识别的技术 策略,就可以保证特征信息不被视频编码流程 所丢失。 先提特征,怎样使提取的特征体量比较小? 我们初期针对手工特征,设计了低比特、高性能、 低复杂度的全局与局部特征表示,形成对图像的 一种全局紧凑描述,实现图像快速比对,并支持 局部特征的快速匹配,检测几何一致性。我们做 了第 1 版以后,又专门做了一个面向深度学习特 征的编码压缩框架,主要是针对小视频来做的, 提供了数据驱动的几何与语义不变性紧凑特征表 示。有了这 2 个部分以后,基本上可以应对图像 特征编码和视频特征编码这两个需求。 图像特征编码即 CDVS,视频特征编码即 CDVA。CDVS 是手工特征,使用的是一个类 SIFT 的特征集,当输入的比特数据比较少时,就 给出一些比较宏观的特征。CDVS 为单幅图像 提供了 512 B/1 KB/2 KB/4 KB/8 KB/16 KB 的可伸 缩码率,这一特性有利于克服无线传输面临的 带宽受限、带宽波动等技术挑战。基于这样的 思路,用这种类 SIFT,我们提出了一个特征紧凑 表达的标准,然后评测它的性能,经过几年的时 间,性能越来越高,最后固定下来。对比图像压 缩,特征压缩效率提升百倍 (测算依据:压缩图 像大小 400 KB/典型特征大小 4 KB)。CDVS 从 2012 年 2 月份启动,到 2015 年 6 月份完成,最后 成为国际标准,投入了将近 4 年的时间。CDVS 完成后,标准化组织团队便立即转向研究利用 深度学习进行视频分析特征压缩的问题,花费 两三年的时间完成了技术攻关,可以利用深度 网络对短视频进行特征提取与表达,并且特征 的性能一直在逐步提高,在不同网络环境下,其 特征提取和特征识别的效率也在逐步提高,并 进一步实现了融合深度学习特征与传统手工特 征的高性能视频特征压缩技术。对比源端视 频,实现了近万倍压缩比 (测算依据:源端视频 流码率 1.5 Gbps/特征流码率 150 Kbps)。现在 CDVA 也已经成为国际标准。 第 3 个使能技术叫做联合优化。所谓联合优 化,就是在视频编码和特征编码之间,找到一个 最优的结合点,使得这两个流捆绑到一起的时 候,码率分配是最优的,这样送到云里,它们合起 来是最优的。怎么能够做到最优呢?因为各自的 优化模型都是有的。 比如我们看到的上面这部分,是一个视频编 码优化的流程,上面的虚线框是视频编码,下面 的实线是特征编码,这两个编码合成一个流,就 是视频和特征流。 □ Framework ■ Feature coding ■ Video coding Joint R-D and R-A optimization 将视频和特征流放入联合优化流程中一起优 化。视频编码的优化模型叫 RDO,RDO 就是给定 码率条件下损失最小的优化模型,它的优化曲线 就是右下角这个曲线。在识别特征表达这一块, 有一个 RAO,就是给定码率条件下,让精确度最 高的优化模型。 □ Multiple prediction modes ■ Intra-frame prediction □ Search most-similar feature in the current frame ■ Inter-frame prediction □ Search most-similar feature in the previous frame □ Using motion vector to speed up the searching process ■ Reconstructed-frame prediction □ Fast feature extraction: coding scale, orientation parameters □ How to achieve optimal orientation quantization? Rate-distortion optimization ~ = − ln2 1/ ~ = argmin( ( ) + · ( )) ( ) = log2 ( ) ( ) = + 这个优化模型给的曲线是反过来的,所以把 这两个需要优化的东西放到一个优化函数里面表 达出来,就是这张图的表达,据此联合求解一个 优化的解,这就是联合优化。 Joint R-D and R-A optimization Input:DataV Output : Optimal representation S * Signal Layer Stream 1 Stream N Feature Layer ROI ROI ROI ROI Representation fidelity Processing task Cost Surveillance Video Coding Compact Feature Descriptor :Parameters 第 4 个使能技术是深度学习模型编码的使能 技术,使用多个源模型来增强目标模型学习,提 升目标模型的性能与泛化性,并通过构建模型之 间的预测机制,实现增量式模型更新,降低模型 更新带来的码率开销,提升模型部署效率。 多模型重用既包括现有模型的重复使用,也 ·822· 智 能 系 统 学 报 第 15 卷
第4期 高文:城市大脑的痛点与对策 ·823· 包括根据目标模型训练所得到的优化模型部署使 配合的参考软件,最上层则是开源算法训练,以 用。如果结合边端云计算框架,在学习体系中用 此为基础,将来鹏城云脑会对城市大脑进行更强 好多模型重用,那么性能就可以得到大幅提升。 有力的支撑。 因此,如何在多模型重用过程中,使用模型编码 快速地更新模型,促使性能不断提升,就是模型 数字视网膜摄像机原型 药© 古特的堂规圆度幢估款绵峰年峰的时中D 编码的主要动机,这样就可以在模型训练完成、 高的规和特征,件可定文,可更新,注虚可调节 压缩好后快速推到终端去升级模型。 上述使能技术最终可以在芯片里实现,这类 芯片称为数字视网膜芯片,目前北京大学杭州研 究院的一个下属公司已经完成了芯片的设计制 造,芯片型号是GV9531,支持上文所述的数字视 网膜3组8个特性。并且研发了基于该芯片的板 目前已有一些演示验证案例,例如,利用深圳 卡,比如4颗芯片的卡、16颗芯片的卡,这些板卡 交警提供的数据进行系统验证、视频追踪等等。 已经可以支持边缘端,支持上百路甚至几百路的 同时,在深圳市光明区若干路段也开展了一些现 摄像头数字视网膜特征提取的传输。 场测试和示范应用,验证结果表明,系统对于停 除了数字视网膜本身以外,配合人工智能技 车、拥堵等事件都可以很好地分析和发现。 术的发展,当前也在推动中国的一些AI技术成 为国家标准,包括神经网络模型表示与压缩的 数字视网膜系统验证 药 标准、城市级大数据汇集关联的规范和标准,同 s、4性修 时也在规划这些标准研究制定的路线图及时间 表等。 数字视网膜简单来说是3个编码流合并的系 统,即视频流、特征流和模型流,其中,视频流和 特征流是最主要的部分,而模型流只是在需要更 新模型时将模型编码压缩后从云端推到边缘或者 终端上,进行一些增量更新。 4结束语 有了数字视网膜,就可以使得城市大脑边缘 或者终端的效能比更高,从而减少云端的算力, 上面是城市大脑2.0到现在为止的一些进展 同时使云端的响应更精确、更快速。 情况。城市大脑1.0是一个以云计算为核心的系 为了配合这个工作,目前在鹏城实验室有比 统,由于系统分工协调不好,所以成本比较高,响 较完整的设计和规划,包括一些中台、业务支撑 应速度慢,数据的可利用度也比较低。城市大脑 以及应用等系统。我们把城市大脑2.0的数字视 2.0借鉴人类的视觉系统,提出了一个性能更优异 网膜简称为云脑视网膜,然后利用鹏城云脑的算 的体系架构,该体系架构需要数字视网膜的思 力去提升它的能力。到目前为止,鹏城云脑的建 路、技术及其标准化等工作的支撑与配合,目前, 设已经投入了几十亿元,拥有了100P的算力是 相关思路、技术、标准化都已逐步到位。 目前国内算力最大的一套AI训练系统。鹏城云 数字视网膜系统,可以使现有城市大脑 脑仍处于建设阶段,未来将会成为更强的系统。 1.0在编码方面节省50%的存储和带宽,在云资 我们目前已经研发了一套数字视网膜原型系统. 源耗费上节省90%以上的计算算力,而且对图像 支持数据采集、上传、标注、训练,支持采用基于 特征的提取和分析延迟更低、精度更高,这是数 数字视网膜芯片的终端、服务器进行提取,然后 字视网膜带给城市大脑2.0的一个好处。当然, 进一步分析和识别。 数字视网膜系统的完善还需要一段时间,还需要 该原型系统已经开始汇聚越来越多的数据, 在更多的应用中进行验证,当相关技术成熟、标 技术也越来越成熟,包括了大数据,人工智能等 准制定完成时,城市大脑2.0真正运营起来,就会 开放平台,系统中运行着各种各样的与硬件相互 对中国的城市化、智能城市发展等方面发挥较大
包括根据目标模型训练所得到的优化模型部署使 用。如果结合边端云计算框架,在学习体系中用 好多模型重用,那么性能就可以得到大幅提升。 因此,如何在多模型重用过程中,使用模型编码 快速地更新模型,促使性能不断提升,就是模型 编码的主要动机,这样就可以在模型训练完成、 压缩好后快速推到终端去升级模型。 上述使能技术最终可以在芯片里实现,这类 芯片称为数字视网膜芯片,目前北京大学杭州研 究院的一个下属公司已经完成了芯片的设计制 造,芯片型号是 GV9531,支持上文所述的数字视 网膜 3 组 8 个特性。并且研发了基于该芯片的板 卡,比如 4 颗芯片的卡、16 颗芯片的卡,这些板卡 已经可以支持边缘端,支持上百路甚至几百路的 摄像头数字视网膜特征提取的传输。 除了数字视网膜本身以外,配合人工智能技 术的发展,当前也在推动中国的一些 AI 技术成 为国家标准,包括神经网络模型表示与压缩的 标准、城市级大数据汇集关联的规范和标准,同 时也在规划这些标准研究制定的路线图及时间 表等。 数字视网膜简单来说是 3 个编码流合并的系 统,即视频流、特征流和模型流,其中,视频流和 特征流是最主要的部分,而模型流只是在需要更 新模型时将模型编码压缩后从云端推到边缘或者 终端上,进行一些增量更新。 有了数字视网膜,就可以使得城市大脑边缘 或者终端的效能比更高,从而减少云端的算力, 同时使云端的响应更精确、更快速。 为了配合这个工作,目前在鹏城实验室有比 较完整的设计和规划,包括一些中台、业务支撑 以及应用等系统。我们把城市大脑 2.0 的数字视 网膜简称为云脑视网膜,然后利用鹏城云脑的算 力去提升它的能力。到目前为止,鹏城云脑的建 设已经投入了几十亿元,拥有了 100 P 的算力是 目前国内算力最大的一套 AI 训练系统。鹏城云 脑仍处于建设阶段,未来将会成为更强的系统。 我们目前已经研发了一套数字视网膜原型系统, 支持数据采集、上传、标注、训练,支持采用基于 数字视网膜芯片的终端、服务器进行提取,然后 进一步分析和识别。 该原型系统已经开始汇聚越来越多的数据, 技术也越来越成熟,包括了大数据,人工智能等 开放平台,系统中运行着各种各样的与硬件相互 配合的参考软件,最上层则是开源算法训练,以 此为基础,将来鹏城云脑会对城市大脑进行更强 有力的支撑。 • 总体设计 • 概要设计 • 接口设计 离线视 频文件 视 频 输 入 视 频 分 析 结 果 输 出 视 频 流 特 征 流 结 果 流 NVIDIA 开发板 (30w) FPGA (17w) • 系统管理应用 • 检测算法 • 应用/算法 • 应用层移植 • 系统性能优化 • 应用/算法联调 • 基于FPGA芯片软硬件方案 • FPGA硬件单板设计加工 • 整机结构 • 板机组装 数字视网膜摄像机原型机 摄像机 系统移植 功耗降低 模型压缩 性能不减 支持数字视网膜核心技术特性:统一的时空 ID, 高效的视频编码和特征编码,软件可定义,模型可更新,注意可调节 数字视网膜摄像机原型 目前已有一些演示验证案例,例如,利用深圳 交警提供的数据进行系统验证、视频追踪等等。 同时,在深圳市光明区若干路段也开展了一些现 场测试和示范应用,验证结果表明,系统对于停 车、拥堵等事件都可以很好地分析和发现。 有效去除冗余信息,减少存储和传输压力 24小时压缩率达到50%以上 根据十余种特征对车辆进行搜索跟踪 平均识别准确率≥90% 鹏城实验室已通过数据专线接入深圳交警5500路视频 数字视网膜服务器百路视频验证:视频内容压缩、特征提取、目标搜索跟踪、泥头车检测等 数字视网膜系统验证 4 结束语 上面是城市大脑 2.0 到现在为止的一些进展 情况。城市大脑 1.0 是一个以云计算为核心的系 统,由于系统分工协调不好,所以成本比较高,响 应速度慢,数据的可利用度也比较低。城市大脑 2.0 借鉴人类的视觉系统,提出了一个性能更优异 的体系架构,该体系架构需要数字视网膜的思 路、技术及其标准化等工作的支撑与配合,目前, 相关思路、技术、标准化都已逐步到位。 数字视网膜系统,可以使现有城市大 脑 1.0 在编码方面节省 50% 的存储和带宽,在云资 源耗费上节省 90% 以上的计算算力,而且对图像 特征的提取和分析延迟更低、精度更高,这是数 字视网膜带给城市大脑 2.0 的一个好处。当然, 数字视网膜系统的完善还需要一段时间,还需要 在更多的应用中进行验证,当相关技术成熟、标 准制定完成时,城市大脑 2.0 真正运营起来,就会 对中国的城市化、智能城市发展等方面发挥较大 第 4 期 高文:城市大脑的痛点与对策 ·823·
·824· 智能系统学报 第15卷 的贡献。 al.Overview of the MPEG-CDVS standard[J].IEEE trans. 致谢:本文根据我在2020年CCF-GAIR上 actions on image processing,2016,25(1):179-194. 的大会报告录音整理而成的,文稿得到过田永鸿 [6]DUAN Lingyu,CHANDRASEKHAR Vijay,WANG 教授、马思伟教授、段凌宇教授、贾惠柱副研究 Shigi,et al.Compact descriptors for video analysis:the 员、张伟先生等同事的修改。在此一并对他们表 emerging MPEG standard[J].IEEE multimedia,2019, 示感谢。 26(2)44-54. 参考文献: [7]ZHANG Xiang,MA Siwei,WANG Shiqi,et al.A joint compression scheme of video feature descriptors and visu- [1]高文,田永鸿,王坚.数字视网膜:智慧城市系统演进的 al content[J].IEEE transactions on image processing,2017, 关键环节[J].中国科学:信息科学,2018,48(8): 26(2:633-647 1076-1082 作者简介: [2]ZHANG Xianguo,HUANG Tiejun,TIAN Yonghong,et 高文,中国工程院院士、北京大学 al.Background-modeling based adaptive prediction for sur- 博雅讲席教授,鹏城实验室主任,新一 veillance video coding[J].IEEE transactions on image pro- 代人工智能产业技术创新战略联盟理 cessing,2014,23(2):769-784. 事长,全国信息技术标准化委员会副 主任,数字音视频编解码技术标准 [3]高文,等.信息技术:智能媒体编码(第2部分:视频),新 (AVS)工作组组长,国际电气和电子 一代人工智能产业技术创新战略联盟团体标准[S] 工程师协会会士(IEEE Fellow)、美国 2019. 计算机协会会士(ACM Fellow)。主要从事人工智能应用和 [4]BROSS B,CHEN J,LIU S,et al.Versatile Video Coding, 多媒体技术、计算机视觉、模式识别与图像处理、虚拟现实方 面的研究,主要著作有《数字视频编码技术原理》《Ad- ITU-T and ISO/IEC JVET-S2001,2020. vanced Video Coding Systems》等。在本领域国际期刊上发 [5]DUAN Lingyu,CHANDRASEKHAR Vijay,CHEN Jie,et 表学术论文200余篇,国际会议论文700余篇。 中文引用格式:高文.城市大脑的痛点与对策.智能系统学报,2020,15(4):818-824. 英文引用格式:GA0Wen.City brain:challenges and solution J.CAAI transactions on intelligent systems,.2020,15(4):818-824
的贡献。 致谢:本文根据我在 2020 年 CCF-GAIR 上 的大会报告录音整理而成的,文稿得到过田永鸿 教授、马思伟教授、段凌宇教授、贾惠柱副研究 员、张伟先生等同事的修改。在此一并对他们表 示感谢。 参考文献: 高文, 田永鸿, 王坚. 数字视网膜: 智慧城市系统演进的 关键环节 [J]. 中国科学: 信息科学, 2018, 48(8): 1076–1082. [1] ZHANG Xianguo, HUANG Tiejun, TIAN Yonghong, et al. Background-modeling based adaptive prediction for surveillance video coding[J]. IEEE transactions on image processing, 2014, 23(2): 769–784. [2] 高文, 等. 信息技术: 智能媒体编码 (第 2 部分: 视频), 新 一代人工智能产业技术创新战略联盟团体标准 [S]. 2019. [3] BROSS B, CHEN J, LIU S, et al. Versatile Video Coding, ITU-T and ISO/IEC JVET-S2001, 2020. [4] [5] DUAN Lingyu, CHANDRASEKHAR Vijay, CHEN Jie, et al. Overview of the MPEG-CDVS standard[J]. IEEE transactions on image processing, 2016, 25(1): 179–194. DUAN Lingyu, CHANDRASEKHAR Vijay, WANG Shiqi, et al. Compact descriptors for video analysis: the emerging MPEG standard[J]. IEEE multimedia, 2019, 26(2): 44–54. [6] ZHANG Xiang, MA Siwei, WANG Shiqi, et al. A joint compression scheme of video feature descriptors and visual content[J]. IEEE transactions on image processing, 2017, 26(2): 633–647. [7] 作者简介: 高文,中国工程院院士、北京大学 博雅讲席教授,鹏城实验室主任,新一 代人工智能产业技术创新战略联盟理 事长,全国信息技术标准化委员会副 主任,数字音视频编解码技术标准 (AVS) 工作组组长,国际电气和电子 工程师协会会士 (IEEE Fellow)、美国 计算机协会会士 (ACM Fellow)。主要从事人工智能应用和 多媒体技术、计算机视觉、模式识别与图像处理、虚拟现实方 面的研究,主要著作有《数字视频编码技术原理》《Advanced Video Coding Systems》等。在本领域国际期刊上发 表学术论文 200 余篇,国际会议论文 700 余篇。 中文引用格式:高文. 城市大脑的痛点与对策 [J]. 智能系统学报, 2020, 15(4): 818–824. 英文引用格式:GAO Wen. City brain: challenges and solution[J]. CAAI transactions on intelligent systems, 2020, 15(4): 818–824. ·824· 智 能 系 统 学 报 第 15 卷