正在加载图片...
·822· 智能系统学报 第15卷 此我们采取先提取特征然后在云端识别的技术 比如我们看到的上面这部分,是一个视频编 策略,就可以保证特征信息不被视频编码流程 码优化的流程,上面的虚线框是视频编码,下面 所丢失。 的实线是特征编码,这两个编码合成一个流,就 先提特征,怎样使提取的特征体量比较小? 是视频和特征流。 我们初期针对手工特征,设计了低比特、高性能 Joint R-D and R-A optimization ®e 低复杂度的全局与局部特征表示,形成对图像的 Framework 一种全局紧凑描述,实现图像快速比对,并支持 ■Feature coding ■Video coding 局部特征的快速匹配,检测几何一致性。我们做 了第1版以后,又专门做了一个面向深度学习特 征的编码压缩框架,主要是针对小视频来做的, 提供了数据驱动的几何与语义不变性紧凑特征表 示。有了这2个部分以后,基本上可以应对图像 特征编码和视频特征编码这两个需求。 将视频和特征流放入联合优化流程中一起优 化。视频编码的优化模型叫RDO,RDO就是给定 图像特征编码即CDVS,视频特征编码即 CDVA。CDVS是手工特征,使用的是一个类 码率条件下损失最小的优化模型,它的优化曲线 就是右下角这个曲线。在识别特征表达这一块, SFT的特征集,当输入的比特数据比较少时,就 有一个RAO,就是给定码率条件下,让精确度最 给出一些比较宏观的特征。CDVS为单幅图像 高的优化模型。 提供了512B/1KB/2KB/4KB/8KB/16KB的可伸 缩码率,这一特性有利于克服无线传输面临的 Rate-distortion optimization 袋© 带宽受限、带宽波动等技术挑战。基于这样的 DMultiple prediction modes 思路,用这种类SFT,我们提出了一个特征紧凑 araepreticon ◆ 表达的标准,然后评测它的性能,经过几年的时 Using mation vector to speed up the searching process 间,性能越来越高,最后固定下来。对比图像压 Reconstructed-frame prediction 缩,特征压缩效率提升百倍(测算依据:压缩图 像大小400KB/典型特征大小4KB)。CDVS从 F(Ng)log (Na) DJ”aN+c 2012年2月份启动,到2015年6月份完成,最后 成为国际标准,投入了将近4年的时间。CDVS 这个优化模型给的曲线是反过来的,所以把 完成后,标准化组织团队便立即转向研究利用 这两个需要优化的东西放到一个优化函数里面表 深度学习进行视频分析特征压缩的问题,花费 达出来,就是这张图的表达,据此联合求解一个 两三年的时间完成了技术攻关,可以利用深度 优化的解,这就是联合优化。 网络对短视频进行特征提取与表达,并且特征 的性能一直在逐步提高,在不同网络环境下,其 Joint R-D and R-A optimization 袋。 特征提取和特征识别的效率也在逐步提高,并 Input:DataY put Optimal entation S 进一步实现了融合深度学习特征与传统手工特 S*arg min(V()+RYS:eR) Processing task 征的高性能视频特征压缩技术。对比源端视 Representation fidelity 频,实现了近万倍压缩比(测算依据:源端视频 ce Vid 流码率1.5Gbps/特征流码率150Kbps)。现在 CDVA也已经成为国际标准。 第3个使能技术叫做联合优化。所谓联合优 第4个使能技术是深度学习模型编码的使能 化,就是在视频编码和特征编码之间,找到一个 技术,使用多个源模型来增强目标模型学习,提 最优的结合点,使得这两个流捆绑到一起的时 升目标模型的性能与泛化性,并通过构建模型之 候,码率分配是最优的,这样送到云里,它们合起 间的预测机制,实现增量式模型更新,降低模型 来是最优的。怎么能够做到最优呢?因为各自的 更新带来的码率开销,提升模型部署效率。 优化模型都是有的。 多模型重用既包括现有模型的重复使用,也此我们采取先提取特征然后在云端识别的技术 策略,就可以保证特征信息不被视频编码流程 所丢失。 先提特征,怎样使提取的特征体量比较小? 我们初期针对手工特征,设计了低比特、高性能、 低复杂度的全局与局部特征表示,形成对图像的 一种全局紧凑描述,实现图像快速比对,并支持 局部特征的快速匹配,检测几何一致性。我们做 了第 1 版以后,又专门做了一个面向深度学习特 征的编码压缩框架,主要是针对小视频来做的, 提供了数据驱动的几何与语义不变性紧凑特征表 示。有了这 2 个部分以后,基本上可以应对图像 特征编码和视频特征编码这两个需求。 图像特征编码即 CDVS,视频特征编码即 CDVA。CDVS 是手工特征,使用的是一个类 SIFT 的特征集,当输入的比特数据比较少时,就 给出一些比较宏观的特征。CDVS 为单幅图像 提供了 512 B/1 KB/2 KB/4 KB/8 KB/16 KB 的可伸 缩码率,这一特性有利于克服无线传输面临的 带宽受限、带宽波动等技术挑战。基于这样的 思路,用这种类 SIFT,我们提出了一个特征紧凑 表达的标准,然后评测它的性能,经过几年的时 间,性能越来越高,最后固定下来。对比图像压 缩,特征压缩效率提升百倍 (测算依据:压缩图 像大小 400 KB/典型特征大小 4 KB)。CDVS 从 2012 年 2 月份启动,到 2015 年 6 月份完成,最后 成为国际标准,投入了将近 4 年的时间。CDVS 完成后,标准化组织团队便立即转向研究利用 深度学习进行视频分析特征压缩的问题,花费 两三年的时间完成了技术攻关,可以利用深度 网络对短视频进行特征提取与表达,并且特征 的性能一直在逐步提高,在不同网络环境下,其 特征提取和特征识别的效率也在逐步提高,并 进一步实现了融合深度学习特征与传统手工特 征的高性能视频特征压缩技术。对比源端视 频,实现了近万倍压缩比 (测算依据:源端视频 流码率 1.5 Gbps/特征流码率 150 Kbps)。现在 CDVA 也已经成为国际标准。 第 3 个使能技术叫做联合优化。所谓联合优 化,就是在视频编码和特征编码之间,找到一个 最优的结合点,使得这两个流捆绑到一起的时 候,码率分配是最优的,这样送到云里,它们合起 来是最优的。怎么能够做到最优呢?因为各自的 优化模型都是有的。 比如我们看到的上面这部分,是一个视频编 码优化的流程,上面的虚线框是视频编码,下面 的实线是特征编码,这两个编码合成一个流,就 是视频和特征流。 □ Framework ■ Feature coding ■ Video coding Joint R-D and R-A optimization 将视频和特征流放入联合优化流程中一起优 化。视频编码的优化模型叫 RDO,RDO 就是给定 码率条件下损失最小的优化模型,它的优化曲线 就是右下角这个曲线。在识别特征表达这一块, 有一个 RAO,就是给定码率条件下,让精确度最 高的优化模型。 □ Multiple prediction modes ■ Intra-frame prediction □ Search most-similar feature in the current frame ■ Inter-frame prediction □ Search most-similar feature in the previous frame □ Using motion vector to speed up the searching process ■ Reconstructed-frame prediction □ Fast feature extraction: coding scale, orientation parameters □ How to achieve optimal orientation quantization? Rate-distortion optimization ~ = − ln2 1/ ~ = argmin( ( ) + · ( )) ( ) = log2 ( ) ( ) = + 这个优化模型给的曲线是反过来的,所以把 这两个需要优化的东西放到一个优化函数里面表 达出来,就是这张图的表达,据此联合求解一个 优化的解,这就是联合优化。 Joint R-D and R-A optimization Input:DataV Output : Optimal representation S * Signal Layer Stream 1 Stream N Feature Layer ROI ROI ROI ROI Representation fidelity Processing task Cost Surveillance Video Coding Compact Feature Descriptor :Parameters 第 4 个使能技术是深度学习模型编码的使能 技术,使用多个源模型来增强目标模型学习,提 升目标模型的性能与泛化性,并通过构建模型之 间的预测机制,实现增量式模型更新,降低模型 更新带来的码率开销,提升模型部署效率。 多模型重用既包括现有模型的重复使用,也 ·822· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有