正在加载图片...
·190· 智能系统学报 第15卷 孙剑等,尝试把Identity加入到卷积神经网络中并 真的正确的道路,这有待进一步的研究。最近, 提出ResNet。.最简单的Identity却出人意料的有 恺明等提出了动量对比度(MoCo)用于无监督的 效,直接使CNN能够深化到152层、1202层等, 视觉表示学习。MoCo可以胜过在PASCAL error rate也降到了3.6%。后来,ResNeXt、Resid- VOC、COCO和其他数据集上进行监督的预训练 ual-Attention、DenseNet、.SENet等也各有贡献,各 对等任务中的检测/细分任务,有时会大大超过 自引入了Group convolutio、Attention、Dense con- 它。这表明在许多视觉任务中,无监督和有监督 nection、Channelwise-.attention等,最终ImageN- 的表征学习之间的鸿沟已被大大消除。 et将error rate降到了2.2%,远远低于人类的错误 第2条发展脉络(浅绿色区域)以生成模型为 率。现在,即使手机上的神经网络,也能达到超 主。传统的生成模型是要预测联合概率分布P(x, 过人类的水平。而另一个突破一在图像检测 y)。机器学习方法中生成模型一直占据着非常重 中,任少卿、何恺明、孙剑等优化了原先的R- 要的地位,但基于神经网络的生成模型一直没有 CNN、fast R-CNN等通过其他方法提出region pro- 引起广泛关注。Hinton在2006年的时候基于受 posal,.然后用CNN去判断是否是object的方法, 限玻尔兹曼机(RBM,一个20世纪80年代左右提 提出了faster R-CNN。Faster R-CNN的主要贡献 出的基于无向图模型的能量物理模型)设计了一 是使用和图像识别相同的CNN feature,发现fea- 个机器学习的生成模型,并且将其堆叠成为Deep ture不仅可以识别图片内容,还可以用来识别图 Belief Network,使用逐层贪婪或者wake-sleep的 片的位置。也就是说,CNN的feature非常有用, 方法训练,当时模型的效果其实并没有那么好。 包含了大量的信息,可以同时用来做不同的任 但值得关注的是,正是基于RBM模型,Hinton等 务。这个创新立刻把图像检测的MAP也翻倍 开始设计深度框架,因此这也可以看做是深度学 了。在短短的4年中,ImageNet图像检测的 习的一个开端。Auto-Encoder也是20世纪80年 MAP(越大越好)从最初的0.22达到了0.73。何恺 代Hinton提出的模型,后来随着计算能力的进步 明后来还提出了Mask R-CNN,即给faster R- 也重新登上舞台。约书亚·本吉奥(Yoshua Ben- CNN又加了一个Mask Head,发现即使只在训练 gio)等又提出了Denoise Auto-.Encoder,主要针对 中使用Mask Head,其信息可以传递回原先的 数据中可能存在的噪音问题。麦克斯·威林(Max CNN feature中,获得了更精细的信息。由此, Welling,也是变分和概率图模型的高手)等后来 Mask R-CNN得到了更好的结果。何恺明在 使用神经网络训练一个有一层隐变量的图模型, 2009年就以一个简单有效的去雾算法得到了CV- 由于使用了变分推断,并且和Auto-Encoder有点 PR Best Paper,在计算机视觉领域声名鹊起。后 像,被称为Variational Auto-Encoder。此模型中可 来更是提出了ResNet和Faster R-CNN两大创新, 以通过隐变量的分布采样,经过后面的De 直接颠覆了整个计算机视觉/机器学习领域。 coder网络直接生成样本。生成对抗模型 另一方面,CNN结构变得越来越复杂,很多 GAN(generative adversarial network)是20l4年提出 结构都很难通过直觉来解释和设计。2017年, 的非常受关注的模型,它是一个通过判别器和生 Hinton认为反向传播和传统神经网络还存在一定 成器进行对抗训练的生成模型,这个思路很有特 缺陷,因此提出Capsule Net,该模型增强了可解释 色,模型直接使用神经网络G隐式建模样本整体 性,但目前在CIFAR等数据集上效果一般,这个 的概率分布,每次运行相当于从分布中采样。随 思路还需要继续验证和发展。谷歌提出了自动架 之而来引发了大量的研究,包括:DCGAN 构学习方法NasNet(neural architecture search net-. 是一个相当好的卷积神经网络实现,WGAN是通 work)来自动用Reinforcement Learning去搜索一 过维尔斯特拉斯距离替换原来的J$散度来度量 个最优的神经网络结构。Nas是目前CV界一个 分布之间的相似性的工作,使得训练稳定。PG 主流的方向,可以自动寻找出最好的结构,以及 GAN逐层增大网络,生成逼真的人脸。 给定参数数量/运算量下最好的结构(这样就可以 第3条发展脉络(橙黄色区域)是序列模型。 应用于手机),这是目前图像识别的一个重要发展 序列模型不是因为深度学习才有的,而是很早以 方向。2019年4月何恺明发表了一篇论文,表示 前就有相关研究,例如有向图模型中的隐马尔可 即使Random生成的网络连接结构(只要按某些 夫HMM以及无向图模型中的条件随机场模型 比较好的Random方法),都会取得非常好的效 CRF都是非常成功的序列模型。即使在神经网络 果,甚至比标准的好很多。Random和Nas哪个是 模型中,1982年就提出了Hopfield Network,即在孙剑等,尝试把 Identity 加入到卷积神经网络中并 提出 ResNet。最简单的 Identity 却出人意料的有 效,直接使 CNN 能够深化到 152 层、1202 层等, error rate 也降到了 3.6%。后来,ResNeXt、Resid￾ual-Attention、DenseNet、SENet 等也各有贡献,各 自引入了 Group convolutio、Attention、Dense con￾nection、Channelwise-attention 等,最终 ImageN￾et 将 error rate 降到了 2.2%,远远低于人类的错误 率。现在,即使手机上的神经网络,也能达到超 过人类的水平。而另一个突破−在图像检测 中,任少卿、何恺明、孙剑等优化了原先的 R￾CNN、fast R-CNN 等通过其他方法提出 region pro￾posal,然后用 CNN 去判断是否是 object 的方法, 提出了 faster R-CNN。Faster R-CNN 的主要贡献 是使用和图像识别相同的 CNN feature,发现 fea￾ture 不仅可以识别图片内容,还可以用来识别图 片的位置。也就是说,CNN 的 feature 非常有用, 包含了大量的信息,可以同时用来做不同的任 务。这个创新立刻把图像检测的 MAP 也翻倍 了。在短短 的 4 年中, ImageNe t 图像检测 的 MAP(越大越好) 从最初的 0.22 达到了 0.73。何恺 明后来还提出了 Mask R-CNN,即给 faster R￾CNN 又加了一个 Mask Head,发现即使只在训练 中使用 Mask Head,其信息可以传递回原先的 CNN feature 中,获得了更精细的信息。由此, Mask R-CNN 得到了更好的结果。何恺明在 2009 年就以一个简单有效的去雾算法得到了 CV￾PR Best Paper,在计算机视觉领域声名鹊起。后 来更是提出了 ResNet 和 Faster R-CNN 两大创新, 直接颠覆了整个计算机视觉/机器学习领域。 另一方面,CNN 结构变得越来越复杂,很多 结构都很难通过直觉来解释和设计。2017 年 , Hinton 认为反向传播和传统神经网络还存在一定 缺陷,因此提出 Capsule Net,该模型增强了可解释 性,但目前在 CIFAR 等数据集上效果一般,这个 思路还需要继续验证和发展。谷歌提出了自动架 构学习方法 NasNet(neural architecture search net￾work) 来自动用 Reinforcement Learning 去搜索一 个最优的神经网络结构。Nas 是目前 CV 界一个 主流的方向,可以自动寻找出最好的结构,以及 给定参数数量/运算量下最好的结构 (这样就可以 应用于手机),这是目前图像识别的一个重要发展 方向。2019 年 4 月何恺明发表了一篇论文,表示 即使 Random 生成的网络连接结构 (只要按某些 比较好的 Random 方法),都会取得非常好的效 果,甚至比标准的好很多。Random 和 Nas 哪个是 真的正确的道路,这有待进一步的研究。最近, 恺明等提出了动量对比度 (MoCo) 用于无监督的 视觉表示学习。 MoCo 可以胜过 在 PASCAL VOC、COCO 和其他数据集上进行监督的预训练 对等任务中的检测/细分任务,有时会大大超过 它。这表明在许多视觉任务中,无监督和有监督 的表征学习之间的鸿沟已被大大消除。 第 2 条发展脉络 (浅绿色区域) 以生成模型为 主。传统的生成模型是要预测联合概率分布 P(x, y)。机器学习方法中生成模型一直占据着非常重 要的地位,但基于神经网络的生成模型一直没有 引起广泛关注。Hinton 在 2006 年的时候基于受 限玻尔兹曼机 (RBM,一个 20 世纪 80 年代左右提 出的基于无向图模型的能量物理模型) 设计了一 个机器学习的生成模型,并且将其堆叠成为 Deep Belief Network,使用逐层贪婪或者 wake-sleep 的 方法训练,当时模型的效果其实并没有那么好。 但值得关注的是,正是基于 RBM 模型,Hinton 等 开始设计深度框架,因此这也可以看做是深度学 习的一个开端。Auto-Encoder 也是 20 世纪 80 年 代 Hinton 提出的模型,后来随着计算能力的进步 也重新登上舞台。约书亚·本吉奥 (Yoshua Ben￾gio) 等又提出了 Denoise Auto-Encoder,主要针对 数据中可能存在的噪音问题。麦克斯·威林 (Max Welling,也是变分和概率图模型的高手) 等后来 使用神经网络训练一个有一层隐变量的图模型, 由于使用了变分推断,并且和 Auto-Encoder 有点 像,被称为 Variational Auto-Encoder。此模型中可 以通过隐变量的分布采样,经过后面 的 D e - code r 网络直接生成样本。生成对抗模 型 GAN(generative adversarial network) 是 2014 年提出 的非常受关注的模型,它是一个通过判别器和生 成器进行对抗训练的生成模型,这个思路很有特 色,模型直接使用神经网络 G 隐式建模样本整体 的概率分布,每次运行相当于从分布中采样。随 之而来引发了大量的研究,包括: DCGAN 是一个相当好的卷积神经网络实现,WGAN 是通 过维尔斯特拉斯距离替换原来的 JS 散度来度量 分布之间的相似性的工作,使得训练稳定。PG￾GAN 逐层增大网络,生成逼真的人脸。 第 3 条发展脉络 (橙黄色区域) 是序列模型。 序列模型不是因为深度学习才有的,而是很早以 前就有相关研究,例如有向图模型中的隐马尔可 夫 HMM 以及无向图模型中的条件随机场模型 CRF 都是非常成功的序列模型。即使在神经网络 模型中,1982 年就提出了 Hopfield Network,即在 ·190· 智 能 系 统 学 报 第 15 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有