第15卷第1期 智能系统学报 Vol.15 No.I 2020年1月 CAAI Transactions on Intelligent Systems Jan.2020 浅谈人工智能的下一个十年 On the next decade of artificial intelligence 唐杰 (清华大学计算机系) 近年来,人工智能掀起了第三次浪潮,各个国 略的层面;2018年,白宫举办人工智能峰会,邀请 家纷纷制定了人工智能的发展战略。在我国,人 业界、学术界和政府代表参与,并成立了人工智 工智能已上升为国家战略,2016年国务院发布 能特别委员会。日本、德国等多个国家也发布了 《“十三五”国家科技创新规划》,明确将人工智 相关的战略、计划,大力推进人工智能的发展。 能作为发展新一代信息技术的主要方向;2017年 在这个时代背景下,本文浅谈人工智能历史 7月,国务院颁布《新一代人工智能发展规划》; 并展望未来十年。首先,让我们从人工智能的发 2017年10月,人工智能被写人“十九大报告”; 展历史中寻找灵感。 2020年,人工智能又作为“新基建”七大领域之一 被列为重点发展领域。 1AI的发展历史 美国于2016年先后发布了《为人工智能的 未来做好准备》和《国家人工智能研究与发展战 下图给人工智能的历史和发展做了一个简单 略规划》两份报告,将人工智能提升到了国家战 的梳理。 人工智能发展简史(源图:https://www.aminer.cn/ai-history) 人工智能的起源可以追溯到阿兰·图灵(Alan 问题中的应用》,后来随着克劳德·香农(Claude Turing)l936年发表的《论可计算数及其在判定 Shannon)在1950年提出计算机博弈,以及阿
浅谈人工智能的下一个十年 On the next decade of artificial intelligence 唐杰 (清华大学 计算机系) 近年来,人工智能掀起了第三次浪潮,各个国 家纷纷制定了人工智能的发展战略。在我国,人 工智能已上升为国家战略,2016 年国务院发布 《“十三五”国家科技创新规划》,明确将人工智 能作为发展新一代信息技术的主要方向;2017 年 7 月,国务院颁布《新一代人工智能发展规划》; 2017 年 10 月,人工智能被写入“十九大报告”; 2020 年,人工智能又作为“新基建”七大领域之一 被列为重点发展领域。 美国于 2016 年先后发布了《为人工智能的 未来做好准备》和《国家人工智能研究与发展战 略规划》两份报告,将人工智能提升到了国家战 略的层面;2018 年,白宫举办人工智能峰会,邀请 业界、学术界和政府代表参与,并成立了人工智 能特别委员会。日本、德国等多个国家也发布了 相关的战略、计划,大力推进人工智能的发展。 在这个时代背景下,本文浅谈人工智能历史 并展望未来十年。首先,让我们从人工智能的发 展历史中寻找灵感。 1 AI 的发展历史 下图给人工智能的历史和发展做了一个简单 的梳理。 人工智能发展简史 (源图:https://www.aminer.cn/ai-history) 人工智能的起源可以追溯到阿兰·图灵 (Alan Turing)1936 年发表的《论可计算数及其在判定 问题中的应用》,后来随着克劳德·香农 (Claude Shannon) 在 1950 年提出计算机博弈,以及阿 第 15 卷第 1 期 智 能 系 统 学 报 Vol.15 No.1 2020 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2020
·188· 智能系统学报 第15卷 兰·图灵在1954年提出“图灵测试”,让机器产生 感知机,解决了Perceptron存在的不能做非线性 智能这一想法开始进入人们的视野。1956年达 分类的问题;朱迪亚·珀尔boer(Judea Pearl)倡导 特茅斯学院召开了一个研讨会,约翰·麦卡锡 的概率方法和贝叶斯网络为后来的因果推断奠 (John McCarthy)、马文·明斯基(Marvin Minsky)、纳 定了基础;以及机器学习方法在机器视觉等方向 撒尼尔·罗切斯特(Nathaniel Rochester)以及克劳 取得快速发展。 德.香农(Claude Shannon)等正式提出“人工智能” 20世纪90年代,AI出现了两个很重要的发 这一概念。算法方面,1957年,弗兰克·罗森布拉 展:一方面是蒂姆·伯纳斯李(Tim Berners- 特(Frank Rosenblatt)提出感知机算法Perceptron, Lee)在1998年提出的语义网,即以语义为基础 这不仅开启了机器学习的浪潮,也成为后来神经 的知识网或知识表示。后来又出现了OWL语 网络的基础,如果追溯的话,神经网络研究可以 言和其他一些相关知识描述语言,这为知识库 追溯到1943年神经生理学家麦卡洛克(W.S.Mc 的两个核心—问题知识表达和开放知识实体给 Culloch)和皮茨(W.Pitts)的神经元模型。 出了一个可能的解决方案(尽管这一思路在后来 到了20世纪60年代,人工智能出现了第一 一直没有得到广泛认可,直到2012年谷歌提出 次高潮,发展出了符号逻辑,解决了若干通用问 知识图谱的概念,才让这一方向有了明确的发 题,自然语言处理和人机对话技术开始萌芽。 展思路)。另一个重要的发展是统计机器学习理 其中的代表性事件是丹尼尔·博布罗(Daniel 论,包括瓦普尼克·弗拉基米尔(Vapnik Vladimir) Bobrow)在I964年发表了Natural Language Input 等提出的支持向量机、约翰·拉弗蒂(John Laf for a Computer Problem Solving System,以及约瑟 ferty)等的条件随机场以及大卫·布雷(David 夫,维森鲍姆(Joseph Weizenbaum)在1966年发表 Blei)和迈克尔~乔丹(Michael Jordan)等的话题模 了ELIZA一A Computer Program for the Study 型LDA。总的来讲,这一时期的主旋律是AI平 of Natural Language Communication between Man 稳发展,人工智能相关的各个领域都取得了长 and Machine。早期的人工智能更多地侧重描述 足进步。 逻辑和通用问题求解,到了60年代末,爱德 第三次人工智能浪潮兴起的标志可能要数 华·费根鲍姆(Edward Feigenbaum)提出首个专家 2006年,Hinton等提出的深度学习,或者说Hin 系统DENDRAL,并对知识库给出了初步的定 ton等吹响了这次浪潮的号角。与之前最大的不 义,这也孕育了后来的第二次人工智能浪潮。 同在于这次引领浪潮冲锋的是企业:塞巴斯蒂 这个时期人们对人工智能的热情逐渐褪去,人 工智能的发展也进入了一轮跨度将近10年的 安·特龙(Sebastian Thrun)在谷歌领导了自动驾驶 “寒冬”①。 汽车项目;IBM的沃森(Watson)于2011年在《危 20世纪70年代末、80年代初,人工智能进 险边缘》(Jeopardy)中战胜人类、获得冠军;苹果 入了第二次浪潮,其中代表性的工作是1976年 在2011年推出了自然语言问答工具Siri等; 兰德尔戴维斯(Randall Davis)构建和维护的大规 2016年谷歌旗下DeepMind公司推出的阿尔法围 模的知识库,1980年德鲁·麦狄蒙(Drew McDer- 棋(AlphaGo)战胜围棋世界冠军李世石等。可以 mott)和乔恩·多伊尔(Jon Doyle)提出的非单调逻 说这次人工智能浪潮的影响是前所未有的,其中 辑,以及后期出现的机器人系统。1980年,汉 具体的进步与发展将在下文展开介绍。 斯·贝利纳(Hans Berliner)打造的计算机战胜双陆 2AI近十年的发展 棋世界冠军成为标志性事件。随后,基于行为的 机器人学在罗德尼·布鲁克斯(Rodney Brooks))和 深入分析AI近十年的发展,会逐渐看到一个 萨顿(R.Sutton)等的推动下快速发展,成为人工 重要的现象:人工智能在感知方面取得了重要进 智能一个重要的发展分支。其中格瑞·特索罗 展。在语音处理、文本处理、视频处理等多个方 (Gerry Tesauro)等打造的自我学习双陆棋程序又 面,人工智能处理的效率和效果都已经超越了人 为后来的增强学习的发展奠定了基础。机器学 类。可以说人工智能在感知方面已经逐渐接近人 习算法方面,这个时期可谓是百花齐放、百家争 类的水平。人工智能也从感知开始逐渐走向认 鸣。杰弗里·辛顿(Geoffrey Hinton)等提出的多层 知,如下图所示: ①很难说什么是真正的寒冬,不过在这个时期大家对人工智能的期望降低了
兰·图灵在 1954 年提出“图灵测试”,让机器产生 智能这一想法开始进入人们的视野。1956 年达 特茅斯学院召开了一个研讨会,约翰·麦卡锡 (John McCarthy)、马文·明斯基 (Marvin Minsky)、纳 撒尼尔·罗切斯特 (Nathaniel Rochester) 以及克劳 德·香农 (Claude Shannon) 等正式提出“人工智能” 这一概念。算法方面,1957 年,弗兰克·罗森布拉 特 (Frank Rosenblatt ) 提出感知机算法 Perceptron, 这不仅开启了机器学习的浪潮,也成为后来神经 网络的基础,如果追溯的话,神经网络研究可以 追溯到 1943 年神经生理学家麦卡洛克 (W. S. McCulloch) 和皮茨 (W. Pitts) 的神经元模型。 到了 20 世纪 60 年代,人工智能出现了第一 次高潮,发展出了符号逻辑,解决了若干通用问 题,自然语言处理和人机对话技术开始萌芽。 其中的代表性事件是丹尼尔 ·博 布 罗 (Daniel Bobrow) 在 1964 年发表了 Natural Language Input for a Computer Problem Solving System,以及约瑟 夫·维森鲍姆 (Joseph Weizenbaum) 在 1966 年发表 了 ELIZA—A Computer Program for the Study of Natural Language Communication between Man and Machine。早期的人工智能更多地侧重描述 逻辑和通用问题求解,到 了 60 年代末,爱德 华·费根鲍姆 (Edward Feigenbaum) 提出首个专家 系统 DENDRAL,并对知识库给出了初步的定 义,这也孕育了后来的第二次人工智能浪潮。 这个时期人们对人工智能的热情逐渐褪去,人 工智能的发展也进入了一轮跨度将近 10 年的 “寒冬” ①。 20 世纪 70 年代末、80 年代初,人工智能进 入了第二次浪潮,其中代表性的工作是 1976 年 兰德尔·戴维斯 (Randall Davis) 构建和维护的大规 模的知识库,1980 年德鲁·麦狄蒙 (Drew McDermott) 和乔恩·多伊尔 (Jon Doyle) 提出的非单调逻 辑,以及后期出现的机器人系统。1980 年,汉 斯·贝利纳 (Hans Berliner) 打造的计算机战胜双陆 棋世界冠军成为标志性事件。随后,基于行为的 机器人学在罗德尼·布鲁克斯 (Rodney Brooks) 和 萨顿 (R. Sutton) 等的推动下快速发展,成为人工 智能一个重要的发展分支。其中格瑞·特索罗 (Gerry Tesauro) 等打造的自我学习双陆棋程序又 为后来的增强学习的发展奠定了基础。机器学 习算法方面,这个时期可谓是百花齐放、百家争 鸣。杰弗里·辛顿 (Geoffrey Hinton) 等提出的多层 感知机,解决了 Perceptron 存在的不能做非线性 分类的问题;朱迪亚·珀尔 boer(Judea Pearl) 倡导 的概率方法和贝叶斯网络为后来的因果推断奠 定了基础;以及机器学习方法在机器视觉等方向 取得快速发展。 20 世纪 90 年代,AI 出现了两个很重要的发 展:一方面是蒂姆 ·伯纳斯 ·李 (Tim BernersLee) 在 1998 年提出的语义网,即以语义为基础 的知识网或知识表示。后来又出现了 OWL 语 言和其他一些相关知识描述语言,这为知识库 的两个核心−问题知识表达和开放知识实体给 出了一个可能的解决方案 (尽管这一思路在后来 一直没有得到广泛认可,直到 2012 年谷歌提出 知识图谱的概念,才让这一方向有了明确的发 展思路)。另一个重要的发展是统计机器学习理 论,包括瓦普尼克·弗拉基米尔 (Vapnik Vladimir) 等提出的支持向量机、约翰·拉弗蒂 (John Lafferty) 等的条件随机场以及大卫·布雷 (David Blei) 和迈克尔·乔丹 (Michael Jordan) 等的话题模 型 LDA。总的来讲,这一时期的主旋律是 AI 平 稳发展,人工智能相关的各个领域都取得了长 足进步。 第三次人工智能浪潮兴起的标志可能要数 2006 年,Hinton 等提出的深度学习,或者说 Hinton 等吹响了这次浪潮的号角。与之前最大的不 同在于这次引领浪潮冲锋的是企业:塞巴斯蒂 安·特龙 (Sebastian Thrun) 在谷歌领导了自动驾驶 汽车项目;IBM 的沃森 (Watson) 于 2011 年在《危 险边缘》(Jeopardy) 中战胜人类、获得冠军;苹果 在 2011 年推出了自然语言问答工 具 Siri 等 ; 2016 年谷歌旗下 DeepMind 公司推出的阿尔法围 棋 (AlphaGo) 战胜围棋世界冠军李世石等。可以 说这次人工智能浪潮的影响是前所未有的,其中 具体的进步与发展将在下文展开介绍。 2 AI 近十年的发展 深入分析 AI 近十年的发展,会逐渐看到一个 重要的现象:人工智能在感知方面取得了重要进 展。在语音处理、文本处理、视频处理等多个方 面,人工智能处理的效率和效果都已经超越了人 类。可以说人工智能在感知方面已经逐渐接近人 类的水平。人工智能也从感知开始逐渐走向认 知,如下图所示: ·188· 智 能 系 统 学 报 第 15 卷 ① 很难说什么是真正的寒冬,不过在这个时期大家对人工智能的期望降低了
第1期 唐杰:浅谈人工智能的下一个十年 ·189· AI趋势:从感知到认知 首先来看看AI在感知方面做了哪些事情。 From perceptron to cognition 在感知方面,AlphaGo、无人驾驶、文本和图片之 Recognize Organize and Storage generate 间的跨媒体计算等取得了快速发展。总体来看, text,images, Computing objects,voices knowledge. reasoning 算法是感知时代最重要、最具统治力的内容。深 度学习是近10年机器学习领域发展最快的一个 Computing Perception Cognition 分支,由于其重要性,3位教授(Geoffrey Hinton、 Yann Lecun、Yoshua Bengio)因此同获图灵奖。如 果把最近十年的深度学习相关的重要算法进行梳 理归类,可以得到下图所示的发展脉络。 2S7 Auaaae22 GANC014 B年AN (2013 eg (2014 Zem (7) 总体来说,主要有4条发展脉络。 深度学习的热潮。AlexNet在传统CNN的基础上 第1条发展脉络(浅紫色区域)以计算机视觉 加上了ReLU、Dropout等技巧,并且网络规模更 和卷积网络为主。这个脉络的进展可以追溯到 大。这些技巧后来被证明非常有用,成为卷积神 在1979年福岛邦彦(Kunihiko Fukushima)提出的 经网络的标配,被广泛发展。顺着AlexNet的思 Neocognitron.。该研究给出了卷积和池化的思 想,LeCun组在2013年提出了一个DropConnect, 想。1986年杰弗里·辛顿提出了反向传播训练 把error rate降低到了ll%。而新加坡国立大学 MLP(之前也有几个类似的研究),该研究解决了 NUS)的颜水成组则提出了一个重要的Network 感知机不能处理非线性学习的问题。1998年,以 in Network(NIN)方法,NIN的思想是在原来的 扬勒丘恩(Yann LeCun)为首的研究人员实现了 CNN结构中加入了一个1×1conv层,NN的应用 一个7层的卷积神经网络LeNet-5以识别手写数 2014年也实现了Imagine另一个突破一图像检 字。现在普遍把Yann LeCun的这个研究作为卷 测的冠军。Network in Network更加引发了人们 积网络的源头,但其实在当时由于SVM的迅速 对CNN结构改变的大胆创新。因此,两个新的架 崛起,这些神经网络的方法还没有引起广泛关 构Inception和VGG在2014年把网络加深到了 注。真正使得卷积神经网络荣耀登场的事件是, 20层左右,图像识别的error rate(越小越好)也大 20l2年Hinton组的AlexNet(一个设计精巧的 幅降低到6.7%,接近人类错误率的5.1%。2015 CNN)在ImageNet上以巨大优势夺冠,这引发了 年,微软亚洲研究院MSRA)的任少脚、何恺明
AI 趋势:从感知到认知 · From perceptron to cognition Storage & Computing Recognize text, images, objects, voices Organize and generate knowledge, reasoning Computing Perception Cognition 首先来看看 AI 在感知方面做了哪些事情。 在感知方面,AlphaGo、无人驾驶、文本和图片之 间的跨媒体计算等取得了快速发展。总体来看, 算法是感知时代最重要、最具统治力的内容。深 度学习是近 10 年机器学习领域发展最快的一个 分支,由于其重要性,3 位教授 (Geoffrey Hinton、 Yann Lecun、Yoshua Bengio) 因此同获图灵奖。如 果把最近十年的深度学习相关的重要算法进行梳 理归类,可以得到下图所示的发展脉络。 Perceptron (1958) Hopfield Network (1982) [recurrent & feedback] RNN/LSTM (1997) RNN in speech recognition (2013) RBM (1986/2006) Stack Deep Belief Nets (2006) BPNN/MLP (1986) Yann Lecun New York university deep learning Geoffery Hinton university of toronto deep learning Frank Rosenblatt cornell university psychologist Neocognitron (1980) [convolution & pooling] LeNet/CNN (1998) Capsule Nets (2017) Stacked capsule autoencoders (2019) Kaiming He (何恺明) MSRA≥FAIR Computer vision AlexNets (2012) Relu, dropout & bigger AutoEncoder (1989/2006) Denosing autoencoder (2008) Variational inference GAN (2014) DCGAN (2014) WGAN (2017) BigGAN (2018) IRGAN (2017) SeqGAN (2017) StyleGAN (2018) SinGAN (2019) ELECTRA (2018) BERT (2018) VAE (2013) Beta-VAE (2018) VQ-VAE-2 (2019) Max Welling University of amsterdam statistical learning Ian Goodfellow Google brain deep adversarial learning Christopher Manning stanford university natural languge processing XLNet (2019) Roberta (2019) Albert (2019) T5 (2019) Seq2Seq (2014) Character CNN (2015) Transformer (2017) Word2Vec (2013) Neural probabilistic language model (2003) Jurgen Schmidhuber IDSIA universal AI Yoshua Bengio university of montreal deep learning David Silver deepMind reinforcement learning MoCo (2019) ResNet (2016) VGG (2014) GoogLeNet (2015) DenseNet (2017) SENet (2018) EfficientNet (2019) RegNet (2020) NAS (2018) Constrastive learning Deep Q-learning (2013) DDPG (2015) A3C (2016) AlphaGo (2016) TD3 (2018) PPO (2018) Double DQN (2015) Dueling Net (2016) MCTS Alpha Zero (2017) SAC (2019) Sergey Levine UC berkeley Robotics 总体来说,主要有 4 条发展脉络。 第 1 条发展脉络 (浅紫色区域) 以计算机视觉 和卷积网络为主。这个脉络的进展可以追溯到 在 1979 年福岛邦彦 (Kunihiko Fukushima) 提出的 Neocognitron。该研究给出了卷积和池化的思 想。1986 年杰弗里·辛顿提出了反向传播训练 MLP(之前也有几个类似的研究),该研究解决了 感知机不能处理非线性学习的问题。1998 年,以 扬·勒丘恩 (Yann LeCun) 为首的研究人员实现了 一个 7 层的卷积神经网络 LeNet-5 以识别手写数 字。现在普遍把 Yann LeCun 的这个研究作为卷 积网络的源头,但其实在当时由于 SVM 的迅速 崛起,这些神经网络的方法还没有引起广泛关 注。真正使得卷积神经网络荣耀登场的事件是, 2012 年 Hinton 组的 AlexNet(一个设计精巧的 CNN) 在 ImageNet 上以巨大优势夺冠,这引发了 深度学习的热潮。AlexNet 在传统 CNN 的基础上 加上了 ReLU、Dropout 等技巧,并且网络规模更 大。这些技巧后来被证明非常有用,成为卷积神 经网络的标配,被广泛发展。顺着 AlexNet 的思 想,LeCun 组在 2013 年提出了一个 DropConnect, 把 error rate 降低到了 11%。而新加坡国立大学 (NUS) 的颜水成组则提出了一个重要的 Network in Network(NIN) 方法,NIN 的思想是在原来的 CNN 结构中加入了一个 1×1 conv 层,NIN 的应用 2014 年也实现了 Imagine 另一个突破−图像检 测的冠军。Network in Network 更加引发了人们 对 CNN 结构改变的大胆创新。因此,两个新的架 构 Inception 和 VGG 在 2014 年把网络加深到了 20 层左右,图像识别的 error rate(越小越好) 也大 幅降低到 6.7%,接近人类错误率的 5.1%。2015 年,微软亚洲研究院 (MSRA) 的任少卿、何恺明、 第 1 期 唐杰:浅谈人工智能的下一个十年 ·189·
·190· 智能系统学报 第15卷 孙剑等,尝试把Identity加入到卷积神经网络中并 真的正确的道路,这有待进一步的研究。最近, 提出ResNet。.最简单的Identity却出人意料的有 恺明等提出了动量对比度(MoCo)用于无监督的 效,直接使CNN能够深化到152层、1202层等, 视觉表示学习。MoCo可以胜过在PASCAL error rate也降到了3.6%。后来,ResNeXt、Resid- VOC、COCO和其他数据集上进行监督的预训练 ual-Attention、DenseNet、.SENet等也各有贡献,各 对等任务中的检测/细分任务,有时会大大超过 自引入了Group convolutio、Attention、Dense con- 它。这表明在许多视觉任务中,无监督和有监督 nection、Channelwise-.attention等,最终ImageN- 的表征学习之间的鸿沟已被大大消除。 et将error rate降到了2.2%,远远低于人类的错误 第2条发展脉络(浅绿色区域)以生成模型为 率。现在,即使手机上的神经网络,也能达到超 主。传统的生成模型是要预测联合概率分布P(x, 过人类的水平。而另一个突破一在图像检测 y)。机器学习方法中生成模型一直占据着非常重 中,任少卿、何恺明、孙剑等优化了原先的R- 要的地位,但基于神经网络的生成模型一直没有 CNN、fast R-CNN等通过其他方法提出region pro- 引起广泛关注。Hinton在2006年的时候基于受 posal,.然后用CNN去判断是否是object的方法, 限玻尔兹曼机(RBM,一个20世纪80年代左右提 提出了faster R-CNN。Faster R-CNN的主要贡献 出的基于无向图模型的能量物理模型)设计了一 是使用和图像识别相同的CNN feature,发现fea- 个机器学习的生成模型,并且将其堆叠成为Deep ture不仅可以识别图片内容,还可以用来识别图 Belief Network,使用逐层贪婪或者wake-sleep的 片的位置。也就是说,CNN的feature非常有用, 方法训练,当时模型的效果其实并没有那么好。 包含了大量的信息,可以同时用来做不同的任 但值得关注的是,正是基于RBM模型,Hinton等 务。这个创新立刻把图像检测的MAP也翻倍 开始设计深度框架,因此这也可以看做是深度学 了。在短短的4年中,ImageNet图像检测的 习的一个开端。Auto-Encoder也是20世纪80年 MAP(越大越好)从最初的0.22达到了0.73。何恺 代Hinton提出的模型,后来随着计算能力的进步 明后来还提出了Mask R-CNN,即给faster R- 也重新登上舞台。约书亚·本吉奥(Yoshua Ben- CNN又加了一个Mask Head,发现即使只在训练 gio)等又提出了Denoise Auto-.Encoder,主要针对 中使用Mask Head,其信息可以传递回原先的 数据中可能存在的噪音问题。麦克斯·威林(Max CNN feature中,获得了更精细的信息。由此, Welling,也是变分和概率图模型的高手)等后来 Mask R-CNN得到了更好的结果。何恺明在 使用神经网络训练一个有一层隐变量的图模型, 2009年就以一个简单有效的去雾算法得到了CV- 由于使用了变分推断,并且和Auto-Encoder有点 PR Best Paper,在计算机视觉领域声名鹊起。后 像,被称为Variational Auto-Encoder。此模型中可 来更是提出了ResNet和Faster R-CNN两大创新, 以通过隐变量的分布采样,经过后面的De 直接颠覆了整个计算机视觉/机器学习领域。 coder网络直接生成样本。生成对抗模型 另一方面,CNN结构变得越来越复杂,很多 GAN(generative adversarial network)是20l4年提出 结构都很难通过直觉来解释和设计。2017年, 的非常受关注的模型,它是一个通过判别器和生 Hinton认为反向传播和传统神经网络还存在一定 成器进行对抗训练的生成模型,这个思路很有特 缺陷,因此提出Capsule Net,该模型增强了可解释 色,模型直接使用神经网络G隐式建模样本整体 性,但目前在CIFAR等数据集上效果一般,这个 的概率分布,每次运行相当于从分布中采样。随 思路还需要继续验证和发展。谷歌提出了自动架 之而来引发了大量的研究,包括:DCGAN 构学习方法NasNet(neural architecture search net-. 是一个相当好的卷积神经网络实现,WGAN是通 work)来自动用Reinforcement Learning去搜索一 过维尔斯特拉斯距离替换原来的J$散度来度量 个最优的神经网络结构。Nas是目前CV界一个 分布之间的相似性的工作,使得训练稳定。PG 主流的方向,可以自动寻找出最好的结构,以及 GAN逐层增大网络,生成逼真的人脸。 给定参数数量/运算量下最好的结构(这样就可以 第3条发展脉络(橙黄色区域)是序列模型。 应用于手机),这是目前图像识别的一个重要发展 序列模型不是因为深度学习才有的,而是很早以 方向。2019年4月何恺明发表了一篇论文,表示 前就有相关研究,例如有向图模型中的隐马尔可 即使Random生成的网络连接结构(只要按某些 夫HMM以及无向图模型中的条件随机场模型 比较好的Random方法),都会取得非常好的效 CRF都是非常成功的序列模型。即使在神经网络 果,甚至比标准的好很多。Random和Nas哪个是 模型中,1982年就提出了Hopfield Network,即在
孙剑等,尝试把 Identity 加入到卷积神经网络中并 提出 ResNet。最简单的 Identity 却出人意料的有 效,直接使 CNN 能够深化到 152 层、1202 层等, error rate 也降到了 3.6%。后来,ResNeXt、Residual-Attention、DenseNet、SENet 等也各有贡献,各 自引入了 Group convolutio、Attention、Dense connection、Channelwise-attention 等,最终 ImageNet 将 error rate 降到了 2.2%,远远低于人类的错误 率。现在,即使手机上的神经网络,也能达到超 过人类的水平。而另一个突破−在图像检测 中,任少卿、何恺明、孙剑等优化了原先的 RCNN、fast R-CNN 等通过其他方法提出 region proposal,然后用 CNN 去判断是否是 object 的方法, 提出了 faster R-CNN。Faster R-CNN 的主要贡献 是使用和图像识别相同的 CNN feature,发现 feature 不仅可以识别图片内容,还可以用来识别图 片的位置。也就是说,CNN 的 feature 非常有用, 包含了大量的信息,可以同时用来做不同的任 务。这个创新立刻把图像检测的 MAP 也翻倍 了。在短短 的 4 年中, ImageNe t 图像检测 的 MAP(越大越好) 从最初的 0.22 达到了 0.73。何恺 明后来还提出了 Mask R-CNN,即给 faster RCNN 又加了一个 Mask Head,发现即使只在训练 中使用 Mask Head,其信息可以传递回原先的 CNN feature 中,获得了更精细的信息。由此, Mask R-CNN 得到了更好的结果。何恺明在 2009 年就以一个简单有效的去雾算法得到了 CVPR Best Paper,在计算机视觉领域声名鹊起。后 来更是提出了 ResNet 和 Faster R-CNN 两大创新, 直接颠覆了整个计算机视觉/机器学习领域。 另一方面,CNN 结构变得越来越复杂,很多 结构都很难通过直觉来解释和设计。2017 年 , Hinton 认为反向传播和传统神经网络还存在一定 缺陷,因此提出 Capsule Net,该模型增强了可解释 性,但目前在 CIFAR 等数据集上效果一般,这个 思路还需要继续验证和发展。谷歌提出了自动架 构学习方法 NasNet(neural architecture search network) 来自动用 Reinforcement Learning 去搜索一 个最优的神经网络结构。Nas 是目前 CV 界一个 主流的方向,可以自动寻找出最好的结构,以及 给定参数数量/运算量下最好的结构 (这样就可以 应用于手机),这是目前图像识别的一个重要发展 方向。2019 年 4 月何恺明发表了一篇论文,表示 即使 Random 生成的网络连接结构 (只要按某些 比较好的 Random 方法),都会取得非常好的效 果,甚至比标准的好很多。Random 和 Nas 哪个是 真的正确的道路,这有待进一步的研究。最近, 恺明等提出了动量对比度 (MoCo) 用于无监督的 视觉表示学习。 MoCo 可以胜过 在 PASCAL VOC、COCO 和其他数据集上进行监督的预训练 对等任务中的检测/细分任务,有时会大大超过 它。这表明在许多视觉任务中,无监督和有监督 的表征学习之间的鸿沟已被大大消除。 第 2 条发展脉络 (浅绿色区域) 以生成模型为 主。传统的生成模型是要预测联合概率分布 P(x, y)。机器学习方法中生成模型一直占据着非常重 要的地位,但基于神经网络的生成模型一直没有 引起广泛关注。Hinton 在 2006 年的时候基于受 限玻尔兹曼机 (RBM,一个 20 世纪 80 年代左右提 出的基于无向图模型的能量物理模型) 设计了一 个机器学习的生成模型,并且将其堆叠成为 Deep Belief Network,使用逐层贪婪或者 wake-sleep 的 方法训练,当时模型的效果其实并没有那么好。 但值得关注的是,正是基于 RBM 模型,Hinton 等 开始设计深度框架,因此这也可以看做是深度学 习的一个开端。Auto-Encoder 也是 20 世纪 80 年 代 Hinton 提出的模型,后来随着计算能力的进步 也重新登上舞台。约书亚·本吉奥 (Yoshua Bengio) 等又提出了 Denoise Auto-Encoder,主要针对 数据中可能存在的噪音问题。麦克斯·威林 (Max Welling,也是变分和概率图模型的高手) 等后来 使用神经网络训练一个有一层隐变量的图模型, 由于使用了变分推断,并且和 Auto-Encoder 有点 像,被称为 Variational Auto-Encoder。此模型中可 以通过隐变量的分布采样,经过后面 的 D e - code r 网络直接生成样本。生成对抗模 型 GAN(generative adversarial network) 是 2014 年提出 的非常受关注的模型,它是一个通过判别器和生 成器进行对抗训练的生成模型,这个思路很有特 色,模型直接使用神经网络 G 隐式建模样本整体 的概率分布,每次运行相当于从分布中采样。随 之而来引发了大量的研究,包括: DCGAN 是一个相当好的卷积神经网络实现,WGAN 是通 过维尔斯特拉斯距离替换原来的 JS 散度来度量 分布之间的相似性的工作,使得训练稳定。PGGAN 逐层增大网络,生成逼真的人脸。 第 3 条发展脉络 (橙黄色区域) 是序列模型。 序列模型不是因为深度学习才有的,而是很早以 前就有相关研究,例如有向图模型中的隐马尔可 夫 HMM 以及无向图模型中的条件随机场模型 CRF 都是非常成功的序列模型。即使在神经网络 模型中,1982 年就提出了 Hopfield Network,即在 ·190· 智 能 系 统 学 报 第 15 卷
第1期 唐杰:浅谈人工智能的下一个十年 ·191· 神经网络中加入了递归网络的思想。1997 个打砖块的任务。后来又被应用在许多游戏场景 年于尔根·施密德胡伯(Jurgen Schmidhuber)发明 中,其成果发表在Nature上。Double Dueling对这 了长短期记忆模型LSTM(long-short term 个思路进行了一些扩展,主要是Q-Learning的权 memory),这是一个里程碑式的工作。当然,真正 重更新时序上。DeepMind的其他工作如DDPG、 让序列神经网络模型得到广泛关注的还是 A3C也非常有名,它们是基于Policy Gradient和神 2013年Hinton组使用RNN做语音识别的工作, 经网络结合的变种。大家都熟知的AlphaGo,里 识别效果比传统方法显著提高。在文本分析方 面其实既用了RL的方法也有传统的蒙特卡洛搜 面,另一个图灵奖获得者Yoshua Bengio在 索技巧。Deep Mind后来提出了一个用Al- SVM很受关注的时期提出了一种基于神经网络 phaGo框架、但通过主学习来玩不同(棋类)游戏 的语言模型(当然当时机器学习还是SVM和 的新算法Alpha Zero。 CRF的天下),后来Google提出的word2vec 总体来看,在这个深度学习算法引领的人工 (2013)也有一些反向传播的思想,最重要的是给 智能浪潮中,以神经网络为核心的机器学习算法 出了一个非常高效的实现,从而引发了这方面研 取得了快速的进展。那么未来十年,A将何去何从? 究的热潮。后来,在机器翻译等任务上逐渐出现 了以RNN为基础的seg2seq模型,通过一个En- 3展望未来十年 coder把一句话的语义信息压缩成向量再通过De 这里,我想首先引用张钹院士提出来的第三 coder转换输出得到这句话的翻译结果,后来该方 代人工智能的理论体系。2015年,张钹院士提出 法被扩展到和注意力机制(Attention)相结合,也 第三代人工智能体系的雏形。2017年,美国国防 大大扩展了模型的表示能力和实际效果。再后 高级研究计划局(DARPA)发起XAI项目,核心思 来,大家发现使用以字符为单位的CNN模型在很 想是从可解释的机器学习系统、人机交互技术以 多语言任务也有不俗的表现,而且时空消耗更 及可解释的心理学理论3个方面,全面开展可解 少。Self-attention实际上就是采取一种结构去同 释性AI系统的研究。2018年底,张钹院士正式 时考虑同一序列局部和全局的信息,Google有一 公开提出第三代人工智能的理论框架体系,核心 篇很有名的文章“Attention is All You Need”把 思想为:1)建立可解释、鲁棒性的人工智能理论 基于Attention的序列神经模型推向高潮。当然 和方法;2)发展安全、可靠、可信及可扩展的人工 2019年ACL上同样有另一篇文章给这一研究稍 智能技术;3)推动人工智能创新应用。其中具体 微降了降温。2018年底Google提出BERT模型, 实施的路线图包括:1)与脑科学融合,发展脑启 将GPT中的单向语言模型拓展为双向语言模型 发的人工智能理论;2)数据与知识融合的人工智 (masked language model),并在预训练中引入了 能理论与方法。这标志着人工智能从感知时代逐 sentence prediction任务。BERT模型在lI个任务 渐进入认知时代。 中取得了最好的效果,是深度学习在NLP领域又 Yoshua Bengio在NeuIPS2019上的报告 一个里程碑式的工作。BERT自从在arXiv上发 "From System al Deep Learning to System 2 表以来获得了研究界和工业界的极大关注,仿佛 Deep Learning”讨论了深度学习发展的方向,进 打开了深度学习在NLP应用的潘多拉魔盒。随 一步肯定这一畅想。Bengio肯定了人工智能已 后涌现了一大批类似于“BERT”的预训练(pre- 经在“听、说、看”等感知智能领域达到甚至超越 trained)模型,有引入BERT中双向上下文信息的 人类水准,但在需要外部知识、逻辑推理以及领 广义自回归模型XLNet,也有改进BERT训练方 域迁移的认知领域还处于初级阶段。认知智能 式和目标的RoBERTa和SpanBERT,还有结合多 将从认知心理学、脑科学中汲取灵感,并结合知 任务以及知识蒸馏(knowledge distillation)强化 识图谱、因果推理等技术,建立知识表示、推理的 BERT的MT-DNN等,这些被大家称为BERTo- 有效机制,实现从感知智能到认知智能的关键突 Iogy。 破。Bengio介绍了人的认知系统包含两个子系 第4条发展脉络(粉色区域)是增强学习。这 统(这是认知理论中大家共识的观点):System 个领域最出名的当属Deep Mind.,图中标出的大 1(子系统1)是直觉系统,主要负责快速、无意识、 卫·席尔瓦(David Silver))博土是一直研究RL的高 非语言的认知,比如当人被问到一个问题的时 管。Q-learning是很有名的传统RL算法,Deep Q- 候,可能下意识地或者说习惯性地回答,这就属 learning将原来的Q值表用神经网络代替,做了 于System1的范畴。Bengio认为目前深度学习
神经网络中加入了递归网络的思想。 1997 年于尔根·施密德胡伯 (Jürgen Schmidhuber) 发明 了长短期记忆模 型 LSTM(long-short term memory),这是一个里程碑式的工作。当然,真正 让序列神经网络模型得到广泛关注的还 是 2013 年 Hinton 组使用 RNN 做语音识别的工作, 识别效果比传统方法显著提高。在文本分析方 面,另一个图灵奖获得 者 Yoshua Bengi o 在 SVM 很受关注的时期提出了一种基于神经网络 的语言模型 (当然当时机器学习还是 SVM 和 CRF 的天下),后来 Googl e 提出的 word2vec (2013) 也有一些反向传播的思想,最重要的是给 出了一个非常高效的实现,从而引发了这方面研 究的热潮。后来,在机器翻译等任务上逐渐出现 了以 RNN 为基础的 seq2seq 模型,通过一个 Encoder 把一句话的语义信息压缩成向量再通过 Decoder 转换输出得到这句话的翻译结果,后来该方 法被扩展到和注意力机制 (Attention) 相结合,也 大大扩展了模型的表示能力和实际效果。再后 来,大家发现使用以字符为单位的 CNN 模型在很 多语言任务也有不俗的表现,而且时空消耗更 少。Self-attention 实际上就是采取一种结构去同 时考虑同一序列局部和全局的信息,Google 有一 篇很有名的文章“Attention is All You Need”把 基于 Attention 的序列神经模型推向高潮。当然 2019 年 ACL 上同样有另一篇文章给这一研究稍 微降了降温。2018 年底 Google 提出 BERT 模型, 将 GPT 中的单向语言模型拓展为双向语言模型 (masked language model),并在预训练中引入了 sentence prediction 任务。BERT 模型在 11 个任务 中取得了最好的效果,是深度学习在 NLP 领域又 一个里程碑式的工作。BERT 自从在 arXiv 上发 表以来获得了研究界和工业界的极大关注,仿佛 打开了深度学习在 NLP 应用的潘多拉魔盒。随 后涌现了一大批类似于“BERT”的预训练 (pretrained) 模型,有引入 BERT 中双向上下文信息的 广义自回归模型 XLNet,也有改进 BERT 训练方 式和目标的 RoBERTa 和 SpanBERT,还有结合多 任务以及知识蒸馏 (knowledge distillation) 强化 BERT 的 MT-DNN 等,这些被大家称为 BERTology。 第 4 条发展脉络 (粉色区域) 是增强学习。这 个领域最出名的当属 Deep Mind,图中标出的大 卫·席尔瓦 (David Silver) 博士是一直研究 RL 的高 管。Q-learning 是很有名的传统 RL 算法,Deep Qlearning 将原来的 Q 值表用神经网络代替,做了一 个打砖块的任务。后来又被应用在许多游戏场景 中,其成果发表在 Nature 上。Double Dueling 对这 个思路进行了一些扩展,主要是 Q-Learning 的权 重更新时序上。DeepMind 的其他工作如 DDPG、 A3C 也非常有名,它们是基于 Policy Gradient 和神 经网络结合的变种。大家都熟知的 AlphaGo,里 面其实既用了 RL 的方法也有传统的蒙特卡洛搜 索技巧。 Deep Min d 后来提出了一个 用 A lphaGo 框架、但通过主学习来玩不同 (棋类) 游戏 的新算法 Alpha Zero。 总体来看,在这个深度学习算法引领的人工 智能浪潮中,以神经网络为核心的机器学习算法 取得了快速的进展。那么未来十年,AI 将何去何从? 3 展望未来十年 这里,我想首先引用张钹院士提出来的第三 代人工智能的理论体系。2015 年,张钹院士提出 第三代人工智能体系的雏形。2017 年,美国国防 高级研究计划局 (DARPA) 发起 XAI 项目,核心思 想是从可解释的机器学习系统、人机交互技术以 及可解释的心理学理论 3 个方面,全面开展可解 释性 AI 系统的研究。2018 年底,张钹院士正式 公开提出第三代人工智能的理论框架体系,核心 思想为:1) 建立可解释、鲁棒性的人工智能理论 和方法;2) 发展安全、可靠、可信及可扩展的人工 智能技术;3) 推动人工智能创新应用。其中具体 实施的路线图包括:1) 与脑科学融合,发展脑启 发的人工智能理论;2) 数据与知识融合的人工智 能理论与方法。这标志着人工智能从感知时代逐 渐进入认知时代。 Yoshua Bengio 在 NeuIPS 2019 上的报告 “From System a1 Deep Learning to System 2 Deep Learning”讨论了深度学习发展的方向,进 一步肯定这一畅想。Bengio 肯定了人工智能已 经在“听、说、看”等感知智能领域达到甚至超越 人类水准,但在需要外部知识、逻辑推理以及领 域迁移的认知领域还处于初级阶段。认知智能 将从认知心理学、脑科学中汲取灵感,并结合知 识图谱、因果推理等技术,建立知识表示、推理的 有效机制,实现从感知智能到认知智能的关键突 破。Bengio 介绍了人的认知系统包含两个子系 统 (这是认知理论中大家共识的观点):System 1(子系统 1) 是直觉系统,主要负责快速、无意识、 非语言的认知,比如当人被问到一个问题的时 候,可能下意识地或者说习惯性地回答,这就属 于 System 1 的范畴。Bengio 认为目前深度学习 第 1 期 唐杰:浅谈人工智能的下一个十年 ·191·
·192· 智能系统学报 第15卷 主要就在做System1的事情;System2(子系统 部分是比较难的。 2)是逻辑分析系统,是有意识的、带逻辑、规划、 笔者有幸在同一时期和Bengio课题组并行 推理以及可以语言表达的系统。人在通过Sys- 做了类似的认知工作,我们从2018年初开始研 tem2处理问题的时候,往往要收集相关数据、进 究认知计算,我们给他取了一个名字,叫做认知 行逻辑分析和推理,最终做出决策。目前的绝大 图谱(cognitive graph),下图展示了我们提出的基 多数人工智能系统都还没能实现System2,Ben- 于双通道处理理论的认知系统框架。System g0提出这正是未来深度学习需要着重考虑的。 1我们采用了BERT来实现,通过预训练可以得 当然Bengio也提到多智能体角度来实现AL、以 到每个实体的表示,在表示的基础上可以实现知 及从计算机角度需要考虑的问题,比如更好的模 识扩展;System2则采用图神经网络,这是因为 型和知识搜索。对于如何用深度学习来实现Sys System1扩展的信息都传递给System2,使得 tem2,Bengio提到对于计算机来说,最关键就是 System2可以基于多方面的信息做决策。这个 处理数据分布中的变化。对于System2来说,基 方法在推理方面还有所欠缺,但在多跳问题回答 本的要素包括:注意力和意识。注意力(atten- 任务上取得了不错的结果,后续在推理方面可能 tion)的实现在深度学习模型中已经有大量的研 还可以做很多有意思的扩展。相关论文发表在ACL 究和探讨,比如GAT(图注意力机制)等,意识这 2019上. System 2(GNN) Cognitive graph G Before visiting x x [Prevz] D D △x D Prev System 2: x [Previl explicit decision Pass clues Results of the W X to "Next"Ans'” A5 step of visitingx Hop span Ans span To Ti T Ti. Sem [x,Q,clues] System I(GNN) System 1: Ea可E EwE画Ei☐ E implicit knowledge aS】ok Toky [SEP]Tok; expansion Question+clues .G] Paragraph☒ 这是一个总体的思路,要真正实现知识和推 作者简介: 理,其实还需要万亿级的常识知识库支持,来支 唐杰.教授,担任IEEE T.on Big 撑深度学习的计算,这样才能真正实现未来的 Data、AI OPEN主编以及WWW'21、 人工智能。这一次人工智能浪潮也许到终点还 CIKM'I6、WSDM'1.5的PC Chair.主 是没有推理能力,没有可解释能力。而下一波 要研究方向为认知图谱、数据挖掘、社 交网络和机器学习。主持研发了研究 人工智能浪潮的兴起,就是实现具有推理、具有 者社会网络挖掘系统AMiner,杰出青 可解释性、具有认知的人工智能,这是人工智能 年基金获得者,获北京市科技进步一 下一个10年要发展、也一定会发展的一个重要 等奖、人工智能学会一等奖、KDD杰出贡献奖。发表学术论 方向。 文300余篇,引用15000余次。 中文引用格式:唐杰.浅谈人工智能的下一个十年J.智能系统学报,2020,15(1):187-192 英文引用格式:TANG jie.On the next decade of artificial intelligence.CAAI transactions on intelligent systems,2020,l5(1): 187-192
主要就在做 System 1 的事情;System 2(子系统 2) 是逻辑分析系统,是有意识的、带逻辑、规划、 推理以及可以语言表达的系统。人在通过 System 2 处理问题的时候,往往要收集相关数据、进 行逻辑分析和推理,最终做出决策。目前的绝大 多数人工智能系统都还没能实现 System 2,Bengio 提出这正是未来深度学习需要着重考虑的。 当然 Bengio 也提到多智能体角度来实现 AI、以 及从计算机角度需要考虑的问题,比如更好的模 型和知识搜索。对于如何用深度学习来实现 System 2,Bengio 提到对于计算机来说,最关键就是 处理数据分布中的变化。对于 System 2 来说,基 本的要素包括:注意力和意识。注意力 (attention) 的实现在深度学习模型中已经有大量的研 究和探讨,比如 GAT(图注意力机制) 等,意识这 部分是比较难的。 笔者有幸在同一时期和 Bengio 课题组并行 做了类似的认知工作,我们从 2018 年初开始研 究认知计算,我们给他取了一个名字,叫做认知 图谱 (cognitive graph),下图展示了我们提出的基 于双通道处理理论的认知系统框架。System 1 我们采用了 BERT 来实现,通过预训练可以得 到每个实体的表示,在表示的基础上可以实现知 识扩展;System 2 则采用图神经网络,这是因为 System 1 扩展的信息都传递给 System 2,使得 System 2 可以基于多方面的信息做决策。这个 方法在推理方面还有所欠缺,但在多跳问题回答 任务上取得了不错的结果,后续在推理方面可能 还可以做很多有意思的扩展。相关论文发表在 ACL 2019 上。 System 2 (GNN) System 1 (GNN) Δ [x] x [Prev2] X [x] x [Prev1] W1 W2 Ques Prev1 Next Ans Prev2 x y Cognitive graph G Before visiting x System 2: explicit decision System 1: implicit knowledge expansion Pass clues to “Next”“Ans” Results of the step of visiting x Hop span |Name of entity “Next”| |Possible answer “Ans”| Ans span T0 T1 T[SEP] T1 Sem [x, Q, clues] E[CLS] E1 Tok1 [CLS] [SEP] Question+clues [x, G] Paragraph [x] ′ E[SEP] E1 ′ Ti ′ Tk ′ TM ′ EM ′ TokM Tok ′ 1 ′ TokN TN Tj EN ′ 这是一个总体的思路,要真正实现知识和推 理,其实还需要万亿级的常识知识库支持,来支 撑深度学习的计算,这样才能真正实现未来的 人工智能。这一次人工智能浪潮也许到终点还 是没有推理能力,没有可解释能力。而下一波 人工智能浪潮的兴起,就是实现具有推理、具有 可解释性、具有认知的人工智能,这是人工智能 下一个 10 年要发展、也一定会发展的一个重要 方向。 作者简介: 唐杰,教授,担任 IEEE T. on Big Data、AI OPEN 主编以及 WWW’21、 CIKM’16、WSDM’15 的 PC Chair,主 要研究方向为认知图谱、数据挖掘、社 交网络和机器学习。主持研发了研究 者社会网络挖掘系统 AMiner,杰出青 年基金获得者,获北京市科技进步一 等奖、人工智能学会一等奖、KDD 杰出贡献奖。发表学术论 文 300 余篇,引用 15 000 余次。 中文引用格式:唐杰. 浅谈人工智能的下一个十年 [J]. 智能系统学报, 2020, 15(1): 187–192. 英文引用格式:TANG jie. On the next decade of artificial intelligence[J]. CAAI transactions on intelligent systems, 2020, 15(1): 187–192. ·192· 智 能 系 统 学 报 第 15 卷