第17卷第1期 智能系统学报 Vol.17 No.I 2022年1月 CAAI Transactions on Intelligent Systems Jan.2022 数据驱动与知识引导相互结合的智能计算 Intelligence computing via the integration of data-driven and knowledge-guided 吴飞2 (1.浙江大学人工智能研究所,浙江杭州31027,2.浙江大学上海高等研究院,浙江杭州31027) 在“数据是燃料、人工智能是引擎”的数据驱 即搭建计算系统去模拟复杂的客观物理世界,从 动机器学习时代,人工智能正在经历“大数据、小 仿真系统中观测各种因素的此消彼长,再指导客 任务;小数据、大任务”的涅槃,如何从娴熟于“炼 观物理世界的改造。 金术”的调参师向笃定于“厚积薄发”推理机迈进, Jim Gray认为现在进人了被称为数据密集型 是面临的巨大挑战。机器学习(machine learning) 计算的第四范式阶段。在数据密集型计算时代, 这一单词首次出现时被定义为“不需要确定性编 随着物联网、5G和传感器等技术进步,可以史无 程就可以赋予机器某项技能的研究领域”,其目标 前例获得记录人类社会生产、生活和工作等方面 是构造一种学习机器(learning machine),使之像人 海量数据。从这些海量数据出发,挖掘其结构、 一样具有'learning to learn'”的能力。人类学习离 模式和规律等知识,从数据到知识、从知识到决 不开数据、知识以及与环境交互等,本文探讨数 策与服务是数据密集型计算要解决的难点问题。 据驱动与知识引导相互结合的智能计算这一问 2021年7月,李国杰院士在《中国计算机学会通 题,希望这一模式将推动更通用(more general)计 讯》上发表了“有关人工智能的若干认识问题”文 算范式跃变。 章,围绕AlphaFold这一任务所带来的启示,提出 1四种人工智能计算范式 了“科学研究第五范式雏形”的思想,这一思想很 重要的一点就是将领域知识(或者人类先验知 图灵奖获得者Jim Gray曾说,人类社会已经 识)与算法模型紧密结合起来,以更好解决领域 经历了4种计算范式。第一种是从实验观测中进 问题。 行科学发现。比如,从比萨斜塔上同时扔下两个 2人脑三类记忆体的启示 质量大小不一的铁球,这两个铁球会同时落地。 通过这个实验观测可知,对于同样的下落距离, 神经科学家指出:人类大脑有三种记忆体, 不管物体质量多大、只要初速度相同,会用同样 分别是瞬时记忆、工作记忆和长期记忆。我们 时间经过同样的路途距离,于是发现重力加速度 可以眼观六路、耳听八方,瞬时感觉到所处空间 相同这一规律。第二种范式是从数据中进行模型 各种信息,这就是瞬时记忆在起作用。只有那 归纳和方程推导。比如,一段电流通过指南针, 些引起瞬时记忆关注的信息,才会被输送给工 磁铁的南北极会发生变化,奥斯特由此发现了电 作记忆体。 生磁现象,法拉第随后发现了磁生电现象。麦克 人类直觉、顿悟和因果等智能活动均在工作 斯韦从电生磁和磁生电中归纳出了麦克斯韦方程 记忆体中完成。但是,工作记忆不是仅仅处理瞬 组,以一种近乎完美的方式统一了电和磁,并预 时记忆所传送而来的“感兴趣信息”,而是从长期 言光就是一种电磁波,这是物理学家在统一之路 记忆体中唤醒或激活与这些“感兴趣信息”相关的 上的巨大进步。在科学发现的壮美征途上,牛顿 信息,整合起来一起处理。这就是我们常言的“弦 统一了力,麦克斯韦统一了电,爱因斯坦统一了 外之音、画外之意”。即智能体在处理信息时不 场,这都是从数据中进行方程归纳,来刻画现象 是就事论事或就数据论数据,而是会将与之相关 后面所隐藏的隐秩序。第三种范式是虚拟仿真, 的信息综合起来进行处理。因此,我们可从“此
数据驱动与知识引导相互结合的智能计算 Intelligence computing via the integration of data-driven and knowledge-guided 吴飞1,2 (1. 浙江大学 人工智能研究所, 浙江 杭州 31027; 2. 浙江大学 上海高等研究院, 浙江 杭州 31027) 在“数据是燃料、人工智能是引擎”的数据驱 动机器学习时代,人工智能正在经历“大数据、小 任务;小数据、大任务”的涅槃,如何从娴熟于“炼 金术”的调参师向笃定于“厚积薄发”推理机迈进, 是面临的巨大挑战。机器学习 (machine learning) 这一单词首次出现时被定义为“不需要确定性编 程就可以赋予机器某项技能的研究领域”,其目标 是构造一种学习机器 (learning machine),使之像人 一样具有“learning to learn”的能力。人类学习离 不开数据、知识以及与环境交互等,本文探讨数 据驱动与知识引导相互结合的智能计算这一问 题,希望这一模式将推动更通用 (more general) 计 算范式跃变。 1 四种人工智能计算范式 图灵奖获得者 Jim Gray 曾说,人类社会已经 经历了 4 种计算范式。第一种是从实验观测中进 行科学发现。比如,从比萨斜塔上同时扔下两个 质量大小不一的铁球,这两个铁球会同时落地。 通过这个实验观测可知,对于同样的下落距离, 不管物体质量多大、只要初速度相同,会用同样 时间经过同样的路途距离,于是发现重力加速度 相同这一规律。第二种范式是从数据中进行模型 归纳和方程推导。比如,一段电流通过指南针, 磁铁的南北极会发生变化,奥斯特由此发现了电 生磁现象,法拉第随后发现了磁生电现象。麦克 斯韦从电生磁和磁生电中归纳出了麦克斯韦方程 组,以一种近乎完美的方式统一了电和磁,并预 言光就是一种电磁波,这是物理学家在统一之路 上的巨大进步。在科学发现的壮美征途上,牛顿 统一了力,麦克斯韦统一了电,爱因斯坦统一了 场,这都是从数据中进行方程归纳,来刻画现象 后面所隐藏的隐秩序。第三种范式是虚拟仿真, 即搭建计算系统去模拟复杂的客观物理世界,从 仿真系统中观测各种因素的此消彼长,再指导客 观物理世界的改造。 Jim Gray 认为现在进入了被称为数据密集型 计算的第四范式阶段。在数据密集型计算时代, 随着物联网、5G 和传感器等技术进步,可以史无 前例获得记录人类社会生产、生活和工作等方面 海量数据。从这些海量数据出发,挖掘其结构、 模式和规律等知识,从数据到知识、从知识到决 策与服务是数据密集型计算要解决的难点问题。 2021 年 7 月,李国杰院士在《中国计算机学会通 讯》上发表了“有关人工智能的若干认识问题”文 章,围绕 AlphaFold 这一任务所带来的启示,提出 了“科学研究第五范式雏形”的思想,这一思想很 重要的一点就是将领域知识 (或者人类先验知 识) 与算法模型紧密结合起来,以更好解决领域 问题。 2 人脑三类记忆体的启示 神经科学家指出:人类大脑有三种记忆体, 分别是瞬时记忆、工作记忆和长期记忆。我们 可以眼观六路、耳听八方,瞬时感觉到所处空间 各种信息,这就是瞬时记忆在起作用。只有那 些引起瞬时记忆关注的信息,才会被输送给工 作记忆体。 人类直觉、顿悟和因果等智能活动均在工作 记忆体中完成。但是,工作记忆不是仅仅处理瞬 时记忆所传送而来的“感兴趣信息”,而是从长期 记忆体中唤醒或激活与这些“感兴趣信息”相关的 信息,整合起来一起处理。这就是我们常言的“弦 外之音、画外之意”。即智能体在处理信息时不 是就事论事或就数据论数据,而是会将与之相关 的信息综合起来进行处理。因此,我们可从“此 第 17 卷第 1 期 智 能 系 统 学 报 Vol.17 No.1 2022 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2022
第17卷 智能系统学报 ·218· 弦”知晓“外之音”、从“此画”洞悉“外之意”。 三代计算方法是当前人工智能重要发展方向。 长期记忆体中所存储的“相关信息”以怎样形 AlaphaFold是1972年诺贝尔奖获得者克里斯 式存在是值得探索的问题。或许这些潜在信息是 蒂安·安芬森(Christian Anfinsen)所提出的一个猜 常识性知识(common sense)或背景性知识或暗知 想。当时,克里斯蒂安·安芬森在诺奖颁奖典礼上 识。这些知识我们无法用言语来明确表达、机器 提出如下猜想:一个蛋白质的氨基酸(amino acid) 也无法解释,但人的大脑可以很好地存储下来 序列应该能完全决定这个蛋白质的结构,蛋白质 (并且以恰当范方式处理)。既然人脑是这样的活 作为生命的基本构件,其结构与生命的各种功能 动模式,现在的智能计算可否仿照人脑这一计算 息息相关。因此,可否从氨基酸序列出发,预测 模式或思维模式呢? 蛋白质的三维结构,从而形成“从数据到结构到功 DeepMind在2016年发表了一篇《神经图灵 能”的科学研究范式? 机Neural Turing Machine)》的文章,将传统图灵 传统通过实验来解析蛋白质结构的方法往往 机模型与人脑思维机制进行融合,将其称为深度 耗时长、成本高、难度大,如X线品体衍射图谱法、 神经推理(deep neural reasoning)o 核磁共振法、冷冻电镜法等。2021年8月,《自 我们知道图灵机包括一条两端无限长的纸 然》和《科学》均发表了有关蛋白质三维空间结 带,纸带上面有非常多方格。我们可以将计算任 构预测的文章。前者是Deepmind公司完成的Al- 务和所需数据放在纸带上,然后数据或事件触发 phaFold、后者是西雅图华盛顿大学蛋白质设计研 图灵机中已经写好的程序来完成计算任务。在这 究所完成的RoseTTAFold。在这两篇论文中,Al- 个过程中,难以用到纸带上以外的数据或信息。 phaFold和Rose TTAFold都非常强调学习注意力 但是,神经图灵机外接了一个外在记忆体(extern- (attention),即蛋白质结构中不同变量之间的关联 al memory),不断从外在记忆体中激活与当前处理 依赖关系。 数据相关的信息,以对当前数据更好学习和理 比较有趣的,Rose TTAFold的第一作者认为 解,取得更佳效果。这篇文章发表后,Nature期刊 Rose TTAFold的性能不如AlphaFold.其原因在 为其撰写了一篇社论,称其为深度神经推理(deep 于Rose TTAFold所在实验室没有研究深度学习 neural reasoning),而不是平常的推理机制。 的工程师,只是化学家应用深度学习工具来做蛋 现在出现了一个现象,只要有一个X算法,一 白质三维空间结构预测的工作。从这里可以看 定会把这个算法拓展为deep+X算法或neural-+X 出,AI研究一定要和X领域任务结合,形成AI+X 算法。比如有n-gram的自然语言处理算法,就出 的态势,才能更好解决领域问题。 现了neural language model;有强化学习,就有deep 人工智能是使能之术,其一定是与来自不同 reinforcement learning。这不是故作悬殊,不是单 领域工程师一起协作,才能解决领域问题,这也 纯追求从浅层模型到深层模型的转变,而是在这 可回应为什么李国杰院士说人工智能上不了天 个转变过程中,巧妙融合数据、知识和交互经验, 落不了地,因为要解决场景的任务,一定要和场 体现多种学习手段的集成式融合。 景的工程师,以及人工智能专家结合起来。 3迈向新计算范式的科学计算 4结论 科学计算是将数据驱动和知识引导进行结合 诺贝尔物理学奖获得者、量子力学的奠基者 的重要研究领域。自然(Nature)杂志在2018年发 之一保罗.狄拉克(Paul Adrien Maurice Dirac)在 表了一篇题为Machine learning for molecular and 1929年一篇题为Quantum mechanics of many-elec- materials science的文章,指出在分子与材料等物 tron sys1ems(《多电子系统的量子力学》)文章中 质合成领域先后出现了三代计算方法:第一代是 写道:支撑大部分物理学和化学所发展的数学理 给定一个结构,研究预测该结构性质的算法;第 论已经完成了,目前只需要解决刻画精确定律的 二代是给定物质的若干组成成分,去重建该物质 复杂方程求解问题。 的组成结构,然后基于重建的结构预测其性质; 将数据驱动的归纳抽象和知识引导的演绎 第三代是给定海量数据,从中辨析哪些成分可通 推理与物理定理的约束优化结合起来,围绕具 过怎样的反应生成结构,推理该结构的性质。第 体场景问题开展场景人工智能研究,是推动人
弦”知晓“外之音”、从“此画”洞悉“外之意”。 长期记忆体中所存储的“相关信息”以怎样形 式存在是值得探索的问题。或许这些潜在信息是 常识性知识 (common sense) 或背景性知识或暗知 识。这些知识我们无法用言语来明确表达、机器 也无法解释,但人的大脑可以很好地存储下来 (并且以恰当范方式处理)。既然人脑是这样的活 动模式,现在的智能计算可否仿照人脑这一计算 模式或思维模式呢? DeepMind 在 2016 年发表了一篇《神经图灵 机 (Neural Turing Machine)》的文章,将传统图灵 机模型与人脑思维机制进行融合,将其称为深度 神经推理 (deep neural reasoning)。 我们知道图灵机包括一条两端无限长的纸 带,纸带上面有非常多方格。我们可以将计算任 务和所需数据放在纸带上,然后数据或事件触发 图灵机中已经写好的程序来完成计算任务。在这 个过程中,难以用到纸带上以外的数据或信息。 但是,神经图灵机外接了一个外在记忆体 (external memory),不断从外在记忆体中激活与当前处理 数据相关的信息,以对当前数据更好学习和理 解,取得更佳效果。这篇文章发表后,Nature 期刊 为其撰写了一篇社论,称其为深度神经推理 (deep neural reasoning),而不是平常的推理机制。 现在出现了一个现象,只要有一个 X 算法,一 定会把这个算法拓展为 deep+X 算法或 neural+X 算法。比如有 n-gram 的自然语言处理算法,就出 现了 neural language model;有强化学习,就有 deep reinforcement learning。这不是故作悬殊,不是单 纯追求从浅层模型到深层模型的转变,而是在这 个转变过程中,巧妙融合数据、知识和交互经验, 体现多种学习手段的集成式融合。 3 迈向新计算范式的科学计算 科学计算是将数据驱动和知识引导进行结合 的重要研究领域。自然 (Nature) 杂志在 2018 年发 表了一篇题为 Machine learning for molecular and materials science 的文章,指出在分子与材料等物 质合成领域先后出现了三代计算方法:第一代是 给定一个结构,研究预测该结构性质的算法;第 二代是给定物质的若干组成成分,去重建该物质 的组成结构,然后基于重建的结构预测其性质; 第三代是给定海量数据,从中辨析哪些成分可通 过怎样的反应生成结构,推理该结构的性质。第 三代计算方法是当前人工智能重要发展方向。 AlaphaFold 是 1972 年诺贝尔奖获得者克里斯 蒂安·安芬森 (Christian Anfinsen))所提出的一个猜 想。当时,克里斯蒂安·安芬森在诺奖颁奖典礼上 提出如下猜想:一个蛋白质的氨基酸 (amino acid) 序列应该能完全决定这个蛋白质的结构,蛋白质 作为生命的基本构件,其结构与生命的各种功能 息息相关。因此,可否从氨基酸序列出发,预测 蛋白质的三维结构,从而形成“从数据到结构到功 能”的科学研究范式? 传统通过实验来解析蛋白质结构的方法往往 耗时长、成本高、难度大,如 X 线晶体衍射图谱法、 核磁共振法、冷冻电镜法等。2021 年 8 月,《自 然》和《科学》均发表了有关蛋白质三维空间结 构预测的文章。前者是 Deepmind 公司完成的 AlphaFold、后者是西雅图华盛顿大学蛋白质设计研 究所完成的 RoseTTAFold。在这两篇论文中,AlphaFold 和 Rose TTAFold 都非常强调学习注意力 (attention),即蛋白质结构中不同变量之间的关联 依赖关系。 比较有趣的,Rose TTAFold 的第一作者认为 Rose TTAFold 的性能不如 AlphaFold,其原因在 于 Rose TTAFold 所在实验室没有研究深度学习 的工程师,只是化学家应用深度学习工具来做蛋 白质三维空间结构预测的工作。从这里可以看 出,AI 研究一定要和 X 领域任务结合,形成 AI+X 的态势,才能更好解决领域问题。 人工智能是使能之术,其一定是与来自不同 领域工程师一起协作,才能解决领域问题,这也 可回应为什么李国杰院士说人工智能上不了天、 落不了地,因为要解决场景的任务,一定要和场 景的工程师,以及人工智能专家结合起来。 4 结论 诺贝尔物理学奖获得者、量子力学的奠基者 之一保罗·狄拉克 (Paul Adrien Maurice Dirac) 在 1929 年一篇题为 Quantum mechanics of many-electron systems (《多电子系统的量子力学》) 文章中 写道:支撑大部分物理学和化学所发展的数学理 论已经完成了,目前只需要解决刻画精确定律的 复杂方程求解问题。 将数据驱动的归纳抽象和知识引导的演绎 推理与物理定理的约束优化结合起来,围绕具 体场景问题开展场景人工智能研究,是推动人 第 17 卷 智 能 系 统 学 报 ·218·
·219· 吴飞:数据驱动与知识引导相互结合的智能计算 第1期 工智能发展的一种手段。英国数学家理查德森 作者简介: (Richardson)l922年提出来“预报工厂(forecast- 吴飞,教授,博士生导师.浙江大 ing factory)”的梦想,被认为是科学计算思想的 学人工智能研究所所长,担任中国图 萌芽。1953年9月30日,理查森在睡眠中平静 象图形学学会第七届理事会理事、中 去世,其夫人回忆说,理查森留给她终生难忘的 国图象图形学学会动画与数字娱乐专 一句话是:我们人生的责任是要为后人留下更 委会副主任、中国计算机学会多媒体 美好的事物。 技术专业委员会常务委员。主要研究 方向为人工智能、跨媒体计算、多媒体 人工智能赋能科学发现,科学计算促进了人工 分析与检素和统计学习理论。曾获宝钢优秀教师奖,教育部 智能本身深入发展,人工智能又重塑不同学科 人工智能科技创新专家组工作组组长。发表学术论文70 研究的范式革命,美人之美,美美与共,留美于世! 余篇。 中文引用格式:吴飞.数据驱动与知识引导相互结合的智能计算.智能系统学报,2022,17(1):217-219. 英文引用格式:WU Fei.Intelligence computing via the integration of data-driven and knowledge-guided[J].CAAI transactions on intelligent systems,2022,17(1):217-219. 2022年中国粒计算与知识发现学术会议 由中国人工智能学会主办、中国人工智能学会粒计算与知识发现专委会协办、国际粗糙集学会支持、青 海民族大学承办的2022年中国粒计算与知识发现学术会议(第22届中国粗糙集与软计算学术会议、第 16届中国粒计算学术会议、第10届三支决策学术会议)将于2022年8月在青海西宁召开。中国粒计算与知 识发现学术会议每年举办一次,是我国粒计算领域的学术盛会,已成为国内人工智能领域最主要的学术活 动之一,为从事粒计算与知识发现的学者、研究生以及工程技术人员提供了一个交流平台,让大家了解最前 沿的学术动态和分享最新研究成果,以提高国内相关领域的研究水平。 一、征文范围(包括但不仅限于) 1)粗糙集与软计算:2)粒计算理论及其应用:3)三支决策模型与分析;4)知识发现与数据挖掘。 二、重要日期 投稿截止日期:2022年3月31日 录用通知日期:2022年5月31日 修改与终稿提交日期:2022年6月10日 三、联系方式 1.投稿与会务咨询: 裴生雷(13897413657)、陈善继(13997190946)、魏建国(18722011190) 2.会务邮箱:cgckd2022@163.com 3.通信地址:青海省西宁市城东区八一中路3号青海民族大学文实校区物理与电子信息工程学院,邮编 810007 详情请关注网站:htps:/www.qhmu.edu.cn/info/1052/330s.htm
工智能发展的一种手段。英国数学家理查德森 (Richardson)1922 年提出来“预报工厂 (forecasting factory)”的梦想,被认为是科学计算思想的 萌芽。1953 年 9 月 30 日,理查森在睡眠中平静 去世,其夫人回忆说,理查森留给她终生难忘的 一句话是:我们人生的责任是要为后人留下更 美好的事物。 人工智能赋能科学发现,科学计算促进了人工 智能本身深入发展,人工智能又重塑不同学科 研究的范式革命,美人之美,美美与共,留美于世! 作者简介: 吴飞,教授,博士生导师,浙江大 学人工智能研究所所长,担任中国图 象图形学学会第七届理事会理事、中 国图象图形学学会动画与数字娱乐专 委会副主任、中国计算机学会多媒体 技术专业委员会常务委员。主要研究 方向为人工智能、跨媒体计算、多媒体 分析与检索和统计学习理论。曾获宝钢优秀教师奖,教育部 人工智能科技创新专家组工作组组长。发表学术论文 70 余篇。 中文引用格式:吴飞. 数据驱动与知识引导相互结合的智能计算 [J]. 智能系统学报, 2022, 17(1): 217–219. 英文引用格式:WU Fei. Intelligence computing via the integration of data-driven and knowledge-guided[J]. CAAI transactions on intelligent systems, 2022, 17(1): 217–219. 2022 年中国粒计算与知识发现学术会议 由中国人工智能学会主办、中国人工智能学会粒计算与知识发现专委会协办、国际粗糙集学会支持、青 海民族大学承办的 2022 年中国粒计算与知识发现学术会议(第 22 届中国粗糙集与软计算学术会议、第 16 届中国粒计算学术会议、第 10 届三支决策学术会议)将于 2022 年 8 月在青海西宁召开。中国粒计算与知 识发现学术会议每年举办一次,是我国粒计算领域的学术盛会,已成为国内人工智能领域最主要的学术活 动之一,为从事粒计算与知识发现的学者、研究生以及工程技术人员提供了一个交流平台,让大家了解最前 沿的学术动态和分享最新研究成果,以提高国内相关领域的研究水平。 一、征文范围(包括但不仅限于) 1)粗糙集与软计算;2)粒计算理论及其应用;3)三支决策模型与分析;4)知识发现与数据挖掘。 二、重要日期 投稿截止日期:2022 年 3 月 31 日 录用通知日期:2022 年 5 月 31 日 修改与终稿提交日期:2022 年 6 月 10 日 三、联系方式 1. 投稿与会务咨询: 裴生雷(13897413657)、陈善继(13997190946)、魏建国(18722011190) 2. 会务邮箱:cgckd2022@163.com 3. 通信地址:青海省西宁市城东区八一中路 3 号青海民族大学文实校区物理与电子信息工程学院,邮编 810007 详情请关注网站: https://www.qhmu.edu.cn/info/1052/3305.htm ·219· 吴飞:数据驱动与知识引导相互结合的智能计算 第 1 期