第14卷第3期 智能系统学报 Vol.14 No.3 2019年5月 CAAI Transactions on Intelligent Systems May 2019 D0:10.11992/tis.201810020 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190425.1003.002.html 重新找回人工智能的可解释性 何华灿 (西北工业大学计算机学院,陕西西安710072) 摘要:针对深度神经网络AI研究的可解释性瓶颈,指出刚性逻辑(数理形式逻辑)和二值神经元等价,二值神 经网络可转换成逻辑表达式,有强可解释性。深度神经网络一味增加中间层数来拟合大数据,没有适时通过抽 象把最小粒度的数据(原子)变成粒度较大的知识(分子),再把较小粒度的知识变成较大粒度的知识,把原有的 强可解释性淹没在中间层次的汪洋大海中。要支持多粒度的知识处理,需把刚性逻辑扩张为柔性命题逻辑(命 题级数理辩证逻辑),把二值神经元扩张为柔性神经元,才能保持强可解释性。本文详细介绍了从刚性逻辑到 柔性逻辑的扩张过程和成果,最后介绍了它们在AI研究中的应用,这是重新找回AI研究强可解释性的最佳途径。 关键词:人工智能;可解释性;演化;不确定性;泛逻辑学;柔性命题逻辑;柔性神经元;数理辩证逻辑 中图分类号:TP18文献标志码:A 文章编号:1673-4785(2019)03-0393-20 中文引用格式:何华灿.重新找回人工智能的可解释性.智能系统学报,2019,14(3):393-412 英文引用格式:HE Huacan.Refining the interpretability of artificial intelligenceJ.CAAI transactions on intelligent systems,,20l9, 143:393-412. Refining the interpretability of artificial intelligence HE Huacan (School of Computer Science,Northwestern Polytechnical University,Xi'an 710072,China) Abstract:In view of the restrictions on the interpretability of artificial intelligence(AI)research on deep neural net- works,it is indicated that rigid logic (mathematical formal logic)and binary neurons are equivalent.Moreover,a binary neural network can be converted into a logical expression,which is highly interpretable.The deep neural network blindly increases the number of intermediate layers to fit big data without the timely abstraction of data with the smal- lest granularity(atom)into knowledge with larger granularity(molecule),changes knowledge with smaller granularity into knowledge with larger granularity,and submerges the original strong explanatory power in the ocean of intermedi- ate layers.To support knowledge processing of multiple granularities,rigid logic should be expanded into flexible pro- positional logic(proposition-level mathematical dialectic logic)and binary neurons should be expanded into flexible neurons to maintain the strong explanatory power.This paper introduces in detail the achievement of the expansion pro- cess from rigid logic to flexible logic and its application in Al research,which is the best method to recover the inter- pretability of Al. Keywords:artificial intelligence;interpretability;evolution;uncertainty;universal logic;flexible propositional logic; flexible neurons:mathematical dialectic logic 近十年来在大数据处理、云计算和深度神经 许多惊世骇俗的奇迹!不同于以往的两次高潮, 网络的推动下,人工智能从低谷走向了第三次发 这次世界各主要大国都纷纷制定国家战略,把 展高潮期,以AlphaGo为代表的研究成果创造了 AI列为未来争霸世界的国之重器:2017年7月 收稿日期:2018-10-17.网络出版日期:2019-04-25 20日国务院发布了《新一代人工智能发展规 基金项目:国家自然科学基金面上项目(60273087):西北工业 “大学基础研究基金重点项目(W18101). 划》,计划到2030年我国AI理论、技术和应用要 通信作者:何华灿.E-mail:hehuac@nwpu.edu.cn. 处于国际领先地位;紧接着2017年9月1日俄罗
DOI: 10.11992/tis.201810020 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190425.1003.002.html 重新找回人工智能的可解释性 何华灿 (西北工业大学 计算机学院,陕西 西安 710072) 摘 要:针对深度神经网络 AI 研究的可解释性瓶颈,指出刚性逻辑 (数理形式逻辑) 和二值神经元等价,二值神 经网络可转换成逻辑表达式,有强可解释性。深度神经网络一味增加中间层数来拟合大数据,没有适时通过抽 象把最小粒度的数据 (原子) 变成粒度较大的知识 (分子),再把较小粒度的知识变成较大粒度的知识,把原有的 强可解释性淹没在中间层次的汪洋大海中。要支持多粒度的知识处理,需把刚性逻辑扩张为柔性命题逻辑 (命 题级数理辩证逻辑),把二值神经元扩张为柔性神经元,才能保持强可解释性。本文详细介绍了从刚性逻辑到 柔性逻辑的扩张过程和成果,最后介绍了它们在 AI 研究中的应用,这是重新找回 AI 研究强可解释性的最佳途径。 关键词:人工智能;可解释性;演化;不确定性;泛逻辑学;柔性命题逻辑;柔性神经元;数理辩证逻辑 中图分类号:TP18 文献标志码:A 文章编号:1673−4785(2019)03−0393−20 中文引用格式:何华灿. 重新找回人工智能的可解释性[J]. 智能系统学报, 2019, 14(3): 393–412. 英文引用格式:HE Huacan. Refining the interpretability of artificial intelligence[J]. CAAI transactions on intelligent systems, 2019, 14(3): 393–412. Refining the interpretability of artificial intelligence HE Huacan (School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China) Abstract: In view of the restrictions on the interpretability of artificial intelligence (AI) research on deep neural networks, it is indicated that rigid logic (mathematical formal logic) and binary neurons are equivalent. Moreover, a binary neural network can be converted into a logical expression, which is highly interpretable. The deep neural network blindly increases the number of intermediate layers to fit big data without the timely abstraction of data with the smallest granularity (atom) into knowledge with larger granularity (molecule), changes knowledge with smaller granularity into knowledge with larger granularity, and submerges the original strong explanatory power in the ocean of intermediate layers. To support knowledge processing of multiple granularities, rigid logic should be expanded into flexible propositional logic (proposition-level mathematical dialectic logic) and binary neurons should be expanded into flexible neurons to maintain the strong explanatory power. This paper introduces in detail the achievement of the expansion process from rigid logic to flexible logic and its application in AI research, which is the best method to recover the interpretability of AI. Keywords: artificial intelligence; interpretability; evolution; uncertainty; universal logic; flexible propositional logic; flexible neurons; mathematical dialectic logic 近十年来在大数据处理、云计算和深度神经 网络的推动下,人工智能从低谷走向了第三次发 展高潮期,以 AlphaGo 为代表的研究成果创造了 许多惊世骇俗的奇迹!不同于以往的两次高潮, 这次世界各主要大国都纷纷制定国家战略,把 AI 列为未来争霸世界的国之重器:2017 年 7 月 20 日国务院发布了《新一代人工智能发展规 划》,计划到 2030 年我国 AI 理论、技术和应用要 处于国际领先地位;紧接着 2017 年 9 月 1 日俄罗 收稿日期:2018−10−17. 网络出版日期:2019−04−25. 基金项目:国家自然科学基金面上项目 (60273087);西北工业 大学基础研究基金重点项目 (W18101). 通信作者:何华灿. E-mail:hehuac@nwpu.edu.cn. 第 14 卷第 3 期 智 能 系 统 学 报 Vol.14 No.3 2019 年 5 月 CAAI Transactions on Intelligent Systems May 2019
·394· 智能系统学报 第14卷 斯总统普京强调“未来谁率先掌握了AI,谁就能 在其生命周期内反复学习提高、不断演化发展, 称霸世界”;2018年4月16日英国议会AI特别委 不会一成不变四。 员会发布报告认为,英国在AI方面有能力成为世 浪高 界领导者和AI创新中心;2018年4月25日欧盟 第三次浪潮 委员会计划2018一2020年在AI领域投资240亿 第二次浪潮① 美元,确保其世界领先地位:2018年5月10日美 第一次浪潮 国白宫为在未来的AI领域“确保美国第一”成立 了AI专门委员会。与此形成鲜明对照的是不少 1956196019701980199020002010年 著名的AI学者纷纷指出,当今AI已陷入概率关 联的泥潭,所谓深度学习的一切成就都不过是曲 图1人工智能学科和产业60年发展态势图 Fig.1 Development trend of the AI discipline and in- 线拟合而已,它是在用机器擅长的关联推理代替 dustry in 60 years 人类擅长的因果推理,这种“大数据小任务”的智 具体来看,AI学科的孕育和早期发展都是在 能模式并不能体现人类智能的真正含义,具有普 布尔信息处理级别上完成的,当时出现了两个不 适性的智能模式应该是“小数据大任务”。他们认 同但是相互等价的视角回:从逻辑角度看,人类智 为基于深度神经网络的AI是不能解释因而无法 理解的AI,如果人类过度依赖它并无条件地相信 能活动过程可用刚性逻辑(即数理形式逻辑、标 它,那将是十分危险的。特别是,在司法、法律、 准逻辑)的布尔算子组描述;从神经元角度看,人 医疗、金融、自动驾驶、自主武器等人命关天的领 脑的智能活动过程可用二值神经元的MP模型描 域,更是要慎之又慎,千万不能放任自流。基于 述。布尔逻辑算子组由英国数学家G.Boole于 这个大的认识和反思背景,本文拟集中讨论为什 1854年在《思维规律》中提出:任意x,y,二∈{0, 么深度神经网络会让人工智能研究丧失可解释 1},非算子一x=1-x,与算子xAy=T[x+y-1],或算 性?我们如何才能重新找回人工智能研究的可解 子xV=T[x+y,蕴涵算子x→=T[-x+y-1]。其中 释性?文中所涉及的“可解释性”满足一种强定 z=「[v]是0,1限幅函数,当v1时 义:它要求从前提到结论的推理全过程都能用理 =1;否则=v。二值神经元模型MP(又称感知机, 论上成熟可靠的逻辑语言描述清楚。 阈元)由心理学家McCulloch和数学家W.Pitts 于1943年共同提出,是一种最简单的神经元模 1现今的人工智能研究何以会失去 型(见图2),依靠带阈值的0,1限幅运算=「[a+b- 可解释性 ©可以完成各种二值信息变换过程,其中x,y∈{0, 1.1原本二值神经元与布尔逻辑算子是完全等 1}是输入变量,z∈{0,1}是输出变量,a是输入 价的 x的连接权系数,b是输入y的连接权系数,e是神 人工智能学科和产业已走过整整一个甲子的 经元的激活阈值,△1是神经元的处理延迟时间。 成长之路,图1是这60年AI发展的整体态势示 细胞壁 限辐器 意图,其中:曲线①是主波,它说明人类社会已不 國值 整和器 可逆转地进入到信息社会,智能化是当今时代的 主旋律,它必然会扶摇直上九重天,势不可挡;曲 线②是叠加在主波上的次波,它说明各个时期推 延迟△1 1+△ 二值神经元的内部结构 动AI走向发展高潮的基本原理和关键技术,虽然 图2二值神经元的MP模型 在一定范围内能够解决某些智能模拟问题,效果 Fig.2 MP model of two valued neurons 突出,但是一旦把它推广到更大范围使用时,因 对只有1个输入和1个输出的神经元=x), 缺乏人类智能活动的某些重要属性,效果会立马 x,z∈{0,1}来说,只有4个可能的排列组合状态 下降,甚至闹出大笑话。这说明,人的智能活动 (称为信息处理模式):=fo(x)三0;=f(x)=x; 并不是由几个确定性因素决定的简单信息处理过 =f(x)=1-x,=(x)归1。这4种神经元信息处理模 程,而是由众多不确定性因素参与的复杂信息处 式都有对应的刚性逻辑表达式:=0=x∧一x; 理过程,广泛存在非线性涌现效应。所以研究 xx;=xVxo A是一个由点到面、由浅入深、长期试错、不断 在研究一个神经元内部信息处理模式时,没 发现、不断完善的演化过程,任何AI产品都需要 有必要考虑神经元的多输出问题,因为它只关系
斯总统普京强调“未来谁率先掌握了 AI,谁就能 称霸世界”;2018 年 4 月 16 日英国议会 AI 特别委 员会发布报告认为,英国在 AI 方面有能力成为世 界领导者和 AI 创新中心;2018 年 4 月 25 日欧盟 委员会计划 2018—2020 年在 AI 领域投资 240 亿 美元,确保其世界领先地位;2018 年 5 月 10 日美 国白宫为在未来的 AI 领域“确保美国第一”成立 了 AI 专门委员会。与此形成鲜明对照的是不少 著名的 AI 学者纷纷指出,当今 AI 已陷入概率关 联的泥潭,所谓深度学习的一切成就都不过是曲 线拟合而已,它是在用机器擅长的关联推理代替 人类擅长的因果推理,这种“大数据小任务”的智 能模式并不能体现人类智能的真正含义,具有普 适性的智能模式应该是“小数据大任务”。他们认 为基于深度神经网络的 AI 是不能解释因而无法 理解的 AI,如果人类过度依赖它并无条件地相信 它,那将是十分危险的。特别是,在司法、法律、 医疗、金融、自动驾驶、自主武器等人命关天的领 域,更是要慎之又慎,千万不能放任自流。基于 这个大的认识和反思背景,本文拟集中讨论为什 么深度神经网络会让人工智能研究丧失可解释 性?我们如何才能重新找回人工智能研究的可解 释性?文中所涉及的“可解释性”满足一种强定 义:它要求从前提到结论的推理全过程都能用理 论上成熟可靠的逻辑语言描述清楚。 1 现今的人工智能研究何以会失去 可解释性 1.1 原本二值神经元与布尔逻辑算子是完全等 价的 人工智能学科和产业已走过整整一个甲子的 成长之路,图 1 是这 60 年 AI 发展的整体态势示 意图,其中:曲线①是主波,它说明人类社会已不 可逆转地进入到信息社会,智能化是当今时代的 主旋律,它必然会扶摇直上九重天,势不可挡;曲 线②是叠加在主波上的次波,它说明各个时期推 动 AI 走向发展高潮的基本原理和关键技术,虽然 在一定范围内能够解决某些智能模拟问题,效果 突出,但是一旦把它推广到更大范围使用时,因 缺乏人类智能活动的某些重要属性,效果会立马 下降,甚至闹出大笑话。这说明,人的智能活动 并不是由几个确定性因素决定的简单信息处理过 程,而是由众多不确定性因素参与的复杂信息处 理过程,广泛存在非线性涌现效应。所以研究 AI 是一个由点到面、由浅入深、长期试错、不断 发现、不断完善的演化过程,任何 AI 产品都需要 在其生命周期内反复学习提高、不断演化发展, 不会一成不变[1]。 1956 1960 1970 1980 1990 2000 2010 年 浪高 第一次浪潮 第二次浪潮 第三次浪潮 ① ② 图 1 人工智能学科和产业 60 年发展态势图 Fig. 1 Development trend of the AI discipline and industry in 60 years 具体来看,AI 学科的孕育和早期发展都是在 布尔信息处理级别上完成的,当时出现了两个不 同但是相互等价的视角[2] :从逻辑角度看,人类智 能活动过程可用刚性逻辑 (即数理形式逻辑、标 准逻辑) 的布尔算子组描述;从神经元角度看,人 脑的智能活动过程可用二值神经元的 MP 模型描 述。布尔逻辑算子组由英国数学家 G.Boole 于 1854 年在《思维规律》中提出:任意 x, y, z∈{0, 1}, 非算子¬x=1−x, 与算子 x∧y=Γ[x+y−1], 或算 子 x∨y=Γ[x+y], 蕴涵算子 x→y=Γ[−x+y−1]。其中 z=Γ[v]是 0,1 限幅函数,当 v1 时 z=1; 否则 z=v。二值神经元模型 MP(又称感知机, 阈元) 由心理学家 McCulloch 和数学家 W.Pitts 于 1943 年共同提出,是一种最简单的神经元模 型 (见图 2),依靠带阈值的 0,1 限幅运算 z=Γ[ax+by− e]可以完成各种二值信息变换过程,其中 x, y∈{0, 1}是输入变量,z∈{0, 1}是输出变量,a 是输入 x 的连接权系数,b 是输入 y 的连接权系数,e 是神 经元的激活阈值,Δt 是神经元的处理延迟时间。 x y t a b by ax 权 值 e −e 阈值 整和器 ax+by−e v 延迟 Δt Γ [v] 1 0 z 细胞壁 限幅器 输出 输入 二值神经元的内部结构 t+Δt 图 2 二值神经元的 MP 模型 Fig. 2 MP model of two valued neurons 对只有 1 个输入和 1 个输出的神经元 z=f(x), x, z∈{0, 1}来说,只有 4 个可能的排列组合状态 (称为信息处理模式 ): z=f 0 ( x )≡0; z=f 1 ( x ) =x ; z=f2 (x)=1−x; z=f3 (x)≡1。这 4 种神经元信息处理模 式都有对应的刚性逻辑表达式: z≡0=x∧¬x ; z=x; z=¬x;z≡1=x∨¬x。 在研究一个神经元内部信息处理模式时,没 有必要考虑神经元的多输出问题,因为它只关系 ·394· 智 能 系 统 学 报 第 14 卷
第3期 何华灿:重新找回人工智能的可解释性 ·395· 到一个神经元的输出:将被多少个别的神经元共 16种不同的信息处理模式=0,1,2,3,,15,这 享,与本神经元内部的信息处理模式毫无关系。 16种信息处理模式的0,1限幅运算表达式 有2个输入和1个输出的神经元=x,y),x, =T[ar+by-e],不论对于布尔逻辑算子还是二值神 y,z∈{0,1}比较典型,是我们研究的重点,因为其 经元来说,都是完全相同的(传统的真值表表示 他更多输入的神经元,都可以转化为2个输入神 法掩盖了这个等价关系),谁也没比对方多提供更 经元组成的神经网络,如:=x1,,x3广x,), 多的信息处理能力。所以不难得出:刚性逻辑的 x3,x1,x2,x3,z∈{0,1};=x1,x2,x3,x4)=ffx1,x2), 布尔算子组和二值神经元MP模型具有相同的计 x,x),x1,,,x4,z∈{0,1}。其他以此类推,所 算公式,两者完全等价,详细细节见图3。以后将 以证明了两输入布尔信息处理的完备性就等于证 把模式状态参数作为区分不同信息处理 明了任意多输入布尔信息处理的完备性。对2输 模式的标志性参数使用,通过计算=T[ar+by-e] 入神经元=x,y),x,y,二∈{0,1}来说,总共只有 可唯一确定一个二值神经元或者布尔算子组。 数据关系 数据模式 神经元描述 逻辑描述 =F,ie0,1,2,…,15 ==Tax+by-e] 00-(0,0%0=(0,1)0-1,0)0-1,1) === =一0一x)非蕴含2 1=0,0) ③1=0,01=0,10(1,00=1,) == =一x→y) 非蕴含1 0 00.1) ⑤1=0,0贴0-0,151=1,0):0=1,) === -=xAy 与 1.0 ⑨1=(0,00=(0,10=1,01=-1,1) 组合实现1-r-川 =xy 等价 11,0) O0=(0,0吵1=0,10气1,0y1=(1,1) = y 恒y ①1=0,0:1=0,101,01=1,1) = x-y 蕴含1 ②0=(0,0),0=(0,10=1,0y1=1,1) 恒x 1-1,1) ③1=0,00=0,111,01=1, = x 蕴含2 ④0-(0,0%1=0,111,01-(1,I) = =xVy 或 1=(0,0:1=0,151=1,01-1,1) = 恒真 图3刚性逻辑算子和MP神经元模型等价 Fig.3 Equivalence of the rigid logic operator and MP neuron model 显然,上述的等价关系可推广到由任意基本 1.2当前人工智能研究失去可解释性的原因 单元组成的复杂网络之中,下面通过一个实例来 数学理论和计算机的软硬件设计原理都是严 说明:如果有一个复杂的刚性命题逻辑表达式 格按照刚性逻辑建立的,不曾有半点逾越。可是 F=(pVq)A(qVr)A(pVr),它可用一些逻 人工智能学科的诞生却是因为计算机科学中出现 辑算子组成的逻辑网络来描述(见图4(a),一定存 了“算法危机而促成的!传统计算机应用都遵 在一个由二值神经元组成的神经网络与之对应 循“数学+计算机程序”的信息处理模式,要解决任 (见图4(b),两者使用的0,1限幅运算公式= 何一个问题都必须满足3个先决条件:1)能找到 T[ar+by-e]完全对应相同。 该问题中输入和输出之间的数量关系,建立数学 模型;2)能找到该数学模型的算法解;3)根据算 四 法解能编制出在计算机上可实际运行的程序。上 回白回包 述3点都没有逾越刚性逻辑的约束,但是理论计 算机科学家研究发现:1)人脑思维中的大部分智 (a)由刚性逻辑算子 (b)由二值神经元组成 组成的网络 的网络 能活动无法建立数学模型:2)能找到的数学模型 大部分都不存在算法解;3)能找到的算法解大部 图4逻辑网络和神经网络等价的一个实例 Fig.4 An example of the equivalence between logical and 分都是指数型的,实际不可计算。为什么人脑智 neural networks 能可以解决的问题,数学+计算机程序的模式却
到一个神经元的输出 z 将被多少个别的神经元共 享,与本神经元内部的信息处理模式毫无关系。 有 2 个输入和 1 个输出的神经元 z=fi (x, y), x, y, z∈{0, 1}比较典型,是我们研究的重点,因为其 他更多输入的神经元,都可以转化为 2 个输入神 经元组成的神经网络,如:z=f(x1 , x2 , x3 )=fj (fi (x1 , x2 ), x3 ), x1 , x2 , x3 , z∈{0, 1}; z=f(x1 , x2 , x3 , x4 )=fk (fi (x1 , x2 ), fj (x3 , x4 )), x1 , x2 , x3 , x4 , z∈{0, 1}。其他以此类推,所 以证明了两输入布尔信息处理的完备性就等于证 明了任意多输入布尔信息处理的完备性。对 2 输 入神经元 z=fi (x, y), x, y, z∈{0, 1}来说,总共只有 16 种不同的信息处理模式 i=0, 1, 2, 3, ···, 15,这 1 6 种信息处理模式 的 0 , 1 限幅运算表达 式 z=Γ[ax+by−e],不论对于布尔逻辑算子还是二值神 经元来说,都是完全相同的 (传统的真值表表示 法掩盖了这个等价关系),谁也没比对方多提供更 多的信息处理能力。所以不难得出:刚性逻辑的 布尔算子组和二值神经元 MP 模型具有相同的计 算公式,两者完全等价,详细细节见图 3。以后将 把模式状态参数作为区分不同信息处理 模式的标志性参数使用,通过计算 z=Γ[ax+by−e] 可唯一确定一个二值神经元或者布尔算子组。 数据关系 神经元 x x x y y y y z z=Fi (x, y) iϵ{0, 1, 2,…, 15} z=Γ[ax+by−e] z z x y z z z z 0 0 0 0=(0, 0); 0=(0, 1);0=(1, 0):0=(1, 1) z≡0 恒假 非或 非蕴含 2 非 x 非 y 非等价 非与 与 等价 恒 y 蕴含 1 蕴含 2 或 恒真 恒 x 非蕴含 1 z≡1 z=¬(x∨y) z=¬(xΛy) z=¬(x→y) z=xΛy z=x↔y z=y z=x→y z=x z=y→x z=x∨y z=¬(x↔y) z=¬y z=¬(y→x) z=¬x = = = = = = = 组合实现|x−y| 组合实现1−|x−y| = = = = = = = 1=(0, 0); 0=(0, 1);0=(1, 0):0=(1, 1) 0=(0, 0); 1=(0, 1);0=(1, 0):0=(1, 1) 1=(0, 0); 1=(0, 1);0=(1, 0):0=(1, 1) 0=(0, 0); 0=(0, 1);1=(1, 0):0=(1, 1) 1=(0, 0); 0=(0, 1);1=(1, 0):0=(1, 1) 0=(0, 0); 1=(0, 1);1=(1, 0):0=(1, 1) 1=(0, 0); 1=(0, 1);1=(1, 0):0=(1, 1) 0=(0, 0); 0=(0, 1);0=(1, 0):1=(1, 1) 1=(0, 0); 0=(0, 1);0=(1, 0):1=(1, 1) 0=(0, 0);1=(0, 1);0=(1, 0):1=(1, 1) 1=(0, 0);1=(0, 1);0=(1, 0):1=(1, 1) 0=(0, 0);0=(0, 1);0=(1, 0):1=(1, 1) 1=(0, 0);0=(0, 1);1=(1, 0):1=(1, 1) 0=(0, 0);1=(0, 1);1=(1, 0):1=(1, 1) 1=(0, 0);1=(0, 1);1=(1, 0):1=(1, 1) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 0 0 1 1 1 1 1 1 1 0=(0, 0) 1=(0, 0) 0=(0, 1) 1=(0, 1) 0=(1, 0) 1=(1, 0) 0=(1, 1) 1=(1, 1) 0 0 数据模式 神经元描述 逻辑描述 逻辑 模式 图 3 刚性逻辑算子和 MP 神经元模型等价 Fig. 3 Equivalence of the rigid logic operator and MP neuron model 显然,上述的等价关系可推广到由任意基本 单元组成的复杂网络之中,下面通过一个实例来 说明:如果有一个复杂的刚性命题逻辑表达式 F=((p∨q)∧(¬q∨r))∧(¬p∨¬r),它可用一些逻 辑算子组成的逻辑网络来描述 (见图 4(a)), 一定存 在一个由二值神经元组成的神经网络与之对应 (见图 4(b)),两者使用的 0,1 限幅运算公式 z= Γ[ax+by−e]完全对应相同。 F F 1 1 −1 −1 −1−1 −1 −1 1 1 1 1 0 1 1 0 1 1 0 1 1 ∧ ∨ ∨ ∨ ¬ ¬ ¬ ∧ p q (a) 由刚性逻辑算子 组成的网络 (b) 由二值神经元组成 的网络 r p q r 图 4 逻辑网络和神经网络等价的一个实例 Fig. 4 An example of the equivalence between logical and neural networks 1.2 当前人工智能研究失去可解释性的原因 数学理论和计算机的软硬件设计原理都是严 格按照刚性逻辑建立的,不曾有半点逾越。可是 人工智能学科的诞生却是因为计算机科学中出现 了“算法危机” [3]而促成的!传统计算机应用都遵 循“数学+计算机程序”的信息处理模式,要解决任 何一个问题都必须满足 3 个先决条件:1) 能找到 该问题中输入和输出之间的数量关系,建立数学 模型;2) 能找到该数学模型的算法解;3) 根据算 法解能编制出在计算机上可实际运行的程序。上 述 3 点都没有逾越刚性逻辑的约束,但是理论计 算机科学家研究发现:1) 人脑思维中的大部分智 能活动无法建立数学模型;2) 能找到的数学模型 大部分都不存在算法解;3) 能找到的算法解大部 分都是指数型的,实际不可计算。为什么人脑智 能可以解决的问题,数学+计算机程序的模式却 第 3 期 何华灿:重新找回人工智能的可解释性 ·395·
·396· 智能系统学报 第14卷 解决不了?这说明计算机仅仅依靠“数学+计算机 百层甚至几千层来拟合海量数据,根本忘记了二 程序”的模式还不够聪明和有用,人工智能学科的 值神经元和布尔逻辑算子原本具有等价关系的基 创始人希望通过对人脑智能活动规律的研究和模 本属性。深度神经网络这种不惜一切代价取得的 拟,来克服上述“算法危机”,使计算机更聪明和 成功,反过来鼓励一些学者产生臆想:“深度神经 有用。这就是狭义人工智能学科诞生的原由。由 网络的中间层次越多,获得的结果会越精准!”, 此可见,当时的科学家已经发现,仅仅依靠数 而且“神经网络是无需逻辑和知识的智能,没有发 学+程序是无法模拟人脑智能的。人工智能工作 展瓶颈”。这种盲目乐观的思潮弥漫在当今的人 者最早发现的智能因素就是带有经验色彩的“启 工智能学界,似乎现在的深度神经网络能够把第 发式搜索原理”,它对刚性逻辑的有效使用具有必 三次浪潮一直推动下去,它是人工智能学科发展 不可少的辅助作用。进而人们又通过专家系统的 的最终方向! 成功发现,各专门领域中通过经验归纳形成的专 “物极必反”是自然的一条重要发展规律,在 家知识,它们虽然不满足刚性逻辑的约束,却是 盲目乐观思潮弥漫的今天,已有一些著名的人工 “人更聪明”的重要因素,验证了“知识就是力量” 智能学者在讨论现有人工智能面临的局限性: 的真理。 1)有智能没有智慧,无意识和悟性,缺乏综合决 20世纪80年中期代爆发的人工智能“理论危 策能力:2)有智商没有情商,机器对人的情感理 机”无情地揭露了刚性逻辑、启发式搜索原理和 解与交流还处于起步阶段;3)会计算不会“算 经验知识推理的应用局限性:首先,刚性逻辑本 计”,人工智能可谓有智无心,更无人类的谋略: 身的推理效率十分低下,如果没有启发式知识的 4)有专才无通才,会下围棋的不会下象棋。归纳 引导,单纯机械式地按照刚性逻辑的规则进行推 起来说,目前人工智能发展正面临着六大发展瓶 理,算法的指数复杂度必然带来组合爆炸,计算 颈:1)数据瓶颈,需要海量的有效数据支撑:2)泛 机的时空资源迅速被吞噬殆尽;其次,在启发式 化瓶颈,深度学习的结果难于推广到一般情况; 搜索和经验知识推理中,客观存在的各种不确定 3)能耗瓶颈,大数据处理和云计算的能耗巨大: 性和演化过程都超出了刚性逻辑的有效适用范 4)语义鸿沟瓶颈,在自然语言处理中存在语义理 围,尽管出现了一些非标准逻辑(如模糊逻辑、概 解鸿沟:5)可解释性瓶颈,人类无法知道深度神 率逻辑和有界逻辑等)能解决某些实际问题,但 经网络结果中的因果关系:6)可靠性瓶颈,无法 有时会出现违反常识的异常结果,这说明非标准 确认人工智能结果的可靠性。由此可知,人工智 逻辑在理论上并不成熟可靠,无法在人工智能中 能的发展正面临又一次的发展瓶颈,本文统称为 安全可靠地使用。要有效解决包含各种不确定性 和演化的现实问题,只能寄希望于尽快建立数理 “可解释性瓶颈”。这些应用局限性和发展瓶颈对 辩证逻辑理论体系,可是在当时的情况下,学术 于人类智能来说并不明显存在,为什么却在当今 界的思想和理论准备都严重不足,建立数理辩证 的人工智能研究中成了难以逾越的巨大困难?笔 逻辑谈何容易! 者认为这些困难是由无视逻辑和知识在智能中的 在这种数理辩证逻辑严重缺位的背景下,人 重要价值,过度依赖数据统计和深度神经网络引 工智能研究的主流不得不偏离刚性逻辑和经验性 起的。 知识推理的老方向,转入到完全不依赖逻辑和经 2011年图灵奖得主Judea Pearl是曾在20世 验知识支撑,仅仅依靠数据统计的神经网络、计 纪80年代推动机器以概率(贝叶斯网络)方式进 算智能、多Agent和统计机器学习的新方向。应 行推理的领头人,现在他却指出:深度学习所取 该说这个研究新方向的出现也是具有积极意义 得的所有成就都只是根据(有效)数据进行的曲 的,它体现了人类智能另外的某些特征,能够有 线拟合,AI已陷入概率关联泥潭,它不能完全体 效地解决一些智能模拟问题,所以曾经推动人工 现智能的真正含义。跳出泥潭的关键措施是用因 智能的发展进入第二次高潮。后来人们为了克服 果推理来代替关联推理,在AI中一旦因果关系就 神经网络、计算智能、多Agent和统计机器学习中 位,机器就有可能提出反事实问题,询问因果关 的“局部极值”瓶颈,又在深度学习和深度神经网 系在某些干预下会如何变化,这才是科学思考的 络中,依靠大数据和云计算,不惜耗费巨大的计 基础。所以只有因果推理才能使机器具有类人智 算资源,义无反顾地连续使用数据统计法来增加 能,有效地与人类交流互动。也只有这样,机器 神经网络的中间层次,从几层、几十层增加到几 才能获得道德实体的地位,具有自由意志和运用
解决不了?这说明计算机仅仅依靠“数学+计算机 程序”的模式还不够聪明和有用,人工智能学科的 创始人希望通过对人脑智能活动规律的研究和模 拟,来克服上述“算法危机”,使计算机更聪明和 有用。这就是狭义人工智能学科诞生的原由。由 此可见,当时的科学家已经发现,仅仅依靠数 学+程序是无法模拟人脑智能的。人工智能工作 者最早发现的智能因素就是带有经验色彩的“启 发式搜索原理”,它对刚性逻辑的有效使用具有必 不可少的辅助作用。进而人们又通过专家系统的 成功发现,各专门领域中通过经验归纳形成的专 家知识,它们虽然不满足刚性逻辑的约束,却是 “人更聪明”的重要因素,验证了“知识就是力量” 的真理。 20 世纪 80 年中期代爆发的人工智能“理论危 机”无情地揭露了刚性逻辑、启发式搜索原理和 经验知识推理的应用局限性:首先,刚性逻辑本 身的推理效率十分低下,如果没有启发式知识的 引导,单纯机械式地按照刚性逻辑的规则进行推 理,算法的指数复杂度必然带来组合爆炸,计算 机的时空资源迅速被吞噬殆尽;其次,在启发式 搜索和经验知识推理中,客观存在的各种不确定 性和演化过程都超出了刚性逻辑的有效适用范 围,尽管出现了一些非标准逻辑 (如模糊逻辑、概 率逻辑和有界逻辑等) 能解决某些实际问题,但 有时会出现违反常识的异常结果,这说明非标准 逻辑在理论上并不成熟可靠,无法在人工智能中 安全可靠地使用。要有效解决包含各种不确定性 和演化的现实问题,只能寄希望于尽快建立数理 辩证逻辑理论体系,可是在当时的情况下,学术 界的思想和理论准备都严重不足,建立数理辩证 逻辑谈何容易! 在这种数理辩证逻辑严重缺位的背景下,人 工智能研究的主流不得不偏离刚性逻辑和经验性 知识推理的老方向,转入到完全不依赖逻辑和经 验知识支撑,仅仅依靠数据统计的神经网络、计 算智能、多 Agent 和统计机器学习的新方向。应 该说这个研究新方向的出现也是具有积极意义 的,它体现了人类智能另外的某些特征,能够有 效地解决一些智能模拟问题,所以曾经推动人工 智能的发展进入第二次高潮。后来人们为了克服 神经网络、计算智能、多 Agent 和统计机器学习中 的“局部极值”瓶颈,又在深度学习和深度神经网 络中,依靠大数据和云计算,不惜耗费巨大的计 算资源,义无反顾地连续使用数据统计法来增加 神经网络的中间层次,从几层、几十层增加到几 百层甚至几千层来拟合海量数据,根本忘记了二 值神经元和布尔逻辑算子原本具有等价关系的基 本属性。深度神经网络这种不惜一切代价取得的 成功,反过来鼓励一些学者产生臆想:“深度神经 网络的中间层次越多,获得的结果会越精准!”, 而且“神经网络是无需逻辑和知识的智能,没有发 展瓶颈”。这种盲目乐观的思潮弥漫在当今的人 工智能学界,似乎现在的深度神经网络能够把第 三次浪潮一直推动下去,它是人工智能学科发展 的最终方向! “物极必反”是自然的一条重要发展规律,在 盲目乐观思潮弥漫的今天,已有一些著名的人工 智能学者在讨论现有人工智能面临的局限性[4] : 1) 有智能没有智慧,无意识和悟性,缺乏综合决 策能力;2) 有智商没有情商,机器对人的情感理 解与交流还处于起步阶段; 3) 会计算不会“算 计”,人工智能可谓有智无心,更无人类的谋略; 4) 有专才无通才,会下围棋的不会下象棋。归纳 起来说,目前人工智能发展正面临着六大发展瓶 颈:1) 数据瓶颈,需要海量的有效数据支撑;2) 泛 化瓶颈,深度学习的结果难于推广到一般情况; 3) 能耗瓶颈,大数据处理和云计算的能耗巨大; 4) 语义鸿沟瓶颈,在自然语言处理中存在语义理 解鸿沟;5) 可解释性瓶颈,人类无法知道深度神 经网络结果中的因果关系;6) 可靠性瓶颈,无法 确认人工智能结果的可靠性。由此可知,人工智 能的发展正面临又一次的发展瓶颈,本文统称为 “可解释性瓶颈”。这些应用局限性和发展瓶颈对 于人类智能来说并不明显存在,为什么却在当今 的人工智能研究中成了难以逾越的巨大困难?笔 者认为这些困难是由无视逻辑和知识在智能中的 重要价值,过度依赖数据统计和深度神经网络引 起的。 2011 年图灵奖得主 Judea Pearl 是曾在 20 世 纪 80 年代推动机器以概率 (贝叶斯网络) 方式进 行推理的领头人,现在他却指出:深度学习所取 得的所有成就都只是根据 (有效) 数据进行的曲 线拟合,AI 已陷入概率关联泥潭,它不能完全体 现智能的真正含义。跳出泥潭的关键措施是用因 果推理来代替关联推理,在 AI 中一旦因果关系就 位,机器就有可能提出反事实问题,询问因果关 系在某些干预下会如何变化,这才是科学思考的 基础。所以只有因果推理才能使机器具有类人智 能,有效地与人类交流互动。也只有这样,机器 才能获得道德实体的地位,具有自由意志和运用 ·396· 智 能 系 统 学 报 第 14 卷
第3期 何华灿:重新找回人工智能的可解释性 ·397· 人类谋略的能力。 人类智能的第二个重要特征是:为有效管理 1.3重温人类智慧的两个重要特征 和使用已知的各种知识,必须把它们分门别类地 人类智能的第一个重要特征是:在智能活动 一层一层向上分类、归纳、抽象,形成由不同粒度 中需要机动灵活且恰如其分地使用各种行之有效 知识组成的多层次网状结构。比如大家熟悉的地 的方法,相互配合起来才能取得事半功倍的效 图知识,在范围最小的村落里,每户人家可是一 果。例如:人在识别汉字的过程中,会合理使用 个原子结点,它们通过原子道路相互连通。图5 数据统计法和结构分析法(逻辑关系)于不同场 是一个高度简化了的村落级地图,图中用5个原 合,以便获得最佳识别效果。又如:在认识汉字 子结点代表有限n户人家,用全互连图代表原子 的基本笔划(如、一、「、ノ、、)阶段,最有效 道路的分布状况(w,=1表示此路通畅,w,=0表示 的方法是图像数据统计法,而在此基础上进一步 此路不通),形成了一个村落内部的刚性关系网 有效区分不同的汉字(如一、二、三、十、土、王、 络。利用这个关系网络可以解决村落内部的各种 玉、五、八、人、人、大、太、天、夫等)阶段,最有 交通路径规划问题,图5中画出来的因果决策树 效的方法则是结构分析法(逻辑关系),如果一味 就是为规划“从d家到a家”去做客的最佳路径规 使用图像数据统计法一竿子插到底,在区分复杂 划,它可根据任务从刚性关系网络中诱导出来, 结构的汉字(如逼、逋、迥、遒)时,速度和识别率 并按照道路的实时通畅情况,选择完成任务的最 会严重下降,事倍功半。 佳路径。 1+a W ★原子结点 任务:从d点到a点的最佳路径。约束:,∈0,1} (a)易管理空间的背景关系网 (b)表示因果关系的与/域决策树 图5村落地图和与或决策树 Fig.5 Village map and AND/OR decision tree 这个决策过程可用刚性逻辑或二值神经网络 一个实际难解、解了也无法说清楚的笨方法。人 来实现:1)决策树中有16条不同的路径可供选 类使用的有效方法是:在有关村落级地图的基础 择,彼此之间是“或”的关系,即只要有一条路径 上,进一步利用粒度更大的乡镇级地图(其中的 畅通这个问题就有解;2)如果一条路径经过的所 观察粒度增大到一个村落)和地市级地图(其中 有边都是畅通的,则这条路径是畅通的,即同一 的观察粒度增大到一个乡镇)来分层次地逐步解 个路径中经过的不同边之间是“与”的关系;3)在 决“从d"镇d'村d家到a"镇a'村a家”的最佳路径 多条路径都畅通时,选择经过边数最少的路径为 规划问题(见图6)。 “最佳解”。 在一个自然村落范围内,上述用原子级关系 网络诱导出与/或决策树来寻找最佳路径的过程 是绝对有效的,并在理论上有刚性逻辑和二值神 经网络的支撑。那么,是否能够无限制扩大这种 绝对有效方法的应用范围呢?人类的社会实践早 已做出了否定的回答,因为随着决策范围的不断 一级分子结点 二级分子结点 扩大,涉及的原子信息(结点和边)会成几何级数 (a)乡镇地图 b)城市地图 地增多,其中绝大部分是与待解问题毫无关系的 图6乡镇地图和地市地图的简化表示 因素,如果把它们全部牵扯进来,不仅于事无补, Fig.6 Simplified representation of district map and muni- 反而使问题的复杂度成几何级数快速增大,成为 cipal map
人类谋略的能力。 1.3 重温人类智慧的两个重要特征 人类智能的第一个重要特征是:在智能活动 中需要机动灵活且恰如其分地使用各种行之有效 的方法,相互配合起来才能取得事半功倍的效 果。例如:人在识别汉字的过程中,会合理使用 数据统计法和结构分析法 (逻辑关系) 于不同场 合,以便获得最佳识别效果。又如:在认识汉字 的基本笔划 (如︑、ー、〡、ノ、ヽ) 阶段,最有效 的方法是图像数据统计法,而在此基础上进一步 有效区分不同的汉字 (如一、二、三、十、土、王、 玉、五、八、人、入、大、太、天、夫等) 阶段,最有 效的方法则是结构分析法 (逻辑关系),如果一味 使用图像数据统计法一竿子插到底,在区分复杂 结构的汉字 (如逼、逋、迥、遒) 时,速度和识别率 会严重下降,事倍功半。 人类智能的第二个重要特征是:为有效管理 和使用已知的各种知识,必须把它们分门别类地 一层一层向上分类、归纳、抽象,形成由不同粒度 知识组成的多层次网状结构。比如大家熟悉的地 图知识,在范围最小的村落里,每户人家可是一 个原子结点,它们通过原子道路相互连通。图 5 是一个高度简化了的村落级地图,图中用 5 个原 子结点代表有限 n 户人家,用全互连图代表原子 道路的分布状况 (wi=1 表示此路通畅,wi=0 表示 此路不通),形成了一个村落内部的刚性关系网 络。利用这个关系网络可以解决村落内部的各种 交通路径规划问题,图 5 中画出来的因果决策树 就是为规划“从 d 家到 a 家”去做客的最佳路径规 划,它可根据任务从刚性关系网络中诱导出来, 并按照道路的实时通畅情况,选择完成任务的最 佳路径。 a e d c w4 w5 w6 w7 w9 w3 w8 w2 w1 w0 原子结点 任务:从 d 点到 a 点的最佳路径。 约束:wi∈{0, 1} d a ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ ∨ w ∧3 w ∧5 w ∧1 w6 w ∧3 w ∧8 w ∧1 w0 w ∧2 w ∧8 w ∧5 w0 w ∧2 w ∧1 w ∧5 w4 w ∧7 w ∧1 w ∧8 w4 w ∧7 w ∧5 w ∧8 w6 w ∧3 w ∧5 w0 w ∧3 w ∧8 w6 w ∧2 w ∧8 w4 w ∧2 w ∧1 w0 w ∧7 w ∧5 w4 w ∧7 w ∧1 w6 w ∧3 w4 w ∧2 w6 w ∧7 w0 w9 (a) 易管理空间的背景关系网 (b) 表示因果关系的与/或决策树 图 5 村落地图和与/或决策树 Fig. 5 Village map and AND/OR decision tree 这个决策过程可用刚性逻辑或二值神经网络 来实现: 1) 决策树中有 16 条不同的路径可供选 择,彼此之间是“或”的关系,即只要有一条路径 畅通这个问题就有解;2) 如果一条路径经过的所 有边都是畅通的,则这条路径是畅通的,即同一 个路径中经过的不同边之间是“与”的关系;3) 在 多条路径都畅通时,选择经过边数最少的路径为 “最佳解”。 在一个自然村落范围内,上述用原子级关系 网络诱导出与/或决策树来寻找最佳路径的过程 是绝对有效的,并在理论上有刚性逻辑和二值神 经网络的支撑。那么,是否能够无限制扩大这种 绝对有效方法的应用范围呢?人类的社会实践早 已做出了否定的回答,因为随着决策范围的不断 扩大,涉及的原子信息 (结点和边) 会成几何级数 地增多,其中绝大部分是与待解问题毫无关系的 因素,如果把它们全部牵扯进来,不仅于事无补, 反而使问题的复杂度成几何级数快速增大,成为 一个实际难解、解了也无法说清楚的笨方法。人 类使用的有效方法是:在有关村落级地图的基础 上,进一步利用粒度更大的乡镇级地图 (其中的 观察粒度增大到一个村落) 和地市级地图 (其中 的观察粒度增大到一个乡镇) 来分层次地逐步解 决“从 d″镇 d′村 d 家到 a″镇 a′村 a 家”的最佳路径 规划问题 (见图 6)。 a ′ e ′ b ′ d ′ c ′ w′ 4 w′ 0 w′ 5 w′ 9 w′ 6 w′ 8 w′ 7 w′ 1 w′ 2 w′ 3 a ″ e ″ b ″ d ″ c ″ w″ 4 w″ 0 w″ 5 w″ 9 w″ 6 w″ 8 w″ 7 w″ 1 w″ 2 w″ 3 一级分子结点 二级分子结点 (a) 乡镇地图 (b) 城市地图 图 6 乡镇地图和地市地图的简化表示 Fig. 6 Simplified representation of district map and municipal map 第 3 期 何华灿:重新找回人工智能的可解释性 ·397·
·398· 智能系统学报 第14卷 图6是一个高度简化了的乡镇级地图和地市 两个国家级地图和国内航空信息网站上找到最佳 级地图,图中仍然用5个结点代表有限n个观察 航线和最佳航班信息;最后,根据两个底层子任 结点,不同的是它们都是有内部结构的分子结 务“从西北工业大学到西安市咸阳机场”和“从匹 点,仍然用全互连图代表分子结点之间的连通状 兹堡机场到匹兹堡大学”,分别在两个城市级地图 况,不同的是,内部可能存在复杂的分子结构, 上根据当地实时发布的道路交通状况找到最佳的 不是简单的通或不通关系。这样就把一个在原子 开车路线。 层面十分复杂的最佳路径规划问题,转化成几个 这种通过多层规划来解决复杂问题的聪明做 相对简单得多的3个不同层面内部和层面之间的 法本质上是一种主动引入和合理利用不确定性的 最佳路径规划子问题进行求解,整体的复杂度可 方法,它突破了传统问题求解观念的约束。传统 以大大降低。请读者注意:图6里的分子结点 问题求解观念认为,在解决问题时应努力消除各 “d'村”有两层含义,对内讲它包含村落里的全部 种不确定性,实在不能消除也要尽可能地避免不 内容,对外讲它是一个代表本村落与其他村落的 确定性推理,以便使用有可靠数学基础的刚性逻 联通结点(如村政府、公交车站、水运码头等), 辑或二值神经网络解决。但是随着问题复杂度的 d"镇的含义也与此类似。利用图6来分层求解最 不断增长,其时空开销会迅速达到无法实际操作 佳路径的过程:首先在地市级地图上解决“从 的程度,人们不得不适时地进行分类、归纳和抽 d"镇到a"镇”的最佳路径规划问题,然后分别去 象,主动离开具有最细粒度和确定性的原子信息 到两个乡镇级地图上解决“从d'村到d"镇”的最 状态,果断进入具有较粗粒度和不确定性的分子 信息状态。图7从时空开销(即易操作性)的角度 佳路径规划问题和“从a"镇到a'村”的最佳路径规 给出了详细解释。通过归纳不难发现,n原子信 划问题,最后再分别到两个村落级地图上解决 息系统会形成由N=2”个不同状态组成的偏序空 “从d家离开d'村”的最佳路径规划问题和“从 间,其复杂度会迅速增加到天文数字。如果忽略 a'村进人a家”的最佳路径规划问题。 这些精确的偏序关系,用统计原子信息出现数目 当今社会每天都在成亿次地产生制定国际国 的方法把它映射到全序空间,其状态数可立即降 内旅游路径规划问题,对人类社会来讲这个过程 低为N=1+n的线性复杂度(信息压缩了2”1+n)倍)。 已经十分轻松,没有太大的困难。这是如何做到 所以,在众多原子信息组成的系统中,除了特殊 的呢?首先是因为各国已经事先准备好了各个地 需要外,人们会主动离开过度精细的偏序空间, 区不同层面的交通路线图备客户使用,其次是因 大胆进入到比较实用的全序空间,而不在乎它带 为各个业务部门都有实时更新的交通工具运行时 来的不确定性,这是人类智慧的高度体现,深度神 间和价格等信息发布。有这些背景知识和信息的 经网络忽略了这个重要的人类智慧。 存在,即可快速支持任意范围内任意两点之间的 为让读者增强对主动引入和合理利用不确定 旅游路径规划问题。例如:有人要从中国西安市 性意义的认识,图8给出了学生们十分熟悉的“理 西北工业大学去美国匹兹堡市匹兹堡大学讲学, 想试卷模型”。设卷中有100道原子状态的是/非 其旅游路径规划不必从包含每家每户的世界地图 题(答对一道题得1分,否则得0分,没有中间过 上(当今世界每一个自然村落都有详细的地图, 渡分数存在),用具有确定性的刚性逻辑来描述 只要你不计成本和时空开销,一定可把它们全部 这个试卷,它是一个100维的二值逻辑,可精确 拼接在一张世界地图上)去寻找,因为这个“最佳 描述到每一道题的得分情况,排列组合共有2= 解”即使你用深度神经网络和云计算不计成本地 1267650600228229401496703205376≈ 找到了,它肯定是人类难以理解和解释清楚的“黑 1.26765×100种不同的答题状态,它们组成了一 箱解”,在这个“黑箱解”的某个小环节突然出现异 个100维的偏序空间。在现实生活中需要知道如 常时,更无法知道如何调整这个最佳路径规划。 此精准状态描述的只有阅卷老师和学生本人,其 人类的做法不会如此愚钝,首先,他会根据顶层 他人只需要知道他在101种不同状态组成的全序 子任务“从中国到美国”在世界级地图和国际航空 空间中的某个分数状态(图中是90分)即可,信息 信息网站上找到从中国到美国的最佳航线和最佳 压缩比是(1.26765×1030)/101=1.255099×108倍。 航班信息,比如选择了某日某某航班从北京市的 而且就是这个90分本身也包含不确定性,因为尽 首都国际机场飞美国纽约市的纽瓦克机场;其 管你确切知道他有10道题答错了,但仍然不知道 次,根据两个中层子任务“从西安市到北京市首都 错的是哪10道题,只知道它是2°-1024种不同 国际机场”和“从纽瓦克机场到匹兹堡市”,分别在 错误状态中的一种。可见,在人类智能活动中,不
图 6 是一个高度简化了的乡镇级地图和地市 级地图,图中仍然用 5 个结点代表有限 n 个观察 结点,不同的是它们都是有内部结构的分子结 点,仍然用全互连图代表分子结点之间的连通状 况,不同的是 wi 内部可能存在复杂的分子结构, 不是简单的通或不通关系。这样就把一个在原子 层面十分复杂的最佳路径规划问题,转化成几个 相对简单得多的 3 个不同层面内部和层面之间的 最佳路径规划子问题进行求解,整体的复杂度可 以大大降低。请读者注意:图 6 里的分子结点 “d′村”有两层含义,对内讲它包含村落里的全部 内容,对外讲它是一个代表本村落与其他村落的 联通结点 (如村政府、公交车站、水运码头等), d″镇的含义也与此类似。利用图 6 来分层求解最 佳路径的过程:首先在地市级地图上解决“从 d″镇到 a″镇”的最佳路径规划问题,然后分别去 到两个乡镇级地图上解决“从 d′村到 d″镇”的最 佳路径规划问题和“从 a″镇到 a′村”的最佳路径规 划问题,最后再分别到两个村落级地图上解决 “从 d 家离开 d ′村”的最佳路径规划问题和“从 a′村进入 a 家”的最佳路径规划问题。 当今社会每天都在成亿次地产生制定国际国 内旅游路径规划问题,对人类社会来讲这个过程 已经十分轻松,没有太大的困难。这是如何做到 的呢?首先是因为各国已经事先准备好了各个地 区不同层面的交通路线图备客户使用,其次是因 为各个业务部门都有实时更新的交通工具运行时 间和价格等信息发布。有这些背景知识和信息的 存在,即可快速支持任意范围内任意两点之间的 旅游路径规划问题。例如:有人要从中国西安市 西北工业大学去美国匹兹堡市匹兹堡大学讲学, 其旅游路径规划不必从包含每家每户的世界地图 上 (当今世界每一个自然村落都有详细的地图, 只要你不计成本和时空开销,一定可把它们全部 拼接在一张世界地图上) 去寻找,因为这个“最佳 解”即使你用深度神经网络和云计算不计成本地 找到了,它肯定是人类难以理解和解释清楚的“黑 箱解”,在这个“黑箱解”的某个小环节突然出现异 常时,更无法知道如何调整这个最佳路径规划。 人类的做法不会如此愚钝,首先,他会根据顶层 子任务“从中国到美国”在世界级地图和国际航空 信息网站上找到从中国到美国的最佳航线和最佳 航班信息,比如选择了某日某某航班从北京市的 首都国际机场飞美国纽约市的纽瓦克机场;其 次,根据两个中层子任务“从西安市到北京市首都 国际机场”和“从纽瓦克机场到匹兹堡市”,分别在 两个国家级地图和国内航空信息网站上找到最佳 航线和最佳航班信息;最后,根据两个底层子任 务“从西北工业大学到西安市咸阳机场”和“从匹 兹堡机场到匹兹堡大学”,分别在两个城市级地图 上根据当地实时发布的道路交通状况找到最佳的 开车路线。 这种通过多层规划来解决复杂问题的聪明做 法本质上是一种主动引入和合理利用不确定性的 方法,它突破了传统问题求解观念的约束。传统 问题求解观念认为,在解决问题时应努力消除各 种不确定性,实在不能消除也要尽可能地避免不 确定性推理,以便使用有可靠数学基础的刚性逻 辑或二值神经网络解决。但是随着问题复杂度的 不断增长,其时空开销会迅速达到无法实际操作 的程度,人们不得不适时地进行分类、归纳和抽 象,主动离开具有最细粒度和确定性的原子信息 状态,果断进入具有较粗粒度和不确定性的分子 信息状态。图 7 从时空开销 (即易操作性) 的角度 给出了详细解释。通过归纳不难发现,n 原子信 息系统会形成由 N=2n 个不同状态组成的偏序空 间,其复杂度会迅速增加到天文数字。如果忽略 这些精确的偏序关系,用统计原子信息出现数目 的方法把它映射到全序空间,其状态数可立即降 低为 N=1+n 的线性复杂度 (信息压缩了 2 n /(1+n) 倍)。 所以,在众多原子信息组成的系统中,除了特殊 需要外,人们会主动离开过度精细的偏序空间, 大胆进入到比较实用的全序空间,而不在乎它带 来的不确定性, 这是人类智慧的高度体现,深度神 经网络忽略了这个重要的人类智慧。 为让读者增强对主动引入和合理利用不确定 性意义的认识,图 8 给出了学生们十分熟悉的“理 想试卷模型”。设卷中有 100 道原子状态的是/非 题 (答对一道题得 1 分,否则得 0 分,没有中间过 渡分数存在),用具有确定性的刚性逻辑来描述 这个试卷,它是一个 100 维的二值逻辑,可精确 描述到每一道题的得分情况,排列组合共有 2 100 = 126 7650 6002 2822 9401 4967 0320 5376≈ 1.267 65×1030 种不同的答题状态,它们组成了一 个 100 维的偏序空间。在现实生活中需要知道如 此精准状态描述的只有阅卷老师和学生本人,其 他人只需要知道他在 101 种不同状态组成的全序 空间中的某个分数状态 (图中是 90 分) 即可,信息 压缩比是 (1.267 65×1030)/101=1.255 099×1028 倍。 而且就是这个 90 分本身也包含不确定性,因为尽 管你确切知道他有 10 道题答错了,但仍然不知道 错的是哪 10 道题,只知道它是 2 10=1 024 种不同 错误状态中的一种。可见,在人类智能活动中,不 ·398· 智 能 系 统 学 报 第 14 卷
第3期 何华灿:重新找回人工智能的可解释性 ·399· 仅客观上无法避免不确定性,而且为了提高决策 度越大,其中忽略的无关信息就越多,引入的不 效率需要忽略大量无关信息,主动引入不确定性。 确定性就越大。由此可见,在深度神经网络中, 不难理解:决策的抽象层次越高,涉及的知识粒 有意无视逻辑和知识的作用是一种方向性错误。 维刚性逻辑了 119 二维刚性逻辑 四维刚性逻辑 全序控间 10食偏序空间0中 00 1111 1111◆ 状态数N=2 00 0m0 (a)1个原子 状态数N=22=4 全序空间 1110 0111 信息系统 b)2个原子信息系统 10 01m 010 00 0011 1100豪 001010 0001 110 000 三维刚性逻辑 101e 011 1000 01 01000 010 0019 偏序空间 0000 100。 状态数W=24=16 全序空间 状态数N=23=8 偏序空间 000 000● (c)3个原子信息系统 全序空间 (d)4个原子信息系统 一般规律:n原子信息系统的偏序空间状态数是N=2,全序空间状态数是=1+切 图7从确定的原子状态进入不确定性的分子状态 Fig.7 From the determined atomic state to the molecular state of uncertainty 确定性描述: 成果等。3)思想品德。重点是学生参与党团活 每一个知识点x∈0,1} 动、有关社团活动、公益劳动、志愿服务等的次 看种 数、持续时间。4)身心健康。重点是《国家学生 优点:能确知每个知识点的情况 体质健康标准》测试主要结果,体育运动特长项 不确定性描述: 目,参加体育运动的效果,应对困难和挫折的表 成绩1=90∈{0,1,2,…,100} 现等。5)社会实践。重点是学生参加实践活动的 100个知识点,每点1分 总共有=101种状态 理想试卷模型 优点:整体把握知识的掌握水平 次数、持续时间,形成的作品、调查报告等。这个 图8从试卷模型看确定性和不确定性的关系 评价模型就是“超级试卷模型”,它需要考察学生 Fig.8 A test paper model is used to illustrate the relation- 的5个关键信息,如果每个关键信息又分20方 ship between certainty and uncertainty 面,一共是100个方面(相当于100个1分题)。而 从更广泛的应用背景看,图8给出的“理想试 这100个方面又是根据学生过去在学校学习各种 卷模型”还可以嵌套升级成为“超级试卷模型”,即 课程的历次成绩、在社会实践和公益活动中的历 试卷中的每一道题可不是是/非题(原子题),而是 次表现、在科研活动中的创新性表现、本人的团 具有中间过渡分数的复杂题(分子题),相当于每 队精神、在经受挫折时表现出坚韧性、面试中获 一道1分的题都是一个像图8一样的“理想试卷 得的各种印象等组成(其中的每一个原子事件都 模型”,由100个原子题目组成,其得分可在0, 相当于0.01分题)。所以这个“超级试卷模型”也 0.01,0.02,…,0.99,1分之间变化。这种“超级试卷 是从原子信息开始评分的,不同的是评分者不是 模型”有什么用?用处太广泛着呢,它几乎无处不 一个人,而是由不同时期的负责人或任课老师一 在!如我国教育部正在考虑从幼升小到高考都要 级一级不断抽象上来的,大部分的中间分数已经 全面改革,把综合素质教育和评价纳入其中。在 反映在学生的档案材料之中,招生录取老师只是 高考录取中对学生综合素质评价的规定如下: 完成最后的分数汇总,一般不需要深入到原子信 1)学业水平。重点是学业水平考试成绩、选修课 息层面去了解详细细节。 程内容和学习成绩、研究性学习与创新成果等, 当然,要解决比原子信息处理层次更高的分 特别是具有优势的学科学习情况。2)艺术素养。 子信息处理问题,就需要抽象层次更高的柔性逻 重点是在音乐、美术、舞蹈、戏剧、戏曲、影视、书 辑和柔性神经元的参与,这是重新找回人工智能 法等方面表现出来的兴趣特长,参加艺术活动的 可解释性的理论关键
仅客观上无法避免不确定性,而且为了提高决策 效率需要忽略大量无关信息,主动引入不确定性。 不难理解:决策的抽象层次越高,涉及的知识粒 度越大,其中忽略的无关信息就越多,引入的不 确定性就越大。由此可见,在深度神经网络中, 有意无视逻辑和知识的作用是一种方向性错误。 一维刚性逻辑 二维刚性逻辑 四维刚性逻辑 1111 1110 1010 1101 1011 1001 0110 1100 1000 0010 0100 0000 0101 0001 0111 1111 1110 1101 1011 0111 0011 1100 1010 0110 0101 1000 0100 0010 三维刚性逻辑 0001 全序空间 全序空间 全序空间 全序空间 状态数 N=21 状态数 N=22 =4 状态数 N=23 =8 状态数 N=24 =16 10 00 01 11 111 111 110 110 100 100 101 101 010 010 011 011 001 001 000 000 偏序空间 偏序空间 一般规律:n 原子信息系统的偏序空间状态数是 N=2n , 全序空间状态数是 N=1+n 偏序空间 11 10 01 00 (a) 1 个原子 信息系统 (c) 3 个原子信息系统 (d) 4 个原子信息系统 (b) 2 个原子信息系统 1 0 图 7 从确定的原子状态进入不确定性的分子状态 Fig. 7 From the determined atomic state to the molecular state of uncertainty 确定性描述: 每一个知识点 xi∈{0, 1} 成绩 x= 总共有 N=2100 种状态 优点:能确知每个知识点的情况 不确定性描述: 成绩 x=90∈{0, 1, 2, …, 100} 总共有 N=101 种状态 优点:整体把握知识的掌握水平 100 个知识点,每点 1 分 理想试卷模型 图 8 从试卷模型看确定性和不确定性的关系 Fig. 8 A test paper model is used to illustrate the relationship between certainty and uncertainty 从更广泛的应用背景看,图 8 给出的“理想试 卷模型”还可以嵌套升级成为“超级试卷模型”,即 试卷中的每一道题可不是是/非题 (原子题),而是 具有中间过渡分数的复杂题 (分子题),相当于每 一道 1 分的题都是一个像图 8 一样的“理想试卷 模型”,由 100 个原子题目组成,其得分可在 0, 0.01, 0.02, ···, 0.99, 1 分之间变化。这种“超级试卷 模型”有什么用?用处太广泛着呢,它几乎无处不 在!如我国教育部正在考虑从幼升小到高考都要 全面改革,把综合素质教育和评价纳入其中。在 高考录取中对学生综合素质评价的规定如下: 1) 学业水平。重点是学业水平考试成绩、选修课 程内容和学习成绩、研究性学习与创新成果等, 特别是具有优势的学科学习情况。2) 艺术素养。 重点是在音乐、美术、舞蹈、戏剧、戏曲、影视、书 法等方面表现出来的兴趣特长,参加艺术活动的 成果等。3) 思想品德。重点是学生参与党团活 动、有关社团活动、公益劳动、志愿服务等的次 数、持续时间。4) 身心健康。重点是《国家学生 体质健康标准》测试主要结果,体育运动特长项 目,参加体育运动的效果,应对困难和挫折的表 现等。5) 社会实践。重点是学生参加实践活动的 次数、持续时间,形成的作品、调查报告等。这个 评价模型就是“超级试卷模型”,它需要考察学生 的 5 个关键信息,如果每个关键信息又分 20 方 面,一共是 100 个方面 (相当于 100 个 1 分题)。而 这 100 个方面又是根据学生过去在学校学习各种 课程的历次成绩、在社会实践和公益活动中的历 次表现、在科研活动中的创新性表现、本人的团 队精神、在经受挫折时表现出坚韧性、面试中获 得的各种印象等组成 (其中的每一个原子事件都 相当于 0.01 分题)。所以这个“超级试卷模型”也 是从原子信息开始评分的,不同的是评分者不是 一个人,而是由不同时期的负责人或任课老师一 级一级不断抽象上来的,大部分的中间分数已经 反映在学生的档案材料之中,招生录取老师只是 完成最后的分数汇总,一般不需要深入到原子信 息层面去了解详细细节。 当然,要解决比原子信息处理层次更高的分 子信息处理问题,就需要抽象层次更高的柔性逻 辑和柔性神经元的参与,这是重新找回人工智能 可解释性的理论关键。 第 3 期 何华灿:重新找回人工智能的可解释性 ·399·
·400· 智能系统学报 第14卷 2 从刚性信息处理到柔性信息处理 数学成绩,可在0%~100%之间变化)4(0),需要在 的扩张过程和已有结果 因素空间(类似于“理想试卷模型”)E中去找到与 对象u对应的刚性集合(即学生“的数学答卷)X, 2.1柔性命题真度的确定方法 求出X的概率测度m()来(类似于评出学生u答 要妥善解决好不确定性的描述和信息处理过 对试题所占的百分比)。用逻辑语言描述是:U中 程,首先需要把建立在刚性集合(即分明集合、经 柔性命题的真度为 典集合)基础上的刚性命题的真值x∈{0,1},扩张 μ(W=mzd(VxP(x),x∈E) 到建立在柔性集合(即不分明集合、模糊集合)基 即E中谓词公式xP(x)的满足度。 础上的柔性命题的真度x∈[0,1]。在逻辑上应该 2.2完成柔性信息处理扩张的总路线图 如何来实现这种扩张呢?本文使用的方法就是从 回过头来总结我们团队20余年来的探索经 “理想试卷模型”中抽象出来的(见图9)。 历,完成刚性逻辑到柔性逻辑扩张的总路线图 (见图10),其起点是完全承认刚性信息处理理论 对象空间U 在A内= 在柔性信息处理理论中基础平台的核心地位,根 00m 柔性命题的其度 本不需另起炉灶,推倒重来。 刚性集合A u在A外u=0 4(u=mzd(VxP(x),x∈E 在分明集合中的刚性判断4 扩张的第一步是把刚性命题的真值x∈{0, 即xPx)的满足度 (a)刚性命题的真值 1}扩张为柔性命题的真度x∈[0,1],而各种算子 的计算公式=「[ar+by-e]仍然保持不变。这样就 对象空间U 因素空间E 映射 映射mE, 把刚性信息处理的16种模式(见图3)直接扩张 刚性集合X 其他,0<(a水1 为柔性信息处理基模型中的16种信息处理模式 柔性集合A X=中,4(u=0 (见图11)。在图11中另外增加了4种新的信息 在不分明集合中的柔性判断=m× (b)柔性命题的真度 处理模式,它们都是由于中间过渡值的参与而形 图9柔性命题真度的逻辑意义 成的,其中包括平均运算=「[0.5x+0.5y)和非平均 Fig.9 Logical meaning of the truth degree of the flexible 运算=1-「[0.5x+0.5y,组合运算=T[x+y-e和非 proposition 组合运算=l-「[x+y-e],这里的决策阈值可连续 在对象空间U内,是边界不清晰的柔性集 变化e∈[0,1],不再是固定的整数。这20种基模 合(类似于一个班级的数学成绩单),任意元素(类 型的信息处理模式在图11中有详细描述,以后还 似于一个学生)u∈的隶属度(类似于这个学生的 会重点讲解。 a)基础:从刚性逻辑出发 d第三步:进一步引入误差系数 e)第四步:进一步引入权重系数B∈[0,1],形成 x,yz∈{0,1} 0 k∈0,1】,形成二维柔性逻辑谱 三维逻辑逻辑谱L(kh,)其中包含柔性命题和 布尔逻辑算子=MP神经元 L(化)其中包含可能推理、似然 柔性神经元需要的所有算子 推理、信任推理和必然推理 b)第一步:将二值扩张为连续值 x八,ΞE{0,1} 在有界逻辑基础上建立基模琴 1 可能推理 确定性B 不确定性h1 0.75似然推理 00.250.500.2751.00 0.25 0.500.75 突变 有界概率模糊 逻辑 逻辑逻辑逻辑 c)第二步:在基模型基础上引人 0.25信任推理 义相关系数h∈0.11.形成一维柔性 逻辑谱(,其中包含模糊逻辑 概率逻辑、有界逻辑和突变逻辑 0 必然推理 图10从刚性逻辑到柔性逻辑的扩张总路线图 Fig.10 General line map from rigid logic to flexible logic
2 从刚性信息处理到柔性信息处理 的扩张过程和已有结果 2.1 柔性命题真度的确定方法 要妥善解决好不确定性的描述和信息处理过 程,首先需要把建立在刚性集合 (即分明集合、经 典集合) 基础上的刚性命题的真值 x∈{0, 1},扩张 到建立在柔性集合 (即不分明集合、模糊集合) 基 础上的柔性命题的真度 x∈[0, 1]。在逻辑上应该 如何来实现这种扩张呢?本文使用的方法就是从 “理想试卷模型”中抽象出来的 (见图 9)。 对象空间 U 对象空间 U 因素空间 E 柔性集合 A 刚性集合 X 映射 m(x) X=E, μ(u)=1 其他, 0<μ(u)<1 X=Φ, μ(u)=0 在不分明集合中的柔性判断 μ=m×f (b) 柔性命题的真度 0 0 1 1 u u 刚性集合 A 映射 f u 在 A 内 μ(u)=1 u 在 A 外 μ(u)=0 μ 在分明集合中的刚性判断 μ (a) 刚性命题的真值 柔性命题的真度 μ(u)=mzd(∀xP(x), x∈E) 即 ∀xP(x) 的满足度 0<μ(u)<1 ~ 图 9 柔性命题真度的逻辑意义 Fig. 9 Logical meaning of the truth degree of the flexible proposition 在对象空间 U 内, Ã是边界不清晰的柔性集 合 (类似于一个班级的数学成绩单),任意元素 (类 似于一个学生)u∈Ã的隶属度 (类似于这个学生的 数学成绩,可在 0%~100% 之间变化)μ(u),需要在 因素空间 (类似于“理想试卷模型”)E 中去找到与 对象 u 对应的刚性集合 (即学生 u 的数学答卷)X, 求出 X 的概率测度 m(X) 来 (类似于评出学生 u 答 对试题所占的百分比)。用逻辑语言描述是:U 中 柔性命题的真度为 µ(u) = mzd(∀xP(x), x ∈ E) 即 E 中谓词公式 ∀ xP(x) 的满足度。 2.2 完成柔性信息处理扩张的总路线图 回过头来总结我们团队 20 余年来的探索经 历,完成刚性逻辑到柔性逻辑扩张的总路线图 (见图 10),其起点是完全承认刚性信息处理理论 在柔性信息处理理论中基础平台的核心地位,根 本不需另起炉灶,推倒重来。 扩张的第一步是把刚性命题的真值 x∈{0, 1}扩张为柔性命题的真度 x∈[0, 1],而各种算子 的计算公式 z=Γ[ax+by−e]仍然保持不变。这样就 把刚性信息处理的 16 种模式 (见图 3) 直接扩张 为柔性信息处理基模型中的 16 种信息处理模式 (见图 11)。在图 11 中另外增加了 4 种新的信息 处理模式,它们都是由于中间过渡值的参与而形 成的,其中包括平均运算 z=Γ[0.5x+0.5y]和非平均 运算 z=1−Γ[0.5x+0.5y],组合运算 z=Γ[x+y−e]和非 组合运算 z=1−Γ[x+y−e],这里的决策阈值可连续 变化 e∈[0, 1],不再是固定的整数。这 20 种基模 型的信息处理模式在图 11 中有详细描述,以后还 会重点讲解。 1 1 1 1 1 1 1 0 0 0 0 0 0 0 1 1 1 1 0 O O O 0 0.25 0.50 0.275 1.00 0 a) 基础:从刚性逻辑出发 x, y, z∈{0,1} 布尔逻辑算子≡MP 神经元 b) 第一步:将二值扩张为连续值 x, y, z∈{0,1} 在有界逻辑基础上建立基模型 c) 第二步:在基模型基础上引入广 义相关系数 h∈[0,1], 形成一维柔性 逻辑谱 L(h),其中包含模糊逻辑、 概率逻辑、有界逻辑和突变逻辑 d) 第三步:进一步引入误差系数 k∈[0,1], 形成二维柔性逻辑谱 L(k, h) 其中包含可能推理、似然 推理、信任推理和必然推理 e) 第四步:进一步引入权重系数 β∈[0,1], 形成 三维逻辑逻辑谱L(k, h,β) 其中包含柔性命题和 柔性神经元需要的所有算子 突变 逻辑 有界 逻辑 模糊 逻辑 概率 逻辑 0.25 0.75 0.50 0.75 0.25 O O 信任推理 必然推理 似然推理 可能推理 不确定性 k 不确定性 h 不确定性 β 图 10 从刚性逻辑到柔性逻辑的扩张总路线图 Fig. 10 General line map from rigid logic to flexible logic ·400· 智 能 系 统 学 报 第 14 卷
第3期 何华灿:重新找回人工智能的可解释性 ·401· 关系模式分类 关系模式分类的一般标准 神经元描述 逻辑描述 =ax+by-el @0=0,0g0=0,1片0-1,0y01,1) 0 == =(xVy) 非或 +①1=0,0:7=0,1k宁=1,0%0=1, =--+1=1xy列 ae=- =xy) 非平均 ②0=0,0%1=0,1k0(1,0:0L,1) min(1-x,y=ly→x) = =0一x) 非蕴含2 1=0,051=0,150=-1,0:0=1,1) =1-x = 非x ④0=0,00=0,1方1=1,00=(1,1) smin (x,(1-y)=1-(xy) = 非蕴含1 ⑤1=0,00=0,11=1,0:0=1,1) =1-y = y 非y ⑥0=0,0:1=0,1片1=1,0%0=(1,) lr-川 组合实现r一才 =一xy) 非等价 0== (xAy) 非与 ⑧0=0,0%50=0,1501,0%1=1,1) smin (x,y) = =xAy S +⑧ xe,min(,yhxe,max(红,y 1=0,0h1-e=(0,1(1,0g1=1,1) x+y=2e,=e;min (xy)(xv) == y 指y ①1=0,0%1=0,150=1,0y1=1,) ≥max(1-x),) = x-y 蕴含1 ②0=0,050=0,151=1,051=(1,1) x = 指x ③1=0,0%0=0,1方1-1,0%1=(1,) :amax(a1-y》 = 一→x 蕴含2 +40=0,0=0,1宁=1,0%1=(L,) =好 == :=rVy 学 ⑤1=0,0%:1=0,151-1,0%1=1,1) = 恒真 图11柔性信息处理中的20种基本模式 Fig.11 The 20 basic modes in flexible information processing 后面的3步是在这20种基模型信息处理模 负误差。k对基模型的影响完全反映在N性生成 式基础上,逐步引入误差系数k∈[0,1],广义相关 元完整簇(x,k)=x",ne(0,o)上,其中n= 系数h∈[0,1]和权系数B∈[0,1]的影响,利用三角 -1/1og2k。当n→0时,p(x,0)=ite{0lx=0;1};当 范数理论和有关的公理,证明这些不确定性参数 n=1时,(x,0.5)=x,当n→0o时,(x,1))=ite{1=1; 对基模型的调整程度和方式(见图12),它们是s-”: O;。(x,)对一元运算基模型N(x)的作用方式是 1)命题真度的误差系数ke[0,1,其中=1表 Nx,k)='(N(x,k),),对二元运算基模型Lx,y) 示最大正误差,k=0.5表示无误差,k=0表示最大 的作用方式是L(xy)=(L(x,),0y,),k)。 (x,k) F(x,h) -2.3-9 2Bx 1.0 0.00 0875 0.01 0,750 0.10.20.30 0.125 0 0 001 (c)相对权重调整函数2x 0 07 6.01 0.01 N(xk=b(1-x,K),) L(x,八,k,h,F (F-L(2Fx,k),h), 2(1-F,k),h),h,k) (a)真度误差调整函数x,)(b)广义相关性调整函数Fx,h) (d)调整方式 图123种不确定性参数及其调整函数 Fig.12 Three kinds of uncertainty parameters and their adjustment functions
关系模式分类 0 0=(0, 0); 0=(0, 1); 0=(1, 0); 0=(1, 1) 1=(0, 0); 0=(0, 1); 0=(1, 0); 0=(1, 1) 0=(0, 0); 1=(0, 1); 0=(1, 0); 0=(1, 1) 1=(0, 0); 1=(0, 1); 0=(1, 0); 0=(1, 1) 0=(0, 0); 0=(0, 1); 1=(1, 0); 0=(1, 1) 1=(0, 0); 0=(0, 1); 1=(1, 0); 0=(1, 1) 0=(0, 0); 1=(0, 1); 1=(1, 0); 0=(1, 1) 0= z=Γ[ax+by−e] z≡0 z=¬(x∨y) z=¬(x®y) z=¬(y→x) z=¬(x→y) z=¬(x↔y) z=x↔y z=y z=x→y z=x z=y→x z=x®y z=x∨y z≡1 z=¬(x©e y) z=x©e y z=¬(x∧y) z=x∧y z=¬y z=¬x = = = = = = = = = = = = = = = = 组合实现 |x−y| 组合实现 1−|x−y| z≡1 z≤min ((1−x), (1−y))=1−(x∨y) z≥min ((1−x), (1−y))=1−(x∧y) z≥max ((1−x), y) z≥max (x(1−y)) z≥max (x, y) z= + z=x z≤min (x, (1−y))=1−(x→y) z=1−y z=|x−y| z=1−|x−y| z=y z=1(x©e y) z≤min ((1−x), y)=1−(y→x) z≤min (x, y) x, y= − 2 1 − 图 11 柔性信息处理中的 20 种基本模式 Fig. 11 The 20 basic modes in flexible information processing 后面的 3 步是在这 20 种基模型信息处理模 式基础上,逐步引入误差系数 k∈[0, 1], 广义相关 系数 h∈[0, 1]和权系数 β∈[0, 1]的影响,利用三角 范数理论和有关的公理,证明这些不确定性参数 对基模型的调整程度和方式 (见图 12),它们是[5-7] : 1) 命题真度的误差系数 k∈[0, 1],其中 k=1 表 示最大正误差,k=0.5 表示无误差,k=0 表示最大 负误差。k 对基模型的影响完全反映在 N 性生成 元完整 簇 Φ( x , k ) =x n , n∈(0, ∞) 上,其 中 n= −1/log2k。当 n→0 时,Φ(x, 0)=ite{0|x=0; 1}; 当 n=1 时,Φ(x, 0.5)=x; 当 n→∞时,Φ(x, 1)=ite{1|x=1; 0}。Φ(x, k) 对一元运算基模型 N(x) 的作用方式是 N(x, k)=Φ −1(N(Φ(x, k)), k),对二元运算基模型 L(x, y) 的作用方式是 L(x, y, k)=Φ −1(L(Φ(x, k), Φ(y, k)), k)。 1.0 0.001 0.01 0.1 0.2 0.3 0.5 0.6 0.70.8 0.9 0.99 0.4 0 1 1 1 0.75 1 0.5 0 2 2 0 (a) 真度误差调整函数 Φ(x, k) (b) 广义相关性调整函数 F(x, h) 0 0 0 0.01 0.1 0.4 0.7 1.0 1.5 2.3 4.0 9 ∞ 0 0 −0.01 −0.10 −0.40 −0.70 −1.00 −1.5 −2.3 −9 −4 −∞ N(x,k)=Φ−1(1−Φ(x,k), k) L(x, y, k, h, )= Φ−1(F −1(L(2βF(Φ(x,k),h), 2(1−β) F(Φ(y, k), h), h), k) (d) 调整方式 (c) 相对权重调整函数 2βx 2βx 1 0.875 0.750 0.625 0.50 0.375 0.250 0.125 0 x 0 1 0.01 0.1 0.4 0.7 1.0 1.5 2.3 4.0 9 ∞ 1 1 1 0.999 1 x x x x Φ (x, k) x n F(x, h) x m 图 12 3 种不确定性参数及其调整函数 Fig. 12 Three kinds of uncertainty parameters and their adjustment functions 第 3 期 何华灿:重新找回人工智能的可解释性 ·401·
·402· 智能系统学报 第14卷 2)广义相关系数h∈[0,1],其中:h=1是最大 x;B=0.5表示等权;B=0表示最小偏x。权系数 的相吸关系或者最大的相容关系;h=0.75是独立 B对基模型的影响完全反映在二元运算模型上, 相关关系;h=0.5是最大的相斥关系或者最小的相 其对基模型L(x,y)的作用方式是: 容关系,也就是最弱的敌我关系或者最小相克关 L(x,y.B)=L(2Bx,2(1-B)y) 系;h=0.25是敌我僵持关系;h=0是最强的敌我关 k,h,B三者对二元运算模型(x,y)共同的影 系或者最大的相克关系。广义相关系数h对基模 响方式是: 型的影响全部反映在T性生成元完整簇F(x,)= L(x,y,k,h,B=-(F-(L(2BF((x,k),h),21-B) F(y,k),h),h),k) x",m∈(-o,oo)上,其中:m=(3-4h)/(4h(1-h)。当 如此就获得了20种柔性信息处理算子的完 m→-oo时,Fx,1)=ite{1=1±oo;当m→0时,F(x, 整簇,它包含了柔性信息处理所需要的全部算 0.75)=1+lgx,当m→0时,Fx,0.75)=ite{0=0:1}: 子,可根据应用需要(反映在模式参数和 当m=1时,F(x,0.5)=x;当m→oo时,F(x,0)= 模式内部的调整参数上)有针对性地 ite{1hx=l:0}。 选用。 Fx,h)对6种二元运算基模型Lx,)的影响是 2.3柔性信息处理扩张的过程和结果 L(x.y.h)=F-(L(F(x,h).F(y.h)).h) 图13~22是这20种柔性信息处理模式的扩 3)权系数B∈[0,1],其中:B=1表示最大偏 张过程和结果图,下面重点介绍几个模式。 -) 00 00 01 x+1 (a)刚性逻辑算子 (b)基模型算子 (c)柔性逻辑算子完整簇 图13恒0模式和恒1模式 Fig.13 Constant 0 pattern and constant 1 pattern Vy rVy) V功 -+l 7 1-网 1110 -1=1+) ,可 E-1-Iw十<4国 4模 4号 擎 14号模式 +0 y40 0 0 0, 10 0,x2.o1,1西 件习 #-++<4的 (a)刚性逻辑算子 (b)基模型算子 (c)柔性逻辑算子完整簇 图14非或模式和或模式 Fig.14 N-OR pattern and OR pattern 0x+-0 .0i,10 (,OKL, 4-+可 ,, 3号模式 3号樟 0, 100 ,,1 (a)刚性逻辑算子 b)基模型算子 (c)柔性逻辑算子完整簇 图15非蕴涵2模式和蕴涵2模式 Fig.15 N-IMP-2 pattern and IMP-2 pattern
2) 广义相关系数 h∈[0, 1],其中:h=1 是最大 的相吸关系或者最大的相容关系;h=0.75 是独立 相关关系;h=0.5 是最大的相斥关系或者最小的相 容关系,也就是最弱的敌我关系或者最小相克关 系;h=0.25 是敌我僵持关系;h=0 是最强的敌我关 系或者最大的相克关系。广义相关系数 h 对基模 型的影响全部反映在 T 性生成元完整簇 F(x, h)= x m , m∈(−∞, ∞) 上,其中:m=(3−4h)/(4h(1−h))。当 m→−∞时,F(x, 1)=ite{1|x=1; ±∞}; 当 m→0−时,F(x, 0.75− )=1+lgx; 当 m→0+时,F(x, 0.75+ )=ite{0|x=0; 1}; 当 m=1 时 , F(x, 0.5)=x; 当 m→∞时 , F(x, 0)= ite{1|x=1; 0}。 F(x, h) 对 6 种二元运算基模型 L(x, y) 的影响是 L(x, y,h) = F −1 (L(F(x,h),F(y,h)),h) 3) 权系数 β∈[0, 1],其中:β=1 表示最大偏 x;β=0.5 表示等权;β=0 表示最小偏 x。权系数 β 对基模型的影响完全反映在二元运算模型上, 其对基模型 L(x, y) 的作用方式是: L(x, y, β) = L(2βx,2(1−β)y) k, h, β 三者对二元运算模型 L(x, y) 共同的影 响方式是: L(x, y, k,h, β) =Φ −1 (F −1 (L(2βF(Φ(x, k),h),2(1−β)· F(Φ(y, k),h),h), k) 如此就获得了 20 种柔性信息处理算子的完 整簇,它包含了柔性信息处理所需要的全部算 子,可根据应用需要 (反映在模式参数和 模式内部的调整参数上) 有针对性地 选用。 2.3 柔性信息处理扩张的过程和结果 图 13~22 是这 20 种柔性信息处理模式的扩 张过程和结果图,下面重点介绍几个模式。 1 z z z z z=(x∧¬x)∨(y∧¬y) z=(x∨¬x)∧(y∨¬y) 0# z≡0 15# z≡1 0 号模式 0 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0x+0y−0 −1 1 1 x+y+1 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 15 号模式 0 0 1 0 1 1 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x 1 z z z z z=(x∧¬x)∨(y∧¬y) z=(x∨¬x)∧(y∨¬y) 0# z≡0 15# z≡1 0 号模式 0 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0x+0y−0 −1 1 1 x+y+1 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 15 号模式 0 0 1 0 1 1 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x 1 z z z z z=(x∧¬x)∨(y∧¬y) z=(x∨¬x)∧(y∨¬y) 0# z≡0 15# z≡1 0 号模式 0 0 0 0 1 1 1 0 1 0 0 0 0 0 0 0 0x+0y−0 −1 1 1 x+y+1 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 15 号模式 0 0 1 0 1 1 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x k h β k h β + + (a) 刚性逻辑算子 (b) 基模型算子 (c) 柔性逻辑算子完整簇 图 13 恒 0 模式和恒 1 模式 Fig. 13 Constant 0 pattern and constant 1 pattern 1 z z z z z=¬(x∨y) z=x∨y 1# z=1−Γ[x+y] 14# z=Γ[x+y] 1 号模式 0 0 1 0 1 1 1 0 1 0 0 −1 −1 0 0 −1 −x−y+1 0 1 1 x+y+0 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 14 号模式 0 0 0 0 1 1 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x (a) 刚性逻辑算子 1 z z z z z=¬(x∨y) z=x∨y 1# z=1−Γ[x+y] 14# z=Γ[x+y] 1 号模式 0 0 1 0 1 1 1 0 1 0 0 −1 −1 0 0 −1 −x−y+1 0 1 1 x+y+0 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 14 号模式 0 0 0 0 1 1 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x (b) 基模型算子 1 z z z z z=¬(x∨y) z=x∨y 1 号模式 0 0 1 0 1 1 1 0 1 0 0 −1 −1 0 0 −1 −x−y+1 0 1 1 x+y+0 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 14 号模式 0 0 0 0 1 1 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x k h β k h β 1# z=1−Γ[x+y]+ 14# z=Γ[x+y]+ (c) 柔性逻辑算子完整簇 图 14 非或模式和或模式 Fig. 14 N-OR pattern and OR pattern 1 z z z z z=¬(y→x) z=y→x 2# z=1−Γ[x−y+1] 13# z=Γ[x−y+1] 2 号模式 0 0 0 0 1 1 1 1 1 0 0 0 0 0 0 0 −x+y−0 0 1 1 x−y+1 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 13 号模式 0 0 1 0 1 0 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x (a) 刚性逻辑算子 1 z z z z z=¬(y→x) z=y→x 2# z=1−Γ[x−y+1] 13# z=Γ[x−y+1] 2号模式 0 0 1 0 1 1 1 0 1 0 0 0 0 0 0 0 −x+y−0 0 1 −1 x−y+1 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 13 号模式 0 0 1 0 1 0 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x (b) 基模型算子 1 z z z z z=¬(y→x) z=y→x 2 号模式 0 0 0 0 1 1 1 1 1 0 0 −1 −1 0 0 −1 −x+y−0 1 1 −1 x−y+1 1 1 0 (0, 0) (1, 0)(1, 1) (0, 1) y y y y x x x x z 13 号模式 0 0 1 0 1 0 1 0 1 1 1 1 1 x y z (0, 0) (1, 0)(1, 1) (0, 1) y x k h β k h β 2# z=1−Γ[x−y+1]+ 13# z=Γ[x−y+1]+ (c) 柔性逻辑算子完整簇 图 15 非蕴涵 2 模式和蕴涵 2 模式 Fig. 15 N-IMP-2 pattern and IMP-2 pattern ·402· 智 能 系 统 学 报 第 14 卷