第14卷第6期 智能系统学报 Vol.14 No.6 2019年11月 CAAI Transactions on Intelligent Systems Nov.2019 D0:10.11992/tis.201905044 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190909.1705.006html 图像情境下的数字序列逻辑学习 梁慧中,曹峰,钱宇华23,郭倩,梁新彦 (1,山西大学大数据科学与产业研究院,山西太原030006,2.山西大学计算智能与中文信息处理教育部重点 实验室,山西太原030006:3.山西大学计算机与信息技术学院,山西太原030006) 摘要:针对未知的数字和规则的模式构建问题,本文提供了一种从图像角度解决数字序列逻辑学习问题的手 段。该方法是在计算机不知道图像间关系和图像内包含的内容的意义的前提下,让计算机自主地学习出其中 包含的内在逻辑模式,从而进行数字序列的预测。本文构建了4个大型数据集:Linear序列、Multiplication序 列、Fio序列和Nstd序列.然后使用几种代表性的深度神经网络来完成数字序列逻辑学习任务,并对实验结 果加以分析比较,事实证明,本文所提出的方法在一定程度上可以解决未知的数字和规则的模式构建问题,这 为一系列未知逻辑模式构建任务提供了一种可能性。 关键词:人工智能:逻辑推理;逻辑学习;深度学习:数字序列;图像处理;神经网络:模式构建 中图分类号:TP181文献标志码:A文章编号:1673-4785(2019)06-1189-10 中文引用格式:梁慧,曹峰,钱宇华,等.图像情境下的数字序列逻辑学习.智能系统学报,2019,14(6):1189-1198. 英文引用格式:LIANG Hui,,CAO Feng,QIAN Yuhua,etal.Number sequence logic learning in image context Jl..CAAI transac-. tions on intelligent systems,2019,14(6):1189-1198. Number sequence logic learning in image context LIANG Hui'3,CAO Feng'3,QIAN Yuhua',GUO Qian'3,LIANG Xinyan'3 (1.Research Institute of Big Data Science and Industry,Shanxi University,Taiyuan 030006,China,2.Key Laboratory of Computa- tional Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China;3. School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China) Abstract:To solve the problem of pattern construction of unknown numbers and rules,in this paper,we provide a meth- od to solve the problems of number sequence logic learning from the image perspective.The method allows the com- puter to automatically learn the inherent logic pattern without prior knowledge of the meaning of the image content or of the relationship between images so as to predict the number sequence.Four large datasets were constructed:linear se- quences,multiplication sequences,fio sequences,and nested sequences,and then several representative deep neural net- works were used to complete the number sequence logic learning task.By analyzing the experimental results,the meth- od was found capable of solving the problem of pattern construction for unknown numbers and rules to a certain extent, which will provide a potential solution for a series of unknown logic pattern construction tasks. Keywords:artificial intelligence;logical reasoning;logical learning;deep learning;number sequences;image pro- cessing;neural network;pattern construction 数字序列逻辑学习的发展可以说是经历了漫 收稿日期:2019-04-15.网络出版日期:2019-09-10 长的岁月,其可以追溯到人类早期历史。例如, 基金项目:国家自然科学基金项目(61672332,61432011, U1435212.61872226):山西省海外归国人员研究项 古时满月的预测山,并且其仍然是当今研究的活 目(2017023):山西省自然科学基金计划资助项目 跃领域,在股市中,我们经常会听到有神奇数字 201701D121052). 通信作者:钱字华.E-mail:jinchengqyh@126.com 时间之窗这一说法,其用到的波浪理论的数字基
DOI: 10.11992/tis.201905044 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190909.1705.006.html 图像情境下的数字序列逻辑学习 梁慧1,3,曹峰1,3,钱宇华1,2,3,郭倩1,3,梁新彦1,3 (1. 山西大学 大数据科学与产业研究院,山西 太原 030006; 2. 山西大学 计算智能与中文信息处理教育部重点 实验室,山西 太原 030006; 3. 山西大学 计算机与信息技术学院,山西 太原 030006) 摘 要:针对未知的数字和规则的模式构建问题,本文提供了一种从图像角度解决数字序列逻辑学习问题的手 段。该方法是在计算机不知道图像间关系和图像内包含的内容的意义的前提下,让计算机自主地学习出其中 包含的内在逻辑模式,从而进行数字序列的预测。本文构建了 4 个大型数据集:Linear 序列、Multiplication 序 列、Fio 序列和 Nested 序列,然后使用几种代表性的深度神经网络来完成数字序列逻辑学习任务,并对实验结 果加以分析比较,事实证明,本文所提出的方法在一定程度上可以解决未知的数字和规则的模式构建问题,这 为一系列未知逻辑模式构建任务提供了一种可能性。 关键词:人工智能;逻辑推理;逻辑学习;深度学习;数字序列;图像处理;神经网络;模式构建 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2019)06−1189−10 中文引用格式:梁慧, 曹峰, 钱宇华, 等. 图像情境下的数字序列逻辑学习 [J]. 智能系统学报, 2019, 14(6): 1189–1198. 英文引用格式:LIANG Hui, CAO Feng, QIAN Yuhua, et al. Number sequence logic learning in image context[J]. CAAI transactions on intelligent systems, 2019, 14(6): 1189–1198. Number sequence logic learning in image context LIANG Hui1,3 ,CAO Feng1,3 ,QIAN Yuhua1,2,3 ,GUO Qian1,3 ,LIANG Xinyan1,3 (1. Research Institute of Big Data Science and Industry, Shanxi University, Taiyuan 030006, China; 2. Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan 030006, China; 3. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China) Abstract: To solve the problem of pattern construction of unknown numbers and rules, in this paper, we provide a method to solve the problems of number sequence logic learning from the image perspective. The method allows the computer to automatically learn the inherent logic pattern without prior knowledge of the meaning of the image content or of the relationship between images so as to predict the number sequence. Four large datasets were constructed: linear sequences, multiplication sequences, fio sequences, and nested sequences, and then several representative deep neural networks were used to complete the number sequence logic learning task. By analyzing the experimental results, the method was found capable of solving the problem of pattern construction for unknown numbers and rules to a certain extent, which will provide a potential solution for a series of unknown logic pattern construction tasks. Keywords: artificial intelligence; logical reasoning; logical learning; deep learning; number sequences; image processing; neural network; pattern construction 数字序列逻辑学习的发展可以说是经历了漫 长的岁月,其可以追溯到人类早期历史。例如, 古时满月的预测[1] ,并且其仍然是当今研究的活 跃领域,在股市中,我们经常会听到有神奇数字 时间之窗这一说法,其用到的波浪理论的数字基 收稿日期:2019−04−15. 网络出版日期:2019−09−10. 基金项目:国家自然科学基金项 目 (61672332, 61432011, U1435212,61872226);山西省海外归国人员研究项 目 (2017023);山西省自然科学基金计划资助项目 (201701D121052). 通信作者:钱宇华. E-mail:jinchengqyh@126.com. 第 14 卷第 6 期 智 能 系 统 学 报 Vol.14 No.6 2019 年 11 月 CAAI Transactions on Intelligent Systems Nov. 2019
·1190· 智能系统学报 第14卷 础就是一系列的数列,此数列称为fibonacci序 传统数字序列逻辑学习也存在一定的不足,它很 列。大自然中还有很多与fibonacci序列有关的奇 难解决未知数字和规则的模式构建的数字序列预 妙现象,如蜘蛛网、水流的旋涡、蜗牛壳的螺纹以 测问题。例如,每月的天数序列、Nested序列、交 及星系内星球的分布等。 替序列、带负数的序列等。举一个更为具体的例 数字序列逻辑学习问题是归纳推理和模式发 子:1)2,4,6810,12,…,2)1,2,3,5,4,4,2,…,对于第 现的经典问题之一),这些问题在哲学和数学领 1个序列,可以明显地观察到其是一个加2的规 域中已经研究了数千年,在心理学和计算机科学 律,这样就可以构建一个满足该规律的模式,传 领域中也已经研究了数十年。近些年来随着机 统数字序列技术可以很容易地解决此类预测问 器学习和深度学习的不断发展别,序列预测问题 题。对于第2个序列,难以看出其中的规律,且很 更是吸引了大家的广泛研究。数字序列预测问题 难用传统方法得到一种满足此序列的模式来预测 在各个领域的应用也是相当的广泛。其可以编码 该序列,实际上该序列是书写汉字如一二三四等 渐进矩阵问题,该问题是用二维矩阵表示的,科 需要的笔画数,故而下一个预测结果应为2。 学预测问题包括股票的预测、智商测试等,以及 针对传统数字序列逻辑学习的不足,本文提 许多归纳推理问题u0-121。早在1963年,Simon 出了图像数字序列逻辑学习任务,以从另一个角 等1就提出了针对一系列字母序列来预测的模 度来解决数字序列预测问题,其可以很好地解决 式描述程序,并解释了人类如何从记忆中的概念 传统数字序列难以解决的未知数字和规则的模式 或规则产生连续模式。Sanghi等提出了一种用 构建的序列预测问题。在传统数字序列逻辑学习 于智力测试的程序,该程序还解决了各种数字序 中,数字的含义及其规则都已被事先定义。而本 列预测问题。且针对数字序列预测问题的解决已 文提出的图像数字序列逻辑学习是在不知道图像 有很多方法,例如:反统一算法成功应用于交替 间关系和图像内包含的内容的意义的前提下,仍 序列和斐波纳契序列。Siebers等I1提出了一种 可以自动学习出其包含的内在逻辑模式。在本文 半分析方法用以解决自然数序列归纳问题,这实 中,图像序列中的所有图像都是15×85像素的黑 则是一种典型的智力测试任务,该方法通过术语 白图像,且每张图像包含一个多位数。然后将图 结构的启发式枚举来猜测给定数字序列的术语结 像传递给计算机,且并不告诉计算机图像中包含 构,最后利用数字序列评估系统来评估该方法, 最终结果精度达到93.2%。然而,其缺点是枚举 的内容是什么,让计算机自动学习图像之间的内 在逻辑模式,并且预测下一张图像中的内容。由 和搜索受到一种看似合理的偏见的严格限制。 Strannegard等1提出了IQ测试中数字序列预测 此看来,图像数字序列逻辑学习不仅可以解决数 问题的计算方法。该计算方法是通过开发ASov- 字序列预测问题,更是为解决一系列未知逻辑模 er来实现的,ASolver是一种基于有限工作记忆思 式构建任务提供了一种可能。 想的拟人化认知系统,其利用了人类推理的模型。 1 研究方法 结果表明,该算法的性能优于Maple和Wolfram- Alpha等数学工具。Hofmann等)证明了归纳程 本节主要介绍了图像数字序列逻辑学习的基 序系统IGOR2可以解决数字序列预测问题,其不 本任务,并详细描述了4种有代表性的深度神经 同于上述专门用于解决数字序列域中问题的系 网络的网络结构MLP、LSTM、CNN MLP、ResNet), 统,IGOR2可以解决不同问题解决域中的问题。 1.1 基本任务 IGOR2是一个从小组输入/输出示例中学习功能 图像数字序列逻辑学习是从另一个角度来解 程序的系统。但不足之处在于其无法很好地处理 决数字序列预测问题,其与传统数字序列解决方 负数和交替序列。Ragni等u8-1y提出了一种基于 案不同。传统数字序列技术是在已知数字和规则 人工神经网络(ANNs)的动态学习方法来解决数 的前提下构建模式。而本文的方法是在不知道图 字序列的预测问题。其总体结果与人类水平相 像间关系和图像内包含的内容的意义下来预测序 当,但误差分布差异很大,且无法解决Nested序 列,然后利用深度神经网络来完成数字序列逻辑 列问题(见2.1)。 学习任务,该任务的输入是几张相关的图像序 上述方法都是传统的方法,它是基于已知的 列,其输出仍然是图像,展示的是下一张图像序 数字和规则来构建模式,然后预测数字。然而, 列预测的结果
础就是一系列的数列,此数列称为 fibonacci 序 列。大自然中还有很多与 fibonacci 序列有关的奇 妙现象,如蜘蛛网、水流的旋涡、蜗牛壳的螺纹以 及星系内星球的分布等。 数字序列逻辑学习问题是归纳推理和模式发 现的经典问题之一[2-3] ,这些问题在哲学和数学领 域中已经研究了数千年,在心理学和计算机科学 领域中也已经研究了数十年[4]。近些年来随着机 器学习和深度学习的不断发展[5-8] ,序列预测问题 更是吸引了大家的广泛研究。数字序列预测问题 在各个领域的应用也是相当的广泛。其可以编码 渐进矩阵问题[9] ,该问题是用二维矩阵表示的,科 学预测问题包括股票的预测、智商测试等,以及 许多归纳推理问题[ 1 0 - 1 2 ]。早在 1963 年 ,Simon 等 [13] 就提出了针对一系列字母序列来预测的模 式描述程序,并解释了人类如何从记忆中的概念 或规则产生连续模式。Sanghi 等 [14] 提出了一种用 于智力测试的程序,该程序还解决了各种数字序 列预测问题。且针对数字序列预测问题的解决已 有很多方法,例如:反统一算法成功应用于交替 序列和斐波纳契序列。Siebers 等 [15] 提出了一种 半分析方法用以解决自然数序列归纳问题,这实 则是一种典型的智力测试任务,该方法通过术语 结构的启发式枚举来猜测给定数字序列的术语结 构,最后利用数字序列评估系统来评估该方法, 最终结果精度达到 93.2%。然而,其缺点是枚举 和搜索受到一种看似合理的偏见的严格限制。 Strannegard 等 [16] 提出了 IQ 测试中数字序列预测 问题的计算方法。该计算方法是通过开发 ASolver 来实现的,ASolver 是一种基于有限工作记忆思 想的拟人化认知系统,其利用了人类推理的模型。 结果表明,该算法的性能优于 Maple 和 WolframAlpha 等数学工具。Hofmann 等 [17] 证明了归纳程 序系统 IGOR2 可以解决数字序列预测问题,其不 同于上述专门用于解决数字序列域中问题的系 统,IGOR2 可以解决不同问题解决域中的问题。 IGOR2 是一个从小组输入/输出示例中学习功能 程序的系统。但不足之处在于其无法很好地处理 负数和交替序列。Ragni 等 [18-19] 提出了一种基于 人工神经网络 (ANNs) 的动态学习方法来解决数 字序列的预测问题。其总体结果与人类水平相 当,但误差分布差异很大,且无法解决 Nested 序 列问题 (见 2.1)。 上述方法都是传统的方法,它是基于已知的 数字和规则来构建模式,然后预测数字。然而, 1) 2,4,6,8,10,12,··· , 2) 1,2,3,5,4,4,2,··· , 传统数字序列逻辑学习也存在一定的不足,它很 难解决未知数字和规则的模式构建的数字序列预 测问题。例如,每月的天数序列、Nested 序列、交 替序列、带负数的序列等。举一个更为具体的例 子 : 对于第 1 个序列,可以明显地观察到其是一个加 2 的规 律,这样就可以构建一个满足该规律的模式,传 统数字序列技术可以很容易地解决此类预测问 题。对于第 2 个序列,难以看出其中的规律,且很 难用传统方法得到一种满足此序列的模式来预测 该序列,实际上该序列是书写汉字如一二三四等 需要的笔画数,故而下一个预测结果应为 2。 针对传统数字序列逻辑学习的不足,本文提 出了图像数字序列逻辑学习任务,以从另一个角 度来解决数字序列预测问题,其可以很好地解决 传统数字序列难以解决的未知数字和规则的模式 构建的序列预测问题。在传统数字序列逻辑学习 中,数字的含义及其规则都已被事先定义。而本 文提出的图像数字序列逻辑学习是在不知道图像 间关系和图像内包含的内容的意义的前提下,仍 可以自动学习出其包含的内在逻辑模式。在本文 中,图像序列中的所有图像都是 15×85 像素的黑 白图像,且每张图像包含一个多位数。然后将图 像传递给计算机,且并不告诉计算机图像中包含 的内容是什么,让计算机自动学习图像之间的内 在逻辑模式,并且预测下一张图像中的内容。由 此看来,图像数字序列逻辑学习不仅可以解决数 字序列预测问题,更是为解决一系列未知逻辑模 式构建任务提供了一种可能。 1 研究方法 本节主要介绍了图像数字序列逻辑学习的基 本任务,并详细描述了 4 种有代表性的深度神经 网络的网络结构 (MLP、LSTM、CNN_MLP、ResNet)。 1.1 基本任务 图像数字序列逻辑学习是从另一个角度来解 决数字序列预测问题,其与传统数字序列解决方 案不同。传统数字序列技术是在已知数字和规则 的前提下构建模式。而本文的方法是在不知道图 像间关系和图像内包含的内容的意义下来预测序 列,然后利用深度神经网络来完成数字序列逻辑 学习任务,该任务的输入是几张相关的图像序 列,其输出仍然是图像,展示的是下一张图像序 列预测的结果。 ·1190· 智 能 系 统 学 报 第 14 卷
第6期 梁慧,等:图像情境下的数字序列逻辑学习 ·1191· 首先将图像序列传送给计算机,让计算机在 k-1张图像传入模型中,测试生成的图像是否 不知道图像间关系和图像内包含的内容的意义的 正确。 前提下自动学习出其内在逻辑模式,从而进行数 258293760 2066350080 字序列的预测。所有这些图像都是黑白图像,右 (a)位数为9位 b)位数为10位(正数) 对齐,大小归一化(15×85),每张图像包含一个多 位数,其可以是正数或负数,每张图像中的最大 B2282246720 -3391078400 (c)位数为11位 位数设置为10。如图1所示,其中图1(a)的位数 (d位数为11位(负数) 设置为9位,图1(b)位数设置为10位,图1(c)位 图1图像展示 Fig.1 Image display 数设置为11位,原本数字为32282246720,由于 1.2网络结构 超出位数的设定,图像中最左位的数字无法完全 本文在构造的数据集上比较了几种有代表性 显示,图1(d)为负数情形,位数设置为10位(除符 的深度神经网络的性能(MLP、LSTM、CNN 号位)。然后本文使用几种代表性的深度神经网 MLP、ResNet)。数据集的构造详见2.I。全部模 络来完成数字序列逻辑学习任务,并加以比较分 型均使用均方误差(MSE)损失作为优化函数, 析。给出网络结构的详细描述。最后,为了测试 ADAM20作为优化器,衰减率参数设置为B,=0.9 本文的网络性能,本文以某种逻辑关系随机生成 B,=0.999。每个网络的详细结构和超参数设置如 一批测试样本,每个样本包括k张图像,将前 图2。 Input Layer Output Layher Recument Network STM STM STM 15x8 x p 15x85 15x85x4 15x8 (a)MLP (b)LSTM nout lave 15x85 Sigmoid 15x85x4 32164 32164 BN 3x21x64 74264 (c)CNN-MLP Dropout-0.5 (d)ResNet-18 15x85 图24种神经网络结构 Fig.2 Four neural network structures. 多层感知机(MLP)在本文中,使用一个 长短期记忆网络(LSTM)本文采用标准的 4层的多层感知机网络来构建模型,该模型包含 LSTM网络结构,它是一种特殊的RNN,主要是 输入层、隐藏层和输出层。采用一个3层架构的 为了解决长序列训练过程中的梯度消失等问题。 隐藏层,每个隐藏层将线性整流函数(ReLU)2山 而且由于LSTM是按顺序地接收输入数据,这非 作为激活函数。使用Sigmoid函数作为网络的输 常适合于本文的序列预测问题。本文将图像特征 出层。网络结构如图2(a)所示。 向量(x)按顺序地传入LSTM中以编码隐藏状
首先将图像序列传送给计算机,让计算机在 不知道图像间关系和图像内包含的内容的意义的 前提下自动学习出其内在逻辑模式,从而进行数 字序列的预测。所有这些图像都是黑白图像,右 对齐,大小归一化 (15×85),每张图像包含一个多 位数,其可以是正数或负数,每张图像中的最大 位数设置为 10。如图 1 所示,其中图 1(a) 的位数 设置为 9 位,图 1(b) 位数设置为 10 位,图 1(c) 位 数设置为 11 位,原本数字为 32 282 246 720,由于 超出位数的设定,图像中最左位的数字无法完全 显示,图 1(d) 为负数情形,位数设置为 10 位 (除符 号位)。然后本文使用几种代表性的深度神经网 络来完成数字序列逻辑学习任务,并加以比较分 析。给出网络结构的详细描述。最后,为了测试 本文的网络性能,本文以某种逻辑关系随机生成 一批测试样本,每个样本包括 k 张图像,将前 k−1 张图像传入模型中,测试生成的图像是否 正确。 (a) 位数为9位 (c) 位数为11位 (d) 位数为11位(负数) (b) 位数为10位(正数) 图 1 图像展示 Fig. 1 Image display 1.2 网络结构 本文在构造的数据集上比较了几种有代表性 的深度神经网络的性能 (MLP、LSTM、CNN_ MLP、ResNet)。数据集的构造详见 2.1。全部模 型均使用均方误差 (MSE) 损失作为优化函数, ADAM[20] 作为优化器,衰减率参数设置为 β1=0.9, β2=0.999。每个网络的详细结构和超参数设置如 图 2。 Input Layer (a) MLP (c) CNN-MLP (d) ResNet-18 (b) LSTM HL1 HL2 HL3 Output Layher Input image FC 256 units Relu FC 1275 units Sigmoid resize 64 Feature maps Input Layer Conv 3×4 Conv 3×4 Conv 3×4 Conv 3×4 Input image Input image Pooling 2×2 Pooling 2×2 BN Relu BN Relu BN Relu BN Relu BN Relu BN Relu 64 Feature maps 64 Feature maps 64 Feature maps FC 256 units Full Full resize resize Sigmoid Dropout=0.5 Output image Output image connoction connoction FC 1275 units h0 h1 h2 h3 h4 Output image Input image1 Input image2 Input image3 Input image4 15×85×4 7×42×64 3×21×64 3×21×64 3×21×64 15×85 15×85 15×85 15×85 15×85 LSTM LSTM LSTM LSTM Output image ϕ(x1) ϕ(x2) ϕ(x3) ϕ(x4) x1 x2 x3 x4 Recument Network 15×85×4 15×85×4 7×7oonv64/2 Pool/2 3×3oonv64 3×3oonv64 3×3oonv64 3×3oonv64 3×3oonv128/2 3×3oonv256/2 3×3oonv512/2 3×3oonv256 3×3oonv256 3×3oonv256 3×3oonv212 3×3oonv212 3×3oonv212 3×3oonv128 3×3oonv128 3×3oonv128 avg pool Fc 1275 图 2 4 种神经网络结构 Fig. 2 Four neural network structures. 多层感知机 (MLP) 在本文中,使用一个 4 层的多层感知机网络来构建模型,该模型包含 输入层、隐藏层和输出层。采用一个 3 层架构的 隐藏层,每个隐藏层将线性整流函数 (ReLU)[21] 作为激活函数。使用 Sigmoid 函数作为网络的输 出层。网络结构如图 2(a) 所示。 ϕ(xi) 长短期记忆网络 (LSTM) 本文采用标准的 LSTM 网络结构,它是一种特殊的 RNN,主要是 为了解决长序列训练过程中的梯度消失等问题[22]。 而且由于 LSTM 是按顺序地接收输入数据,这非 常适合于本文的序列预测问题。本文将图像特征 向量 按顺序地传入 LSTM 中以编码隐藏状 第 6 期 梁慧,等:图像情境下的数字序列逻辑学习 ·1191·
·1192· 智能系统学报 第14卷 态h,其输出h,依赖于以前的状态h-l,当前的观 数字和规则的模式构建的序列预测的有效性。 察(x)以及上一时刻的单元状态c-1。其单元状 态和隐藏状态公式如下: 2实验及分析 c((x).C-1)=f.c+i.c (1) 本节详细介绍了图像序列数据集的构造过程 h((x),h1)=o.tanh(c) (2) 及原则,并在所构造数据集上利用深度神经网络 式中:c是t时刻的单元状态;f、i和o分别表示 对各维度的图像数字序列的预测加以分析比较。 遗忘门、输入门和输出门:G表示当前输入的单 2.1数据集 元状态。结构如图2(b)所示。 正如本文前面所提及,图像数字序列预测问 卷积-全连接神经网络(CNN-MLP)本文使 题的解决方法与传统数字序列的解决方法不同, 用一个标准的4层卷积神经网络2,并将ReLU 它从另一种角度来解决数字序列预测问题。传统 非线性函数作为卷积层的激活函数,在卷积输 数字序列是在已知数字的意义下,然后根据序列 出层后连接一个2层的全连接层(MLP)。为防止 背景知识、结构复杂性等进行模式的构建,从而 过拟合在第一个全连接层上使用丢失率为0.5的 求解数字序列,而本文的方法是计算机在不知道 dropout21技术。结构及其超参数设置如图2(c) 如图3所示的a、b、c、d以及A、B、C、D间关系的 所示。 前提下自动地学习出其中所包含的内在逻辑模 深度残差网络(ResNet)深度残差网络有很 式,进而预测出所要求解的图像。 多不同的结构26,包括ResNet18、34、50、101、 本文构造了4个大的数据集,其包含各种图 像序列,在本文中,根据其解决方案的不同将数 152等,在本文实验中,这几种网络的实验效果相 差无几,所以在这里仅展示了ResNet18的实验结 据集分为4种不同的类型,分别为:Linear、Mul- tiplication、Fio和Nested。.各类型图像序列的详细 果。其结构如图2(d)所示。 描述如下:l)Linear序列下一张图像的生成仅与 本文的具体步骤如下:在训练阶段,传递给计 前一张图像内容相关联,与其他项内容无关,其 算机N张图像,每张图像包含一个多位数,如图3 仅涉及“+”和“-”两种数学运算,例如等差序列就 所示(假设W=4),而且并不告知计算机每张图像 是Linear序列的一个特例;2)Multiplication序列仅 中包含的内容是什么,然后使用以上所提及的深 包含“×”运算符,并且其每张图像的生成原理与 度神经网络来完成数字序列逻辑学习任务,以便 Linear序列的生成原理相同,即仅与前一张图像 计算机可以从前3张图像间的逻辑模式自动学习 内容相关;3)Fo序列不仅与前一张图像的内容相 第4张图像。在测试阶段,以某种逻辑关系随机 关联,而且与前2张图像的内容相关联,所涉及的 生成一批测试样本,每个样本包括4张图像,将 运算符包括“+”和“-”。例如Fibonacci序列就是 前3张图像放人模型中,以查看是否可以生成正 Fio序列的一个特例;4)对于Nested序列而言,其 确的预测图像。 包含更多的操作运算符:“+”、“-”和“×”,并且其 运算不仅仅与前2项相关,还与任意的随机常数 项相关联。用数学公式可以表述为: fn)=fn-1)±f(n-2)±b (3) 300 fn)=[fn-1)±fn-2)]×b (4) 图3计算机不知道给定图像中所包含的内容是什么 Fig.3 The computer doesn't know what the content in the 式中:fm)表示当前图像;fn-1)表示前一张图 given image is 像。式(3)~(4)均是Nested序列的数学表述。 对于数据分析,本文系统地改变学习速率、 从另一层面来讲,它可以说是Multiplication序 批量大小、隐藏节点的数量和训练迭代等。这些 列、Linear序列和Fio序列的复杂混合序列。 变化应该允许将不同的神经网络模型与经验结果 本文整个数据集的构造原则:)为方便构造 进行比较。此外,本文将在所构造的数据集上对 数据集,本文只考虑整数图像序列,图像序列可 比分析不同的深度神经网络模型的性能,进一步 以包含正数或负数;2)每张图像都包含一个多位 验证本文所提出的图像数字序列逻辑学习对未知 数,且每张图像中的最大位数设置为10。所有这
hi ht ht−1 ϕ(xt) ct−1 态 ,其输出 依赖于以前的状态 ,当前的观 察 以及上一时刻的单元状态 。其单元状 态和隐藏状态公式如下: ct(ϕ(xt), ct−1) = f · ct−1 +i· ct (1) ht(ϕ(xt),ht−1) = o ·tanh(ct) (2) ct t f i o ct 式中: 是 时刻的单元状态; 、 和 分别表示 遗忘门、输入门和输出门; 表示当前输入的单 元状态。结构如图 2(b) 所示。 卷积-全连接神经网络 (CNN-MLP) 本文使 用一个标准的4层卷积神经网络[23-24] ,并将 ReLU 非线性函数作为卷积层的激活函数,在卷积输 出层后连接一个2层的全连接层 (MLP)。为防止 过拟合在第一个全连接层上使用丢失率为 0.5 的 dropout[25] 技术。结构及其超参数设置如图 2(c) 所示。 深度残差网络 (ResNet) 深度残差网络有很 多不同的结构[26] ,包括 ResNet18、34、50、101、 152 等,在本文实验中,这几种网络的实验效果相 差无几,所以在这里仅展示了 ResNet18 的实验结 果。其结构如图 2(d) 所示。 本文的具体步骤如下:在训练阶段,传递给计 算机 N 张图像,每张图像包含一个多位数,如图 3 所示 (假设 N=4),而且并不告知计算机每张图像 中包含的内容是什么,然后使用以上所提及的深 度神经网络来完成数字序列逻辑学习任务,以便 计算机可以从前 3 张图像间的逻辑模式自动学习 第 4 张图像。在测试阶段,以某种逻辑关系随机 生成一批测试样本,每个样本包括 4 张图像,将 前 3 张图像放入模型中,以查看是否可以生成正 确的预测图像。 a A B C D −51 −765 5661 136 b c d 图 3 计算机不知道给定图像中所包含的内容是什么 Fig. 3 The computer doesn't know what the content in the given image is 对于数据分析,本文系统地改变学习速率、 批量大小、隐藏节点的数量和训练迭代等。这些 变化应该允许将不同的神经网络模型与经验结果 进行比较。此外,本文将在所构造的数据集上对 比分析不同的深度神经网络模型的性能,进一步 验证本文所提出的图像数字序列逻辑学习对未知 数字和规则的模式构建的序列预测的有效性。 2 实验及分析 本节详细介绍了图像序列数据集的构造过程 及原则,并在所构造数据集上利用深度神经网络 对各维度的图像数字序列的预测加以分析比较。 2.1 数据集 正如本文前面所提及,图像数字序列预测问 题的解决方法与传统数字序列的解决方法不同, 它从另一种角度来解决数字序列预测问题。传统 数字序列是在已知数字的意义下,然后根据序列 背景知识、结构复杂性等进行模式的构建,从而 求解数字序列,而本文的方法是计算机在不知道 如图 3 所示的 a、b、c、d 以及 A、B、C、D 间关系的 前提下自动地学习出其中所包含的内在逻辑模 式,进而预测出所要求解的图像。 本文构造了 4 个大的数据集,其包含各种图 像序列,在本文中,根据其解决方案的不同将数 据集分为 4 种不同的类型,分别为:Linear、Multiplication、Fio 和 Nested。各类型图像序列的详细 描述如下:1)Linear 序列下一张图像的生成仅与 前一张图像内容相关联,与其他项内容无关,其 仅涉及“+”和“−”两种数学运算,例如等差序列就 是 Linear 序列的一个特例;2)Multiplication 序列仅 包含“×”运算符,并且其每张图像的生成原理与 Linear 序列的生成原理相同,即仅与前一张图像 内容相关;3)Fio 序列不仅与前一张图像的内容相 关联,而且与前 2 张图像的内容相关联,所涉及的 运算符包括“+”和“−”。例如 Fibonacci 序列就是 Fio 序列的一个特例;4) 对于 Nested 序列而言,其 包含更多的操作运算符:“+”、“−”和“×”,并且其 运算不仅仅与前 2 项相关,还与任意的随机常数 项相关联。用数学公式可以表述为: f(n) = f(n−1)± f(n−2)±b (3) f(n) = [f(n−1)± f(n−2)]×b (4) 式中: f(n) 表示当前图像; f(n−1) 表示前一张图 像。式 (3) ~ (4) 均是 Nested 序列的数学表述。 从另一层面来讲,它可以说是 Multiplication 序 列、Linear 序列和 Fio 序列的复杂混合序列。 本文整个数据集的构造原则:1) 为方便构造 数据集,本文只考虑整数图像序列,图像序列可 以包含正数或负数;2) 每张图像都包含一个多位 数,且每张图像中的最大位数设置为 10。所有这 ·1192· 智 能 系 统 学 报 第 14 卷
第6期 梁慧,等:图像情境下的数字序列逻辑学习 ·1193· 些图像均是黑白图像,对齐和尺寸标准化(15× 即输入节点的数量对最终预测结果的准确率有极 85):3)每张图像位数的设置最大为10位,本文选 大的影响。Ragni等提出了一种基于人工神经 择的数据集仅是一个小样本集,其在总集(即我 网络的动态学习方法来解决数字序列预测问题, 们数据的变动范围[-9999999999,999999999) 该实验结果表明:输入节点的最佳配置为4个节 中的占比很小,也就是说,本文确保训练集、测试 点。因此,本文对输入维度,即输人的图像数进 集互不相交。本文为每种类型的数据集均选择 行了实验并加以分析比较。 了60000的图像数字序列,其中50000用于训练, 本文对已构建的4个数据集进行了维度上的 l0O00用于测试。Linear序列、Multiplication序 扩展,分别扩展为4维图像序列、5维图像序列和 列、Fio序列和Nested序列的部分数据集如 6维图像序列,这里并没有扩展3维图像序列,因 图47所示(以4维的图像数字序列为例)。 为它的不确定性太大,例如本文的F0序列,其并 58 1035 158 2029 非简单地与最后一个数字有关,而是与最后2个 926 101 数字相关联。关于数据集及其分类部分在3.1节 中已有详细介绍,此处将不再赘述。 31 3620 3524 对于实验1,首先给定计算机4张图像,与此 3 39 485 47 同时并不告知计算机每张图像中包含的内容是什 图4 Linear序列 么,在学习过程中,本文利用4种代表性的深度神 Fig.4 Linear sequences 经网络(MLP、LSTM、CNN MLP、ResNet)来完成 6257 4379 306593 2146151 数字序列逻辑学习任务,以便计算机可以从前 609 4263 29841 3张图像间的逻辑模式自动学习出第4张图像。 512 在测试阶段,本文任意输入4维图像序列,并将 15 271的 46182 前3张图像放入模型中进行测试,使用OC℉工具阿 来识别得到的预测图像,将OCR的结果与期望输 图5 Multiplication序列 出进行比较,并计算预测正确的百分比。 Fig.5 Multiplication sequences 对于实验2,其步骤与实验1几乎相同。区别 12 255 之处在于:在学习阶段,本文给计算机提供5张图 48g 253 74 995 像,让计算机自动学习每张图像间的内在逻辑模 92 43 135 178 式。在测试阶段,输入5维图像序列,并将前4张 4740 2 4535 4330 图像传递到模型中以预测结果的正确性。 对于实验3,步骤与前2个实验几乎相同。不 图6Fi0序列 Fig.6 Fio sequences 同的是,在学习阶段,本文给计算机提供6张图 像,让计算机自动学习出每张图像间的逻辑模 506 1332 式。在测试阶段,本文输入6维图像序列,并将 2680 2708 21089 前5张图像传入模型进行测试,以检测本文是否 658 126 288 5116 可以生成具有正确结果的图像。 18 278 本文利用上述提及的4种深度神经网络模型 图7 Nested序列 对每个实验进行了准确度的测试,实验结果如表1 Fig.7 Nested sequences 所示,从表1可以看到4种神经网络模型可以很 2.2实验结果及分析 好地预测Linear序列和Fio序列,且维度越高,预 到目前为止,解决数字序列预测的方法几乎 测准确率越高。对Multiplication序列和Nested序 都是在基于给定数字的含义下,通过归纳序列的 列而言,MLP模型和LSTM模型对这2种序列的 潜在规律,构建出满足该数字序列规律的模式, 预测均呈现一种维度越高准确率越低的趋势。相 从而预测数字。而且,对于传统数字序列而言, 反,CNN MLP模型和ResNet模型呈现一种维度 其模式的长度与最终的预测结果有很大的关系, 越高,预测的准确率越高的情形,且ResNet模型
些图像均是黑白图像,对齐和尺寸标准化 (15× 85);3) 每张图像位数的设置最大为 10 位,本文选 择的数据集仅是一个小样本集,其在总集 (即我 们数据的变动范围 [−999 999 999 9, 999 999 999]) 中的占比很小,也就是说,本文确保训练集、测试 集互不相交。本文为每种类型的数据集均选择 了 60 000 的图像数字序列,其中 50 000 用于训练, 10 000 用于测试。Linear 序列、Multiplication 序 列 、 F i o 序 列 和 Neste d 序列的部分数据集如 图 4~7 所示 (以 4 维的图像数字序列为例)。 图 4 Linear 序列 Fig. 4 Linear sequences 图 5 Multiplication 序列 Fig. 5 Multiplication sequences 图 6 Fio 序列 Fig. 6 Fio sequences 图 7 Nested 序列 Fig. 7 Nested sequences 2.2 实验结果及分析 到目前为止,解决数字序列预测的方法几乎 都是在基于给定数字的含义下,通过归纳序列的 潜在规律,构建出满足该数字序列规律的模式, 从而预测数字。而且,对于传统数字序列而言, 其模式的长度与最终的预测结果有很大的关系, 即输入节点的数量对最终预测结果的准确率有极 大的影响。Ragni 等 [18] 提出了一种基于人工神经 网络的动态学习方法来解决数字序列预测问题, 该实验结果表明:输入节点的最佳配置为 4 个节 点。因此,本文对输入维度,即输入的图像数进 行了实验并加以分析比较。 本文对已构建的 4 个数据集进行了维度上的 扩展,分别扩展为 4 维图像序列、5 维图像序列和 6 维图像序列,这里并没有扩展 3 维图像序列,因 为它的不确定性太大,例如本文的 Fio 序列,其并 非简单地与最后一个数字有关,而是与最后 2 个 数字相关联。关于数据集及其分类部分在 3.1 节 中已有详细介绍,此处将不再赘述。 对于实验 1,首先给定计算机 4 张图像,与此 同时并不告知计算机每张图像中包含的内容是什 么,在学习过程中,本文利用 4 种代表性的深度神 经网络 (MLP、LSTM、CNN_MLP、ResNet) 来完成 数字序列逻辑学习任务,以便计算机可以从前 3 张图像间的逻辑模式自动学习出第 4 张图像。 在测试阶段,本文任意输入 4 维图像序列,并将 前 3 张图像放入模型中进行测试,使用 OCR 工具[27] 来识别得到的预测图像,将 OCR 的结果与期望输 出进行比较,并计算预测正确的百分比。 对于实验 2,其步骤与实验 1 几乎相同。区别 之处在于:在学习阶段,本文给计算机提供 5 张图 像,让计算机自动学习每张图像间的内在逻辑模 式。在测试阶段,输入 5 维图像序列,并将前 4 张 图像传递到模型中以预测结果的正确性。 对于实验 3,步骤与前 2 个实验几乎相同。不 同的是,在学习阶段,本文给计算机提供 6 张图 像,让计算机自动学习出每张图像间的逻辑模 式。在测试阶段,本文输入 6 维图像序列,并将 前 5 张图像传入模型进行测试,以检测本文是否 可以生成具有正确结果的图像。 本文利用上述提及的 4 种深度神经网络模型 对每个实验进行了准确度的测试,实验结果如表 1 所示,从表 1 可以看到 4 种神经网络模型可以很 好地预测 Linear 序列和 Fio 序列,且维度越高,预 测准确率越高。对 Multiplication 序列和 Nested 序 列而言,MLP 模型和 LSTM 模型对这 2 种序列的 预测均呈现一种维度越高准确率越低的趋势。相 反,CNN_MLP 模型和 ResNet 模型呈现一种维度 越高,预测的准确率越高的情形,且 ResNet 模型 第 6 期 梁慧,等:图像情境下的数字序列逻辑学习 ·1193·
·1194· 智能系统学报 第14卷 对于这2种序列的预测结果总体而言要优于其他 L$TM模型中其极易受到子序列的影响,从而致 的模型。 使预测结果有误,如子序列1、4、16,其是一个乘 表14种神经网络模型在本文数据集上的实验结果 4的规律,有可能下一个数预测为64,而当只给 Table 1 Experimental results on the our own dataset for 定4维图像序列时,如2、4、8,预测结果16,其反 the four neural network models 而较易进行该序列的预测。 准确率% 模型 输入维度 100 4维图像序列 Linear Fio Multiplication Nested 80 91.5992.46 61.07 48.39 60 MLP J 92.08 93.48 50.81 47.74 這类 40 MLP 6 92.66 94.44 45.04 39.56 20 L→LSTM .CNN MLP 91.7592.23 71.51 50.79 0 ResNet Linear Fio Multiplication Nested LSTM 5 92.03 93.49 62.15 48.16 数据集 6 93.35 95.1 50.3 42.38 图84种深度神经网络模型在4维图像序列中的性能比较 4 89.2690.57 54.38 48.28 Fig.8 A comparison on performance of four kinds of deep CNN- neural network models in 4-dimensional image se- 5 90.82 90.94 71.11 49.76 MLP quences 6 91.21 94.55 85.13 51.89 100 5维图像序列 4 89.54 90.43 64.09 51.3 80 ResNet18 90.9891.03 79.79 51.87 60 6 91.9393.4 86.5 53.21 40 MLP ◆LSTM 本文对4种深度神经网络模型在4维、5维 ··CNN MLP 0 ResNet 和6维图像序列的性能比较见图8~10。从各个维 Linear Fio Multiplication Nested 度图像序列的折线图中可以明显观察到,4种模 数据集 型可以很好地预测Linear序列和Fio序列的结 图94种深度神经网络模型在5维图像序列中的性能比较 果,无论它们是4维、5维还是6维图像序列,且 Fig.9 A comparison on performance of four kinds of deep neural network models in 5-dimensional image se- 维度越高,准确率越高。这可能是由于Linear序 quences 列和Fio序列自身规律较为简单,例如,给定Lin- ear图像序列5、7、9,预测结果11,计算机可以很 100 6维图像序列 明显知道是一个加2的规律,进而可以很容易地 80 学到内在逻辑模式,从而进行序列的预测。 60 4种深度神经网络模型在4维图像序列的性 40 ◆+MLP 能比较见图8,LSTM对Multiplication序列的预测 20 LSTM ·CNN MLP ResNet 准确率明显高于其它模型,但当维度升高时,如 Linear Fio Multiplication Nested 图9~10所示,可以看到LSTM模型对该序列的预 数据集 测下降了,而ResNet和CNN MLP模型对于该序 图10 4种深度神经网络模型在6维图像序列中的性能 列的预测效果呈现越来越好的趋势,这可能是由 比较 于ResNet和CNN MLP网络模型较为复杂,当维 Fig.10 A comparison on performance of four kinds of deep neural network models in 6-dimensional im- 度越高其获得的信息就会越多,越是可以较为准 age sequences 确的学到该图像序列的逻辑模式。而LSTM模型 对4维和5维图像序列的性能比较见图8~ 可能由于维度越高,其更易受到其子序列的影 9,各模型对于Nested序列的预测均集中在一定 响。例如6维图像序列:1、2、4、8、16,预测32, 的范围,这可能是由于Nested序列较为复杂,所 该图像序列中包含子序列1、4、16和2、8等。在 有模型在该序列上的性能没有太大区别,但随着
对于这 2 种序列的预测结果总体而言要优于其他 的模型。 表 1 4 种神经网络模型在本文数据集上的实验结果 Table 1 Experimental results on the our own dataset for the four neural network models 模型 输入维度 准确率/% Linear Fio Multiplication Nested MLP 4 91.59 92.46 61.07 48.39 5 92.08 93.48 50.81 47.74 6 92.66 94.44 45.04 39.56 LSTM 4 91.75 92.23 71.51 50.79 5 92.03 93.49 62.15 48.16 6 93.35 95.1 50.3 42.38 CNNMLP 4 89.26 90.57 54.38 48.28 5 90.82 90.94 71.11 49.76 6 91.21 94.55 85.13 51.89 ResNet18 4 89.54 90.43 64.09 51.3 5 90.98 91.03 79.79 51.87 6 91.93 93.4 86.5 53.21 本文对 4 种深度神经网络模型在 4 维、5 维 和 6 维图像序列的性能比较见图 8~10。从各个维 度图像序列的折线图中可以明显观察到,4 种模 型可以很好地预测 Linear 序列和 Fio 序列的结 果,无论它们是 4 维、5 维还是 6 维图像序列,且 维度越高,准确率越高。这可能是由于 Linear 序 列和 Fio 序列自身规律较为简单,例如,给定 Linear 图像序列 5、7、9,预测结果 11,计算机可以很 明显知道是一个加 2 的规律,进而可以很容易地 学到内在逻辑模式,从而进行序列的预测。 4 种深度神经网络模型在 4 维图像序列的性 能比较见图 8,LSTM 对 Multiplication 序列的预测 准确率明显高于其它模型,但当维度升高时,如 图 9~10 所示,可以看到 LSTM 模型对该序列的预 测下降了,而 ResNet 和 CNN_MLP 模型对于该序 列的预测效果呈现越来越好的趋势,这可能是由 于 ResNet 和 CNN_MLP 网络模型较为复杂,当维 度越高其获得的信息就会越多,越是可以较为准 确的学到该图像序列的逻辑模式。而 LSTM 模型 可能由于维度越高,其更易受到其子序列的影 响。例如 6 维图像序列:1、2、4、8、16,预测 32, 该图像序列中包含子序列 1、4、16 和 2、8 等。在 LSTM 模型中其极易受到子序列的影响,从而致 使预测结果有误,如子序列 1、4、16,其是一个乘 4 的规律,有可能下一个数预测为 64,而当只给 定 4 维图像序列时,如 2、4、8,预测结果 16,其反 而较易进行该序列的预测。 100 80 60 40 20 0 Linear MLP LSTM CNN_MLP ResNet Fio 数据集 Multiplication Nested 准确率/ % 4维图像序列 图 8 4 种深度神经网络模型在 4 维图像序列中的性能比较 Fig. 8 A comparison on performance of four kinds of deep neural network models in 4-dimensional image sequences 100 80 60 40 20 0 Linear MLP LSTM CNN_MLP ResNet Fio 数据集 Multiplication Nested 准确率/ % 5维图像序列 图 9 4 种深度神经网络模型在 5 维图像序列中的性能比较 Fig. 9 A comparison on performance of four kinds of deep neural network models in 5-dimensional image sequences 100 80 60 40 20 0 Linear MLP LSTM CNN_MLP ResNet Fio 数据集 Multiplication Nested 准确率/ % 6维图像序列 图 10 4 种深度神经网络模型在 6 维图像序列中的性能 比较 Fig. 10 A comparison on performance of four kinds of deep neural network models in 6-dimensional image sequences 对 4 维和 5 维图像序列的性能比较见图 8~ 9,各模型对于 Nested 序列的预测均集中在一定 的范围,这可能是由于 Nested 序列较为复杂,所 有模型在该序列上的性能没有太大区别,但随着 ·1194· 智 能 系 统 学 报 第 14 卷
第6期 梁慧,等:图像情境下的数字序列逻辑学习 ·1195· 维度增高,从图l0可以发现ResNet和CNN Multiplication序列 100 MLP模型对于该序列的预测稍有提升,而MLP 80 和LSTM模型对于此序列的预测又有所下降,这 60 可能是由于MLP和LSTM模型较为简单,而Res 40 Net和CNN MLP模型较为复杂,对于这种复杂 序列,随着维数增高,复杂模型在图像序列的预 20 测上其准确率极有可能上升,而简单模型的准确 MLP LSTM CNN MLP ResNet 率极易下降。 模型 此外,本文分析比较4种深度神经网络模型 图13 4种深度神经网络模型在Multiplication序列上的 在Linear序列、Fio序列、Multiplication序列和 性能比较 Fig.13 A comparison on performance of four kinds of Nested序列上的性能,如图11~14。从图11 deep neural network models in Multiplication se- 可以发现:随着维数的增高,各模型对于Linear序 quences 列预测的准确率提升并不明显,这可能是与L- Nested序列 near序列自身的规律有关,其规则是仅与前一项 60 内容相关联,而与其他项无关,所以当维数增高 三 时,计算机所获得的序列的内在逻辑模式的信息 30 实则是没有太大的变化,例如,给定序列2、3、4, 20 预测结果5,计算机可以很明显知道其是一个加 1的规律,当再给定序列1、2、3、4预测下一个内 容时,计算机并没有从中得到更多的信息,故而 MLP LSTM CNN MLP ResNet 模型 维度虽然增高了,但其准确率的变化并没有很大 图144种深度神经网络模型在Nested序列上的性能比较 改变。 Fig.14 A comparison on performance of four kinds of Linear序列 deep neural network models in Nested sequences 100 对比图12的Fi0序列,其规则是不仅仅与前 80 一项内容相关联,而且与前两项的内容相关,这 60 就使得当维数越高,即给定的图像数越多,计算 40 机得到的图像间的信息就会越多,就越易预测该 20 序列,可以很明显地看到图12中准确率的提升随 着维数的增高越来越明显。 MLP LSTM CNN MLP ResNet 模型 Multiplication序列和Nested序列的性能比 较见图13~14,从图中可以看出维度越高,对于 图11 4种深度神经网络模型在Linear序列上的性能比较 Fig.11 A comparison on performance of four kinds of CNN MLP和ResNet模型而言预测的准确率越 deep neural network models in Linear sequences 高。相反,MLP和LSTM模型对于这2种序列的 预测均呈现一种维度越高准确率越低的趋势。这 100 Fio序列 可能是由于CNN MLP和ResNet模型自身较为 95 6d 复杂,其对于这种复杂序列来说,其预测精度反 0 而是易于随着维数增高而增大。而对于MLP和 80 LSTM模型而言,其模型自身较为简单,加之Mu 75 tiplication序列和Nested序列又较为复杂,相当于 是个模型简单任务难的问题,其对于此序列的预 MLP LSTM CNN MLP ResNet 模型 测难度就会加大,容易导致维度越高准确率越低 图124种深度神经网络模型在0序列上的性能比较 的情况。 Fig.12 A comparison on performance of four kinds of 2.3结果分析 deep neural network models in Fio sequences 本小节从视觉效果的角度展示了每种类型图
维度增高,从图 10 可以发现 ResNet 和 CNN_ MLP 模型对于该序列的预测稍有提升,而 MLP 和 LSTM 模型对于此序列的预测又有所下降,这 可能是由于 MLP 和 LSTM 模型较为简单,而 ResNet 和 CNN_MLP 模型较为复杂,对于这种复杂 序列,随着维数增高,复杂模型在图像序列的预 测上其准确率极有可能上升,而简单模型的准确 率极易下降。 此外,本文分析比较 4 种深度神经网络模型 在 Linear 序列、Fio 序列、Multiplication 序列和 Nested 序列上的性能,如 图 11~14。 从 图 11 可以发现:随着维数的增高,各模型对于 Linear 序 列预测的准确率提升并不明显,这可能是与 Linear 序列自身的规律有关,其规则是仅与前一项 内容相关联,而与其他项无关,所以当维数增高 时,计算机所获得的序列的内在逻辑模式的信息 实则是没有太大的变化,例如,给定序列 2、3、4, 预测结果 5,计算机可以很明显知道其是一个加 1 的规律,当再给定序列 1、2、3、4 预测下一个内 容时,计算机并没有从中得到更多的信息,故而 维度虽然增高了,但其准确率的变化并没有很大 改变。 100 80 60 40 20 0 MLP LSTM CNN_MLP ResNet 准确率/% 模型 Linear 序列 4-d 5-d 6-d 91.59 92.08 92.66 91.75 92.03 93.35 89.26 90.82 91.21 89.54 90.98 91.93 图 11 4 种深度神经网络模型在 Linear 序列上的性能比较 Fig. 11 A comparison on performance of four kinds of deep neural network models in Linear sequences 100 95 90 85 80 75 70 MLP LSTM CNN_MLP ResNet 准确率/% 模型 Fio 序列 4-d 5-d 92.46 6-d 93.48 94.44 92.23 93.49 95.10 90.57 90.94 94.55 90.43 91.03 93.40 图 12 4 种深度神经网络模型在 Fio 序列上的性能比较 Fig. 12 A comparison on performance of four kinds of deep neural network models in Fio sequences 100 80 60 40 20 0 MLP LSTM CNN_MLP ResNet 准确率/% 模型 Multiplication 序列 4-d 5-d 6-d 61.07 71.51 54.38 64.09 79.79 86.50 71.11 85.13 62.15 50.81 50.30 45.04 图 13 4 种深度神经网络模型在 Multiplication 序列上的 性能比较 Fig. 13 A comparison on performance of four kinds of deep neural network models in Multiplication sequences 60 50 40 30 20 10 0 MLP LSTM CNN_MLP ResNet 准确率/% 模型 Nested 序列 4-d 5-d 6-d 48.39 39.56 50.79 48.16 42.38 48.28 49.76 51.89 51.30 51.87 53.21 47.74 图 14 4 种深度神经网络模型在 Nested 序列上的性能比较 Fig. 14 A comparison on performance of four kinds of deep neural network models in Nested sequences 对比图 12 的 Fio 序列,其规则是不仅仅与前 一项内容相关联,而且与前两项的内容相关,这 就使得当维数越高,即给定的图像数越多,计算 机得到的图像间的信息就会越多,就越易预测该 序列,可以很明显地看到图 12 中准确率的提升随 着维数的增高越来越明显。 Multiplication 序列和 Nested 序列的性能比 较见图 13~14,从图中可以看出维度越高,对于 CNN_MLP 和 ResNet 模型而言预测的准确率越 高。相反,MLP 和 LSTM 模型对于这 2 种序列的 预测均呈现一种维度越高准确率越低的趋势。这 可能是由于 CNN_MLP 和 ResNet 模型自身较为 复杂,其对于这种复杂序列来说,其预测精度反 而是易于随着维数增高而增大。而对于 MLP 和 LSTM 模型而言,其模型自身较为简单,加之 Multiplication 序列和 Nested 序列又较为复杂,相当于 是个模型简单任务难的问题,其对于此序列的预 测难度就会加大,容易导致维度越高准确率越低 的情况。 2.3 结果分析 本小节从视觉效果的角度展示了每种类型图 第 6 期 梁慧,等:图像情境下的数字序列逻辑学习 ·1195·
·1196· 智能系统学报 第14卷 像序列在不同维度上的实验结果,如图15~17 确的,例如图I7中的Multiplication序列和Nes- 所示(其中包括正确的预测和错误的预测)。 td序列等。3)结果输出中的位数越大,其预测出 Linear Multiplication 错的可能性就会越大,因为计算位数越大,相对 559 而言,其难度就会越大,预测错误的可能性就会 input 495 2237 加大。 158 Linear Multiplication output 3428 521 6928 35B01 352 ground truth 342 51通 316928 358016 input 5 predict correct correct 42541 wrong wrong FIo Nested 408 378 64238 29792 162 427 2084548 input output 305 2312552 14591837 ground truth 4463 3052 2312582414591837 output 3g 160 predict correct wrong wrong ground truth 30g 160 6180 F10 Nested predict wrong correct wrong 5267 551 29 18 图154维图像序列 input 46 437 25 Fig.15 4-dimensional image sequences 399 645 Linear Multiplication 863 2 11034 661 4281 output 1253 176 467 input 35 493 63 ground truth 1263 2 17680 1261 predict C0元e时 2I937 wrong correct wrong 图176维图像序列 output 5 2520 Fig.17 6-dimensional image sequences ground truth 5697 43羽 25200 659125 predict correct wrong correct wrong 3结束语 Fio Nested 数字序列逻辑学习任务一直以来都是人工智 能的一个研究热点。而且未知的数字和规则的模 input 型构建数字序列问题的预测始终是一个具有挑战 性的任务。传统的数字序列技术是基于已知数字 的含义下,并根据序列本身的规律特征构造满足 output 145 53 该规律的模式,以便进行数字序列的预测。本文 ground truth 20 816 5279 的方法是在不知道图像间关系和图像内包含的内 predict correct wrong correct wrong 容的意义的情况下利用深度学习的方法完成数字 图165维图像序列 序列逻辑学习任务来预测下一张图像内容。同 Fig.16 5-dimensional image sequences 时,人类对于这种未知的数字和规则的模型构建 本文仅展示了4维、5维、6维图像序列的部 的数字序列极易限制其中,无法快速计算出结果 分实验结果。从这些实验结果发现预测误差的原 甚至无法得到正确结果。而本文所提出的方法为 因可能如下:1)当输出图像模糊时,很容易引起 解决此类序列问题提供了一种可能。 OCR工具识别错误,例如图15中的Fio序列,观 在未来的工作中,我们将进一步探索如何提 察错误的那一栏,当输出图像模糊时,图像中输 高精度及对缺失数据的预测,同时期望可以对任 出结果的第2位(从右往左)有可能是6或8,这 意位置的图像内容进行预测,而非单一地对下一 就极易导致OCR的识别出错,再如,图15~16 张的图像内容进行预测,特别地,下一步希望可 中的Multiplication序列,图l6中的Linear序列和 以提出更适用于数字预测逻辑学习任务的模型以 Fo序列等。2)其对负号的图像预测有时是不准 求精度上面的突破
像序列在不同维度上的实验结果,如图 15~17 所示 (其中包括正确的预测和错误的预测)。 Linear Multiplication input output ground truth predict input output ground truth predict correct wrong correct wrong correct wrong correct wrong Fio Nested 图 15 4 维图像序列 Fig. 15 4-dimensional image sequences Linear Multiplication input output ground truth predict input output ground truth predict correct wrong correct wrong correct wrong correct wrong Fio Nested 图 16 5 维图像序列 Fig. 16 5-dimensional image sequences 本文仅展示了 4 维、5 维、6 维图像序列的部 分实验结果。从这些实验结果发现预测误差的原 因可能如下:1) 当输出图像模糊时,很容易引起 OCR 工具识别错误,例如图 15 中的 Fio 序列,观 察错误的那一栏,当输出图像模糊时,图像中输 出结果的第 2 位 (从右往左) 有可能是 6 或 8,这 就极易导致 OCR 的识别出错,再如,图 15~16 中的 Multiplication 序列,图 16 中的 Linear 序列和 Fio 序列等。2) 其对负号的图像预测有时是不准 确的,例如图 17 中的 Multiplication 序列和 Nested 序列等。3) 结果输出中的位数越大,其预测出 错的可能性就会越大,因为计算位数越大,相对 而言,其难度就会越大,预测错误的可能性就会 加大。 Linear Multiplication input output ground truth predict input output ground truth predict correct wrong correct wrong correct wrong correct wrong Fio Nested 图 17 6 维图像序列 Fig. 17 6-dimensional image sequences 3 结束语 数字序列逻辑学习任务一直以来都是人工智 能的一个研究热点。而且未知的数字和规则的模 型构建数字序列问题的预测始终是一个具有挑战 性的任务。传统的数字序列技术是基于已知数字 的含义下,并根据序列本身的规律特征构造满足 该规律的模式,以便进行数字序列的预测。本文 的方法是在不知道图像间关系和图像内包含的内 容的意义的情况下利用深度学习的方法完成数字 序列逻辑学习任务来预测下一张图像内容。同 时,人类对于这种未知的数字和规则的模型构建 的数字序列极易限制其中,无法快速计算出结果 甚至无法得到正确结果。而本文所提出的方法为 解决此类序列问题提供了一种可能。 在未来的工作中,我们将进一步探索如何提 高精度及对缺失数据的预测,同时期望可以对任 意位置的图像内容进行预测,而非单一地对下一 张的图像内容进行预测,特别地,下一步希望可 以提出更适用于数字预测逻辑学习任务的模型以 求精度上面的突破。 ·1196· 智 能 系 统 学 报 第 14 卷
第6期 梁慧,等:图像情境下的数字序列逻辑学习 ·1197· 参考文献: problems[J].Cognitive systems research,2013,22-23: 27-34. [1]BOGOSHI J.The oldest mathematical artefact[J].The [17]HOFMANN J,KITZELMANN E,SCHMID U.Apply- mathematical gazette,1987,71(458):294-294. ing inductive program synthesis to induction of number [2]SCHMID U,KITZELMANN E.Inductive rule learning on series a case study with IGOR2[J].Joint german/austrian the knowledge level[J].Cognitive systems research,2011, conference on artificial intelligence(Kunstliche Intelli- 12(3/4):237-248. genz).Springer,Cham,2014:25-36. [3]FLENER P,SCHMID U.An introduction to inductive pro- [18]RAGNI M,KLEIN A.Predicting numbers:An AI ap- gramming[J].Artificial intelligence review,2008,29(1): proach to solving number series[Cl//German Conference 45-62. on Advances in Artificial Intelligence.Springer,Berlin, [4]COLTON S,BUNDY A,WALSH T.Automatic Inven- Heidelberg,2011:255-259. tion of Integer Sequences[M]//The fertility of the soil / [19]RAGNI M,KLEIN A.Solving number series-architec- Cambridge University Press AAAI/IAAI,2000:558-563. tural properties of successful artificial neural [5]QIAN Y.LI F J,LIANG J Y,et al.Space structure and networks[C]//NCTA 2011-Proceedings of the Interna- clustering of categorical data[J].IEEE transactions on tional Conference on Neural Computation Theory and neural networks and learning systems,2016,27(10): Applications,2011:224-229. 2047-2059. [20]KINGMA D P,BA J.Adam:A method for stochastic op- [6]QIAN Y,XU H,LIANG J Y,et al.Fusing monotonic de- timization.[C]//Proceedings of the 3rd International Com- cision trees[J].IEEE transactions on knowledge and data ference on Learning Representations,San Diego,arXiv engineering,.2015,27(10):2717-2728. prerint arXiv:1412.6980,2014. [7]QIAN Y,LI Y,LIANG J,et al.Fuzzy granular structure [21]LECUN Y,BENGIO Y,Hinton G.Deep learning[M]. distance[J].IEEE transactions on fuzzy systems,2015, Nature,2015,521(7553):436. 23(6):2245-2259. [22]HOCHREITER S,SCHMIDHUBER,JURGEN.Long [8]QIAN Y,LIANG J,PEDRYCZ W,et al.Positive approx- short-term memory [J].Neural computation,1997,9(8) 1735-1780. imation:An accelerator for attribute reduction in rough set theory[J].Artificial intelligence,2010,174(9/10): [23]CHUMERIN N.Convolutional neural network[J].Neuro- 597-618. computing,2015,148:136-142. [9]RAVEN J,et al.Raven progressive matrices[M].Hand- [24]KRIZHEVSKY A.SUTSKEVER I.HINTON G E.Im- book of Nonverbal Assessment,2003,223-237. agenet classification with deep convolutional neural net- [10]MUGGLETON S,CHEN J.Guest editorial:special issue works[J].In:advances in neural information processing systems,2012:1097-1105. on inductive logic programming(ILP 2011)[J].Machine [25]SRIVASTAVA N.HINTON G.KRIZHEVSKY A,et al. 1 earning,2012,89(3):213-214. [11]HOLZMAN T G,PELLIGRINO J W,GLASER R.Cog- Dropout:a simple way to prevent neural networks from overfitting[J].Journal of machine learning research,2014. nitive dimensions of numerical rule inductionJ.Journal 15(11929-1958. of educational psychology,1982,74(3):360-373. [26]HE K,ZHANG X,REN S,et al.Deep residual learning [12]STERNBERG R.J.Handbook of Intelligence[M].Cam- for image recognition[J].In proceedings of the IEEE con- bridge University Press,2000. ference on computer vision and pattern recognition,2016: [13]SIMON HA,KOTOVSKY K.Human acquisition of con- 770-778. cepts for sequential patterns[J].Psychological review, [27]SMITH R.An overview of the tesseract OCR engine[C]// 1963,70(6):534-546. icdar.IEEE Computer Society,2007,2:629-633. [14]SANGHI P,DOWE D.L,A computer program capable of passing I.Q.tests[C]//4th Int.Conf.on Cognitive 作者简介: Science(ICCS'03).Sydney,2003:570-575. 梁慧,女,1994年生,硕士研究 [15]SIEBERS M.SCHMID U.Semi-analytic natural number 生,主要研究方向为机器学习、深度学 习和逻辑学习。 series induction[J].Advances in artificial intelligence, 2012,7526:249-252. [16]STRANNEGARD C.AMIRGHASEMI M.ULFSBACK- ER S.An anthropomorphic method for number sequence
参考文献: BOGOSHI J. The oldest mathematical artefact[J]. The mathematical gazette, 1987, 71(458): 294–294. [1] SCHMID U, KITZELMANN E. Inductive rule learning on the knowledge level[J]. Cognitive systems research, 2011, 12(3/4): 237–248. [2] FLENER P, SCHMID U. An introduction to inductive programming[J]. Artificial intelligence review, 2008, 29(1): 45–62. [3] COLTON S, BUNDY A, WALSH T. Automatic Invention of Integer Sequences[M]// The fertility of the soil /. Cambridge University Press AAAI/IAAI, 2000: 558-563. [4] QIAN Y, LI F J, LIANG J Y, et al. Space structure and clustering of categorical data[J]. IEEE transactions on neural networks and learning systems, 2016, 27(10): 2047–2059. [5] QIAN Y, XU H, LIANG J Y, et al. Fusing monotonic decision trees[J]. IEEE transactions on knowledge and data engineering, 2015, 27(10): 2717–2728. [6] QIAN Y, LI Y, LIANG J, et al. Fuzzy granular structure distance[J]. IEEE transactions on fuzzy systems, 2015, 23(6): 2245–2259. [7] QIAN Y, LIANG J, PEDRYCZ W, et al. Positive approximation: An accelerator for attribute reduction in rough set theory[J]. Artificial intelligence, 2010, 174(9/10): 597–618. [8] RAVEN J, et al. Raven progressive matrices[M]. Handbook of Nonverbal Assessment, 2003, 223-237. [9] MUGGLETON S, CHEN J. Guest editorial: special issue on inductive logic programming (ILP 2011)[J]. Machine learning, 2012, 89(3): 213–214. [10] HOLZMAN T G, PELLIGRINO J W, GLASER R. Cognitive dimensions of numerical rule induction[J]. Journal of educational psychology, 1982, 74(3): 360–373. [11] STERNBERG R.J. Handbook of Intelligence[M]. Cambridge University Press, 2000. [12] SIMON H A, KOTOVSKY K. Human acquisition of concepts for sequential patterns[J]. Psychological review, 1963, 70(6): 534–546. [13] SANGHI P, DOWE D.L, A computer program capable of passing I.Q. tests[C]//4th Int. Conf. on Cognitive Science(ICCS'03), Sydney, 2003: 570−575. [14] SIEBERS M, SCHMID U. Semi-analytic natural number series induction[J]. Advances in artificial intelligence, 2012, 7526: 249–252. [15] STRANNEGARD C, AMIRGHASEMI M, ULFSBACKER S. An anthropomorphic method for number sequence [16] problems[J]. Cognitive systems research, 2013, 22-23: 27–34. HOFMANN J, KITZELMANN E, SCHMID U. Applying inductive program synthesis to induction of number series a case study with IGOR2[J]. Joint german/austrian conference on artificial intelligence(Künstliche Intelligenz).Springer, Cham, 2014: 25–36. [17] RAGNI M, KLEIN A. Predicting numbers: An AI approach to solving number series[C]// German Conference on Advances in Artificial Intelligence. Springer, Berlin, Heidelberg, 2011:255−259. [18] RAGNI M, KLEIN A. Solving number series - architectural properties of successful artificial neural networks[C]// NCTA 2011- Proceedings of the International Conference on Neural Computation Theory and Applications, 2011: 224-229. [19] KINGMA D P, BA J. Adam: A method for stochastic optimization. [C]//Proceedings of the 3rd International Comference on Learning Representations, San Diego, arXiv prerint arXiv: 1412.6980, 2014. [20] LECUN Y, BENGIO Y, Hinton G. Deep learning[M]. Nature, 2015, 521(7553):436. [21] HOCHREITER S, SCHMIDHUBER, JÜRGEN. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [22] CHUMERIN N. Convolutional neural network[J]. Neurocomputing, 2015, 148: 136–142. [23] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. In: advances in neural information processing systems, 2012: 1097–1105. [24] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting[J]. Journal of machine learning research, 2014, 15(1): 1929–1958. [25] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[J]. In proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770–778. [26] SMITH R. An overview of the tesseract OCR engine[C]// icdar. IEEE Computer Society, 2007, 2: 629-633. [27] 作者简介: 梁慧,女,1994 年生,硕士研究 生,主要研究方向为机器学习、深度学 习和逻辑学习。 第 6 期 梁慧,等:图像情境下的数字序列逻辑学习 ·1197·
·1198· 智能系统学报 第14卷 曹峰,男,1980年生,副教授,博 钱宇华,男,1976年生,教授,博 土,主要研究方向为人工智能、空间数 士生导师,主要研究方向为人工智能 据挖掘。主持国家自然科学青年基金 大数据、复杂网络、数据挖掘与机器学 项目1项,山西省青年科技研究基金 习。2014一2016年,连续入选爱思唯 项目1项,参与山西省青年科技研究 尔中国高被引学者榜单。曾获得山西 基金项目2项,获中国科学院大学优 省科学技术奖(自然科学类)一等奖, 秀毕业生称号,博士论文被评为中国 教育部宝钢教育基金特等奖,CC℉优 科学院地理科学与资源研究所优秀博士论文。发表学术论 秀博士论文奖,山西省“五四青年奖章”,全国百篇优秀博士论 文10余篇。 文提名奖,获发明专利2项。发表学术论文80余篇。 Thirty-seventh International Conference on Machine Learning ICML 2020 Submitted papers can be up to eight pages long,not including references,and up to twelve pages when references and acknowledgments are included.Any paper exceeding this length will automatically be rejected.Authors have the option of submitting one supplementary manuscript containing further details of their work and a separate file contain- ing code that supports experimental findings;it is entirely up to the reviewers to decide whether they wish to consult this additional material. To foster reproducibility,we highly encourage authors to submit code.Reproducibility of results and easy availabil- ity of code will be taken into account in the decision-making process.All submissions must be electronic,anonymized and must closely follow the formatting guidelines in the templates;otherwise they will automatically be rejected.This year,the author list at the submission deadline will be considered final,and no changes in authorship will be permitted for accepted papers. 会议日期:2020-07-12-2020-07-17 截稿日期:2019-12-06 会议地点:Messe Wien Exhibition&Congress Center,Vienna,奥地利 网站:htps:/icml.cc/Conferences/2020
曹峰,男,1980 年生,副教授,博 士,主要研究方向为人工智能、空间数 据挖掘。主持国家自然科学青年基金 项目 1 项,山西省青年科技研究基金 项目 1 项,参与山西省青年科技研究 基金项目 2 项,获中国科学院大学优 秀毕业生称号,博士论文被评为中国 科学院地理科学与资源研究所优秀博士论文。发表学术论 文 10 余篇。 钱宇华,男,1976 年生,教授,博 士生导师,主要研究方向为人工智能、 大数据、复杂网络、数据挖掘与机器学 习。2014—2016 年,连续入选爱思唯 尔中国高被引学者榜单。曾获得山西 省科学技术奖 (自然科学类) 一等奖, 教育部宝钢教育基金特等奖,CCF 优 秀博士论文奖,山西省“五四青年奖章”,全国百篇优秀博士论 文提名奖,获发明专利 2 项。发表学术论文 80 余篇。 Thirty-seventh International Conference on Machine Learning (ICML 2020) Submitted papers can be up to eight pages long, not including references, and up to twelve pages when references and acknowledgments are included. Any paper exceeding this length will automatically be rejected. Authors have the option of submitting one supplementary manuscript containing further details of their work and a separate file containing code that supports experimental findings; it is entirely up to the reviewers to decide whether they wish to consult this additional material. To foster reproducibility, we highly encourage authors to submit code. Reproducibility of results and easy availability of code will be taken into account in the decision-making process. All submissions must be electronic, anonymized and must closely follow the formatting guidelines in the templates; otherwise they will automatically be rejected. This year, the author list at the submission deadline will be considered final, and no changes in authorship will be permitted for accepted papers. 会议日期:2020-07-12 - 2020-07-17 截稿日期:2019-12-06 会议地点:Messe Wien Exhibition & Congress Center, Vienna, 奥地利 网站:https://icml.cc/Conferences/2020 ·1198· 智 能 系 统 学 报 第 14 卷