建立在数学模型和算法之上的计算机程序自动完成，这些程序运用海量数据，能够

点击下载：《智能系统学报》：大数据与深度学习综述（北京航空航天大学：马世龙、乌尼日其其格、李小平）

正在加载图片...

第6期马世龙，等：大数据与深度学习综述 ·731· 建立在数学模型和算法之上的计算机程序自动完成，位四。机器学习的研究从其热衷度上大致分为3 这些程序运用海量数据，能够预测利益和降低风险。个阶段。 2009年Go0gle公司一家就为美国政府贡献了540亿首先是20世纪五六十年代，机器学习的萌芽时美元的利润。大数据已经成为企业、政府、机构决策期。1959年，Arthur Samuel设计了一个具有学习能的重要源泉，基于大数据分析的应用也成为人们衣食力的下棋程序，可以通过一次次的对弈改善程序自住行必不可少的工具。身的棋艺。该程序不仅在4年后，战胜其设计者本 1.3大数据面临的挑战人，7年后还战胜了美国一位保持8不败战绩的冠如果说大数据产生之初所面临的挑战主要表现军】。1956年，Frank Rosenblatt提出了一种基于在如何及时收集和合理存储上[)，那么10余年后的神经网络的数学模型一感知机，采用线性优化的方今天，大数据所面临的更多是如何有效地分析大数法模拟人类学习的神经系统2。同期，Widrow提据[90。大数据分析是指大数据内容上的分析与出最小均方误差(least mean square,LMS)算法开计算。由于大数据的众多特点，诸多传统方法如数启了对自适应元素的训练]。这些探索使得机器据挖掘不能直接应用于大数据集场景，大数据分析学习第一次成为热门研究。面临新的挑战，包括[9,15,18。然而，1969年人工智能之父Marvin Minsky指 1)传统算法主要基于内存，随着数据规模的空出单层感知机无法处理线性不可分问题，如异或前扩大，它们的时空开销（计算复杂度）变得难于容 (同或)的分类：以及基于“黑箱”原理无法将模型与忍。如何应对大批量的数据，将其装入内存并高效现实世界直接对应等问题[26-]，使得机器学习的研运行成为新的挑战。究一度进入低谷。虽然Widrow和Winter提出的 2)为了支持全数据量的实时数据处理，由于有 Madaline算法通过分段线性化的思想能够解决异或时无法永久化存储，同时数据使用环境持续变化，使的分类问题，但仍然不能彻底解决感知机所面临的得无法掌握数据整个生命周期的特征。如何通过传挑战。但是，这一尝试却开启了研究人员基于符号统批量算法，基于历史数据构建无偏训练集成为新归纳的机器学习和集成机器学习的探索[2)。同时，的挑战。 20世纪70年代随着有限样本统计理论引入机器学 3)在大数据环境下，数据生产和采集的能力日习，涌现了基于人工神经网络(artificial neural net- 益增强，这导致数据在规模增大的同时呈现出新的 wok,ANN)上的众多统计机器学习算法，最著名包特点：属性数量大而稀疏、数据体量大而高噪声、数括支持向量机(SVM)[2)、高斯混合模型(GMM)【2 据高维而复杂多样。如何处理高维、高噪声、稀疏数以及逻辑回归(LR)。从而机器学习在一段冷静时据成为新的挑战。期之后第2次成为研究热点。 4)虽然机器学习善于处理非确定性的复杂问进入20世纪80年代后期，Rumelhart提出多层题，但是对于大数据处理与分析的场景，由于大数据感知机从而解决了线性不可分的问题[)。但由于的复杂多样性，机器学习在统计分析、学习目标和学数据产生速度的不断提升，多层感知机也变得对其习效率方面遇到了新的挑战。无法适应，机器学习的算法亟待改进[2]。与此同大数据分析所涉及的关键技术包括深度学习、时，在神经网络领域Paul Werbos提出反向传播知识计算和可视化等1)。其中深度学习是一种基 (back propagation,BP)算法使线性不可分的问题在于机器学习、数据挖掘技术以及神经网络理论，分析复杂神经网络上也能得以解决[3。从此，机器学习大数据潜在价值的过程。本文，后续将围绕深度学进入第3个阶段，即快速发展时期。在这一阶段，不习进行综述，并最后给出这两个热门研究领域在未断涌现出更优秀的算法]，推动了人工智能在语音来的一些可能性。识别、图形图像处理以及自然语言处理方面的进展。 2从机器学习到深度学习但机器学习在几十年的发展中，仍有很多问题未能解决。其中包括：BP算法随着神经网络层次的 2.1机器学习发展历程加深，参数优化效果无法传递到前层，从而导致容易如果说人的学习是通过观察获得某种技能的过出现局部最优解3)或过拟合问题34；此外，由于机程，那么机器学习就是在用计算机模仿这一过器学习在实际应用中需要手工设计特征和线性分类程)。机器学习被认为是计算机拥有智能的根本器，它不仅依赖领域专家的知识，还需要人在学习过途径，在人工智能发展的早期阶段占据了重要地程中参与这使得学习耗时耗力。而且，这种机器学建立在数学模型和算法之上的计算机程序自动完成，这些程序运用海量数据，能够预测利益和降低风险。２００９年Ｇｏｏｇｌｅ公司一家就为美国政府贡献了５４０亿美元的利润。大数据已经成为企业、政府、机构决策的重要源泉，基于大数据分析的应用也成为人们衣食住行必不可少的工具。１．３大数据面临的挑战如果说大数据产生之初所面临的挑战主要表现在如何及时收集和合理存储上［２］，那么１０余年后的今天，大数据所面临的更多是如何有效地分析大数据［１９－２０］。大数据分析是指大数据内容上的分析与计算。由于大数据的众多特点，诸多传统方法如数据挖掘不能直接应用于大数据集场景，大数据分析面临新的挑战，包括［９，１５，１８］：１）传统算法主要基于内存，随着数据规模的空前扩大，它们的时空开销（计算复杂度）变得难于容忍。如何应对大批量的数据，将其装入内存并高效运行成为新的挑战。２）为了支持全数据量的实时数据处理，由于有时无法永久化存储，同时数据使用环境持续变化，使得无法掌握数据整个生命周期的特征。如何通过传统批量算法，基于历史数据构建无偏训练集成为新的挑战。３）在大数据环境下，数据生产和采集的能力日益增强，这导致数据在规模增大的同时呈现出新的特点：属性数量大而稀疏、数据体量大而高噪声、数据高维而复杂多样。如何处理高维、高噪声、稀疏数据成为新的挑战。４）虽然机器学习善于处理非确定性的复杂问题，但是对于大数据处理与分析的场景，由于大数据的复杂多样性，机器学习在统计分析、学习目标和学习效率方面遇到了新的挑战。大数据分析所涉及的关键技术包括深度学习、知识计算和可视化等［１８］。其中深度学习是一种基于机器学习、数据挖掘技术以及神经网络理论，分析大数据潜在价值的过程。本文，后续将围绕深度学习进行综述，并最后给出这两个热门研究领域在未来的一些可能性。２从机器学习到深度学习２．１机器学习发展历程如果说人的学习是通过观察获得某种技能的过程，那么机器学习就是在用计算机模仿这一过程［２１］。机器学习被认为是计算机拥有智能的根本途径，在人工智能发展的早期阶段占据了重要地位［２２］。机器学习的研究从其热衷度上大致分为３个阶段。首先是２０世纪五六十年代，机器学习的萌芽时期。１９５９年，ＡｒｔｈｕｒＳａｍｕｅｌ设计了一个具有学习能力的下棋程序，可以通过一次次的对弈改善程序自身的棋艺。该程序不仅在４年后，战胜其设计者本人，７年后还战胜了美国一位保持８不败战绩的冠军［２３］。１９５６年，ＦｒａｎｋＲｏｓｅｎｂｌａｔｔ提出了一种基于神经网络的数学模型—感知机，采用线性优化的方法模拟人类学习的神经系统［２４］。同期，Ｗｉｄｒｏｗ提出最小均方误差（ｌｅａｓｔｍｅａｎｓｑｕａｒｅ，ＬＭＳ）算法开启了对自适应元素的训练［２５］。这些探索使得机器学习第一次成为热门研究。然而，１９６９年人工智能之父ＭａｒｖｉｎＭｉｎｓｋｙ指出单层感知机无法处理线性不可分问题，如异或（同或）的分类；以及基于“黑箱”原理无法将模型与现实世界直接对应等问题［２６－２７］，使得机器学习的研究一度进入低谷。虽然Ｗｉｄｒｏｗ和Ｗｉｎｔｅｒ提出的Ｍａｄａｌｉｎｅ算法通过分段线性化的思想能够解决异或的分类问题，但仍然不能彻底解决感知机所面临的挑战。但是，这一尝试却开启了研究人员基于符号归纳的机器学习和集成机器学习的探索［２７］。同时，２０世纪７０年代随着有限样本统计理论引入机器学习，涌现了基于人工神经网络（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔ⁃ ｗｏｒｋ，ＡＮＮ）上的众多统计机器学习算法，最著名包括支持向量机（ＳＶＭ）［２８］、高斯混合模型（ＧＭＭ）［２９］以及逻辑回归（ＬＲ）。从而机器学习在一段冷静时期之后第２次成为研究热点。进入２０世纪８０年代后期，Ｒｕｍｅｌｈａｒｔ提出多层感知机从而解决了线性不可分的问题［３０］。但由于数据产生速度的不断提升，多层感知机也变得对其无法适应，机器学习的算法亟待改进［２６］。与此同时，在神经网络领域ＰａｕｌＷｅｒｂｏｓ提出反向传播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ，ＢＰ）算法使线性不可分的问题在复杂神经网络上也能得以解决［３１］。从此，机器学习进入第３个阶段，即快速发展时期。在这一阶段，不断涌现出更优秀的算法［３２］，推动了人工智能在语音识别、图形图像处理以及自然语言处理方面的进展。但机器学习在几十年的发展中，仍有很多问题未能解决。其中包括：ＢＰ算法随着神经网络层次的加深，参数优化效果无法传递到前层，从而导致容易出现局部最优解［３３］或过拟合问题［３４］；此外，由于机器学习在实际应用中需要手工设计特征和线性分类器，它不仅依赖领域专家的知识，还需要人在学习过程中参与这使得学习耗时耗力。而且，这种机器学第６期马世龙，等：大数据与深度学习综述 ·７３１·

<<向上翻页向下翻页>>

点击下载：《智能系统学报》：大数据与深度学习综述（北京航空航天大学：马世龙、乌尼日其其格、李小平）