正在加载图片...
第6期 马世龙,等:大数据与深度学习综述 ·731· 建立在数学模型和算法之上的计算机程序自动完成, 位四。机器学习的研究从其热衷度上大致分为3 这些程序运用海量数据,能够预测利益和降低风险。 个阶段。 2009年Go0gle公司一家就为美国政府贡献了540亿 首先是20世纪五六十年代,机器学习的萌芽时 美元的利润。大数据已经成为企业、政府、机构决策 期。1959年,Arthur Samuel设计了一个具有学习能 的重要源泉,基于大数据分析的应用也成为人们衣食 力的下棋程序,可以通过一次次的对弈改善程序自 住行必不可少的工具。 身的棋艺。该程序不仅在4年后,战胜其设计者本 1.3大数据面临的挑战 人,7年后还战胜了美国一位保持8不败战绩的冠 如果说大数据产生之初所面临的挑战主要表现 军】。1956年,Frank Rosenblatt提出了一种基于 在如何及时收集和合理存储上[),那么10余年后的 神经网络的数学模型一感知机,采用线性优化的方 今天,大数据所面临的更多是如何有效地分析大数 法模拟人类学习的神经系统2。同期,Widrow提 据[90。大数据分析是指大数据内容上的分析与 出最小均方误差(least mean square,LMS)算法开 计算。由于大数据的众多特点,诸多传统方法如数 启了对自适应元素的训练]。这些探索使得机器 据挖掘不能直接应用于大数据集场景,大数据分析 学习第一次成为热门研究。 面临新的挑战,包括[9,15,18。 然而,1969年人工智能之父Marvin Minsky指 1)传统算法主要基于内存,随着数据规模的空 出单层感知机无法处理线性不可分问题,如异或 前扩大,它们的时空开销(计算复杂度)变得难于容 (同或)的分类:以及基于“黑箱”原理无法将模型与 忍。如何应对大批量的数据,将其装入内存并高效 现实世界直接对应等问题[26-],使得机器学习的研 运行成为新的挑战。 究一度进入低谷。虽然Widrow和Winter提出的 2)为了支持全数据量的实时数据处理,由于有 Madaline算法通过分段线性化的思想能够解决异或 时无法永久化存储,同时数据使用环境持续变化,使 的分类问题,但仍然不能彻底解决感知机所面临的 得无法掌握数据整个生命周期的特征。如何通过传 挑战。但是,这一尝试却开启了研究人员基于符号 统批量算法,基于历史数据构建无偏训练集成为新 归纳的机器学习和集成机器学习的探索[2)。同时, 的挑战。 20世纪70年代随着有限样本统计理论引入机器学 3)在大数据环境下,数据生产和采集的能力日 习,涌现了基于人工神经网络(artificial neural net- 益增强,这导致数据在规模增大的同时呈现出新的 wok,ANN)上的众多统计机器学习算法,最著名包 特点:属性数量大而稀疏、数据体量大而高噪声、数 括支持向量机(SVM)[2)、高斯混合模型(GMM)【2 据高维而复杂多样。如何处理高维、高噪声、稀疏数 以及逻辑回归(LR)。从而机器学习在一段冷静时 据成为新的挑战。 期之后第2次成为研究热点。 4)虽然机器学习善于处理非确定性的复杂问 进入20世纪80年代后期,Rumelhart提出多层 题,但是对于大数据处理与分析的场景,由于大数据 感知机从而解决了线性不可分的问题[)。但由于 的复杂多样性,机器学习在统计分析、学习目标和学 数据产生速度的不断提升,多层感知机也变得对其 习效率方面遇到了新的挑战。 无法适应,机器学习的算法亟待改进[2]。与此同 大数据分析所涉及的关键技术包括深度学习、 时,在神经网络领域Paul Werbos提出反向传播 知识计算和可视化等1)。其中深度学习是一种基 (back propagation,BP)算法使线性不可分的问题在 于机器学习、数据挖掘技术以及神经网络理论,分析 复杂神经网络上也能得以解决[3。从此,机器学习 大数据潜在价值的过程。本文,后续将围绕深度学 进入第3个阶段,即快速发展时期。在这一阶段,不 习进行综述,并最后给出这两个热门研究领域在未 断涌现出更优秀的算法],推动了人工智能在语音 来的一些可能性。 识别、图形图像处理以及自然语言处理方面的进展。 2从机器学习到深度学习 但机器学习在几十年的发展中,仍有很多问题 未能解决。其中包括:BP算法随着神经网络层次的 2.1机器学习发展历程 加深,参数优化效果无法传递到前层,从而导致容易 如果说人的学习是通过观察获得某种技能的过 出现局部最优解3)或过拟合问题34;此外,由于机 程,那么机器学习就是在用计算机模仿这一过 器学习在实际应用中需要手工设计特征和线性分类 程)。机器学习被认为是计算机拥有智能的根本 器,它不仅依赖领域专家的知识,还需要人在学习过 途径,在人工智能发展的早期阶段占据了重要地 程中参与这使得学习耗时耗力。而且,这种机器学建立在数学模型和算法之上的计算机程序自动完成, 这些程序运用海量数据,能够预测利益和降低风险。 2009 年 Google 公司一家就为美国政府贡献了 540 亿 美元的利润。 大数据已经成为企业、政府、机构决策 的重要源泉,基于大数据分析的应用也成为人们衣食 住行必不可少的工具。 1.3 大数据面临的挑战 如果说大数据产生之初所面临的挑战主要表现 在如何及时收集和合理存储上[2] ,那么 10 余年后的 今天,大数据所面临的更多是如何有效地分析大数 据[19-20] 。 大数据分析是指大数据内容上的分析与 计算。 由于大数据的众多特点,诸多传统方法如数 据挖掘不能直接应用于大数据集场景,大数据分析 面临新的挑战,包括[9, 15, 18] : 1)传统算法主要基于内存,随着数据规模的空 前扩大,它们的时空开销(计算复杂度)变得难于容 忍。 如何应对大批量的数据,将其装入内存并高效 运行成为新的挑战。 2)为了支持全数据量的实时数据处理,由于有 时无法永久化存储,同时数据使用环境持续变化,使 得无法掌握数据整个生命周期的特征。 如何通过传 统批量算法,基于历史数据构建无偏训练集成为新 的挑战。 3)在大数据环境下,数据生产和采集的能力日 益增强,这导致数据在规模增大的同时呈现出新的 特点:属性数量大而稀疏、数据体量大而高噪声、数 据高维而复杂多样。 如何处理高维、高噪声、稀疏数 据成为新的挑战。 4)虽然机器学习善于处理非确定性的复杂问 题,但是对于大数据处理与分析的场景,由于大数据 的复杂多样性,机器学习在统计分析、学习目标和学 习效率方面遇到了新的挑战。 大数据分析所涉及的关键技术包括深度学习、 知识计算和可视化等[18] 。 其中深度学习是一种基 于机器学习、数据挖掘技术以及神经网络理论,分析 大数据潜在价值的过程。 本文,后续将围绕深度学 习进行综述,并最后给出这两个热门研究领域在未 来的一些可能性。 2 从机器学习到深度学习 2.1 机器学习发展历程 如果说人的学习是通过观察获得某种技能的过 程,那么 机 器 学 习 就 是 在 用 计 算 机 模 仿 这 一 过 程[21] 。 机器学习被认为是计算机拥有智能的根本 途径,在人工智能发展的早期阶段占据了重要地 位[22] 。 机器学习的研究从其热衷度上大致分为 3 个阶段。 首先是 20 世纪五六十年代,机器学习的萌芽时 期。 1959 年,Arthur Samuel 设计了一个具有学习能 力的下棋程序,可以通过一次次的对弈改善程序自 身的棋艺。 该程序不仅在 4 年后,战胜其设计者本 人,7 年后还战胜了美国一位保持 8 不败战绩的冠 军[23] 。 1956 年,Frank Rosenblatt 提出了一种基于 神经网络的数学模型—感知机,采用线性优化的方 法模拟人类学习的神经系统[24] 。 同期,Widrow 提 出最小均方误差( least mean square, LMS) 算法开 启了对自适应元素的训练[25] 。 这些探索使得机器 学习第一次成为热门研究。 然而,1969 年人工智能之父 Marvin Minsky 指 出单层感知机无法处理线性不可分问题,如异或 (同或)的分类;以及基于“黑箱”原理无法将模型与 现实世界直接对应等问题[26-27] ,使得机器学习的研 究一度进入低谷。 虽然 Widrow 和 Winter 提出的 Madaline 算法通过分段线性化的思想能够解决异或 的分类问题,但仍然不能彻底解决感知机所面临的 挑战。 但是,这一尝试却开启了研究人员基于符号 归纳的机器学习和集成机器学习的探索[27] 。 同时, 20 世纪 70 年代随着有限样本统计理论引入机器学 习,涌现了基于人工神经网络( artificial neural net⁃ work,ANN)上的众多统计机器学习算法,最著名包 括支持向量机(SVM) [28] 、高斯混合模型(GMM) [29] 以及逻辑回归(LR)。 从而机器学习在一段冷静时 期之后第 2 次成为研究热点。 进入 20 世纪 80 年代后期,Rumelhart 提出多层 感知机从而解决了线性不可分的问题[30] 。 但由于 数据产生速度的不断提升,多层感知机也变得对其 无法适应,机器学习的算法亟待改进[26] 。 与此同 时,在神经网络领域 Paul Werbos 提出反向传播 (back propagation,BP)算法使线性不可分的问题在 复杂神经网络上也能得以解决[31] 。 从此,机器学习 进入第 3 个阶段,即快速发展时期。 在这一阶段,不 断涌现出更优秀的算法[32] ,推动了人工智能在语音 识别、图形图像处理以及自然语言处理方面的进展。 但机器学习在几十年的发展中,仍有很多问题 未能解决。 其中包括:BP 算法随着神经网络层次的 加深,参数优化效果无法传递到前层,从而导致容易 出现局部最优解[33]或过拟合问题[34] ;此外,由于机 器学习在实际应用中需要手工设计特征和线性分类 器,它不仅依赖领域专家的知识,还需要人在学习过 程中参与这使得学习耗时耗力。 而且,这种机器学 第 6 期 马世龙,等:大数据与深度学习综述 ·731·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有