《智能系统学报》：大数据与深度学习综述（北京航空航天大学：马世龙、乌尼日其其格、李小平）

团购合买资源类别：文库，文档格式：PDF，文档页数：15，文件大小：1.74MB

第11卷第6期智能系统学报 Vol.11 No.6 2016年12月 CAAI Transactions on Intelligent Systems Dec.2016 D0I:10.11992/is.201611021 网络出版地址：http://www.cnki.net/kcms/detail,/23.1538.TP.20170116.1503.004.html 大数据与深度学习综述马世龙，乌尼日其其格，李小平 (北京航空航天大学软件开发环境国家重点实验室，北京100191) 摘要：大数据时代改变了基于数理统计的传统数据科学，促进了数据分析方法的创新，从机器学习和多层神经网络演化而来的深度学习是当前大数据处理与分析的研究前沿。从机器学习到深度学习，经历了早期的符号归纳机器学习、统计机器学习、神经网络和20世纪末开始的数据挖掘等几十年的研究和实践，发现深度学习可以挖掘大数据的潜在价值。本文给出大数据和深度学习的综述，特别是，给出了各种深层结构及其学习算法之间关联的图谱，给出了深度学习在若干领域应用的知名案例。最后，展望了大数据上深度学习的发展与挑战。关键词：大数据：机器学习：深层结构：深度学习：神经网铬：人工智能：学习算法：派生树中图分类号：TP311文献标志码：A文章编号：1673-4785(2016)06-0728-15 中文引用格式：马世龙，乌尼日其其格，李小平.大数据与深度学习综述[J].智能系统学报，2016,11(6)：728-742. 英文引用格式：MA Shilong,WUNIRI Qiqige,LI Xiaoping..Deep learning with big data:state of the art and development[J]. CAAI Transactions on Intelligent Systems,2016,11(6):728-742. Deep learning with big data:state of the art and development MA Shilong,WUNIRI Qiqige,LI Xiaoping (State Key Laboratory of Software Development Environment,Beihang University,Beijing 100191,China) Abstract:As the era of the big data arrives,it is accompanied by profound changes to traditional data science based on statistics.Big data also pushes innovations in the methods of data analysis.Deep learning that evolves from ma- chine learning and multilayer neural networks are currently extremely active research areas.From the symbolic ma- chine learning and statistical machine learning to the artificial neural network,followed by data mining in the 90s, this has built a solid foundation for deep learning(DL)that makes it a notable tool for discovering the potential val- ue behind big data.This survey compactly summarized big data and DL,proposed a generative relationship tree of the major deep networks and the algorithms,illustrated a broad area of applications based on DL,and highlighted the challenges to DL with big data,as well as identified future trends. Keywords:big data;machine learning;deep network;deep learning;neural network;artificial intelligence; learning algorithm;derivation tree 大数据不仅为企业带来丰厚的利润，也开启了理统计的传统数据科学，促进了新的数据分析方法科学研究的第四范式，即数据密集型科学发现)。的创新，从机器学习和多层神经网络演化而来的深学术界和产业界对大数据的认识正逐步清晰化并形度学习是当前大数据处理和分析方法的研究前沿。成共识。大数据时代同时也改变了基于概率论和数 1大数据及其挑战收稿日期：2016-11-15. 大数据(big data)的概念自1996年由John 基金项目：国家自然科学基金项目(61003016,61300007,61305054) 科技部基本科研业务费重点科技创新类项目(YWF-14 、Mashey!2]提出以来，经历了一段时间的众说纷纭，带 SXY-007):软件开发环境国家重点实验室自主探索基金项着产业界的事实数据，不断进入学术界的研究领域， SKLSDE-2012ZX-28 ,SKLSDE-2014ZX-06). 通信作者：李小平.E-mail:lce.rex@163.com. 引领了一个时代[)的到来

第１１卷第６期智能系统学报Ｖｏｌ．１１ №．６２０１６年１２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＤｅｃ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６１１０２１网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０１１６．１５０３．００４．ｈｔｍｌ大数据与深度学习综述马世龙，乌尼日其其格，李小平（北京航空航天大学软件开发环境国家重点实验室，北京１００１９１）摘要：大数据时代改变了基于数理统计的传统数据科学，促进了数据分析方法的创新，从机器学习和多层神经网络演化而来的深度学习是当前大数据处理与分析的研究前沿。从机器学习到深度学习，经历了早期的符号归纳机器学习、统计机器学习、神经网络和２０世纪末开始的数据挖掘等几十年的研究和实践，发现深度学习可以挖掘大数据的潜在价值。本文给出大数据和深度学习的综述，特别是，给出了各种深层结构及其学习算法之间关联的图谱，给出了深度学习在若干领域应用的知名案例。最后，展望了大数据上深度学习的发展与挑战。关键词：大数据；机器学习；深层结构；深度学习；神经网络；人工智能；学习算法；派生树中图分类号：ＴＰ３１１文献标志码：Ａ文章编号：１６７３－４７８５（２０１６）０６－０７２８－１５中文引用格式：马世龙，乌尼日其其格，李小平．大数据与深度学习综述［Ｊ］．智能系统学报，２０１６，１１（６）：７２８－７４２．英文引用格式：ＭＡＳｈｉｌｏｎｇ，ＷＵＮＩＲＩＱｉｑｉｇｅ，ＬＩＸｉａｏｐｉｎｇ．Ｄｅｅｐｌｅａｒｎｉｎｇｗｉｔｈｂｉｇｄａｔａ：ｓｔａｔｅｏｆｔｈｅａｒｔａｎｄｄｅｖｅｌｏｐｍｅｎｔ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（６）：７２８－７４２．Ｄｅｅｐｌｅａｒｎｉｎｇｗｉｔｈｂｉｇｄａｔａ：ｓｔａｔｅｏｆｔｈｅａｒｔａｎｄｄｅｖｅｌｏｐｍｅｎｔＭＡＳｈｉｌｏｎｇ，ＷＵＮＩＲＩＱｉｑｉｇｅ，ＬＩＸｉａｏｐｉｎｇ（ＳｔａｔｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＥｎｖｉｒｏｎｍｅｎｔ，ＢｅｉｈａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００１９１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ａｓｔｈｅｅｒａｏｆｔｈｅｂｉｇｄａｔａａｒｒｉｖｅｓ，ｉｔｉｓａｃｃｏｍｐａｎｉｅｄｂｙｐｒｏｆｏｕｎｄｃｈａｎｇｅｓｔｏｔｒａｄｉｔｉｏｎａｌｄａｔａｓｃｉｅｎｃｅｂａｓｅｄｏｎｓｔａｔｉｓｔｉｃｓ．Ｂｉｇｄａｔａａｌｓｏｐｕｓｈｅｓｉｎｎｏｖａｔｉｏｎｓｉｎｔｈｅｍｅｔｈｏｄｓｏｆｄａｔａａｎａｌｙｓｉｓ．Ｄｅｅｐｌｅａｒｎｉｎｇｔｈａｔｅｖｏｌｖｅｓｆｒｏｍｍａ⁃ ｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｍｕｌｔｉｌａｙｅｒｎｅｕｒａｌｎｅｔｗｏｒｋｓａｒｅｃｕｒｒｅｎｔｌｙｅｘｔｒｅｍｅｌｙａｃｔｉｖｅｒｅｓｅａｒｃｈａｒｅａｓ．Ｆｒｏｍｔｈｅｓｙｍｂｏｌｉｃｍａ⁃ ｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｏｔｈｅａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ，ｆｏｌｌｏｗｅｄｂｙｄａｔａｍｉｎｉｎｇｉｎｔｈｅ９０ｓ，ｔｈｉｓｈａｓｂｕｉｌｔａｓｏｌｉｄｆｏｕｎｄａｔｉｏｎｆｏｒｄｅｅｐｌｅａｒｎｉｎｇ（ＤＬ）ｔｈａｔｍａｋｅｓｉｔａｎｏｔａｂｌｅｔｏｏｌｆｏｒｄｉｓｃｏｖｅｒｉｎｇｔｈｅｐｏｔｅｎｔｉａｌｖａｌ⁃ ｕｅｂｅｈｉｎｄｂｉｇｄａｔａ．ＴｈｉｓｓｕｒｖｅｙｃｏｍｐａｃｔｌｙｓｕｍｍａｒｉｚｅｄｂｉｇｄａｔａａｎｄＤＬ，ｐｒｏｐｏｓｅｄａｇｅｎｅｒａｔｉｖｅｒｅｌａｔｉｏｎｓｈｉｐｔｒｅｅｏｆｔｈｅｍａｊｏｒｄｅｅｐｎｅｔｗｏｒｋｓａｎｄｔｈｅａｌｇｏｒｉｔｈｍｓ，ｉｌｌｕｓｔｒａｔｅｄａｂｒｏａｄａｒｅａｏｆａｐｐｌｉｃａｔｉｏｎｓｂａｓｅｄｏｎＤＬ，ａｎｄｈｉｇｈｌｉｇｈｔｅｄｔｈｅｃｈａｌｌｅｎｇｅｓｔｏＤＬｗｉｔｈｂｉｇｄａｔａ，ａｓｗｅｌｌａｓｉｄｅｎｔｉｆｉｅｄｆｕｔｕｒｅｔｒｅｎｄｓ．Ｋｅｙｗｏｒｄｓ：ｂｉｇｄａｔａ；ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；ｄｅｅｐｎｅｔｗｏｒｋ；ｄｅｅｐｌｅａｒｎｉｎｇ；ｎｅｕｒａｌｎｅｔｗｏｒｋ；ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ；ｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍ；ｄｅｒｉｖａｔｉｏｎｔｒｅｅ收稿日期：２０１６－１１－１５．基金项目：国家自然科学基金项目（６１００３０１６，６１３００００７，６１３０５０５４）；科技部基本科研业务费重点科技创新类项目（ＹＷＦ⁃１４⁃ ＪＳＪＸＹ⁃００７）；软件开发环境国家重点实验室自主探索基金项目（ＳＫＬＳＤＥ⁃２０１２ＺＸ⁃２８，ＳＫＬＳＤＥ⁃２０１４ＺＸ⁃０６）．通信作者：李小平．Ｅ⁃ｍａｉｌ：ｌｅｅ．ｒｅｘ＠１６３．ｃｏｍ．大数据不仅为企业带来丰厚的利润，也开启了科学研究的第四范式，即数据密集型科学发现［１］。学术界和产业界对大数据的认识正逐步清晰化并形成共识。大数据时代同时也改变了基于概率论和数理统计的传统数据科学，促进了新的数据分析方法的创新，从机器学习和多层神经网络演化而来的深度学习是当前大数据处理和分析方法的研究前沿。１大数据及其挑战大数据（ｂｉｇｄａｔａ）的概念自１９９６年由ＪｏｈｎＭａｓｈｅｙ［２］提出以来，经历了一段时间的众说纷纭，带着产业界的事实数据，不断进入学术界的研究领域，引领了一个时代［３］的到来

第6期马世龙，等：大数据与深度学习综述 .729. 1.1大数据特点和界定特点，但最早的3个V仍被视作大数据应具备的3 从21世纪初开始，产业界开始意识到数据产生的个特征，贯穿于大数据生命周期中的各个阶段[) 规模和速度可能会对基础设施特别是存储设备造成压从而也形成了学术界和产业界认同趋于一致的大数力)。根据Martin Hilbert的一项统计人类信息总量的据定义，如表2所示。研究，在2000年，数字存储信息只占全球数据量的表2大数据定义 1/4,其他75%的信息尚都存储在报纸、胶片、黑胶唱片 Table 2 Big data definitions 和盒式磁带这类媒介上：但经过短短的几年时间，到了机构定义 2007年，人类大约存储了300EB的数据，其中只有7% 需要新处理模式才能具有更强的决策力、是存储在报纸、书籍、图片等媒介上的模拟数据，其余 Gartner 洞察发现力和流程优化能力的海量、全部是数字数据。数字数据的总量以每40个月翻一高增长率和多样化的信息资产( 番的速度积累。注：PB(PetaBytes拍字节)=1024TB= 种规模大到在获取、存储、管理、分析方面大 20字节，EB(ExaBytes艾字节)=1024PB=20字节，ZB 大超出了传统数据库软件工具能力范围的数据麦肯锡 (ZettaBytes泽字节)=1024EB=2"字节，YB(Yotta- 集合，具有海量数据规模、快速数据流转、多样 Bytes尧字节)=1024ZB=20字节。数据类型和价值密度低等四大特征大数据是指利用常用软件工具捕获，管理和处然而有了规模和速度就是大数据吗？研究人员在 Wiki 理数据所耗时间超过可容忍时间的数据集[) 不同时期对大数据的特点进行了总结。首当其冲的是 1.2大数据存储与处理现状 2O01年，META集团分析师Doug Laney给出大数据的 3V特征)，分别为规模性(Volume)、多样性(Variety) 早在2000年，美国斯隆数字巡天项目启动，其位于新墨西哥州的望远镜，在短短几周内收集到的和高速性(Velocity)。10年后，DC在此基础上又提出第4个特征，即数据的价值(Value)[o。2012年BM则数据比天文学历史上总共收集的数据还要多。云平认为大数据的第4个特征是指真实性(Veracity)[-】。台D0M0公司从2010年开始做过一份有趣的统后来，有人将上述所有特征合起来称为大数据的5V特计一“数据从不休息”，将不同社交网络每分钟产征，也有人从不同的应用视角和需求出发，又提出了粘生的数据进行比较，并形象地给出了它们的数据总性(Viscosity)、邻近性(Vicinity)、模糊性(Vague)等多量[)。据统计，某社交网络产生的评论数在种不同的特征，形成了3+xV的大数据特征[)。这些特 2010一2011年期间为每分钟60余万条，而在征的具体含义，如表1。 2013一2015期间迅速增长为每分钟410余万条。表1大数据特征据另一个统计，2015年美国股市每天的成交量可高 Table 1 Big data characteristics 达70亿股。Google每天要处理超过24PB的数据，名称含义这个数据处理量是美国国家图书馆所有纸质出版物规模可从数百TB到数十数百PB、所含数据量的千倍之多4。由此说明，除了互联网规模性(Volume) 甚至到EB规模之外，物联网、移动终端乃至传统的产业都在迅速产包括各种格式和形态的数据，生大量的数据。研究人员对大数据的产生方式进行多样性(Variety) 如文本、图像、音频、视频了分类)，并指出大数据产生方式经历了被动生需要在一定的时间限度下实效性(Velocity) 成、主动生成、自动生成3个阶段]，如表3所示。得到及时处理表3大数据产生阶段价值密度低，需要通过分析挖掘价值密度(Value) Table 3 Big data generating 和利用产生商业价值阶段方式特点采集的数据的质量影响分析真实性(Veracity) 运营式系统阶段，伴随一定的运结果的准确性被动营活动数据被动产生并保存易变性(Variability) 指数据流的格式变化多样用户原创内容阶段，尤其是在Web2.0 粘性(Viscosity) 指数据流之间的关联性是否强时代，社交网络的出现以及以智能手机邻近性(Vicinity) 获取数据资源的距离 2 主动平板电脑为代表的新型移动设备的使传播性(Virality) 数据在网络中传播的速度用率上升，爆炸式地、主动地产生UGC 有效性(Volatility) 数据的有效性及存储期限 (user generated content)数据因采集手段的多样性和局限性模糊性(Vague) 感知式系统阶段，随着带有处理获取的数据具有模糊性自动功能的传感器广泛布置于社会各处，随着应用的不同研究人员给出了众多的大数据源源不断地、自动地产生新的数据

１．１大数据特点和界定从２１世纪初开始，产业界开始意识到数据产生的规模和速度可能会对基础设施特别是存储设备造成压力［２］。根据ＭａｒｔｉｎＨｉｌｂｅｒｔ的一项统计人类信息总量的研究［４］，在２０００年，数字存储信息只占全球数据量的１／４，其他７５％的信息尚都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上；但经过短短的几年时间，到了２００７年，人类大约存储了３００ＥＢ的数据，其中只有７％是存储在报纸、书籍、图片等媒介上的模拟数据，其余全部是数字数据。数字数据的总量以每４０个月翻一番的速度积累。注：ＰＢ（ＰｅｔａＢｙｔｅｓ拍字节）＝１０２４ＴＢ＝２５０字节，ＥＢ（ＥｘａＢｙｔｅｓ艾字节）＝１０２４ＰＢ＝２６０字节，ＺＢ（ＺｅｔｔａＢｙｔｅｓ泽字节）＝１０２４ＥＢ＝２７０字节，ＹＢ（Ｙｏｔｔａ⁃ Ｂｙｔｅｓ尧字节）＝１０２４ＺＢ＝２８０字节。然而有了规模和速度就是大数据吗？研究人员在不同时期对大数据的特点进行了总结。首当其冲的是２００１年，ＭＥＴＡ集团分析师ＤｏｕｇＬａｎｅｙ给出大数据的３Ｖ特征［５］，分别为规模性（Ｖｏｌｕｍｅ）、多样性（Ｖａｒｉｅｔｙ）和高速性（Ｖｅｌｏｃｉｔｙ）。１０年后，ＩＤＣ在此基础上又提出第４个特征，即数据的价值（Ｖａｌｕｅ）［６］。２０１２年ＩＢＭ则认为大数据的第４个特征是指真实性（Ｖｅｒａｃｉｔｙ）［７－８］。后来，有人将上述所有特征合起来称为大数据的５Ｖ特征，也有人从不同的应用视角和需求出发，又提出了粘性（Ｖｉｓｃｏｓｉｔｙ）、邻近性（Ｖｉｃｉｎｉｔｙ）、模糊性（Ｖａｇｕｅ）等多种不同的特征，形成了３＋ｘＶ的大数据特征［９］。这些特征的具体含义，如表１。表１大数据特征Ｔａｂｌｅ１Ｂｉｇｄａｔａｃｈａｒａｃｔｅｒｉｓｔｉｃｓ名称含义规模性（Ｖｏｌｕｍｅ）规模可从数百ＴＢ到数十数百ＰＢ、甚至到ＥＢ规模多样性（Ｖａｒｉｅｔｙ）包括各种格式和形态的数据，如文本、图像、音频、视频实效性（Ｖｅｌｏｃｉｔｙ）需要在一定的时间限度下得到及时处理价值密度（Ｖａｌｕｅ）价值密度低，需要通过分析挖掘和利用产生商业价值真实性（Ｖｅｒａｃｉｔｙ）采集的数据的质量影响分析结果的准确性易变性（Ｖａｒｉａｂｉｌｉｔｙ）指数据流的格式变化多样粘性（Ｖｉｓｃｏｓｉｔｙ）指数据流之间的关联性是否强邻近性（Ｖｉｃｉｎｉｔｙ）获取数据资源的距离传播性（Ｖｉｒａｌｉｔｙ）数据在网络中传播的速度有效性（Ｖｏｌａｔｉｌｉｔｙ）数据的有效性及存储期限模糊性（Ｖａｇｕｅ）因采集手段的多样性和局限性，获取的数据具有模糊性随着应用的不同研究人员给出了众多的大数据特点，但最早的３个Ｖ仍被视作大数据应具备的３个特征，贯穿于大数据生命周期中的各个阶段［９］，从而也形成了学术界和产业界认同趋于一致的大数据定义，如表２所示。表２大数据定义Ｔａｂｌｅ２Ｂｉｇｄａｔａｄｅｆｉｎｉｔｉｏｎｓ机构定义Ｇａｒｔｎｅｒ需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产［１０］麦肯锡一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量数据规模、快速数据流转、多样数据类型和价值密度低等四大特征［１１］Ｗｉｋｉ大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集［１２］１．２大数据存储与处理现状早在２０００年，美国斯隆数字巡天项目启动，其位于新墨西哥州的望远镜，在短短几周内收集到的数据比天文学历史上总共收集的数据还要多。云平台ＤＯＭＯ公司从２０１０年开始做过一份有趣的统计———“数据从不休息”，将不同社交网络每分钟产生的数据进行比较，并形象地给出了它们的数据总量［１３］。据统计，某社交网络产生的评论数在２０１０—２０１１年期间为每分钟６０余万条，而在２０１３—２０１５期间迅速增长为每分钟４１０余万条。据另一个统计，２０１５年美国股市每天的成交量可高达７０亿股。Ｇｏｏｇｌｅ每天要处理超过２４ＰＢ的数据，这个数据处理量是美国国家图书馆所有纸质出版物所含数据量的千倍之多［１４］。由此说明，除了互联网之外，物联网、移动终端乃至传统的产业都在迅速产生大量的数据。研究人员对大数据的产生方式进行了分类［１５］，并指出大数据产生方式经历了被动生成、主动生成、自动生成３个阶段［１５］，如表３所示。表３大数据产生阶段Ｔａｂｌｅ３Ｂｉｇｄａｔａｇｅｎｅｒａｔｉｎｇ阶段方式特点１被动运营式系统阶段，伴随一定的运营活动数据被动产生并保存２主动用户原创内容阶段，尤其是在Ｗｅｂ２．０时代，社交网络的出现以及以智能手机、平板电脑为代表的新型移动设备的使用率上升，爆炸式地、主动地产生ＵＧＣ（ｕｓｅｒｇｅｎｅｒａｔｅｄｃｏｎｔｅｎｔ）数据３自动感知式系统阶段，随着带有处理功能的传感器广泛布置于社会各处，源源不断地、自动地产生新的数据第６期马世龙，等：大数据与深度学习综述 ·７２９·

.730 智能系统学报第11卷大数据产生如此之快，对存储提出更高的要求。要进行及时、有效地分析和处理，进而挖掘其中的价产业界纷纷投入建设规模庞大的数据存储基础设值。M.Viktor!指出，利用大数据进行分析时，与以施。到2012年为止，Google部署在全球的数据中心往不同的是：1)要使用全生命周期数据，即不是样就有36个，单个数据中心的计算机节点将达到数百本而是全体：2)与精确的数据分析相比，更加关注万个；微软在全球建设超过20个数据中心，仅在对全量复杂多样数据的分析：3)与传统的因果关系 2009年底前，就在芝加哥建成当时世界最大的模块分析相比，更加关注事物之间的相关关系：4)基于化数据中心，包括220个集装箱，每个集装箱有机器学习的大数据分析结果将减少传统决策中的主 1800~2500台机器不等16。DC统计显示，全球观因素。的数据储量仅在2011年就达到1.8ZB,2015年全球大数据处理在一般流程上包括数据存储、数据大数据储量达到8.61ZB,而今后10年，用于存储数抽取与集成、数据分析、数据解释和用户等几个层据的全球服务器总量还将增长10倍[。次，如文献[15]中图1所示。大数据不仅需要如此妥善的存储和监管，更需用户研究人员企业政府数据解释可视化数据跟踪人机交互决策支持商业智能推荐系统预测数据分析机器学习数据挖据统计学海量相关数据存储模式演化聚合与相关性数据质量与可信性数据抽取与集成关系实体数据集成数据抽取结构化半结构化非结构化数据源关系数据库管理系统超文本文档 ”””。。””。““”“”小。中”““ ””。+““““。““。”“4。”小。。。图1大数据处理一般流程 Fig.1 Basic framework of big data processing 其中，数据分析是整个大数据处理流程的核心。 [18]中对上述几种大数据处理形式从所处理数据在这一层所处理的是从异构数据源抽取和集成的数的特征、典型应用以及相关经典处理系统等几个维据，也称为分析的原始数据。根据应用的不同需求，度给出了系统而全面的总结。可以从中取舍，利用全部或部分数据进行分析。大可以说，从大数据产生到现在的10余年里，关于数据的价值正是产生于此处]。大数据分析与处理的技术呈现百家争鸣、百花齐放的大数据处理在形式上又分为三大类型，分别为状态，也取得了显著的成绩。2003年，人类第1次破静态数据批量处理、在线数据实时处理和图形图像译人体基因密码时，用了10年才完成30亿对碱基对数据综合处理。其中，对在线数据的实时处理又可的排序，而10年后，世界范围内的基因仪15min就可以划分为流式数据的处理和交互数据的处理。文献以完成同样的工作。美国股市日交易量的2/3都由

大数据产生如此之快，对存储提出更高的要求。产业界纷纷投入建设规模庞大的数据存储基础设施。到２０１２年为止，Ｇｏｏｇｌｅ部署在全球的数据中心就有３６个，单个数据中心的计算机节点将达到数百万个；微软在全球建设超过２０个数据中心，仅在２００９年底前，就在芝加哥建成当时世界最大的模块化数据中心，包括２２０个集装箱，每个集装箱有１８００～２５００台机器不等［１６］。ＩＤＣ统计显示，全球的数据储量仅在２０１１年就达到１．８ＺＢ，２０１５年全球大数据储量达到８．６１ＺＢ，而今后１０年，用于存储数据的全球服务器总量还将增长１０倍［１７］。大数据不仅需要如此妥善的存储和监管，更需要进行及时、有效地分析和处理，进而挖掘其中的价值。Ｍ．Ｖｉｋｔｏｒ［１４］指出，利用大数据进行分析时，与以往不同的是：１）要使用全生命周期数据，即不是样本而是全体；２）与精确的数据分析相比，更加关注对全量复杂多样数据的分析；３）与传统的因果关系分析相比，更加关注事物之间的相关关系；４）基于机器学习的大数据分析结果将减少传统决策中的主观因素。大数据处理在一般流程上包括数据存储、数据抽取与集成、数据分析、数据解释和用户等几个层次，如文献［１５］中图１所示。图１大数据处理一般流程Ｆｉｇ．１Ｂａｓｉｃｆｒａｍｅｗｏｒｋｏｆｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇ其中，数据分析是整个大数据处理流程的核心。在这一层所处理的是从异构数据源抽取和集成的数据，也称为分析的原始数据。根据应用的不同需求，可以从中取舍，利用全部或部分数据进行分析。大数据的价值正是产生于此处［１５］。大数据处理在形式上又分为三大类型，分别为静态数据批量处理、在线数据实时处理和图形图像数据综合处理。其中，对在线数据的实时处理又可以划分为流式数据的处理和交互数据的处理。文献［１８］中对上述几种大数据处理形式从所处理数据的特征、典型应用以及相关经典处理系统等几个维度给出了系统而全面的总结。可以说，从大数据产生到现在的１０余年里，关于大数据分析与处理的技术呈现百家争鸣、百花齐放的状态，也取得了显著的成绩。２００３年，人类第１次破译人体基因密码时，用了１０年才完成３０亿对碱基对的排序，而１０年后，世界范围内的基因仪１５ｍｉｎ就可以完成同样的工作。美国股市日交易量的２／３都由 ·７３０· 智能系统学报第１１卷

第6期马世龙，等：大数据与深度学习综述 ·731· 建立在数学模型和算法之上的计算机程序自动完成，位四。机器学习的研究从其热衷度上大致分为3 这些程序运用海量数据，能够预测利益和降低风险。个阶段。 2009年Go0gle公司一家就为美国政府贡献了540亿首先是20世纪五六十年代，机器学习的萌芽时美元的利润。大数据已经成为企业、政府、机构决策期。1959年，Arthur Samuel设计了一个具有学习能的重要源泉，基于大数据分析的应用也成为人们衣食力的下棋程序，可以通过一次次的对弈改善程序自住行必不可少的工具。身的棋艺。该程序不仅在4年后，战胜其设计者本 1.3大数据面临的挑战人，7年后还战胜了美国一位保持8不败战绩的冠如果说大数据产生之初所面临的挑战主要表现军】。1956年，Frank Rosenblatt提出了一种基于在如何及时收集和合理存储上[)，那么10余年后的神经网络的数学模型一感知机，采用线性优化的方今天，大数据所面临的更多是如何有效地分析大数法模拟人类学习的神经系统2。同期，Widrow提据[90。大数据分析是指大数据内容上的分析与出最小均方误差(least mean square,LMS)算法开计算。由于大数据的众多特点，诸多传统方法如数启了对自适应元素的训练]。这些探索使得机器据挖掘不能直接应用于大数据集场景，大数据分析学习第一次成为热门研究。面临新的挑战，包括[9,15,18。然而，1969年人工智能之父Marvin Minsky指 1)传统算法主要基于内存，随着数据规模的空出单层感知机无法处理线性不可分问题，如异或前扩大，它们的时空开销（计算复杂度）变得难于容 (同或)的分类：以及基于“黑箱”原理无法将模型与忍。如何应对大批量的数据，将其装入内存并高效现实世界直接对应等问题[26-]，使得机器学习的研运行成为新的挑战。究一度进入低谷。虽然Widrow和Winter提出的 2)为了支持全数据量的实时数据处理，由于有 Madaline算法通过分段线性化的思想能够解决异或时无法永久化存储，同时数据使用环境持续变化，使的分类问题，但仍然不能彻底解决感知机所面临的得无法掌握数据整个生命周期的特征。如何通过传挑战。但是，这一尝试却开启了研究人员基于符号统批量算法，基于历史数据构建无偏训练集成为新归纳的机器学习和集成机器学习的探索[2)。同时，的挑战。 20世纪70年代随着有限样本统计理论引入机器学 3)在大数据环境下，数据生产和采集的能力日习，涌现了基于人工神经网络(artificial neural net- 益增强，这导致数据在规模增大的同时呈现出新的 wok,ANN)上的众多统计机器学习算法，最著名包特点：属性数量大而稀疏、数据体量大而高噪声、数括支持向量机(SVM)[2)、高斯混合模型(GMM)【2 据高维而复杂多样。如何处理高维、高噪声、稀疏数以及逻辑回归(LR)。从而机器学习在一段冷静时据成为新的挑战。期之后第2次成为研究热点。 4)虽然机器学习善于处理非确定性的复杂问进入20世纪80年代后期，Rumelhart提出多层题，但是对于大数据处理与分析的场景，由于大数据感知机从而解决了线性不可分的问题[)。但由于的复杂多样性，机器学习在统计分析、学习目标和学数据产生速度的不断提升，多层感知机也变得对其习效率方面遇到了新的挑战。无法适应，机器学习的算法亟待改进[2]。与此同大数据分析所涉及的关键技术包括深度学习、时，在神经网络领域Paul Werbos提出反向传播知识计算和可视化等1)。其中深度学习是一种基 (back propagation,BP)算法使线性不可分的问题在于机器学习、数据挖掘技术以及神经网络理论，分析复杂神经网络上也能得以解决[3。从此，机器学习大数据潜在价值的过程。本文，后续将围绕深度学进入第3个阶段，即快速发展时期。在这一阶段，不习进行综述，并最后给出这两个热门研究领域在未断涌现出更优秀的算法]，推动了人工智能在语音来的一些可能性。识别、图形图像处理以及自然语言处理方面的进展。 2从机器学习到深度学习但机器学习在几十年的发展中，仍有很多问题未能解决。其中包括：BP算法随着神经网络层次的 2.1机器学习发展历程加深，参数优化效果无法传递到前层，从而导致容易如果说人的学习是通过观察获得某种技能的过出现局部最优解3)或过拟合问题34；此外，由于机程，那么机器学习就是在用计算机模仿这一过器学习在实际应用中需要手工设计特征和线性分类程)。机器学习被认为是计算机拥有智能的根本器，它不仅依赖领域专家的知识，还需要人在学习过途径，在人工智能发展的早期阶段占据了重要地程中参与这使得学习耗时耗力。而且，这种机器学

建立在数学模型和算法之上的计算机程序自动完成，这些程序运用海量数据，能够预测利益和降低风险。２００９年Ｇｏｏｇｌｅ公司一家就为美国政府贡献了５４０亿美元的利润。大数据已经成为企业、政府、机构决策的重要源泉，基于大数据分析的应用也成为人们衣食住行必不可少的工具。１．３大数据面临的挑战如果说大数据产生之初所面临的挑战主要表现在如何及时收集和合理存储上［２］，那么１０余年后的今天，大数据所面临的更多是如何有效地分析大数据［１９－２０］。大数据分析是指大数据内容上的分析与计算。由于大数据的众多特点，诸多传统方法如数据挖掘不能直接应用于大数据集场景，大数据分析面临新的挑战，包括［９，１５，１８］：１）传统算法主要基于内存，随着数据规模的空前扩大，它们的时空开销（计算复杂度）变得难于容忍。如何应对大批量的数据，将其装入内存并高效运行成为新的挑战。２）为了支持全数据量的实时数据处理，由于有时无法永久化存储，同时数据使用环境持续变化，使得无法掌握数据整个生命周期的特征。如何通过传统批量算法，基于历史数据构建无偏训练集成为新的挑战。３）在大数据环境下，数据生产和采集的能力日益增强，这导致数据在规模增大的同时呈现出新的特点：属性数量大而稀疏、数据体量大而高噪声、数据高维而复杂多样。如何处理高维、高噪声、稀疏数据成为新的挑战。４）虽然机器学习善于处理非确定性的复杂问题，但是对于大数据处理与分析的场景，由于大数据的复杂多样性，机器学习在统计分析、学习目标和学习效率方面遇到了新的挑战。大数据分析所涉及的关键技术包括深度学习、知识计算和可视化等［１８］。其中深度学习是一种基于机器学习、数据挖掘技术以及神经网络理论，分析大数据潜在价值的过程。本文，后续将围绕深度学习进行综述，并最后给出这两个热门研究领域在未来的一些可能性。２从机器学习到深度学习２．１机器学习发展历程如果说人的学习是通过观察获得某种技能的过程，那么机器学习就是在用计算机模仿这一过程［２１］。机器学习被认为是计算机拥有智能的根本途径，在人工智能发展的早期阶段占据了重要地位［２２］。机器学习的研究从其热衷度上大致分为３个阶段。首先是２０世纪五六十年代，机器学习的萌芽时期。１９５９年，ＡｒｔｈｕｒＳａｍｕｅｌ设计了一个具有学习能力的下棋程序，可以通过一次次的对弈改善程序自身的棋艺。该程序不仅在４年后，战胜其设计者本人，７年后还战胜了美国一位保持８不败战绩的冠军［２３］。１９５６年，ＦｒａｎｋＲｏｓｅｎｂｌａｔｔ提出了一种基于神经网络的数学模型—感知机，采用线性优化的方法模拟人类学习的神经系统［２４］。同期，Ｗｉｄｒｏｗ提出最小均方误差（ｌｅａｓｔｍｅａｎｓｑｕａｒｅ，ＬＭＳ）算法开启了对自适应元素的训练［２５］。这些探索使得机器学习第一次成为热门研究。然而，１９６９年人工智能之父ＭａｒｖｉｎＭｉｎｓｋｙ指出单层感知机无法处理线性不可分问题，如异或（同或）的分类；以及基于“黑箱”原理无法将模型与现实世界直接对应等问题［２６－２７］，使得机器学习的研究一度进入低谷。虽然Ｗｉｄｒｏｗ和Ｗｉｎｔｅｒ提出的Ｍａｄａｌｉｎｅ算法通过分段线性化的思想能够解决异或的分类问题，但仍然不能彻底解决感知机所面临的挑战。但是，这一尝试却开启了研究人员基于符号归纳的机器学习和集成机器学习的探索［２７］。同时，２０世纪７０年代随着有限样本统计理论引入机器学习，涌现了基于人工神经网络（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔ⁃ ｗｏｒｋ，ＡＮＮ）上的众多统计机器学习算法，最著名包括支持向量机（ＳＶＭ）［２８］、高斯混合模型（ＧＭＭ）［２９］以及逻辑回归（ＬＲ）。从而机器学习在一段冷静时期之后第２次成为研究热点。进入２０世纪８０年代后期，Ｒｕｍｅｌｈａｒｔ提出多层感知机从而解决了线性不可分的问题［３０］。但由于数据产生速度的不断提升，多层感知机也变得对其无法适应，机器学习的算法亟待改进［２６］。与此同时，在神经网络领域ＰａｕｌＷｅｒｂｏｓ提出反向传播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ，ＢＰ）算法使线性不可分的问题在复杂神经网络上也能得以解决［３１］。从此，机器学习进入第３个阶段，即快速发展时期。在这一阶段，不断涌现出更优秀的算法［３２］，推动了人工智能在语音识别、图形图像处理以及自然语言处理方面的进展。但机器学习在几十年的发展中，仍有很多问题未能解决。其中包括：ＢＰ算法随着神经网络层次的加深，参数优化效果无法传递到前层，从而导致容易出现局部最优解［３３］或过拟合问题［３４］；此外，由于机器学习在实际应用中需要手工设计特征和线性分类器，它不仅依赖领域专家的知识，还需要人在学习过程中参与这使得学习耗时耗力。而且，这种机器学第６期马世龙，等：大数据与深度学习综述 ·７３１·

.732 智能系统学报第11卷习无法很好地处理自然数据（无标签数据），同时不 Boltzmann machine,DBM)。DBN是由GE Hinton于易应用于深层的网络3]。然而解决这些问题，促成 20O6年提出的一种串联堆叠RBM形成的深层模了机器学习新的分支—深度学习的研究。型[4。该模型在训练阶段将一层RBM的输出作为 2.2多层结构和深度学习另一层RBM的输入，由此逐步训练隐藏层的高阶数深度学习也叫无监督特征学习(unsupervised 据相关性，最后采用BP对权值进行微调。而DBM feature learning),即可以无需人为设计特征提取，特是一种特殊的BM。不同的是，除了有一个可视层征从数据中学习而来。深度学习实质上是多层表示之外，它具有多个隐藏层，并且只有相邻隐藏层的单学习(representation learning)方法的非线性组合。元之间才可以有连接。它们之间的对比如图3]。表示学习是指从数据中学习表示（或特征），以便在分类和预测时提取数据中有用信息[6]。深度学习从原始数据开始将每层表示（或特征）逐层转换为更高层更抽象的表示，从而发现高维数据中错综复杂的结构]。深度学习的发展不仅源于机器学习的丰厚积累，同时也受到统计力学的启发。1985年D.H Ackley等基于玻尔兹曼分布，提出了一种具有无监 (a)深度置信网络(b)深度玻尔滋曼机督学习能力的神经网络玻尔兹曼机(Boltzmann ma- 图3深度置信网络和深度玻尔兹曼机 chine,BM)[)。该模型是一种对称耦合的随机反馈 Fig.3 A DBN and a DBM 型二值单元神经网络，由可视单元和多个隐藏单元对于一个RBM,如果把隐藏层的层数增加，可以组成，用可视单元和隐单元表示随机网络与随机环得到一个DBM:如果在靠近可视层的部分使用贝叶境的学习模型，用权值表示单元之间的相关性。通斯信念网络（即有向图模型），而在最远离可视层的部过该模型能够描述变量之间的相互高阶作用，但其分使用RBM,则可以得到一个DBN。由于RBM的训算法复杂，不易应用3]。次年P.Smolensky基于他练中采用对比散度CD算法[]可以快速得到训练，使本人所提出的调和论给出了一种受限的玻尔兹曼机得深度置信网络的训练速度也大幅度提升。模型(RBM)。该模型将BM限定为两层网络，一个在深度学习发展的10年中，基于上述两种网络可视单元层和一个隐藏单元层。并且进一步限定层结构的深度学习算法不时涌现，使其成为一门广袤内神经元之间相互独立，无连接，层间的神经元才可的学科。根据文献[43-45]，本文对现有深度学习以相互连接。如图2所示[3。算法之间的派生关系进行梳理，形成如图4所示的树形结构该图通过节点和有向边展示了不同深层结构之间的派生关系。派生关系表示深度网络是在网络结构或训练算法上的微调或改进。有些深度学习算法是在原有某个深度学习算法的基础上对其网络结构进行了调整而形成，例如堆叠自动编码器就是受DBN 启发，将其中的RBM替换为AE而形成，如图4中 (a)一般玻尔兹曼机(b)受限的玻尔兹曼机 2007年Yoshua等提出的SAE。而有些深度学习算法图2一般玻尔兹曼机和受限的玻尔兹曼机则是结合了多种已有深度学习算法派生而来，例如堆 Fig.2 A general BM and a RBM 叠卷积自动编码器就是在卷积网络中采用了自动编 RBM通过两层马尔可夫随机场，从训练样本得码器AE而形成，如图4中2011年Masci提出的到的隐藏层中神经元状态，并估计独立于数据的期 SCAE。采用有向边将文中所涉及的深度学习算法相望值。该模型由于大幅度提高了BM的学习效连接，可以形成一棵深度网络派生树。在深度学习的率[0]，被众多研究人员所借鉴，从而开启了深度学整个发展过程中DBN,DBM、AE和CNN构成了早期习的研究热潮。的基础模型。后续的众多研究则是在此基础上提出其中最为典型的深度结构包括深度置信网络或改进的新的学习模型。关于更多派生模型的详细 (deep belief network,DBN)和深度玻尔兹曼机(deep 信息如表4所示

习无法很好地处理自然数据（无标签数据），同时不易应用于深层的网络［３５］。然而解决这些问题，促成了机器学习新的分支———深度学习的研究。２．２多层结构和深度学习深度学习也叫无监督特征学习（ｕｎｓｕｐｅｒｖｉｓｅｄｆｅａｔｕｒｅｌｅａｒｎｉｎｇ），即可以无需人为设计特征提取，特征从数据中学习而来。深度学习实质上是多层表示学习（ｒｅｐｒｅｓｅｎｔａｔｉｏｎｌｅａｒｎｉｎｇ）方法的非线性组合。表示学习是指从数据中学习表示（或特征），以便在分类和预测时提取数据中有用信息［３６］。深度学习从原始数据开始将每层表示（或特征）逐层转换为更高层更抽象的表示，从而发现高维数据中错综复杂的结构［３５］。深度学习的发展不仅源于机器学习的丰厚积累，同时也受到统计力学的启发。１９８５年Ｄ．Ｈ．Ａｃｋｌｅｙ等基于玻尔兹曼分布，提出了一种具有无监督学习能力的神经网络玻尔兹曼机（Ｂｏｌｔｚｍａｎｎｍａ⁃ ｃｈｉｎｅ，ＢＭ）［３７］。该模型是一种对称耦合的随机反馈型二值单元神经网络，由可视单元和多个隐藏单元组成，用可视单元和隐单元表示随机网络与随机环境的学习模型，用权值表示单元之间的相关性。通过该模型能够描述变量之间的相互高阶作用，但其算法复杂，不易应用［３８］。次年Ｐ．Ｓｍｏｌｅｎｓｋｙ基于他本人所提出的调和论给出了一种受限的玻尔兹曼机模型（ＲＢＭ）。该模型将ＢＭ限定为两层网络，一个可视单元层和一个隐藏单元层。并且进一步限定层内神经元之间相互独立，无连接，层间的神经元才可以相互连接。如图２所示［３９］。（ａ）一般玻尔兹曼机（ｂ）受限的玻尔兹曼机图２一般玻尔兹曼机和受限的玻尔兹曼机Ｆｉｇ．２ＡｇｅｎｅｒａｌＢＭａｎｄａＲＢＭＲＢＭ通过两层马尔可夫随机场，从训练样本得到的隐藏层中神经元状态，并估计独立于数据的期望值。该模型由于大幅度提高了ＢＭ的学习效率［４０］，被众多研究人员所借鉴，从而开启了深度学习的研究热潮。其中最为典型的深度结构包括深度置信网络（ｄｅｅｐｂｅｌｉｅｆｎｅｔｗｏｒｋ，ＤＢＮ）和深度玻尔兹曼机（ｄｅｅｐＢｏｌｔｚｍａｎｎｍａｃｈｉｎｅ，ＤＢＭ）。ＤＢＮ是由ＧＥＨｉｎｔｏｎ于２００６年提出的一种串联堆叠ＲＢＭ形成的深层模型［４１］。该模型在训练阶段将一层ＲＢＭ的输出作为另一层ＲＢＭ的输入，由此逐步训练隐藏层的高阶数据相关性，最后采用ＢＰ对权值进行微调。而ＤＢＭ是一种特殊的ＢＭ。不同的是，除了有一个可视层之外，它具有多个隐藏层，并且只有相邻隐藏层的单元之间才可以有连接。它们之间的对比如图３［３９］。（ａ）深度置信网络（ｂ）深度玻尔兹曼机图３深度置信网络和深度玻尔兹曼机Ｆｉｇ．３ＡＤＢＮａｎｄａＤＢＭ对于一个ＲＢＭ，如果把隐藏层的层数增加，可以得到一个ＤＢＭ；如果在靠近可视层的部分使用贝叶斯信念网络（即有向图模型），而在最远离可视层的部分使用ＲＢＭ，则可以得到一个ＤＢＮ。由于ＲＢＭ的训练中采用对比散度ＣＤ算法［４２］可以快速得到训练，使得深度置信网络的训练速度也大幅度提升。在深度学习发展的１０年中，基于上述两种网络结构的深度学习算法不时涌现，使其成为一门广袤的学科。根据文献［４３－４５］，本文对现有深度学习算法之间的派生关系进行梳理，形成如图４所示的树形结构。该图通过节点和有向边展示了不同深层结构之间的派生关系。派生关系表示深度网络是在网络结构或训练算法上的微调或改进。有些深度学习算法是在原有某个深度学习算法的基础上对其网络结构进行了调整而形成，例如堆叠自动编码器就是受ＤＢＮ启发，将其中的ＲＢＭ替换为ＡＥ而形成，如图４中２００７年Ｙｏｓｈｕａ等提出的ＳＡＥ。而有些深度学习算法则是结合了多种已有深度学习算法派生而来，例如堆叠卷积自动编码器就是在卷积网络中采用了自动编码器ＡＥ而形成，如图４中２０１１年Ｍａｓｃｉ提出的ＳＣＡＥ。采用有向边将文中所涉及的深度学习算法相连接，可以形成一棵深度网络派生树。在深度学习的整个发展过程中ＤＢＮ、ＤＢＭ、ＡＥ和ＣＮＮ构成了早期的基础模型。后续的众多研究则是在此基础上提出或改进的新的学习模型。关于更多派生模型的详细信息如表４所示。 ·７３２· 智能系统学报第１１卷

第6期马世龙，等：大数据与深度学习综述 .733 Perceptron[1969 出现问题统计力学随机 Minsky.Marvin ①单层感知机（浅层结构）不能实现异或功能图例神经网络实例 (Parceptron 即不能解决线性不可分问题：里程碑 BM[1985] 感知机) 2多量感知机，即深度结构存在问题不易确切计 Ackley,D H 解决问题：是可以求解线性不可分的问题关键算法特点说明算BM所表示的分布函数 (Boltznann Machina 解决线性不可分问题，并由简单波尔兹曼机) O 面临问题神经网辂推广到复杂神经网络演进为层内节点独立：解决问题：解决问题：层间节点有连接：容易求得BM的概率分布线上文字已解决问题能够处理序列数掘两层马尔叮夫随机场： (B-B分布或C-B分布) 强大的无监督学习能力 RMB[19861 BP[1974] Smolensky.P Werbos,P.J 存在问题解决问题： (Restricted Poltznann (Back Propagatio ①易出现局部最优解：减少传播造成基于反向传播的误差 Machine ②易出现过拟合受限玻尔兹曼机) 多层感知机解决问题：卷积层对受干扰数据极度脆弱 D个可视单元集 SGR MBI20101 与F个隐藏单位元 Luo.Heng Chen日gin 成功用于训练和汇聚层 Sparse (Consiruous 深度网络组成的序列自下而 Rostriciod 解决问题：上生成结构，自顶 Bolzznann Boltzoann 先通过无监督学习到 CNN[1989 CNNJ19901 Machine ecun. Jeffrey 向下的反馈 Machira 的参数作为有监督学 Elman, 倍感受限连续受限玻的初始值 Y.(Corivolutional (Simple Recurrent 玻尔兹曼机) 尔兹曼机) 采用BF微调来进行权 cural Network Network 值重好的训练从而解卷积神经网路) 简单循环网络) 决了BP存在的问题。 DBM20061 AE19861 Salakhutdinov Rumelhart CNNI19951 解决问题： R.R(Deep D.E.(Auto Hihi.Salah E1 梯度消失； Boliznann Machine Bncoders (Recurrent Neura 梯度爆炸深度玻尔兹曼机) 自动编码器多层RBM 循环神经网络) 训练阶段将层RBM的结果 LSTM[19971 多层AE1 作为另一层 Hochreiter,Sepp DAE2006] RBM的输入 (Long Short Term Hinton.G.E 解决问题：长短时记忆 Deen Auto 可输入任意值存在问题进行训练 Hinton.G.E ①在可视相当于DBN (Deep Belief 层只能输中将FBM替入二值数据原始数据换成AE 深度置信网络) ②优化困难解决问题加噪声项 SAEI20071 SAE[2007]I DAE20081 Yoshua Bengio Ranzato,Mare 梯度爆炸 Vincent Pascal (Stacked Auto Aurelio (Dnoi ing Auto Encoders (Stacked Auto Encoders 堆叠自动 Enc oders 降噪自动编码器) 稀疏自动编码) 绵码器) SCAE[20111 Masci.Jonathar DAE2010] Lee.Honglak (Convolutional (Stacked Vincent,Pascal Belief Convoluticnal (Stacked Dnoising Deey Auto-encodcre Auto encoders Network 堆叠降噪自动卷积深度堆卷积自动编码器) 编码器) 置信网络) SSAE[2013] SDBN[20131 SDBN[20121 liang,Xiaojuan Halkias xanadu Krizhevsky.Alex (Stacked sparse (Deep Cenvalutional Auto- Net Naural Natwork 叠白动稀疏深度置信深度卷积神经网络编码器编码器) MD-DCNN[2014] GRUT20141GRU[2014] Zheng Yi Cho Goodfellow.lan (Multi-charriels (Gated onirat山ve DCGAN[20151 Deen Comnvoluticnall Recurrent Advovcaria Radford Alec uralNatwork Unit (Deep Gcrivolutional Generstive 多通道深度关口循环生成对抗卷积神经网络单元) 网络) 深度卷积生成对抗网铬) 图4深层网络派生树 Fig.4 The derivation tree of the deep networks

.734 智能系统学报第11卷表4深层网络及其算法 Table 4 Deep networks and algorithms 深度网络相关训练模型特点及存在年份模型提出者结构算法解决问题问题 Perceptron[] M.Minsky 1969 线性可分问题线性不可分问题感知机 S.Papert Bp(a) 线性不可分问题：从局部最优解问题； 1974 P.J.Werbos 链式积分法简单神经网络到复反向传播过拟合问题杂神经网络的推广 BM(37) D.H.Ackley 统计力学中一种能 1985 G.E.Hinton 多层量模型，随机神经难于计算分布玻尔兹曼机 T.J Sejnowski 网络实例 RBMO]受限容易求得BM的概 2层 1986 P.Smolensky 对比散度法率分布：具有无监督效率低玻尔兹曼机无向边学习能力 CRBM[46] H.Chen 2002 连续受限 2层 MCD:BP 能够对连续数据建模参数调优困难玻尔兹曼机 A.Murray SGRBM(4] Luo Heng 稀疏表示符合隐藏单元分组稀疏惩罚对数 2010 稀疏组受限 Shen Ruimin 2层生物学特征惩罚方式和依据尚似然；BP 玻尔兹曼机 Niu Cahngyong 隐藏单元的损失不明确 RBM的堆叠：以无监督 DBN[4] 多层 G.E.Hinton 贪心逐层训练学习到的参数作为有监可视层只能接收二 2006 有/无向边深度置信网络 R.R.Salakhutdinov 算法；BP 督学习的初始值，从而值数值：优化困难全连接解决了BP的问题 DBM[3) 多层 BM的特殊形式； R.R.Salakhutdinov 2006 无向边自下而上生成结构：效率低深度玻尔兹曼机 G.E.Hinton p 全连接减少传播造成的误差 Lee Honglak 采用概率最大池能够 CDBN(4] 多层 Grosse Roger 贪心逐层对高维图像做全尺寸衡量， 2009 无向边优化困难卷积深度置信网络 Ranganath Rajesh 训练算法：BP 并对输入的局部变换部分连接 Ng Andrew Y 具有不变性 SDBN(49] X.Halkias 多层混淆范数作为稀疏 2013 稀疏深度 S.Paris 有/无向边混淆范数：BP 优化困难约束的DBN结构置信网络 H.Glotin 全连接通过编码器和解 AE[so] D.E.Rumelhart 1986 G.E.Hinton 3层贪心逐层训练算法码器工作完成训练：不能用于分类自动编码器通过损失函数最小化 R.J.Williams 求出网络的参数：无监督逐层贪心训练隐藏层数量和神 DAE[4] G.E.Hinton 贪心逐层算法完成对隐含层的预 2006 多层经元的数量增深自动编码器 R.R.Salakhutdinov 训练算法：BP 训练：并通过BP微调，多导致梯度稀释显著降低了性能指数：

表４深层网络及其算法Ｔａｂｌｅ４Ｄｅｅｐｎｅｔｗｏｒｋｓａｎｄａｌｇｏｒｉｔｈｍｓ年份深度模型提出者网络结构相关训练算法模型特点及解决问题存在问题１９６９Ｐｅｒｃｅｐｔｒｏｎ［２６］感知机Ｍ．ＭｉｎｓｋｙＳ．Ｐａｐｅｒｔ－－线性可分问题线性不可分问题１９７４ＢＰ［３１］反向传播Ｐ．Ｊ．Ｗｅｒｂｏｓ－链式积分法线性不可分问题；从简单神经网络到复杂神经网络的推广局部最优解问题；过拟合问题１９８５ＢＭ［３７］玻尔兹曼机Ｄ．Ｈ．ＡｃｋｌｅｙＧ．Ｅ．ＨｉｎｔｏｎＴ．ＪＳｅｊｎｏｗｓｋｉ多层－统计力学中一种能量模型，随机神经网络实例难于计算分布１９８６ＲＢＭ［４０］受限玻尔兹曼机Ｐ．Ｓｍｏｌｅｎｓｋｙ２层无向边对比散度法容易求得ＢＭ的概率分布；具有无监督学习能力效率低２００２ＣＲＢＭ［４６］连续受限玻尔兹曼机Ｈ．ＣｈｅｎＡ．Ｍｕｒｒａｙ２层ＭＣＤ；ＢＰ能够对连续数据建模参数调优困难２０１０ＳＧＲＢＭ［４７］稀疏组受限玻尔兹曼机ＬｕｏＨｅｎｇＳｈｅｎＲｕｉｍｉｎＮｉｕＣａｈｎｇｙｏｎｇ２层稀疏惩罚对数似然；ＢＰ稀疏表示符合生物学特征惩罚隐藏单元的损失隐藏单元分组方式和依据尚不明确２００６ＤＢＮ［４１］深度置信网络Ｇ．Ｅ．ＨｉｎｔｏｎＲ．Ｒ．Ｓａｌａｋｈｕｔｄｉｎｏｖ多层有／无向边全连接贪心逐层训练算法；ＢＰＲＢＭ的堆叠；以无监督学习到的参数作为有监督学习的初始值，从而解决了ＢＰ的问题可视层只能接收二值数值；优化困难２００６ＤＢＭ［３９］深度玻尔兹曼机Ｒ．Ｒ．ＳａｌａｋｈｕｔｄｉｎｏｖＧ．Ｅ．Ｈｉｎｔｏｎ多层无向边全连接ＢＰＢＭ的特殊形式；自下而上生成结构；减少传播造成的误差效率低２００９ＣＤＢＮ［４８］卷积深度置信网络ＬｅｅＨｏｎｇｌａｋＧｒｏｓｓｅＲｏｇｅｒＲａｎｇａｎａｔｈＲａｊｅｓｈＮｇＡｎｄｒｅｗＹ多层无向边部分连接贪心逐层训练算法；ＢＰ采用概率最大池能够对高维图像做全尺寸衡量，并对输入的局部变换具有不变性优化困难２０１３ＳＤＢＮ［４９］稀疏深度置信网络Ｘ．ＨａｌｋｉａｓＳ．ＰａｒｉｓＨ．Ｇｌｏｔｉｎ多层有／无向边全连接混淆范数；ＢＰ混淆范数作为稀疏约束的ＤＢＮ结构优化困难１９８６ＡＥ［５０］自动编码器Ｄ．Ｅ．ＲｕｍｅｌｈａｒｔＧ．Ｅ．ＨｉｎｔｏｎＲ．Ｊ．Ｗｉｌｌｉａｍｓ３层贪心逐层训练算法通过编码器和解码器工作完成训练；通过损失函数最小化求出网络的参数；不能用于分类２００６ＤＡＥ［４１］深自动编码器Ｇ．Ｅ．ＨｉｎｔｏｎＲ．Ｒ．Ｓａｌａｋｈｕｔｄｉｎｏｖ多层贪心逐层训练算法；ＢＰ无监督逐层贪心训练算法完成对隐含层的预训练；并通过ＢＰ微调，显著降低了性能指数；隐藏层数量和神经元的数量增多导致梯度稀释 ·７３４· 智能系统学报第１１卷

第6期马世龙，等：大数据与深度学习综述 ·735· 续表4 深度网络相关训练模型特点及存在年份模型提出者结构算法解决问题问题将DBN中的RBM替换 B.Yoshua SAE[sI] 多层为AE后的生成模型：通过 L.Pascal 梯度下降 2007 有/无向边将第一层的贝努力分布的输同上堆叠自动编码器 P.Dan 算法：BP 全连接入改为高斯分布，扩展成可 Hugo Larochelle 输入任意值进行训练 SAE[52] M.Ranzato, 降维，学习稀疏 2007 Y.Boureau 3层梯度下降算法：BP 同上稀疏自动编码器的特征表达 Y.Lecun P.Vincent 在破损数据的基础 dAE[53) H.Larochelle 上训练：使训练得到的 2008 3层梯度下降算法：BP 同上降噪自动编码器 Y.Bengio 权重噪声较小， A.Manzagol 从而提高鲁棒性 SDAE(s4] P.Vincent H.Larochelle 堆叠消噪梯度下降将多个dAE堆叠起来 2010 多层形成深度网络结构、同上 L.Lajoie 算法：BP 自动编码器用来提取特征表达 Y Bengio等 SSAE[s5] Jiang Xiaojuan 在SAE的损失函梯度下降 2013 稀疏堆叠 Zhang Yinghua 多层数上加入稀疏惩罚值形同上算法；BP 自动编码器 Zhang Wensheng等成的深层网络 Y.Lecun 多层包含卷积层和子 CNN[56] L.Bottou 无向边梯度下降采样层；可以接受2D 要求较高计 1998 卷积神经网络 Y.Bengio 局部连接算法；BP 结构的输入：具有较强算能力的资源 P.Haffner 共享权值的畸变鲁棒性 SCAEts7) 堆叠的CAE结 Masci Jonathan 构，每层采用没有 2011 堆叠卷积 Meier Ueli 多层梯度下降算法；BP 同上正则项的传统梯度下降自动编码器 Dan Ciresan等算法进行训练 DCNNIs8] A.Krizhevsky 多层 CNN的深层结构，梯度下降 2012 I.Sutskever 局部连接采用纯监督学习广泛同上深度卷积神经网络算法；BP G.Hinton 共享权值应用于图像识别 SRN(59] 时间维度上的深层结 BPTT:梯度长时间依 1990 J.L.Elman 3层构：上一时刻的输出简单循环网络下降算法赖问题是下一时刻的输入 RNN[0] S.E.Hihi 多层的时间维度 BPTT:梯度梯度消失或 1995 M.Q.He-J 多层上的深层结构：能循环神经网络下降算法梯度爆炸 Y.Bengio 够处理序列数据通过为每一个神经元引入gate和存储单 LSTMI61] 训练复杂度 S.Hochreiter BPTT:梯度元，能够解决RNN所面临 1997 多层较高、解码长短是记忆 J.Schmidhuber 下降算法的梯度消失或爆炸问题时延较高由于具有记忆功能，能够处理较为复杂的序列数据

续表４年份深度模型提出者网络结构相关训练算法模型特点及解决问题存在问题２００７ＳＡＥ［５１］堆叠自动编码器Ｂ．ＹｏｓｈｕａＬ．ＰａｓｃａｌＰ．ＤａｎＨｕｇｏＬａｒｏｃｈｅｌｌｅ多层有／无向边全连接梯度下降算法；ＢＰ将ＤＢＮ中的ＲＢＭ替换为ＡＥ后的生成模型；通过将第一层的贝努力分布的输入改为高斯分布，扩展成可输入任意值进行训练同上２００７ＳＡＥ［５２］稀疏自动编码器Ｍ．Ｒａｎｚａｔｏ，Ｙ．ＢｏｕｒｅａｕＹ．Ｌｅｃｕｎ３层梯度下降算法；ＢＰ降维，学习稀疏的特征表达同上２００８ｄＡＥ［５３］降噪自动编码器Ｐ．ＶｉｎｃｅｎｔＨ．ＬａｒｏｃｈｅｌｌｅＹ．ＢｅｎｇｉｏＡ．Ｍａｎｚａｇｏｌ３层梯度下降算法；ＢＰ在破损数据的基础上训练；使训练得到的权重噪声较小，从而提高鲁棒性同上２０１０ＳＤＡＥ［５４］堆叠消噪自动编码器Ｐ．ＶｉｎｃｅｎｔＨ．ＬａｒｏｃｈｅｌｌｅＩ．ＬａｊｏｉｅＹ．Ｂｅｎｇｉｏ等多层梯度下降算法；ＢＰ将多个ｄＡＥ堆叠起来形成深度网络结构，用来提取特征表达同上２０１３ＳＳＡＥ［５５］稀疏堆叠自动编码器ＪｉａｎｇＸｉａｏｊｕａｎＺｈａｎｇＹｉｎｇｈｕａＺｈａｎｇＷｅｎｓｈｅｎｇ等多层梯度下降算法；ＢＰ在ＳＡＥ的损失函数上加入稀疏惩罚值形成的深层网络同上１９９８ＣＮＮ［５６］卷积神经网络Ｙ．ＬｅｃｕｎＬ．ＢｏｔｔｏｕＹ．ＢｅｎｇｉｏＰ．Ｈａｆｆｎｅｒ多层无向边局部连接共享权值梯度下降算法；ＢＰ包含卷积层和子采样层；可以接受２Ｄ结构的输入；具有较强的畸变鲁棒性要求较高计算能力的资源２０１１ＳＣＡＥ［５７］堆叠卷积自动编码器ＭａｓｃｉＪｏｎａｔｈａｎＭｅｉｅｒＵｅｌｉＤａｎＣｉｒｅşａｎ等多层梯度下降算法；ＢＰ堆叠的ＣＡＥ结构，每层采用没有正则项的传统梯度下降算法进行训练同上２０１２ＤＣＮＮ［５８］深度卷积神经网络Ａ．ＫｒｉｚｈｅｖｓｋｙＩ．ＳｕｔｓｋｅｖｅｒＧ．Ｈｉｎｔｏｎ多层局部连接共享权值梯度下降算法；ＢＰＣＮＮ的深层结构，采用纯监督学习广泛应用于图像识别同上１９９０ＳＲＮ［５９］简单循环网络Ｊ．Ｌ．Ｅｌｍａｎ３层ＢＰＴＴ；梯度下降算法时间维度上的深层结构；上一时刻的输出是下一时刻的输入长时间依赖问题１９９５ＲＮＮ［６０］循环神经网络Ｓ．Ｅ．ＨｉｈｉＭ．Ｑ．Ｈｃ⁃ＪＹ．Ｂｅｎｇｉｏ多层ＢＰＴＴ；梯度下降算法多层的时间维度上的深层结构；能够处理序列数据梯度消失或梯度爆炸１９９７ＬＳＴＭ［６１］长短是记忆Ｓ．ＨｏｃｈｒｅｉｔｅｒＪ．Ｓｃｈｍｉｄｈｕｂｅｒ多层ＢＰＴＴ；梯度下降算法通过为每一个神经元引入ｇａｔｅ和存储单元，能够解决ＲＮＮ所面临的梯度消失或爆炸问题由于具有记忆功能，能够处理较为复杂的序列数据训练复杂度较高、解码时延较高第６期马世龙，等：大数据与深度学习综述 ·７３５·

.736 智能系统学报第11卷续表4 深度网络相关训练模型特点及存在年份提出者模型结构算法解决问题问题 K.Cho GRU[62] 相比于LSTM,只设 B.Van Merrienboer BPTT;梯度表达能力 2014 多层置一个更新关口，运行比关口循环单元 D.Bahdanau 下降算法相对弱 LSTM更快，更容易 Y.Bengio V.Mnih 受人类的注意力 Attention【s N.Heess 机制的启发，每次处理增加了存 2014 注意力机制 A.Graves 注意力部分的数据，储开销 K.Kavukcuoglu 减少任务复杂度 Goodfellow lan Pougetabadie Jean 由不同网络组成，成 Mirza Mehdi 多层对出现，协同工作 GANC64] Xu Bing 无向边一个网络负责生成内容，训练较难：训练 2014 生成对抗网络 Wardefarley David 局部连接 BP;dropout 另一个负责对内容进行过程不稳定 Ozair Sherjil 共享权值评价多以前馈网络 Courville Aaron 和卷积网络的结合为主 Bengio Yoshua DCGANI65] 多层 GAN基于CNN的扩 A.Radford 无向边 BP:梯度展，可以从训练数据 2015 深度卷积 L.Metz 训练过程不稳定局部连接下降算法中学习近似的分布生成对抗网络 S.Chintala 共享权值情况注：‘一'表示尚不明确或不适用。派生树有助于理解众多神经网络结构之间的关模型则属于判别模型，而像DBM、GAN等深度学习系，而对应的表4则对每个深度学习算法的网络结模型既包括生成模型也包括判别模型。构、训练算法以及解决问题或存在问题给出了简要在作者所收集信息的范围内，派生树涵盖了目总结。两组信息合起来，能够成为该领域学习参考前主流的20余种模型，然而研究人员实际提出的深的一个索引。层网络模型并不仅限于此。而且，也有新的机制在深度学习的网络结构因网络的层数、权重共享被引入到已有的深度学习模型中，例如2014年性以及边的特点不同而有所不同。因此，在表4中 Mnih,Volodymyr等受人类注意力机制的启发，提出给出了每一种深度学习算法的网络结构特点。其了Attention模型（也叫注意力机制）。这一新的机中，绝大多数深度学习算法体现为空间维度上的深制，通过与RNN或CNN结合，降低了数据处理任务层结构，且属于前向反馈神经网络：而以循环神经网复杂度的同时，进一步拓宽了深度学习模型的应用络(RNN)为代表的SRN、LSTM和GRU等深度学习领域。作者认为新的模型是对原有基础框架的扩展算法，通过引入定向循环，具有时间维度上的深层结或改进，该树仍在不断生长。构，从而可以处理那些输入之间有前后关联的问题。 2.3深度学习的应用案例根据对标注数据的依赖程度，深度学习算法中派生树（图4）揭示了近几年的时间里深度学习 DBN、AE及其派生分支体现为以无监督学习或半监算法如雨后春笋不断涌现。这些算法在计算机图像督学习为主；CNN、RNN及其派生分支则以有监督识别、语音识别、自然语言处理以及信息检索等领域学习为主。此外，根据学习函数的形式，机器学习算在不断刷新历史记录。本节根据不同应用领域对相法又可以分为生成模型和判别模型6。表4列出关的知名案例进行简述。的深度学习模型中，DBN及其派生的深度学习模型 1)图像识别 (如CDBN)属于生成模型，AE及其派生的深度学习图像识别过去依赖人工设置的特征，特别适合

续表４年份深度模型提出者网络结构相关训练算法模型特点及解决问题存在问题２０１４ＧＲＵ［６２］关口循环单元Ｋ．ＣｈｏＢ．ＶａｎＭｅｒｒｉｅｎｂｏｅｒＤ．ＢａｈｄａｎａｕＹ．Ｂｅｎｇｉｏ多层ＢＰＴＴ；梯度下降算法相比于ＬＳＴＭ，只设置一个更新关口，运行比ＬＳＴＭ更快，更容易表达能力相对弱２０１４Ａｔｔｅｎｔｉｏｎ［６３］注意力机制Ｖ．ＭｎｉｈＮ．ＨｅｅｓｓＡ．ＧｒａｖｅｓＫ．Ｋａｖｕｋｃｕｏｇｌｕ — — 受人类的注意力机制的启发，每次处理注意力部分的数据，减少任务复杂度增加了存储开销２０１４ＧＡＮ［６４］生成对抗网络ＧｏｏｄｆｅｌｌｏｗＩａｎＰｏｕｇｅｔａｂａｄｉｅＪｅａｎＭｉｒｚａＭｅｈｄｉＸｕＢｉｎｇＷａｒｄｅｆａｒｌｅｙＤａｖｉｄＯｚａｉｒＳｈｅｒｊｉｌＣｏｕｒｖｉｌｌｅＡａｒｏｎＢｅｎｇｉｏＹｏｓｈｕａ多层无向边局部连接共享权值ＢＰ；ｄｒｏｐｏｕｔ由不同网络组成，成对出现，协同工作一个网络负责生成内容，另一个负责对内容进行评价多以前馈网络和卷积网络的结合为主训练较难；训练过程不稳定２０１５ＤＣＧＡＮ［６５］深度卷积生成对抗网络Ａ．ＲａｄｆｏｒｄＬ．ＭｅｔｚＳ．Ｃｈｉｎｔａｌａ多层无向边局部连接共享权值ＢＰ；梯度下降算法ＧＡＮ基于ＣＮＮ的扩展，可以从训练数据中学习近似的分布情况训练过程不稳定注：‘—’表示尚不明确或不适用。派生树有助于理解众多神经网络结构之间的关系，而对应的表４则对每个深度学习算法的网络结构、训练算法以及解决问题或存在问题给出了简要总结。两组信息合起来，能够成为该领域学习参考的一个索引。深度学习的网络结构因网络的层数、权重共享性以及边的特点不同而有所不同。因此，在表４中给出了每一种深度学习算法的网络结构特点。其中，绝大多数深度学习算法体现为空间维度上的深层结构，且属于前向反馈神经网络；而以循环神经网络（ＲＮＮ）为代表的ＳＲＮ、ＬＳＴＭ和ＧＲＵ等深度学习算法，通过引入定向循环，具有时间维度上的深层结构，从而可以处理那些输入之间有前后关联的问题。根据对标注数据的依赖程度，深度学习算法中ＤＢＮ、ＡＥ及其派生分支体现为以无监督学习或半监督学习为主；ＣＮＮ、ＲＮＮ及其派生分支则以有监督学习为主。此外，根据学习函数的形式，机器学习算法又可以分为生成模型和判别模型［６６］。表４列出的深度学习模型中，ＤＢＮ及其派生的深度学习模型（如ＣＤＢＮ）属于生成模型，ＡＥ及其派生的深度学习模型则属于判别模型，而像ＤＢＭ、ＧＡＮ等深度学习模型既包括生成模型也包括判别模型。在作者所收集信息的范围内，派生树涵盖了目前主流的２０余种模型，然而研究人员实际提出的深层网络模型并不仅限于此。而且，也有新的机制在被引入到已有的深度学习模型中，例如２０１４年Ｍｎｉｈ，Ｖｏｌｏｄｙｍｙｒ等受人类注意力机制的启发，提出了Ａｔｔｅｎｔｉｏｎ模型（也叫注意力机制）。这一新的机制，通过与ＲＮＮ或ＣＮＮ结合，降低了数据处理任务复杂度的同时，进一步拓宽了深度学习模型的应用领域。作者认为新的模型是对原有基础框架的扩展或改进，该树仍在不断生长。２．３深度学习的应用案例派生树（图４）揭示了近几年的时间里深度学习算法如雨后春笋不断涌现。这些算法在计算机图像识别、语音识别、自然语言处理以及信息检索等领域在不断刷新历史记录。本节根据不同应用领域对相关的知名案例进行简述。１）图像识别图像识别过去依赖人工设置的特征，特别适合 ·７３６· 智能系统学报第１１卷

第6期马世龙，等：大数据与深度学习综述 ·737. 于提取低等级边界信息的SlFT(scale invariant fea- (比分4：1)[四。AlphaGo的关键技术有深度学习、 ture transform,尺度不变特征转换)或HOG(Histo- 强化学习和蒙特卡洛树搜索。在其有监督学习策略 gram of Oriented Cradients,方向梯度直方图)等。和强化学习价值网络中采用了CNN结构。然而，随着小样本无法真实反映实际复杂的情况，研 2)语音识别究人员开始在大数据集上进行实验。在过去语音识别一直采用GMM-HMM模型。 2006年，GE Hinton用一个拥有3个隐藏层，然而，2012年G.E.Hinton等考虑了语音数据内部原 I70多万权重的DBN在MNIST手写特征识别的数有的结构特征以后，将传统的模型中的高斯混合模据集上进行训练，在没有对样本进行预处理的情况型GMM替换为DBN进行实验，结果表明在TIMT 下，在1万左右的测试集上，错误率为1.25%，低于核心测试集上，错误率降到20.7%，有明显提升[。反向传播网络的最好成绩1.5%，以及支持向量机无独有偶，其他研究人员也尝试将GMM-HMM (SVN)的1.4%[61 中的GMM替换为其他深度神经网络，也得到了良 l995年Yann Lecun推出LeNet--5系统，该系统好的效果。例如，2014年IBM沃特森研究中心T.N 通过2个卷积层、2个子采样层和2个全连接层，形 Sainath证实DNN比过去的GMM-HMM提升8%~ 成典型的CNN网络。在MNIST数据集上的实验得 15%。2012年Pan Jia提出将GMM改为上下文到了0.9%的错误率，20世纪90年代用于银行手写相关的DNN,并对320h的英文接线员的语音记录支票识别[)。这也是CNN成功案例之一。和70~700h不等的3个中文语音记录进行试验，结 2010年，A.Krizhevsky用DCNN算法在LSVRC- 果表明错误率可降低3%[]。 2010数据集上，对1000个不同类别的120万个高微软公司的语音视频检索系统(Microsoft audio 分辨率图像进行分类，测试结果在topl和top5上的 video indexing service,MAVIS)Io],t也是在CD-DNN- 错误率分别为37.5%和17.0%，刷新了当时的记录， HMM深度模型的基础上进行开发，其在RTO3S数而他们所采用的是具有5个卷积层、6000万个参数据集上单词错误率从27.4%降低到18.5%，相当于和65万个神经元的深层网络[】。该方法在S- 效果提升33%m。2012年，微软在天津公开演示 VRC-2012数据集上top5的测试错误率为15.3%。了MAVIS系统对现场讲演者的英文演讲，进行后台 2011年，在Google的xLab,A.Y.Ng和J.Dean 的语音识别、英中机器翻译和中文语音合成等一系建立了全球最大的神经网络一“深度神经网络” 列处理，效果流畅。 (deep neural networks,DNN),也叫“谷歌大脑”，并 3)自然语言处理进行了一个猫脸识别的实验。该实验从YouTube 自然语言处理(NLP)传统处理方法的缺陷为采视频中取出1000万张200×200的静态图片，让系统用浅层结构：使用线性分类器且需要人工设计大量自动学习并判断哪些是猫的图片。实验结果表明，较好的特征进行预处理：特征在分离的任务中被串他们所建立的深层网络及其算法，在ImageNet数据联导致传播误差增大[) 集1万类图中效果提升15%，2.2万类图中效果提 2O03年，Bengio等提出词向量(word embedding 升70%[。而据纽约时报[01，该网络是一个用或word representation)方法[]，采用神经网络构建 16000个CPU并行计算平台训练内部拥有10亿个语言模型。之后，研究人员在此基础上提出了不同节点的机器学习模型。的词向量训练模型，包括：2008年Collobert,Ronan 2014年，Sun Yi等提出Deep-D应用于人脸识等提出的C&W模型用以完成自然语言处理中的词别，在LFW上取得97.45%的准确率。同年，性标注、命名实体识别、短语识别、语义角色标注等 Zheng Yi提出的多通道深度卷积神经网络(multi- 任务，由其在语义角色标签的问题上进行无人工设 channels deep convolutional neural networks,MC-DC- 计特征参与的训练，错误率降至14.3%，刷新了纪 NN)在BID-MC数据集上获得最好的准确率为录[]：同年，Mnih和Hinton提出的HLBL模型[o] 94.67%。将Bengio的词向量方法中最后隐藏层到输出层的 2016年初，谷歌旗下最强大脑(DeepMind)公司矩阵乘积替换为一个层级结构，在算法复杂度上得推出人工智能机器人AlphaGo,创下了围棋人工智能到显著提升：由于人类自然语言具有递归特性，即任领域的诸多世界纪录。包括：在不让子的情况下，第何语言中的句子，事实上可以由词、短语递归组合一次在完整的围棋竞技中击败专业选手（比分5：0）：而成，因此，将循环神经网络(recurrent neural net-- 在中国围棋规则下，成功挑战围棋世界冠军李世石 wok,RNN)引入NLP成为一种趋势。从2010年开

于提取低等级边界信息的ＳＩＦＴ（ｓｃａｌｅｉｎｖａｒｉａｎｔｆｅａ⁃ ｔｕｒｅｔｒａｎｓｆｏｒｍ，尺度不变特征转换）或ＨＯＧ（Ｈｉｓｔｏ⁃ ｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ，方向梯度直方图）等［４３］。然而，随着小样本无法真实反映实际复杂的情况，研究人员开始在大数据集上进行实验。２００６年，ＧＥＨｉｎｔｏｎ用一个拥有３个隐藏层，１７０多万权重的ＤＢＮ在ＭＮＩＳＴ手写特征识别的数据集上进行训练，在没有对样本进行预处理的情况下，在１万左右的测试集上，错误率为１．２５％，低于反向传播网络的最好成绩１．５％，以及支持向量机（ＳＶＮ）的１．４％［６７］。１９９５年ＹａｎｎＬｅｃｕｎ推出ＬｅＮｅｔ⁃５系统，该系统通过２个卷积层、２个子采样层和２个全连接层，形成典型的ＣＮＮ网络。在ＭＮＩＳＴ数据集上的实验得到了０．９％的错误率，２０世纪９０年代用于银行手写支票识别［６８］。这也是ＣＮＮ成功案例之一。２０１０年，Ａ．Ｋｒｉｚｈｅｖｓｋｙ用ＤＣＮＮ算法在ＬＳＶＲＣ⁃ ２０１０数据集上，对１０００个不同类别的１２０万个高分辨率图像进行分类，测试结果在ｔｏｐ１和ｔｏｐ５上的错误率分别为３７．５％和１７．０％，刷新了当时的记录，而他们所采用的是具有５个卷积层、６０００万个参数和６５万个神经元的深层网络［５８］。该方法在ＩＬＳ⁃ ＶＲＣ⁃２０１２数据集上ｔｏｐ５的测试错误率为１５．３％。２０１１年，在Ｇｏｏｇｌｅ的ｘＬａｂ，Ａ．Ｙ．Ｎｇ和Ｊ．Ｄｅａｎ建立了全球最大的神经网络———“深度神经网络” （ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＤＮＮ），也叫“谷歌大脑”，并进行了一个猫脸识别的实验。该实验从ＹｏｕＴｕｂｅ视频中取出１０００万张２００×２００的静态图片，让系统自动学习并判断哪些是猫的图片。实验结果表明，他们所建立的深层网络及其算法，在ＩｍａｇｅＮｅｔ数据集１万类图中效果提升１５％，２．２万类图中效果提升７０％［６９］。而据纽约时报［７０］，该网络是一个用１６０００个ＣＰＵ并行计算平台训练内部拥有１０亿个节点的机器学习模型。２０１４年，ＳｕｎＹｉ等提出Ｄｅｅｐ⁃ＩＤ应用于人脸识别，在ＬＦＷ上取得９７．４５％的准确率［７１］。同年，ＺｈｅｎｇＹｉ提出的多通道深度卷积神经网络（ｍｕｌｔｉ⁃ ｃｈａｎｎｅｌｓｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋｓ，ＭＣ⁃ＤＣ⁃ ＮＮ）在ＢＩＤ⁃ＭＣ数据集上获得最好的准确率为９４．６７％。２０１６年初，谷歌旗下最强大脑（ＤｅｅｐＭｉｎｄ）公司推出人工智能机器人ＡｌｐｈａＧｏ，创下了围棋人工智能领域的诸多世界纪录。包括：在不让子的情况下，第一次在完整的围棋竞技中击败专业选手（比分５ ∶ ０）；在中国围棋规则下，成功挑战围棋世界冠军李世石（比分４ ∶ １）［７２］。ＡｌｐｈａＧｏ的关键技术有深度学习、强化学习和蒙特卡洛树搜索。在其有监督学习策略和强化学习价值网络中采用了ＣＮＮ结构［７３］。２）语音识别在过去语音识别一直采用ＧＭＭ⁃ＨＭＭ模型。然而，２０１２年Ｇ．Ｅ．Ｈｉｎｔｏｎ等考虑了语音数据内部原有的结构特征以后，将传统的模型中的高斯混合模型ＧＭＭ替换为ＤＢＮ进行实验，结果表明在ＴＩＭＩＴ核心测试集上，错误率降到２０．７％，有明显提升［７４］。无独有偶，其他研究人员也尝试将ＧＭＭ⁃ＨＭＭ中的ＧＭＭ替换为其他深度神经网络，也得到了良好的效果。例如，２０１４年ＩＢＭ沃特森研究中心Ｔ．Ｎ．Ｓａｉｎａｔｈ证实ＤＮＮ比过去的ＧＭＭ⁃ＨＭＭ提升８％～１５％［４３］。２０１２年ＰａｎＪｉａ提出将ＧＭＭ改为上下文相关的ＤＮＮ，并对３２０ｈ的英文接线员的语音记录和７０～７００ｈ不等的３个中文语音记录进行试验，结果表明错误率可降低３％［７５］。微软公司的语音视频检索系统（Ｍｉｃｒｏｓｏｆｔａｕｄｉｏｖｉｄｅｏｉｎｄｅｘｉｎｇｓｅｒｖｉｃｅ，ＭＡＶＩＳ）［７６］，也是在ＣＤ⁃ＤＮＮ⁃ ＨＭＭ深度模型的基础上进行开发，其在ＲＴ０３Ｓ数据集上单词错误率从２７．４％降低到１８．５％，相当于效果提升３３％［７７］。２０１２年，微软在天津公开演示了ＭＡＶＩＳ系统对现场讲演者的英文演讲，进行后台的语音识别、英中机器翻译和中文语音合成等一系列处理，效果流畅。３）自然语言处理自然语言处理（ＮＬＰ）传统处理方法的缺陷为采用浅层结构；使用线性分类器且需要人工设计大量较好的特征进行预处理；特征在分离的任务中被串联导致传播误差增大［４３］。２００３年，Ｂｅｎｇｉｏ等提出词向量（ｗｏｒｄｅｍｂｅｄｄｉｎｇ或ｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎ）方法［７８］，采用神经网络构建语言模型。之后，研究人员在此基础上提出了不同的词向量训练模型，包括：２００８年Ｃｏｌｌｏｂｅｒｔ，Ｒｏｎａｎ等提出的Ｃ＆Ｗ模型用以完成自然语言处理中的词性标注、命名实体识别、短语识别、语义角色标注等任务，由其在语义角色标签的问题上进行无人工设计特征参与的训练，错误率降至１４．３％，刷新了纪录［７９］；同年，Ｍｎｉｈ和Ｈｉｎｔｏｎ提出的ＨＬＢＬ模型［８０］，将Ｂｅｎｇｉｏ的词向量方法中最后隐藏层到输出层的矩阵乘积替换为一个层级结构，在算法复杂度上得到显著提升；由于人类自然语言具有递归特性，即任何语言中的句子，事实上可以由词、短语递归组合而成，因此，将循环神经网络（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔ⁃ ｗｏｒｋ，ＲＮＮ）引入ＮＬＰ成为一种趋势。从２０１０年开第６期马世龙，等：大数据与深度学习综述 ·７３７·

点击进入文档下载页（PDF格式）

共15页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录