备、服务器和应用日志的采集与格式统一问题，日志分析也从最初简单的正则匹配

正在加载图片...

·718· 智能系统学报第12卷备、服务器和应用日志的采集与格式统一问题，日得到了若干有益的结论：志分析也从最初简单的正则匹配向结构化查询、报 3)实现了大规模网络日志数据分析与计算在证表和预测演进山。越来越多的行业领域面临海量券领域的几种典型应用。 (volume)、高速(velocity)和多样(variety)等多V挑 1 相关工作战，大数据时代已真正到来[2-)。互联网中海量的信息为证券领域日志分析提大数据技术在互联网领域海量网络日志分析和供了丰富的数据支撑，如何利用大数据分析技术进处理过程中得到了广泛的应用，日志分析系统主要行实时准确的日志分析成为重要的科学问题。在包括日志同步、数据存储、分布式计算和数据仓库等大型证券公司的内部网络中，随着网络带宽的迅速相关技术。开源的日志分析系统如Facebook的扩容日志量急剧增长且日志源众多，包括网上交易 Scribet6],Apache Chukwat7],LinkedIn Kafkats], 日志、移动证券日志和网站日志等主要系统的日 Cloudera的Flume)等。Facebook公司庞大的用户群志。以海通证券为例，目前在全国设有几十个节体产生了大量的信息与社交数据，现有8亿多用户点，几百台服务器，峰值在线用户约几十万，每个节的信息需要处理，产生了大规模的数据和日志：同点各部署了1台负载均衡设备。网上交易应用服务时，离线的大规模数据分析计算已无法满足实时数器全天24小时将客户请求数据与应答数据实时或据分析的用户需求，Scribe结合了Google的分布式小批量定时写入磁盘日志文件，每台交易应用服务文件系统GFS[10](google file system,GFS)。操作流器的日志文件大小为100MB~3GB,总计在100GB 程是收集异构数据源上的日志，集中存储到分布式左右。同时，每台网上交易应用服务器还会生成一文件系统，从而在此基础上进行统计分析。Amazon 份发送给柜台程序的网关日志数据。此外，各节点基于S3和EC2,开发了Amazon EMR来提供大数据负载均衡设备的日志采用SNMP协议进行采集，采处理服务，可以将数据分布在可重新调整大小的集每个站点的网络流量、用户连接数据。每日合计 EC2集群中进行处理，包括日志分析、索引、数据仓有3亿多条日志，总量共计约300GB。仅上述3类库和机器学习等。阿里巴巴集团使用目前国内最日志存储一年就将产生约108TB数据，若接入更多大的Hadoop集群“云梯”进行各部门产品的线上数设备、操作系统、业务平台日志，数据规模则更大。据备份、系统日志以及爬虫数据分析，并建设开放传统的日志处理方法在面对海量大数据时，其存储平台为个人和企业提供各种增值服务。腾讯微信方式和计算能力都受到了限制，因此分布式存储和等应用产品拥有上亿级别的用户，产生了海量的个并行计算成为了新的发展趋势。如何采集、传输、人用户日志数据，这些数据中蕴藏着巨大的商业价存储、分析及应用大规模的日志数据，已成为证券值，并提出“大数据营销”的概念。人人网基于行业在大数据时代下面临的重大挑战。 Hadoop的Hive)、HBase[12]和Streamingl]组件， Hadoop)分布式处理平台为大数据存储和分析构建了SNS推荐平台进行分析计算、内容推荐等工提供了有效的解决方案。在大数据应用方面，虽然作。百度的高性能计算系统规划中的架构将有超学术界和工业界对大数据的关注各有侧重，但有一过1万个节点，每天的数据生成量在10PB以上，主个共同的认识：大数据只有和具体的行业深入结合要用于日志的存储分析以及统计挖掘等功能。Wi 才能落到实处，才能产生真正的价值。通过前期的等设计了Analysis Farm摒弃了传统的关系型数据积累和算法的升级，大数据应用将对证券行业产生 (relational database management system,RDBMS), 革命性影响。利用NoSQL(not only SQL)数据库MongoDB构建了本文的主要贡献如下：可横向扩展的日志分析平台，以支撑NetFlow日志 1)研究基于SQL-on-Hadoop查询系统的性能特存储和查询4。Rabkin等设计了基于Hadoop的日点，对比分析了Hive、Impala和Spark SQL这3种具志收集和分析系统Chukwa,日志处理程序在有代表性的SQL-on-Hadoop查询系统实例，构建了 MapReduce框架上开发。文献[l6-17]从原位海量日志采集与实时计算分析平台：分析的角度出发，分别实现了针对大规模日志分析 2)采用TPC-H测试基准对它们的决策支持能的MapReduce(In-situ MapReduce)和Continuous处力进行测试及评估，通过对实验数据的分析和解释理机制，但MapReduce模型计算代价很大，并不能备、服务器和应用日志的采集与格式统一问题，日志分析也从最初简单的正则匹配向结构化查询、报表和预测演进［１］。越来越多的行业领域面临海量（ｖｏｌｕｍｅ）、高速（ｖｅｌｏｃｉｔｙ）和多样（ｖａｒｉｅｔｙ）等多Ｖ挑战，大数据时代已真正到来［２－４］。互联网中海量的信息为证券领域日志分析提供了丰富的数据支撑，如何利用大数据分析技术进行实时准确的日志分析成为重要的科学问题。在大型证券公司的内部网络中，随着网络带宽的迅速扩容日志量急剧增长且日志源众多，包括网上交易日志、移动证券日志和网站日志等主要系统的日志。以海通证券为例，目前在全国设有几十个节点，几百台服务器，峰值在线用户约几十万，每个节点各部署了１台负载均衡设备。网上交易应用服务器全天２４小时将客户请求数据与应答数据实时或小批量定时写入磁盘日志文件，每台交易应用服务器的日志文件大小为１００ＭＢ～３ＧＢ，总计在１００ＧＢ左右。同时，每台网上交易应用服务器还会生成一份发送给柜台程序的网关日志数据。此外，各节点负载均衡设备的日志采用ＳＮＭＰ协议进行采集，采集每个站点的网络流量、用户连接数据。每日合计有３亿多条日志，总量共计约３００ＧＢ。仅上述３类日志存储一年就将产生约１０８ＴＢ数据，若接入更多设备、操作系统、业务平台日志，数据规模则更大。传统的日志处理方法在面对海量大数据时，其存储方式和计算能力都受到了限制，因此分布式存储和并行计算成为了新的发展趋势。如何采集、传输、存储、分析及应用大规模的日志数据，已成为证券行业在大数据时代下面临的重大挑战。Ｈａｄｏｏｐ［５］分布式处理平台为大数据存储和分析提供了有效的解决方案。在大数据应用方面，虽然学术界和工业界对大数据的关注各有侧重，但有一个共同的认识：大数据只有和具体的行业深入结合才能落到实处，才能产生真正的价值。通过前期的积累和算法的升级，大数据应用将对证券行业产生革命性影响。本文的主要贡献如下：１）研究基于ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询系统的性能特点，对比分析了Ｈｉｖｅ、Ｉｍｐａｌａ和ＳｐａｒｋＳＱＬ这３种具有代表性的ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询系统实例，构建了海量日志采集与实时计算分析平台；２）采用ＴＰＣ⁃Ｈ测试基准对它们的决策支持能力进行测试及评估，通过对实验数据的分析和解释得到了若干有益的结论；３）实现了大规模网络日志数据分析与计算在证券领域的几种典型应用。１相关工作大数据技术在互联网领域海量网络日志分析和处理过程中得到了广泛的应用，日志分析系统主要包括日志同步、数据存储、分布式计算和数据仓库等相关技术。开源的日志分析系统如Ｆａｃｅｂｏｏｋ的Ｓｃｒｉｂｅ［６］，Ａｐａｃｈｅ的Ｃｈｕｋｗａ［７］，ＬｉｎｋｅｄＩｎ的Ｋａｆｋａ［８］，Ｃｌｏｕｄｅｒａ的Ｆｌｕｍｅ［９］等。Ｆａｃｅｂｏｏｋ公司庞大的用户群体产生了大量的信息与社交数据，现有８亿多用户的信息需要处理，产生了大规模的数据和日志；同时，离线的大规模数据分析计算已无法满足实时数据分析的用户需求，Ｓｃｒｉｂｅ结合了Ｇｏｏｇｌｅ的分布式文件系统ＧＦＳ［１０］（ｇｏｏｇｌｅｆｉｌｅｓｙｓｔｅｍ，ＧＦＳ）。操作流程是收集异构数据源上的日志，集中存储到分布式文件系统，从而在此基础上进行统计分析。Ａｍａｚｏｎ基于Ｓ３和ＥＣ２，开发了ＡｍａｚｏｎＥＭＲ来提供大数据处理服务，可以将数据分布在可重新调整大小的ＥＣ２集群中进行处理，包括日志分析、索引、数据仓库和机器学习等。阿里巴巴集团使用目前国内最大的Ｈａｄｏｏｐ集群“云梯”进行各部门产品的线上数据备份、系统日志以及爬虫数据分析，并建设开放平台为个人和企业提供各种增值服务。腾讯微信等应用产品拥有上亿级别的用户，产生了海量的个人用户日志数据，这些数据中蕴藏着巨大的商业价值，并提出 “ 大数据营销” 的概念。人人网基于Ｈａｄｏｏｐ的Ｈｉｖｅ［１１］、ＨＢａｓｅ［１２］和Ｓｔｒｅａｍｉｎｇ［１３］组件，构建了ＳＮＳ推荐平台进行分析计算、内容推荐等工作。百度的高性能计算系统规划中的架构将有超过１万个节点，每天的数据生成量在１０ＰＢ以上，主要用于日志的存储分析以及统计挖掘等功能。Ｗｅｉ等设计了ＡｎａｌｙｓｉｓＦａｒｍ摒弃了传统的关系型数据库（ｒｅｌａｔｉｏｎａｌｄａｔａｂａｓｅｍａｎａｇｅｍｅｎｔｓｙｓｔｅｍ，ＲＤＢＭＳ），利用ＮｏＳＱＬ（ｎｏｔｏｎｌｙＳＱＬ）数据库ＭｏｎｇｏＤＢ构建了可横向扩展的日志分析平台，以支撑ＮｅｔＦｌｏｗ日志存储和查询［１４］。Ｒａｂｋｉｎ等设计了基于Ｈａｄｏｏｐ的日志收集和分析系统Ｃｈｕｋｗａ，日志处理程序在ＭａｐＲｅｄｕｃｅ框架上开发［１５］。文献［１６－１７］从原位分析的角度出发，分别实现了针对大规模日志分析的ＭａｐＲｅｄｕｃｅ（Ｉｎ⁃ｓｉｔｕＭａｐＲｅｄｕｃｅ）和Ｃｏｎｔｉｎｕｏｕｓ处理机制，但ＭａｐＲｅｄｕｃｅ模型计算代价很大，并不能 ·７１８· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：【智能系统】基于SQL-on-Hadoop查询引擎的日志挖掘及其应用