正在加载图片...
·718· 智能系统学报 第12卷 备、服务器和应用日志的采集与格式统一问题,日 得到了若干有益的结论: 志分析也从最初简单的正则匹配向结构化查询、报 3)实现了大规模网络日志数据分析与计算在证 表和预测演进山。越来越多的行业领域面临海量 券领域的几种典型应用。 (volume)、高速(velocity)和多样(variety)等多V挑 1 相关工作 战,大数据时代已真正到来[2-)。 互联网中海量的信息为证券领域日志分析提 大数据技术在互联网领域海量网络日志分析和 供了丰富的数据支撑,如何利用大数据分析技术进 处理过程中得到了广泛的应用,日志分析系统主要 行实时准确的日志分析成为重要的科学问题。在 包括日志同步、数据存储、分布式计算和数据仓库等 大型证券公司的内部网络中,随着网络带宽的迅速 相关技术。开源的日志分析系统如Facebook的 扩容日志量急剧增长且日志源众多,包括网上交易 Scribet6],Apache Chukwat7],LinkedIn Kafkats], 日志、移动证券日志和网站日志等主要系统的日 Cloudera的Flume)等。Facebook公司庞大的用户群 志。以海通证券为例,目前在全国设有几十个节 体产生了大量的信息与社交数据,现有8亿多用户 点,几百台服务器,峰值在线用户约几十万,每个节 的信息需要处理,产生了大规模的数据和日志:同 点各部署了1台负载均衡设备。网上交易应用服务 时,离线的大规模数据分析计算已无法满足实时数 器全天24小时将客户请求数据与应答数据实时或 据分析的用户需求,Scribe结合了Google的分布式 小批量定时写入磁盘日志文件,每台交易应用服务 文件系统GFS[10](google file system,GFS)。操作流 器的日志文件大小为100MB~3GB,总计在100GB 程是收集异构数据源上的日志,集中存储到分布式 左右。同时,每台网上交易应用服务器还会生成一 文件系统,从而在此基础上进行统计分析。Amazon 份发送给柜台程序的网关日志数据。此外,各节点 基于S3和EC2,开发了Amazon EMR来提供大数据 负载均衡设备的日志采用SNMP协议进行采集,采 处理服务,可以将数据分布在可重新调整大小的 集每个站点的网络流量、用户连接数据。每日合计 EC2集群中进行处理,包括日志分析、索引、数据仓 有3亿多条日志,总量共计约300GB。仅上述3类 库和机器学习等。阿里巴巴集团使用目前国内最 日志存储一年就将产生约108TB数据,若接入更多 大的Hadoop集群“云梯”进行各部门产品的线上数 设备、操作系统、业务平台日志,数据规模则更大。 据备份、系统日志以及爬虫数据分析,并建设开放 传统的日志处理方法在面对海量大数据时,其存储 平台为个人和企业提供各种增值服务。腾讯微信 方式和计算能力都受到了限制,因此分布式存储和 等应用产品拥有上亿级别的用户,产生了海量的个 并行计算成为了新的发展趋势。如何采集、传输、 人用户日志数据,这些数据中蕴藏着巨大的商业价 存储、分析及应用大规模的日志数据,已成为证券 值,并提出“大数据营销”的概念。人人网基于 行业在大数据时代下面临的重大挑战。 Hadoop的Hive)、HBase[12]和Streamingl]组件, Hadoop)分布式处理平台为大数据存储和分析 构建了SNS推荐平台进行分析计算、内容推荐等工 提供了有效的解决方案。在大数据应用方面,虽然 作。百度的高性能计算系统规划中的架构将有超 学术界和工业界对大数据的关注各有侧重,但有一 过1万个节点,每天的数据生成量在10PB以上,主 个共同的认识:大数据只有和具体的行业深入结合 要用于日志的存储分析以及统计挖掘等功能。Wi 才能落到实处,才能产生真正的价值。通过前期的 等设计了Analysis Farm摒弃了传统的关系型数据 积累和算法的升级,大数据应用将对证券行业产生 (relational database management system,RDBMS), 革命性影响。 利用NoSQL(not only SQL)数据库MongoDB构建了 本文的主要贡献如下: 可横向扩展的日志分析平台,以支撑NetFlow日志 1)研究基于SQL-on-Hadoop查询系统的性能特 存储和查询4。Rabkin等设计了基于Hadoop的日 点,对比分析了Hive、Impala和Spark SQL这3种具 志收集和分析系统Chukwa,日志处理程序在 有代表性的SQL-on-Hadoop查询系统实例,构建了 MapReduce框架上开发。文献[l6-17]从原位 海量日志采集与实时计算分析平台: 分析的角度出发,分别实现了针对大规模日志分析 2)采用TPC-H测试基准对它们的决策支持能 的MapReduce(In-situ MapReduce)和Continuous处 力进行测试及评估,通过对实验数据的分析和解释 理机制,但MapReduce模型计算代价很大,并不能备、服务器和应用日志的采集与格式统一问题,日 志分析也从最初简单的正则匹配向结构化查询、报 表和预测演进[1] 。 越来越多的行业领域面临海量 (volume)、高速(velocity)和多样(variety)等多 V 挑 战,大数据时代已真正到来[2-4] 。 互联网中海量的信息为证券领域日志分析提 供了丰富的数据支撑,如何利用大数据分析技术进 行实时准确的日志分析成为重要的科学问题。 在 大型证券公司的内部网络中,随着网络带宽的迅速 扩容日志量急剧增长且日志源众多,包括网上交易 日志、移动证券日志和网站日志等主要系统的日 志。 以海通证券为例,目前在全国设有几十个节 点,几百台服务器,峰值在线用户约几十万,每个节 点各部署了 1 台负载均衡设备。 网上交易应用服务 器全天 24 小时将客户请求数据与应答数据实时或 小批量定时写入磁盘日志文件,每台交易应用服务 器的日志文件大小为 100 MB~3 GB,总计在 100 GB 左右。 同时,每台网上交易应用服务器还会生成一 份发送给柜台程序的网关日志数据。 此外,各节点 负载均衡设备的日志采用 SNMP 协议进行采集,采 集每个站点的网络流量、用户连接数据。 每日合计 有 3 亿多条日志,总量共计约 300 GB。 仅上述 3 类 日志存储一年就将产生约 108 TB 数据,若接入更多 设备、操作系统、业务平台日志,数据规模则更大。 传统的日志处理方法在面对海量大数据时,其存储 方式和计算能力都受到了限制,因此分布式存储和 并行计算成为了新的发展趋势。 如何采集、传输、 存储、分析及应用大规模的日志数据,已成为证券 行业在大数据时代下面临的重大挑战。 Hadoop [5]分布式处理平台为大数据存储和分析 提供了有效的解决方案。 在大数据应用方面,虽然 学术界和工业界对大数据的关注各有侧重,但有一 个共同的认识:大数据只有和具体的行业深入结合 才能落到实处,才能产生真正的价值。 通过前期的 积累和算法的升级,大数据应用将对证券行业产生 革命性影响。 本文的主要贡献如下: 1)研究基于 SQL⁃on⁃Hadoop 查询系统的性能特 点,对比分析了 Hive、Impala 和 Spark SQL 这 3 种具 有代表性的 SQL⁃on⁃Hadoop 查询系统实例,构建了 海量日志采集与实时计算分析平台; 2)采用 TPC⁃H 测试基准对它们的决策支持能 力进行测试及评估,通过对实验数据的分析和解释 得到了若干有益的结论; 3)实现了大规模网络日志数据分析与计算在证 券领域的几种典型应用。 1 相关工作 大数据技术在互联网领域海量网络日志分析和 处理过程中得到了广泛的应用,日志分析系统主要 包括日志同步、数据存储、分布式计算和数据仓库等 相关 技 术。 开 源 的 日 志 分 析 系 统 如 Facebook 的 Scribe [6] ,Apache 的 Chukwa [7] , LinkedIn 的 Kafka [8] , Cloudera 的 Flume [9]等。 Facebook 公司庞大的用户群 体产生了大量的信息与社交数据,现有 8 亿多用户 的信息需要处理,产生了大规模的数据和日志;同 时,离线的大规模数据分析计算已无法满足实时数 据分析的用户需求, Scribe 结合了 Google 的分布式 文件系统 GFS [10] (google file system,GFS)。 操作流 程是收集异构数据源上的日志,集中存储到分布式 文件系统,从而在此基础上进行统计分析。 Amazon 基于 S3 和 EC2,开发了 Amazon EMR 来提供大数据 处理服务,可以将数据分布在可重新调整大小的 EC2 集群中进行处理,包括日志分析、索引、数据仓 库和机器学习等。 阿里巴巴集团使用目前国内最 大的 Hadoop 集群“云梯”进行各部门产品的线上数 据备份、系统日志以及爬虫数据分析,并建设开放 平台为个人和企业提供各种增值服务。 腾讯微信 等应用产品拥有上亿级别的用户,产生了海量的个 人用户日志数据,这些数据中蕴藏着巨大的商业价 值,并提出 “ 大 数 据 营 销” 的 概 念。 人 人 网 基 于 Hadoop 的 Hive [11] 、HBase [12] 和 Streaming [13] 组件, 构建了 SNS 推荐平台进行分析计算、内容推荐等工 作。 百度的高性能计算系统规划中的架构将有超 过 1 万个节点,每天的数据生成量在 10 PB 以上,主 要用于日志的存储分析以及统计挖掘等功能。 Wei 等设计了 Analysis Farm 摒弃了传统的关系型数据 库(relational database management system,RDBMS), 利用 NoSQL(not only SQL)数据库 MongoDB 构建了 可横向扩展的日志分析平台,以支撑 NetFlow 日志 存储和查询[14] 。 Rabkin 等设计了基于 Hadoop 的日 志收 集 和 分 析 系 统 Chukwa, 日 志 处 理 程 序 在 MapReduce 框架上开发[15] 。 文献[ 16 - 17] 从原位 分析的角度出发,分别实现了针对大规模日志分析 的 MapReduce( In⁃situ MapReduce) 和 Continuous 处 理机制, 但 MapReduce 模型计算代价很大,并不能 ·718· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有