请求应答数据以及网络设备日志数据，为大数据分析平台提供数据源。２）数据

正在加载图片...

·722. 智能系统学报第12卷请求应答数据以及网络设备日志数据，为大数据分 4)稳定性和可靠性：基于成熟的、经过实践验证析平台提供数据源。稳定可靠的Hadoop技术组件服务器节点非常容易 2)数据汇集层：将各个数据采集节点的日志数实现横向扩展，分布式环境保障集群中的任意一台据源源不断地汇集到各自的集群。服务器出现宕机时不影响系统的稳定可靠运行。 3)数据缓冲层：根据不同的Topic对海量日志数 3.2环境部署据进行缓冲，有助于控制和优化数据流经过系统的基于Hadoop的网络日志分析平台在海通证券速度。网络信息中心的搭建部署，如图4所示。共42台服 4)数据分发与解析处理层：负责数据的解析、勾务器，其中11台是Flume汇聚节点(256GB内存，对、计算和分发。 2×600GB,RAID1阵列)，5台Kafka节点(256GB 5)数据存储与计算层：用于存储、管理日志数内存，2×6O0GB,RAID1阵列)，3台Couchbase节点据，支持多维检索、统计分析和查询处理。 (512GB内存，2×600GB,RAID1阵列)，5台 6)应用层：负责面向终端用户提供日志分析与 Zookeeper节点(256GB内存，2×600GB,RAD1阵管理的泛在接入，提供实时运维监控、实时预警、明列)，2台作为Namenode(256GB内存，2×600GB, 细毫秒级查询以及实时报表输出等应用。 RAID1阵列)，14台是Datanode节点(256GB内存，可以看到，在这个大数据分析体系结构中，系统 2×600GB,RAID1阵列，2×600GB,RAID1阵列+6× 支持TB级、PB级或者更大规模数据的分析和处 2TB,RAID0阵列)，2台Tomeat(256GB内存，2× 理：系统可以处理结构化数据、非结构化和半结构 600GB,RAID1阵列)。化数据，有良好的扩展性。基于上述平台结构，本文设计了能够有效地利用大数据技术解决海量系统访问日志多条件实时快速查询的处理框架，如图交易应用 Tomeat集群服务器 3所示。 Node I 了通 Fume集群Kafka集群 Zookeeper集群计算节点集群Hbase、Spark) 交易应用交易应用服务器集群服务器 Node I 汇消息队列集群 Node 2 Kafka topic Spark Flume Kafka topic 2 Streaming NameNode DataNode Flume CouchBase集群 Kafka topic 3 交易应用 Flume 丁Tomcat集群服务器集群 Kafka topic Node 2 交易应用服务器 Hbase Hive Elasticsearch Node n ZooKeeper集群交易应用图4集群拓扑图服务器集群 Node N Fig.4 Cluster topology 图3处理框架所有节点通过I0GB以太网互联。Hadoop部署 Fig.3 Processing framework 采用Cloudera的发行版，版本为CDH5.5.0,HDFS总容量近60TB。接入日志分析平台的数据来自网上该处理框架能够保证平台系统如下的几个交易应用服务器日志数据和网络设备日志数据。特性。网上交易日志每天产生的记录数约1.2亿条，体积 1)实时性：实时采集Agent包，从产生时刻起到约100GB:网络设备日志数据日志每天的记录数约实时采集，再到传输到数据中心，整个时间间隔控 650万条，体积约6GB。制在1s内实时勾对、解析等计算，并保存到数据中心的集群，这个过程的时间间隔控制在3~5s。 4实验与性能评估 2)准确性和完整性：传输通道实现不重传、不漏 4.1实验环境与数据集传、断点续传，保证数据完整性。我们采用的实验环境为7台物理测试机构建的 3)安全性：非对称加密算法对传输的日志数据集群，选取2台机器作为主节点，其余作为计算节点进行加密，使用SSL/TLS协议，保障网络传输通道进行SQL-on-Hadoop实验，测试集群拓扑如图5 的安全性。所示。请求应答数据以及网络设备日志数据，为大数据分析平台提供数据源。２）数据汇集层：将各个数据采集节点的日志数据源源不断地汇集到各自的集群。３）数据缓冲层：根据不同的Ｔｏｐｉｃ对海量日志数据进行缓冲，有助于控制和优化数据流经过系统的速度。４）数据分发与解析处理层：负责数据的解析、勾对、计算和分发。５）数据存储与计算层：用于存储、管理日志数据，支持多维检索、统计分析和查询处理。６）应用层：负责面向终端用户提供日志分析与管理的泛在接入，提供实时运维监控、实时预警、明细毫秒级查询以及实时报表输出等应用。可以看到，在这个大数据分析体系结构中，系统支持ＴＢ级、ＰＢ级或者更大规模数据的分析和处理；系统可以处理结构化数据、非结构化和半结构化数据，有良好的扩展性。基于上述平台结构，本文设计了能够有效地利用大数据技术解决海量系统访问日志多条件实时快速查询的处理框架，如图３所示。图３处理框架Ｆｉｇ．３Ｐｒｏｃｅｓｓｉｎｇｆｒａｍｅｗｏｒｋ该处理框架能够保证平台系统如下的几个特性。１）实时性：实时采集Ａｇｅｎｔ包，从产生时刻起到实时采集，再到传输到数据中心，整个时间间隔控制在１ｓ内实时勾对、解析等计算，并保存到数据中心的集群，这个过程的时间间隔控制在３～５ｓ。２）准确性和完整性：传输通道实现不重传、不漏传、断点续传，保证数据完整性。３）安全性：非对称加密算法对传输的日志数据进行加密，使用ＳＳＬ／ＴＬＳ协议，保障网络传输通道的安全性。４）稳定性和可靠性：基于成熟的、经过实践验证稳定可靠的Ｈａｄｏｏｐ技术组件服务器节点非常容易实现横向扩展，分布式环境保障集群中的任意一台服务器出现宕机时不影响系统的稳定可靠运行。３．２环境部署基于Ｈａｄｏｏｐ的网络日志分析平台在海通证券网络信息中心的搭建部署，如图４所示。共４２台服务器，其中１１台是Ｆｌｕｍｅ汇聚节点（２５６ＧＢ内存，２×６００ＧＢ，ＲＡＩＤ１阵列），５台Ｋａｆｋａ节点（２５６ＧＢ内存，２×６００ＧＢ，ＲＡＩＤ１阵列），３台Ｃｏｕｃｈｂａｓｅ节点（５１２ＧＢ内存，２ × ６００ＧＢ，ＲＡＩＤ１阵列），５台Ｚｏｏｋｅｅｐｅｒ节点（２５６ＧＢ内存，２×６００ＧＢ，ＲＡＩＤ１阵列），２台作为Ｎａｍｅｎｏｄｅ（２５６ＧＢ内存，２×６００ＧＢ，ＲＡＩＤ１阵列），１４台是Ｄａｔａｎｏｄｅ节点（２５６ＧＢ内存，２×６００ＧＢ，ＲＡＩＤ１阵列，２×６００ＧＢ，ＲＡＩＤ１阵列＋６× ２ＴＢ，ＲＡＩＤ０阵列），２台Ｔｏｍｃａｔ（２５６ＧＢ内存，２× ６００ＧＢ，ＲＡＩＤ１阵列）。图４集群拓扑图Ｆｉｇ．４Ｃｌｕｓｔｅｒｔｏｐｏｌｏｇｙ所有节点通过１０ＧＢ以太网互联。Ｈａｄｏｏｐ部署采用Ｃｌｏｕｄｅｒａ的发行版，版本为ＣＤＨ５．５．０，ＨＤＦＳ总容量近６０ＴＢ。接入日志分析平台的数据来自网上交易应用服务器日志数据和网络设备日志数据。网上交易日志每天产生的记录数约１．２亿条，体积约１００ＧＢ；网络设备日志数据日志每天的记录数约６５０万条，体积约６ＧＢ。４实验与性能评估４．１实验环境与数据集我们采用的实验环境为７台物理测试机构建的集群，选取２台机器作为主节点，其余作为计算节点进行ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ实验，测试集群拓扑如图５所示。 ·７２２· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：【智能系统】基于SQL-on-Hadoop查询引擎的日志挖掘及其应用