正在加载图片...
·936· 智能系统学报 第16卷 1)在用户终端部署终端日志采集器,收集用 采集层通过Logstash的input、filter、output组 户操作行为数据,如系统登录、文档操作、软件使 件对数据进行匹配、解析、组装,通过HTTP Cli- 用、邮件外发、上网行为等日志数据: ent读取Zabbix服务端的数据,进行处理操作后 2)在数据库、应用服务器、交换机等位置部 将数据上报到数据存储层。 署设备日志采集器,采集防火墙、业务系统、数据 4.3数据存储层 库等系统与设备的用户操作日志: 存储层存储训练用户异常行为分析模型需要 3)定义用户异常行为场景: 的日志数据、训练分类分级模型需要的文档样本 4)依据异常行为场景,确定场景所需的用户 数据、用户异常行为告警数据、安全事件审计数据。 行为数据; 其中日志数据包括终端、网络设备、主机设备、数 5)依据场景所需的用户行为数据,从用户及 据库、应用系统日志数据。文档样本数据包括覆 操作类型的角度切分数据: 盖业务范围内各业务分类与各安全等级的文档。 6)对切分好的数据按照场景要求进行特征 数据存储层使用Spark Streaming从Kafka中 提取; 读取主动探针采集、被动接口采集汇总的日志数 T)使用邻近算法、离群点检测算法和Feature 据,使用Spring Boot同步数据、生成文件,通过 Bagging等算法,分析建模特征数据,分离出正常 Common-pool2创建数据库连接池,通过Abstract- 数据和异常数据: RoutingDataSource访问关系型数据库,使用Elast-. 8)按场景聚合正常数据,形成样本库。 icsearch和Mysql存储用户异常行为告警数据、安 全事件审计数据,使用Redis存储日志数据与文 4 实验系统 档样本数据,采用Mysql存储规则、用户权限等 4.1系统架构 系统管理数据。 构建数据分类分级与异常行为分析实验系 4.4 数据分析层 统,分析验证技术可行性与应用效果。 分析层包括基本规则与高级模型两种分析方 实验系统采用Spring Cloud微服务架构,使用 式,其中基本规则是采用关键字、正则表达式等 应用容器Docker进行部署,采用关系型与文件型 简单匹配模型识别文档类别、安全等级与异常行 混合存储模式,通过Nginx Web服务器实现负载 为。高级模型包括文档分类分级模型、用户异常 均衡。系统架构包括采集层、分析层、存储层、可 行为分析模型。 视化层。 数据分析层包括工作流框架、特征提取、算 4.2数据采集层 法模型、格式化输出等主要功能。工作流框架负 实验系统采用探针主动采集和接口被动采集 责构建业务流、调度数据处理任务,特征提取负 两种模型,管理员可以通过图形化界面选择采集 责选择各种数据的业务特征、特征提取和特征对 模型,定义探针主动采集频率、被动采集服务地 齐,根据业务场景和数据分布选择算法模型,对 址。主动采集探针部署在操作终端、交换机、应 接业务系统输出分析结果。 用服务器、数据库审计系统,主动采集日志。被 业务工作流采用SpiffWorkflow工作流框架, 动采集服务部署在服务瑞.通过标准接口,对接 实现动态配置业务流程、动态选择数据特征,动 操作终端、交换机、应用服务器、数据库审计等系 态配置算法模型、灵活调度业务场景。 统上报的日志数据。日志数据上报后,数据流转 特征选择和特征提取采用W-Gram语言模 引擎将日志数据推送至分布式消息系统Kafka数 型、词向量方法、线性差别分析、主成分分析、奇 据队列组件中准备进行数据清洗处理与持久化。 异值分解等技术对文档数据和行为数据进行特征 采集探针利用日志处理引擎Logstash的file 选择和特征提取。 beat组件,采用TCP、UDP协议将日志数据上报 算法模型采用插件化封装,根据数据分布特 到采集层,通过网络和应用监测系统Zabbix Agent 点选择算法模型。算法模型包括K均值聚类、密 将日志数据上报至Zabbix服务器。 度聚类方法、高斯混合模型,以及支持向量机、决 采集层汇集日志数据后,经过数据匹配、解 策树、邻近算法、长短时记忆网络、神经网络。 析以及组装操作,将数据推送到采集层中的Kafka 采用JSON、XML协议封装输出数据,满足上 队列中,通过数据分流操作以及动态模板匹配操 层业务系统对接要求。 作将数据推送到数据搜索引擎Elasticsearch中完 4.5数据可视化层 成日志数据的存储流程。 可视化层用于审计分析用户异常行为安全事1) 在用户终端部署终端日志采集器,收集用 户操作行为数据,如系统登录、文档操作、软件使 用、邮件外发、上网行为等日志数据; 2) 在数据库、应用服务器、交换机等位置部 署设备日志采集器,采集防火墙、业务系统、数据 库等系统与设备的用户操作日志; 3) 定义用户异常行为场景; 4) 依据异常行为场景,确定场景所需的用户 行为数据; 5) 依据场景所需的用户行为数据,从用户及 操作类型的角度切分数据; 6) 对切分好的数据按照场景要求进行特征 提取; 7) 使用邻近算法、离群点检测算法和 Feature Bagging 等算法,分析建模特征数据,分离出正常 数据和异常数据; 8) 按场景聚合正常数据,形成样本库。 4 实验系统 4.1 系统架构 构建数据分类分级与异常行为分析实验系 统,分析验证技术可行性与应用效果。 实验系统采用 Spring Cloud 微服务架构,使用 应用容器 Docker 进行部署,采用关系型与文件型 混合存储模式,通过 Nginx Web 服务器实现负载 均衡。系统架构包括采集层、分析层、存储层、可 视化层。 4.2 数据采集层 实验系统采用探针主动采集和接口被动采集 两种模型,管理员可以通过图形化界面选择采集 模型,定义探针主动采集频率、被动采集服务地 址。主动采集探针部署在操作终端、交换机、应 用服务器、数据库审计系统,主动采集日志。被 动采集服务部署在服务端,通过标准接口,对接 操作终端、交换机、应用服务器、数据库审计等系 统上报的日志数据。日志数据上报后,数据流转 引擎将日志数据推送至分布式消息系统 Kafka 数 据队列组件中准备进行数据清洗处理与持久化。 采集探针利用日志处理引擎 Logstash 的 file￾beat 组件,采用 TCP、UDP 协议将日志数据上报 到采集层,通过网络和应用监测系统 Zabbix Agent 将日志数据上报至 Zabbix 服务器。 采集层汇集日志数据后,经过数据匹配、解 析以及组装操作,将数据推送到采集层中的 Kafka 队列中,通过数据分流操作以及动态模板匹配操 作将数据推送到数据搜索引擎 Elasticsearch 中完 成日志数据的存储流程。 采集层通过 Logstash 的 input、filter、output 组 件对数据进行匹配、解析、组装,通过 HTTP Cli￾ent 读取 Zabbix 服务端的数据,进行处理操作后 将数据上报到数据存储层。 4.3 数据存储层 存储层存储训练用户异常行为分析模型需要 的日志数据、训练分类分级模型需要的文档样本 数据、用户异常行为告警数据、安全事件审计数据。 其中日志数据包括终端、网络设备、主机设备、数 据库、应用系统日志数据。文档样本数据包括覆 盖业务范围内各业务分类与各安全等级的文档。 数据存储层使用 Spark Streaming 从 Kafka 中 读取主动探针采集、被动接口采集汇总的日志数 据,使用 Spring Boot 同步数据、生成文件,通过 Common-pool2 创建数据库连接池,通过 Abstract￾RoutingDataSource 访问关系型数据库,使用 Elast￾icsearch 和 Mysql 存储用户异常行为告警数据、安 全事件审计数据,使用 Redis 存储日志数据与文 档样本数据,采用 Mysql 存储规则、用户权限等 系统管理数据。 4.4 数据分析层 分析层包括基本规则与高级模型两种分析方 式,其中基本规则是采用关键字、正则表达式等 简单匹配模型识别文档类别、安全等级与异常行 为。高级模型包括文档分类分级模型、用户异常 行为分析模型。 数据分析层包括工作流框架、特征提取、算 法模型、格式化输出等主要功能。工作流框架负 责构建业务流、调度数据处理任务,特征提取负 责选择各种数据的业务特征、特征提取和特征对 齐,根据业务场景和数据分布选择算法模型,对 接业务系统输出分析结果。 业务工作流采用 SpiffWorkflow 工作流框架, 实现动态配置业务流程、动态选择数据特征,动 态配置算法模型、灵活调度业务场景。 特征选择和特征提取采用 N-Gram 语言模 型、词向量方法、线性差别分析、主成分分析、奇 异值分解等技术对文档数据和行为数据进行特征 选择和特征提取。 算法模型采用插件化封装,根据数据分布特 点选择算法模型。算法模型包括 K 均值聚类、密 度聚类方法、高斯混合模型,以及支持向量机、决 策树、邻近算法、长短时记忆网络、神经网络。 采用 JSON、XML 协议封装输出数据,满足上 层业务系统对接要求。 4.5 数据可视化层 可视化层用于审计分析用户异常行为安全事 ·936· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有