1) 在用户终端部署终端日志采集器，收集用户操作行为数据，如系统登录、文

正在加载图片...

·936· 智能系统学报第16卷 1)在用户终端部署终端日志采集器，收集用采集层通过Logstash的input、filter、output组户操作行为数据，如系统登录、文档操作、软件使件对数据进行匹配、解析、组装，通过HTTP Cli- 用、邮件外发、上网行为等日志数据： ent读取Zabbix服务端的数据，进行处理操作后 2)在数据库、应用服务器、交换机等位置部将数据上报到数据存储层。署设备日志采集器，采集防火墙、业务系统、数据 4.3数据存储层库等系统与设备的用户操作日志：存储层存储训练用户异常行为分析模型需要 3)定义用户异常行为场景：的日志数据、训练分类分级模型需要的文档样本 4)依据异常行为场景，确定场景所需的用户数据、用户异常行为告警数据、安全事件审计数据。行为数据；其中日志数据包括终端、网络设备、主机设备、数 5)依据场景所需的用户行为数据，从用户及据库、应用系统日志数据。文档样本数据包括覆操作类型的角度切分数据：盖业务范围内各业务分类与各安全等级的文档。 6)对切分好的数据按照场景要求进行特征数据存储层使用Spark Streaming从Kafka中提取；读取主动探针采集、被动接口采集汇总的日志数 T)使用邻近算法、离群点检测算法和Feature 据，使用Spring Boot同步数据、生成文件，通过 Bagging等算法，分析建模特征数据，分离出正常 Common-pool2创建数据库连接池，通过Abstract- 数据和异常数据： RoutingDataSource访问关系型数据库，使用Elast-. 8)按场景聚合正常数据，形成样本库。 icsearch和Mysql存储用户异常行为告警数据、安全事件审计数据，使用Redis存储日志数据与文 4 实验系统档样本数据，采用Mysql存储规则、用户权限等 4.1系统架构系统管理数据。构建数据分类分级与异常行为分析实验系 4.4 数据分析层统，分析验证技术可行性与应用效果。分析层包括基本规则与高级模型两种分析方实验系统采用Spring Cloud微服务架构，使用式，其中基本规则是采用关键字、正则表达式等应用容器Docker进行部署，采用关系型与文件型简单匹配模型识别文档类别、安全等级与异常行混合存储模式，通过Nginx Web服务器实现负载为。高级模型包括文档分类分级模型、用户异常均衡。系统架构包括采集层、分析层、存储层、可行为分析模型。视化层。数据分析层包括工作流框架、特征提取、算 4.2数据采集层法模型、格式化输出等主要功能。工作流框架负实验系统采用探针主动采集和接口被动采集责构建业务流、调度数据处理任务，特征提取负两种模型，管理员可以通过图形化界面选择采集责选择各种数据的业务特征、特征提取和特征对模型，定义探针主动采集频率、被动采集服务地齐，根据业务场景和数据分布选择算法模型，对址。主动采集探针部署在操作终端、交换机、应接业务系统输出分析结果。用服务器、数据库审计系统，主动采集日志。被业务工作流采用SpiffWorkflow工作流框架，动采集服务部署在服务瑞.通过标准接口，对接实现动态配置业务流程、动态选择数据特征，动操作终端、交换机、应用服务器、数据库审计等系态配置算法模型、灵活调度业务场景。统上报的日志数据。日志数据上报后，数据流转特征选择和特征提取采用W-Gram语言模引擎将日志数据推送至分布式消息系统Kafka数型、词向量方法、线性差别分析、主成分分析、奇据队列组件中准备进行数据清洗处理与持久化。异值分解等技术对文档数据和行为数据进行特征采集探针利用日志处理引擎Logstash的file 选择和特征提取。 beat组件，采用TCP、UDP协议将日志数据上报算法模型采用插件化封装，根据数据分布特到采集层，通过网络和应用监测系统Zabbix Agent 点选择算法模型。算法模型包括K均值聚类、密将日志数据上报至Zabbix服务器。度聚类方法、高斯混合模型，以及支持向量机、决采集层汇集日志数据后，经过数据匹配、解策树、邻近算法、长短时记忆网络、神经网络。析以及组装操作，将数据推送到采集层中的Kafka 采用JSON、XML协议封装输出数据，满足上队列中，通过数据分流操作以及动态模板匹配操层业务系统对接要求。作将数据推送到数据搜索引擎Elasticsearch中完 4.5数据可视化层成日志数据的存储流程。可视化层用于审计分析用户异常行为安全事1) 在用户终端部署终端日志采集器，收集用户操作行为数据，如系统登录、文档操作、软件使用、邮件外发、上网行为等日志数据； 2) 在数据库、应用服务器、交换机等位置部署设备日志采集器，采集防火墙、业务系统、数据库等系统与设备的用户操作日志； 3) 定义用户异常行为场景； 4) 依据异常行为场景，确定场景所需的用户行为数据； 5) 依据场景所需的用户行为数据，从用户及操作类型的角度切分数据； 6) 对切分好的数据按照场景要求进行特征提取； 7) 使用邻近算法、离群点检测算法和 Feature Bagging 等算法，分析建模特征数据，分离出正常数据和异常数据； 8) 按场景聚合正常数据，形成样本库。 4 实验系统 4.1 系统架构构建数据分类分级与异常行为分析实验系统，分析验证技术可行性与应用效果。实验系统采用 Spring Cloud 微服务架构，使用应用容器 Docker 进行部署，采用关系型与文件型混合存储模式，通过 Nginx Web 服务器实现负载均衡。系统架构包括采集层、分析层、存储层、可视化层。 4.2 数据采集层实验系统采用探针主动采集和接口被动采集两种模型，管理员可以通过图形化界面选择采集模型，定义探针主动采集频率、被动采集服务地址。主动采集探针部署在操作终端、交换机、应用服务器、数据库审计系统，主动采集日志。被动采集服务部署在服务端，通过标准接口，对接操作终端、交换机、应用服务器、数据库审计等系统上报的日志数据。日志数据上报后，数据流转引擎将日志数据推送至分布式消息系统 Kafka 数据队列组件中准备进行数据清洗处理与持久化。采集探针利用日志处理引擎 Logstash 的 filebeat 组件，采用 TCP、UDP 协议将日志数据上报到采集层，通过网络和应用监测系统 Zabbix Agent 将日志数据上报至 Zabbix 服务器。采集层汇集日志数据后，经过数据匹配、解析以及组装操作，将数据推送到采集层中的 Kafka 队列中，通过数据分流操作以及动态模板匹配操作将数据推送到数据搜索引擎 Elasticsearch 中完成日志数据的存储流程。采集层通过 Logstash 的 input、filter、output 组件对数据进行匹配、解析、组装，通过 HTTP Client 读取 Zabbix 服务端的数据，进行处理操作后将数据上报到数据存储层。 4.3 数据存储层存储层存储训练用户异常行为分析模型需要的日志数据、训练分类分级模型需要的文档样本数据、用户异常行为告警数据、安全事件审计数据。其中日志数据包括终端、网络设备、主机设备、数据库、应用系统日志数据。文档样本数据包括覆盖业务范围内各业务分类与各安全等级的文档。数据存储层使用 Spark Streaming 从 Kafka 中读取主动探针采集、被动接口采集汇总的日志数据，使用 Spring Boot 同步数据、生成文件，通过 Common-pool2 创建数据库连接池，通过 AbstractRoutingDataSource 访问关系型数据库，使用 Elasticsearch 和 Mysql 存储用户异常行为告警数据、安全事件审计数据，使用 Redis 存储日志数据与文档样本数据，采用 Mysql 存储规则、用户权限等系统管理数据。 4.4 数据分析层分析层包括基本规则与高级模型两种分析方式，其中基本规则是采用关键字、正则表达式等简单匹配模型识别文档类别、安全等级与异常行为。高级模型包括文档分类分级模型、用户异常行为分析模型。数据分析层包括工作流框架、特征提取、算法模型、格式化输出等主要功能。工作流框架负责构建业务流、调度数据处理任务，特征提取负责选择各种数据的业务特征、特征提取和特征对齐，根据业务场景和数据分布选择算法模型，对接业务系统输出分析结果。业务工作流采用 SpiffWorkflow 工作流框架，实现动态配置业务流程、动态选择数据特征，动态配置算法模型、灵活调度业务场景。特征选择和特征提取采用 N-Gram 语言模型、词向量方法、线性差别分析、主成分分析、奇异值分解等技术对文档数据和行为数据进行特征选择和特征提取。算法模型采用插件化封装，根据数据分布特点选择算法模型。算法模型包括 K 均值聚类、密度聚类方法、高斯混合模型，以及支持向量机、决策树、邻近算法、长短时记忆网络、神经网络。采用 JSON、XML 协议封装输出数据，满足上层业务系统对接要求。 4.5 数据可视化层可视化层用于审计分析用户异常行为安全事 ·936· 智能系统学报第 16 卷

<<向上翻页向下翻页>>

点击下载：【人工智能】非结构化文档敏感数据识别与异常行为分析