正在加载图片...
第5期 喻波,等:非结构化文档敏感数据识别与异常行为分析 ·937· 件、查看文档分类分级结果。 1)实验准备 可视化层使用前后端完全分离的机制,采用 ①服务器系统搭建,GPU驱动安装、tensor- VUE.JS结合Webpack搭建前端架构,使用HT- ow环境搭建,客户端系统搭建和客户端软件安装: TP协议进行前后端的数据通信。 ②准备3000名用户、30万条日志数据。日 可视化层的接口服务模块,外部接口使用Nety 志数据包括邮件外发日志数据、U盘拷贝文件日 进行TCP协议数据交互、HttpClient进行HTTP协 志数据、账号准入登录日志数据3种类型。其中 议数据交互。内部接口使用Aviator、Elasticsearch、 邮件外发日志数据包括操作终端信息、发件人信 Mysql、Common-pool2以及Redis实现, 息、收件人信息、抄送人信息、正文信息、附件信 息、时间信息:U盘拷贝文件日志数据包括U盘 5实验分析 设备信息、操作终端信息、拷贝操作信息、操作文 实验环境包括硬件和软件配置两部分。 件信息、操作时间信息;账号准入登录日志数据 硬件配置:两台测试机器,CPU Intel Core i3-4130 包括人员账号信息、接入设备信息、接入网络信 3.40GHz4核,内存8GB,硬盘5TB.网卡1000MB。 息、管控策略信息、接人时间信息。 软件配置:操作系统CentOS7.6,数据库 2)实验输入 MySQL5.7.29。 ①首先将日志数据导人mongodb,3种行为日 5.1基于N元语言模型的文档智能分类分级技 志数据单独存放。其次登录实验系统控制台,配 置数据源和检测模型。最后使用准备数据训练得 术实验过程 基于N元语言模型的文档智能分类分级技 到用户行为模型: 术,验证数据分类分级准确率,采用业界与学术 ②使用客户端执行邮件外发、U盘拷贝文件 界公认的测试基准数据集。首先使用训练数据集 和账号登录系统操作; 构建模型,然后使用测试数据集评价模型,其中 ③服务端接收客户端日志信息,对用户操作 标准准确率ACC=品P为预测正确的样本数 进行异常行为检测,并将结果展示在控制台。 5.3实验结论 量,ALL为测试集样本总数。 基于N元语言模型的文档智能分类分级技 1)实验准备 术,数据分类分级准确率达到93%。 ①服务器、客户端系统部署完成、网络通信 4种分类数据、4个安全等级数据组成了16种 正常; 数据集合,每种数据集合各执行500次数据发送。 ②准备24000份样本文件,其中财经、体育、 进入实验系统数据分类分级界面,可查看到8000 娱乐、时政各6000份; 次数据发送邮件,按16组统计分析分类分级模型 ③测试发件箱test@wondersoft.cn,收件箱 准确率分别为96.2%、93.6%、94.8%、87.4%、 test@shou.com 90.1%、92.1%、97.2%、86.2%、89.2%、90.1%、 2)实验输入 96.4%、92.7%、91.6%、87.4%、90.1%、88.3%0 ①登录控制台,创建财经、体育、娱乐、时政 基于无标记样本的实时用户异常行为分析技 分类,创建4个安全等级、定义每个安全等级涉 术,用户异常行为分析准确率达86%以上。 及的敏感数据形式,导入样本文件,构建分类分 邮件外发、U盘文件拷贝和账号上下线操作 级模型; 各执行500次,进入实验系统用户行为分析界面, ②使用foxmail发件箱test@wondersoft.cn发 可查看到邮件外发记录500次、U盘文件拷贝 送各种类型、各种安全等级文档至test@shou.com, 500次、账号登录系统500次,统计分析异常行为 检查分类分级结果。 识别准确率分别为86.7%、88.6%、862%。 5.2基于无标记样本的实时用户异常行为分析 技术实验过程 6结束语 基于无标记样本的实时用户异常行为分析技 在数字经济时代,数据安全是保障数字经济 术,验证用户异常行为识别准确率,采用业界与 发展的基础条件,数据安全也正在从传统的边界 学术界公认的测试基准数据集。首先使用训练数 防护逐步转向以数据为基础的纵深全链条防护 据集构建模型,然后使用测试数据集评价模型, 其中标准准确率AcC=品,TP为预测正确的样 在这个转变过程中,准确地识别数据,找到管控 重点,成为关键问题。人工智能赋能数据安全创 本数量,ALL为测试集样本总数。 新地解决了海量数据中敏感数据识别、数据分件、查看文档分类分级结果。 可视化层使用前后端完全分离的机制,采用 VUE.JS 结合 Webpack 搭建前端架构,使用 HT￾TP 协议进行前后端的数据通信。 可视化层的接口服务模块,外部接口使用 Netty 进行 TCP 协议数据交互、HttpClient 进行 HTTP 协 议数据交互。内部接口使用 Aviator、Elasticsearch、 Mysql、Common-pool2 以及 Redis 实现。 5 实验分析 实验环境包括硬件和软件配置两部分。 硬件配置:两台测试机器,CPU Intel Core i3-4130 3.40 GHz 4 核,内存 8 GB,硬盘 5 TB,网卡 1000 MB。 软件配置:操作系统 CentOS7.6,数据库 MySQL5.7.29。 5.1 基于 N 元语言模型的文档智能分类分级技 术实验过程 ACC = TP ALL 基于 N 元语言模型的文档智能分类分级技 术,验证数据分类分级准确率,采用业界与学术 界公认的测试基准数据集。首先使用训练数据集 构建模型,然后使用测试数据集评价模型,其中 标准准确率 ,TP 为预测正确的样本数 量,ALL 为测试集样本总数。 1) 实验准备 ①服务器、客户端系统部署完成、网络通信 正常; ②准备 24 000 份样本文件,其中财经、体育、 娱乐、时政各 6 000 份; ③测试发件箱 test@wondersoft.cn,收件箱 test@shou.com。 2) 实验输入 ①登录控制台,创建财经、体育、娱乐、时政 分类,创建 4 个安全等级、定义每个安全等级涉 及的敏感数据形式,导入样本文件,构建分类分 级模型; ②使用 foxmail 发件箱 test@wondersoft.cn 发 送各种类型、各种安全等级文档至 test@shou.com, 检查分类分级结果。 5.2 基于无标记样本的实时用户异常行为分析 技术实验过程 ACC = TP ALL 基于无标记样本的实时用户异常行为分析技 术,验证用户异常行为识别准确率,采用业界与 学术界公认的测试基准数据集。首先使用训练数 据集构建模型,然后使用测试数据集评价模型, 其中标准准确率 ,TP 为预测正确的样 本数量,ALL 为测试集样本总数。 1) 实验准备 ①服务器系统搭建,GPU 驱动安装、tensor￾flow 环境搭建,客户端系统搭建和客户端软件安装; ②准备 3 000 名用户、30 万条日志数据。日 志数据包括邮件外发日志数据、U 盘拷贝文件日 志数据、账号准入登录日志数据 3 种类型。其中 邮件外发日志数据包括操作终端信息、发件人信 息、收件人信息、抄送人信息、正文信息、附件信 息、时间信息;U 盘拷贝文件日志数据包括 U 盘 设备信息、操作终端信息、拷贝操作信息、操作文 件信息、操作时间信息;账号准入登录日志数据 包括人员账号信息、接入设备信息、接入网络信 息、管控策略信息、接入时间信息。 2) 实验输入 ①首先将日志数据导入 mongodb,3 种行为日 志数据单独存放。其次登录实验系统控制台,配 置数据源和检测模型。最后使用准备数据训练得 到用户行为模型; ②使用客户端执行邮件外发、U 盘拷贝文件 和账号登录系统操作; ③服务端接收客户端日志信息,对用户操作 进行异常行为检测,并将结果展示在控制台。 5.3 实验结论 基于 N 元语言模型的文档智能分类分级技 术,数据分类分级准确率达到 93%。 4 种分类数据、4 个安全等级数据组成了 16 种 数据集合,每种数据集合各执行 500 次数据发送。 进入实验系统数据分类分级界面,可查看到 8 000 次数据发送邮件,按 16 组统计分析分类分级模型 准确率分别为 96.2%、93.6%、94.8%、87.4%、 90.1%、92.1%、97.2%、86.2%、89.2%、90.1%、 96.4%、92.7%、91.6%、87.4%、90.1%、88.3%。 基于无标记样本的实时用户异常行为分析技 术,用户异常行为分析准确率达 86% 以上。 邮件外发、U 盘文件拷贝和账号上下线操作 各执行 500 次,进入实验系统用户行为分析界面, 可查看到邮件外发记录 500 次 、U 盘文件拷贝 500 次、账号登录系统 500 次,统计分析异常行为 识别准确率分别为 86.7%、88.6%、86.2%。 6 结束语 在数字经济时代,数据安全是保障数字经济 发展的基础条件,数据安全也正在从传统的边界 防护逐步转向以数据为基础的纵深全链条防护, 在这个转变过程中,准确地识别数据,找到管控 重点,成为关键问题。人工智能赋能数据安全创 新地解决了海量数据中敏感数据识别、数据分 第 5 期 喻波,等:非结构化文档敏感数据识别与异常行为分析 ·937·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有