件、查看文档分类分级结果。可视化层使用前后端完全分离的机制，采用 VUE

正在加载图片...

第5期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·937· 件、查看文档分类分级结果。 1)实验准备可视化层使用前后端完全分离的机制，采用 ①服务器系统搭建，GPU驱动安装、tensor- VUE.JS结合Webpack搭建前端架构，使用HT- ow环境搭建，客户端系统搭建和客户端软件安装： TP协议进行前后端的数据通信。 ②准备3000名用户、30万条日志数据。日可视化层的接口服务模块，外部接口使用Nety 志数据包括邮件外发日志数据、U盘拷贝文件日进行TCP协议数据交互、HttpClient进行HTTP协志数据、账号准入登录日志数据3种类型。其中议数据交互。内部接口使用Aviator、Elasticsearch、邮件外发日志数据包括操作终端信息、发件人信 Mysql、Common-pool2以及Redis实现，息、收件人信息、抄送人信息、正文信息、附件信息、时间信息：U盘拷贝文件日志数据包括U盘 5实验分析设备信息、操作终端信息、拷贝操作信息、操作文实验环境包括硬件和软件配置两部分。件信息、操作时间信息；账号准入登录日志数据硬件配置：两台测试机器，CPU Intel Core i3-4130 包括人员账号信息、接入设备信息、接入网络信 3.40GHz4核，内存8GB,硬盘5TB.网卡1000MB。息、管控策略信息、接人时间信息。软件配置：操作系统CentOS7.6,数据库 2)实验输入 MySQL5.7.29。 ①首先将日志数据导人mongodb,3种行为日 5.1基于N元语言模型的文档智能分类分级技志数据单独存放。其次登录实验系统控制台，配置数据源和检测模型。最后使用准备数据训练得术实验过程基于N元语言模型的文档智能分类分级技到用户行为模型：术，验证数据分类分级准确率，采用业界与学术 ②使用客户端执行邮件外发、U盘拷贝文件界公认的测试基准数据集。首先使用训练数据集和账号登录系统操作；构建模型，然后使用测试数据集评价模型，其中 ③服务端接收客户端日志信息，对用户操作标准准确率ACC=品P为预测正确的样本数进行异常行为检测，并将结果展示在控制台。 5.3实验结论量，ALL为测试集样本总数。基于N元语言模型的文档智能分类分级技 1)实验准备术，数据分类分级准确率达到93%。 ①服务器、客户端系统部署完成、网络通信 4种分类数据、4个安全等级数据组成了16种正常；数据集合，每种数据集合各执行500次数据发送。 ②准备24000份样本文件，其中财经、体育、进入实验系统数据分类分级界面，可查看到8000 娱乐、时政各6000份；次数据发送邮件，按16组统计分析分类分级模型 ③测试发件箱test@wondersoft.cn,收件箱准确率分别为96.2%、93.6%、94.8%、87.4%、 test@shou.com 90.1%、92.1%、97.2%、86.2%、89.2%、90.1%、 2)实验输入 96.4%、92.7%、91.6%、87.4%、90.1%、88.3%0 ①登录控制台，创建财经、体育、娱乐、时政基于无标记样本的实时用户异常行为分析技分类，创建4个安全等级、定义每个安全等级涉术，用户异常行为分析准确率达86%以上。及的敏感数据形式，导入样本文件，构建分类分邮件外发、U盘文件拷贝和账号上下线操作级模型；各执行500次，进入实验系统用户行为分析界面， ②使用foxmail发件箱test@wondersoft.cn发可查看到邮件外发记录500次、U盘文件拷贝送各种类型、各种安全等级文档至test@shou.com, 500次、账号登录系统500次，统计分析异常行为检查分类分级结果。识别准确率分别为86.7%、88.6%、862%。 5.2基于无标记样本的实时用户异常行为分析技术实验过程 6结束语基于无标记样本的实时用户异常行为分析技在数字经济时代，数据安全是保障数字经济术，验证用户异常行为识别准确率，采用业界与发展的基础条件，数据安全也正在从传统的边界学术界公认的测试基准数据集。首先使用训练数防护逐步转向以数据为基础的纵深全链条防护据集构建模型，然后使用测试数据集评价模型，其中标准准确率AcC=品，TP为预测正确的样在这个转变过程中，准确地识别数据，找到管控重点，成为关键问题。人工智能赋能数据安全创本数量，ALL为测试集样本总数。新地解决了海量数据中敏感数据识别、数据分件、查看文档分类分级结果。可视化层使用前后端完全分离的机制，采用 VUE.JS 结合 Webpack 搭建前端架构，使用 HTTP 协议进行前后端的数据通信。可视化层的接口服务模块，外部接口使用 Netty 进行 TCP 协议数据交互、HttpClient 进行 HTTP 协议数据交互。内部接口使用 Aviator、Elasticsearch、 Mysql、Common-pool2 以及 Redis 实现。 5 实验分析实验环境包括硬件和软件配置两部分。硬件配置：两台测试机器，CPU Intel Core i3-4130 3.40 GHz 4 核，内存 8 GB，硬盘 5 TB，网卡 1000 MB。软件配置：操作系统 CentOS7.6，数据库 MySQL5.7.29。 5.1 基于 N 元语言模型的文档智能分类分级技术实验过程 ACC = TP ALL 基于 N 元语言模型的文档智能分类分级技术，验证数据分类分级准确率，采用业界与学术界公认的测试基准数据集。首先使用训练数据集构建模型，然后使用测试数据集评价模型，其中标准准确率，TP 为预测正确的样本数量，ALL 为测试集样本总数。 1) 实验准备 ①服务器、客户端系统部署完成、网络通信正常； ②准备 24 000 份样本文件，其中财经、体育、娱乐、时政各 6 000 份； ③测试发件箱 test@wondersoft.cn，收件箱 test@shou.com。 2) 实验输入 ①登录控制台，创建财经、体育、娱乐、时政分类，创建 4 个安全等级、定义每个安全等级涉及的敏感数据形式，导入样本文件，构建分类分级模型； ②使用 foxmail 发件箱 test@wondersoft.cn 发送各种类型、各种安全等级文档至 test@shou.com，检查分类分级结果。 5.2 基于无标记样本的实时用户异常行为分析技术实验过程 ACC = TP ALL 基于无标记样本的实时用户异常行为分析技术，验证用户异常行为识别准确率，采用业界与学术界公认的测试基准数据集。首先使用训练数据集构建模型，然后使用测试数据集评价模型，其中标准准确率，TP 为预测正确的样本数量，ALL 为测试集样本总数。 1) 实验准备 ①服务器系统搭建，GPU 驱动安装、tensorflow 环境搭建，客户端系统搭建和客户端软件安装； ②准备 3 000 名用户、30 万条日志数据。日志数据包括邮件外发日志数据、U 盘拷贝文件日志数据、账号准入登录日志数据 3 种类型。其中邮件外发日志数据包括操作终端信息、发件人信息、收件人信息、抄送人信息、正文信息、附件信息、时间信息；U 盘拷贝文件日志数据包括 U 盘设备信息、操作终端信息、拷贝操作信息、操作文件信息、操作时间信息；账号准入登录日志数据包括人员账号信息、接入设备信息、接入网络信息、管控策略信息、接入时间信息。 2) 实验输入 ①首先将日志数据导入 mongodb，3 种行为日志数据单独存放。其次登录实验系统控制台，配置数据源和检测模型。最后使用准备数据训练得到用户行为模型； ②使用客户端执行邮件外发、U 盘拷贝文件和账号登录系统操作； ③服务端接收客户端日志信息，对用户操作进行异常行为检测，并将结果展示在控制台。 5.3 实验结论基于 N 元语言模型的文档智能分类分级技术，数据分类分级准确率达到 93%。 4 种分类数据、4 个安全等级数据组成了 16 种数据集合，每种数据集合各执行 500 次数据发送。进入实验系统数据分类分级界面，可查看到 8 000 次数据发送邮件，按 16 组统计分析分类分级模型准确率分别为 96.2%、93.6%、94.8%、87.4%、 90.1%、92.1%、97.2%、86.2%、89.2%、90.1%、 96.4%、92.7%、91.6%、87.4%、90.1%、88.3%。基于无标记样本的实时用户异常行为分析技术，用户异常行为分析准确率达 86% 以上。邮件外发、U 盘文件拷贝和账号上下线操作各执行 500 次，进入实验系统用户行为分析界面，可查看到邮件外发记录 500 次、U 盘文件拷贝 500 次、账号登录系统 500 次，统计分析异常行为识别准确率分别为 86.7%、88.6%、86.2%。 6 结束语在数字经济时代，数据安全是保障数字经济发展的基础条件，数据安全也正在从传统的边界防护逐步转向以数据为基础的纵深全链条防护，在这个转变过程中，准确地识别数据，找到管控重点，成为关键问题。人工智能赋能数据安全创新地解决了海量数据中敏感数据识别、数据分第 5 期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·937·

<<向上翻页向下翻页>>

点击下载：【人工智能】非结构化文档敏感数据识别与异常行为分析