【人工智能】非结构化文档敏感数据识别与异常行为分析

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：5.02MB

第16卷第5期智能系统学报 Vol.16 No.5 2021年9月 CAAI Transactions on Intelligent Systems Sep.2021 D0:10.11992/tis.202104028 网络出版地址：https:/kns.cnki.net/kcms/detail/23.1538.TP.20210722.1124.002.html 非结构化文档敏感数据识别与异常行为分析喻波，王志海，孙亚东，谢福进，安鹏 (北京明朝万达科技股份有限公司，北京100876)】摘要：在海量数据中快速、准确地对数据进行分类分级，快速识别用户异常行为是目前数据安全领域的重要研究内容。在数据分类分级研究领域，自然语言处理技术提升了分类分级的准确率，但是中文语体混杂、无监督学习准确率低、有监督学习样本标注工作量大等问题亟待取得关键突破。本文提出多元中文语言模型和基于无监督算法构建样本，突破数据分类分级领域面临的关键问题。在用户异常行为分析研究领域，由于样本依赖度过高，导致异常行为识别准确率较低，本文提出利用离群点检测方法构建异常行为样本库，解决样本依赖过高问题。为验证方法可行性，进一步构建实验系统开展实验分析，通过实验验证所提出方法可以显著提高数据分类分级和异常行为分析的准确率。关键词：数据安全；人工智能；分类分级；语言模型：用户异常行为分析；样本；自然语言处理；监督学习中图分类号：TP18,TP319:TP309文献标志码：A文章编号：1673-4785(2021)05-0932-08 中文引用格式：喻波，王志海，孙亚东，等.非结构化文档敏感数据识别与异常行为分析J.智能系统学报，2021,16(5)： 932-939. 英文引用格式：YUBo,WANG Zhihai,.SUN Yadong,et al Unstructured document sensitive data identification and abnormal be- havior analysisJ CAAI transactions on intelligent systems,2021,16(5):932-939. Unstructured document sensitive data identification and abnormal behavior analysis YU Bo,WANG Zhihai,SUN Yadong,XIE Fujin,AN Peng (Beijing Wondersoft Technology Co.,Ltd,Beijing 100876,China) Abstract:It is an important research content in the field of data security to classify data quickly and accurately in mass data,and to quickly identify user abnormal behavior.In the field of data classification research,natural language pro- cessing technology improves the accuracy of classification,but the problems of mixed Chinese language,low accuracy of unsupervised learning,and large workload of supervised learning sample labeling need to be Chinese made urgently. In the field of user anomaly analysis,due to high sample dependence,which leads to low accuracy of abnormal behavi- or recognition,this paper proposes to use outlier detection to build an abnormal behavior sample library to solve the problem of excessive sample dependence.In order to verify feasibility of the method,the experimental system is further constructed to carry out experimental analysis,and the proposed method can significantly improve the accuracy of data classification and abnormal behavior analysis. Keywords:data security;artificial intelligence;classification;language model;user's behavior analysis; sample;nlp;supervised learning 伴随大数据时代来临，数据同土地、劳动力统的数据安全防护措施难以适应新时代架构复一样列入生产要素之一，为加快培育数据要素市杂、场景多样、数据海量、交互频繁的“大物移云场，数据安全防护是基础保障山。由于业务场景智”环境。在数据安全领域，可以把管控场景划分复杂多变、数据量持续增长，基于数据流的信息为强管控、中管控、弱管控3种场景。针对强管化架构演进对数据安全防护提出了更高要求。传控场景，在数据传输、数据存储等环节采取全量数据加密手段，可以解决强管控场景的安全诉收稿日期：2021-04-16.网络出版日期：2021-07-23. 基金项目：国家电子发展基金项目（工信部财2014]425号）求。但是在更为普遍的中管控场景，敏感数据与通信作者：喻波.E-mail:yubo@wondersoft.cn. 非敏感数据混合使用，如果采用强管控，必然对

DOI: 10.11992/tis.202104028 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.TP.20210722.1124.002.html 非结构化文档敏感数据识别与异常行为分析喻波，王志海，孙亚东，谢福进，安鹏（北京明朝万达科技股份有限公司，北京 100876）摘要：在海量数据中快速、准确地对数据进行分类分级，快速识别用户异常行为是目前数据安全领域的重要研究内容。在数据分类分级研究领域，自然语言处理技术提升了分类分级的准确率，但是中文语体混杂、无监督学习准确率低、有监督学习样本标注工作量大等问题亟待取得关键突破。本文提出多元中文语言模型和基于无监督算法构建样本，突破数据分类分级领域面临的关键问题。在用户异常行为分析研究领域，由于样本依赖度过高，导致异常行为识别准确率较低，本文提出利用离群点检测方法构建异常行为样本库，解决样本依赖过高问题。为验证方法可行性，进一步构建实验系统开展实验分析，通过实验验证所提出方法可以显著提高数据分类分级和异常行为分析的准确率。关键词：数据安全；人工智能；分类分级；语言模型；用户异常行为分析；样本；自然语言处理；监督学习中图分类号：TP18; TP319; TP309 文献标志码：A 文章编号：1673−4785(2021)05−0932−08 中文引用格式：喻波, 王志海, 孙亚东, 等. 非结构化文档敏感数据识别与异常行为分析 [J]. 智能系统学报, 2021, 16(5): 932–939. 英文引用格式：YU Bo, WANG Zhihai, SUN Yadong, et al. Unstructured document sensitive data identification and abnormal behavior analysis[J]. CAAI transactions on intelligent systems, 2021, 16(5): 932–939. Unstructured document sensitive data identification and abnormal behavior analysis YU Bo，WANG Zhihai，SUN Yadong，XIE Fujin，AN Peng (Beijing Wondersoft Technology Co., Ltd, Beijing 100876, China) Abstract: It is an important research content in the field of data security to classify data quickly and accurately in mass data, and to quickly identify user abnormal behavior. In the field of data classification research, natural language processing technology improves the accuracy of classification, but the problems of mixed Chinese language, low accuracy of unsupervised learning, and large workload of supervised learning sample labeling need to be Chinese made urgently. In the field of user anomaly analysis, due to high sample dependence, which leads to low accuracy of abnormal behavior recognition, this paper proposes to use outlier detection to build an abnormal behavior sample library to solve the problem of excessive sample dependence. In order to verify feasibility of the method, the experimental system is further constructed to carry out experimental analysis, and the proposed method can significantly improve the accuracy of data classification and abnormal behavior analysis. Keywords: data security; artificial intelligence; classification; language model; user’s behavior analysis; sample; nlp; supervised learning 伴随大数据时代来临，数据同土地、劳动力一样列入生产要素之一，为加快培育数据要素市场，数据安全防护是基础保障[1]。由于业务场景复杂多变、数据量持续增长，基于数据流的信息化架构演进对数据安全防护提出了更高要求。传统的数据安全防护措施难以适应新时代架构复杂、场景多样、数据海量、交互频繁的“大物移云智”环境。在数据安全领域，可以把管控场景划分为强管控、中管控、弱管控 3 种场景。针对强管控场景，在数据传输、数据存储等环节采取全量数据加密手段，可以解决强管控场景的安全诉求。但是在更为普遍的中管控场景，敏感数据与非敏感数据混合使用，如果采用强管控，必然对收稿日期：2021−04−16. 网络出版日期：2021−07−23. 基金项目：国家电子发展基金项目 (工信部财 [2014]425 号). 通信作者：喻波. E-mail：yubo@wondersoft.cn. 第 16 卷第 5 期智能系统学报 Vol.16 No.5 2021 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2021

第5期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·933· 操作效率造成影响，但如果弱管控，又会造成敏同类型文档语境下，其文档表达含义与分类截然感数据泄露。因此中管控场景，识别敏感数据与不同。而且，由于文档分类定级误判，会产生敏异常行为是目前数据安全领域研究的重要问题。感文档的非授权明文外发风险，进而导致数据泄露。由于分类误判对非敏感级文档进行加密、阻 1研究背景断处理，影响正常业务开展6 近年来企业内部人员窃取数据事件频发，如 2.1面临的技术问题银行内部人员窃取、贩卖上万条用户信息，根据通过自然语言处理技术检测识别文档敏感内 Gartner的调查结果，内部人员窃取敏感数据、盗容，已经演化为文档智能分类分级的技术趋势，在用账号等行为已经成为企业数据泄露的最主要原落地实施过程中，也面临如下突出的技术问题。因。由于内部人员具备企业数据资产的合法访问在文档语义特征表达层面，各领域文档形式权限，且了解企业敏感数据的存放位置，因此内多样、内容丰富、中文语体混杂的情况普遍存在，部人员在合法外衣的保护下，自由地游走在企业例如公安电子笔录形式多样，官方语体和方言语内网，进行长期而隐蔽的数据窃取行为。体交相混杂，且上下文语义高度相关。而目前的导致上述现象的根本原因是企业经营活动复语言模型建立在朴素贝叶斯独立性假设的基础杂、业务系统多、数据规模大，无法穷举人员、终上，现实情况明显无法满足独立性假设要求，从端、应用、数据之间多对多的使用与访问规则，从而导致文档分类分级的准确率较低？。而为内部恶意人员留下了巨大的非法活动空间。在文档内容识别层面，敏感文档的分类检测这种情况下，安全部门只能把管控重点放在已知技术分为有监督和无监督两种模式，无监督文档的、规则明确的安全威胁上，导致内部人员长期、分类技术不需要样本但准确率很低，有监督文档隐蔽数据窃取行为发现难，数据泄露事件依然层准确率相对较高，但存在样本标注工作量大、人出不穷B 工标注质量无法保证的问题，直接导致产品研发因此，研究文档分类分级技术，识别需要重点周期长、成本高、效果差的问题四。保护的敏感数据：研究用户异常行为分析技术，针对文档分类分级在实际应用中面临的技术识别用户异常操作，是解决内网数据泄露的重要问题，本文提出如下的解决思路：构建N元中文课题。语言模型，解决当前语言模型面临的独立性假设不成立问题。构建自动无监督样本库，解决当前 2基于N元语言模型的文档智能分样本标注工作量大，质量难保证问题。类分级技术 2.2技术方案根据数据安全治理理论，数据安全防护的基 2.2.1语言模型基本原理础是识别数据资产、分级分类数据资产，只有明语言模型的发展经历了专家语法规则模型、确了数据保护对象及安全等级，才能对数据实施统计语言模型和神经网络语言模型。专家语法规按需防护，避免一刀切式的静态防御，促进数据则模型在初始阶段利用模式匹配技术，以自然语的安全流通与共享。言的语法规则为切入点，模式匹配归纳总结，提在数据资产的识别过程中，按载体形态差异供自然语言建模能力，但随着语法规则规模急剧其识别方式也存在不同，数据按载体形态主要划扩大，专家语法规则已不可持续。分为结构化数据与非结构化数据两类。针对结构统计语言模型认为文档由单词序列构成，通化数据，数据集中承载在数据库中，可以通过元过建模，分析文档中单词的概率分布。统计语言数据的精确定义，较为直接地进行数据资产识别模型基于朴素贝叶斯的独立性假设，即将句子并实施分级分类管控，但针对广泛分布在终端、 S看成一组相互独立的单词序列(ww2w).那么网络、云存储中的非结构化敏感数据（如商务合对于任意一个单词w:(i≤m)在句子S中出现的条同、会议纪要、监管报告、技术资料等敏感文档)，件概率为P(www2w-i),那么整个句子的概率鉴于文档是由字、词及上下文语义构成的，单纯模型P(S)=P(wwm2wn),根据贝叶斯公式和全概的依赖关键词、正则表达式等传统规则手段对文率公式可推导出概率模型：档分类进行识别，缺乏词与词之间的上下文语义 P(S)=P(w1w2…wn) 级分析，导致文档分类分级的高误报率与高漏报 P(w)P(w2w)…P(ww1w2…w-1) (1) 率。如商务合同与涉诉文档，虽然都会存在甲方、乙方、联系电话、联系方式等关键词，但在不式(1)必须在基于朴素贝叶斯独立性假设条

操作效率造成影响，但如果弱管控，又会造成敏感数据泄露。因此中管控场景，识别敏感数据与异常行为是目前数据安全领域研究的重要问题。 1 研究背景近年来企业内部人员窃取数据事件频发，如银行内部人员窃取、贩卖上万条用户信息，根据 Gartner 的调查结果[2] ，内部人员窃取敏感数据、盗用账号等行为已经成为企业数据泄露的最主要原因。由于内部人员具备企业数据资产的合法访问权限，且了解企业敏感数据的存放位置，因此内部人员在合法外衣的保护下，自由地游走在企业内网，进行长期而隐蔽的数据窃取行为。导致上述现象的根本原因是企业经营活动复杂、业务系统多、数据规模大，无法穷举人员、终端、应用、数据之间多对多的使用与访问规则，从而为内部恶意人员留下了巨大的非法活动空间。这种情况下，安全部门只能把管控重点放在已知的、规则明确的安全威胁上，导致内部人员长期、隐蔽数据窃取行为发现难，数据泄露事件依然层出不穷[3-5]。因此，研究文档分类分级技术，识别需要重点保护的敏感数据；研究用户异常行为分析技术，识别用户异常操作，是解决内网数据泄露的重要课题。 2 基于 N 元语言模型的文档智能分类分级技术根据数据安全治理理论，数据安全防护的基础是识别数据资产、分级分类数据资产，只有明确了数据保护对象及安全等级，才能对数据实施按需防护，避免一刀切式的静态防御，促进数据的安全流通与共享。在数据资产的识别过程中，按载体形态差异其识别方式也存在不同，数据按载体形态主要划分为结构化数据与非结构化数据两类。针对结构化数据，数据集中承载在数据库中，可以通过元数据的精确定义，较为直接地进行数据资产识别并实施分级分类管控，但针对广泛分布在终端、网络、云存储中的非结构化敏感数据 (如商务合同、会议纪要、监管报告、技术资料等敏感文档)，鉴于文档是由字、词及上下文语义构成的，单纯的依赖关键词、正则表达式等传统规则手段对文档分类进行识别，缺乏词与词之间的上下文语义级分析，导致文档分类分级的高误报率与高漏报率。如商务合同与涉诉文档，虽然都会存在甲方、乙方、联系电话、联系方式等关键词，但在不同类型文档语境下，其文档表达含义与分类截然不同。而且，由于文档分类定级误判，会产生敏感文档的非授权明文外发风险，进而导致数据泄露。由于分类误判对非敏感级文档进行加密、阻断处理，影响正常业务开展[6-8]。 2.1 面临的技术问题通过自然语言处理技术检测识别文档敏感内容，已经演化为文档智能分类分级的技术趋势，在落地实施过程中，也面临如下突出的技术问题[9]。在文档语义特征表达层面，各领域文档形式多样、内容丰富、中文语体混杂的情况普遍存在，例如公安电子笔录形式多样，官方语体和方言语体交相混杂，且上下文语义高度相关。而目前的语言模型建立在朴素贝叶斯独立性假设的基础上，现实情况明显无法满足独立性假设要求，从而导致文档分类分级的准确率较低[9-10]。在文档内容识别层面，敏感文档的分类检测技术分为有监督和无监督两种模式，无监督文档分类技术不需要样本但准确率很低，有监督文档准确率相对较高，但存在样本标注工作量大、人工标注质量无法保证的问题，直接导致产品研发周期长、成本高、效果差的问题[11]。针对文档分类分级在实际应用中面临的技术问题，本文提出如下的解决思路：构建 N 元中文语言模型，解决当前语言模型面临的独立性假设不成立问题。构建自动无监督样本库，解决当前样本标注工作量大，质量难保证问题。 2.2 技术方案 2.2.1 语言模型基本原理语言模型的发展经历了专家语法规则模型、统计语言模型和神经网络语言模型。专家语法规则模型在初始阶段利用模式匹配技术，以自然语言的语法规则为切入点，模式匹配归纳总结，提供自然语言建模能力，但随着语法规则规模急剧扩大，专家语法规则已不可持续[12]。 (w1w2 ···wn) wi(i ⩽ n) P(wi |w1w2 ···wi−1) (S ) = P(w1w2 ···wn) 统计语言模型认为文档由单词序列构成，通过建模，分析文档中单词的概率分布。统计语言模型基于朴素贝叶斯的独立性假设，即将句子 S 看成一组相互独立的单词序列，那么对于任意一个单词在句子 S 中出现的条件概率为，那么整个句子的概率模型 P ，根据贝叶斯公式和全概率公式可推导出概率模型： P(S ) = P(w1w2 ···wn) = ∏n i=1 P(w1)P(w2|w1)···P(wi |w1w2 ···wi−1) (1) 式 (1) 必须在基于朴素贝叶斯独立性假设条第 5 期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·933·

·934· 智能系统学报第16卷件的情况下才成立，但是在实际应用中朴素贝叶 1)K的取值问题。在业务层面，企业往往也斯独立性假设往往不成立。无法提供文档类别数；在技术层面，K均值聚类算神经网络语言模型为了应对独立性假设不成法的K取值本身也是一个关键问题。立的问题，采用因果思路，在语料库庞大到能覆 2)准确率低问题。K均值聚类算法，虽然是盖所有可能语义表述的情况下，通过训练的方法效果最好的无监督算法，但是准确率也只能到获得条件概率P(ww?w-i)。但是收集这样一 70%,与构建样本库的要求还相去甚远。个庞大的语料库本身就是一个问题，在特别的应 2.2.4基于无监督算法的样本库构建过程用领域，例如各地方言与官方语体混杂语料的收针对上述问题，基于无监督算法的样本库构集明显不可行。建过程如下： 2.2.2N元中文语言模型构建过程 1)从生产环境网络出口收集大量文档，作为因此在统计语言模型的基础上提出N元中文样本集Q: 语言模型，其核心思想是将语言模型划分为N个 2)采用N元中文语言模型对样本Q中的文相互独立的子模型，分段训练，利用线性插值公档进行特征提取；式分步整合。其实施过程： 3)采用数据分析工具Pandas对样本集Q中 1)将语料库按领域和语体划分为N个语料库的文档特征进行特征对齐：子集； 4)采用非线性降维的算法(uniform manifold 2)针对各个语料子集训练特定语言模型； approximation and projection for dimension reduc- 3)使用线性插值公式，获得整个语言模型： tion,UMAP)降维文档特征，降低文档特征复杂 F(wlw时'）=∑，PM,(r时）性，提高聚类准确率； 5)确定K均值聚类算法的K值，具体原理和式中0≤d≤l。A的期望最大值(expectation max- 方法为：假设真实类别数为N,所有样本到其所属 imum,EM)的迭代计算方法为类族中心的距离的平方和为D,随着K值增加， 1)对于N个语言模型，使用随机数初始化；样本划分的类族越来越精细，每个类族的内聚程 2)根据整个语言模型公式计算新的语言模型度会越来越高，那么平方和D会越来越小；当概率； K值小于N时，增加K值时会大幅增加每个族的 3)第r次迭代，第j个语言模型在第i≤m) 聚合程度，故平方和D下降梯度会很大，当K值类上入的计算公式为大于等于N时，继续增加K值，类族内部的聚合写P(wh) 效果不再明显，所以平方和D下降梯度会急剧变小，平方和D下降梯度拐点即为真实聚类数K: ∑写Pwh 式中h为历史。 D--MF 4)不断迭代，重复步骤2)、3)，直至收敛。式中：i为类族编号；C,为第i个类族；P为C中通过上述方法，将中文语言模型的困惑度值的某一个文档数据；M,为C,的类族中心点向从320降低到150以下，为自然语言处理后续任量；D为所有样本到其所属类族中心的距离的平务奠定基础。方和； 2.2.3无监督算法构建样本库基本原理 6)按照5)确定的K值，对样本集Q进行聚常用的无监督聚类包括K均值聚类、均值漂类，得到聚类结果，由于K均值聚类算法准确率移聚类、基于密度的聚类方法、高斯混合模型的离样本库准确率要求太远，优化K均值聚类算法最大期望聚类和层次聚类等。经实验验证效果最提升准确率的投入大而回报小，所以不可取。因好的方法是K均值聚类。K均值聚类首先随机选此采用将无监督转换为有监督，分批迭代，投票择K个中心点，其次计算每个样本到K个中心点筛选样本的办法来解决此问题：的欧氏距离，然后将每个样本划分到离它最近的 7)从K均值聚类结果中挑出一部分离类族中中心点所属类族，最后更新每个类族的中心点，重心距离小于预设阀值M的文档作为样本集Y,可复迭代直到所有的样本不再被重新分类为止。以调节M的取值，确保挑中样本集Y的准确性；此过程不需要人工标注样本，无须人工干预就可 8)将样本集Y分为训练集和验证集；以自动区分样本及类别，但是K均值聚类面临两 9)分别采用支持向量机、TextCNN、邻近算法个问题：建模，并使用样本集Y训练模型；

件的情况下才成立，但是在实际应用中朴素贝叶斯独立性假设往往不成立。 P(wi |w1w2 ···wi−1) 神经网络语言模型为了应对独立性假设不成立的问题，采用因果思路，在语料库庞大到能覆盖所有可能语义表述的情况下，通过训练的方法获得条件概率。但是收集这样一个庞大的语料库本身就是一个问题，在特别的应用领域，例如各地方言与官方语体混杂语料的收集明显不可行[13]。 2.2.2 N 元中文语言模型构建过程因此在统计语言模型的基础上提出 N 元中文语言模型，其核心思想是将语言模型划分为 N 个相互独立的子模型，分段训练，利用线性插值公式分步整合。其实施过程： 1) 将语料库按领域和语体划分为 N 个语料库子集； 2) 针对各个语料子集训练特定语言模型； 3) 使用线性插值公式，获得整个语言模型： Pb ( wi |w i−1 1 ) = ∑n j=1 λjPMb j ( wi |w i−1 1 ) 式中 0 ⩽ λ ⩽ 1。λ 的期望最大值 (expectation maximum, EM) 的迭代计算方法为 1) 对于 N 个语言模型，使用随机数初始化 λ ； 2) 根据整个语言模型公式计算新的语言模型概率； i(i ⩽ n) λ 3) 第 r 次迭代，第 j 个语言模型在第类上的计算公式为 λ r i j = λ r−1 i j Pi j(w|h) ∑n i=1 λ r−1 i j Pi j(w|h) 式中 h 为历史。 4) 不断迭代，重复步骤 2)、3)，直至收敛。通过上述方法，将中文语言模型的困惑度值从 320 降低到 150 以下，为自然语言处理后续任务奠定基础。 2.2.3 无监督算法构建样本库基本原理常用的无监督聚类包括 K 均值聚类、均值漂移聚类、基于密度的聚类方法、高斯混合模型的最大期望聚类和层次聚类等。经实验验证效果最好的方法是 K 均值聚类。K 均值聚类首先随机选择 K 个中心点，其次计算每个样本到 K 个中心点的欧氏距离，然后将每个样本划分到离它最近的中心点所属类族，最后更新每个类族的中心点，重复迭代直到所有的样本不再被重新分类为止[14]。此过程不需要人工标注样本，无须人工干预就可以自动区分样本及类别，但是 K 均值聚类面临两个问题： 1) K 的取值问题。在业务层面，企业往往也无法提供文档类别数；在技术层面，K 均值聚类算法的 K 取值本身也是一个关键问题。 2) 准确率低问题。K 均值聚类算法，虽然是效果最好的无监督算法，但是准确率也只能到 70%，与构建样本库的要求还相去甚远。 2.2.4 基于无监督算法的样本库构建过程针对上述问题，基于无监督算法的样本库构建过程如下： 1) 从生产环境网络出口收集大量文档，作为样本集 Q； 2) 采用 N 元中文语言模型对样本 Q 中的文档进行特征提取； 3) 采用数据分析工具 Pandas 对样本集 Q 中的文档特征进行特征对齐； 4) 采用非线性降维的算法 (uniform manifold approximation and projection for dimension reduction，UMAP) 降维文档特征，降低文档特征复杂性，提高聚类准确率； 5) 确定 K 均值聚类算法的 K 值，具体原理和方法为：假设真实类别数为 N，所有样本到其所属类族中心的距离的平方和为 D，随着 K 值增加，样本划分的类族越来越精细，每个类族的内聚程度会越来越高，那么平方和 D 会越来越小；当 K 值小于 N 时，增加 K 值时会大幅增加每个族的聚合程度，故平方和 D 下降梯度会很大，当 K 值大于等于 N 时，继续增加 K 值，类族内部的聚合效果不再明显，所以平方和 D 下降梯度会急剧变小，平方和 D 下降梯度拐点即为真实聚类数 K： D = ∑K i=1 ∑ P∈Ci |P− Mi | 2 式中：i 为类族编号；Ci 为第 i 个类族；P 为 Ci 中的某一个文档数据； Mi 为 Ci 的类族中心点向量；D 为所有样本到其所属类族中心的距离的平方和； 6) 按照 5) 确定的 K 值，对样本集 Q 进行聚类，得到聚类结果，由于 K 均值聚类算法准确率离样本库准确率要求太远，优化 K 均值聚类算法提升准确率的投入大而回报小，所以不可取。因此采用将无监督转换为有监督，分批迭代，投票筛选样本的办法来解决此问题； 7) 从 K 均值聚类结果中挑出一部分离类族中心距离小于预设阀值 M 的文档作为样本集 Y，可以调节 M 的取值，确保挑中样本集 Y 的准确性； 8) 将样本集 Y 分为训练集和验证集； 9) 分别采用支持向量机、TextCNN、邻近算法建模，并使用样本集 Y 训练模型； ·934· 智能系统学报第 16 卷

第5期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·935· 10)从Q中取出一批样本，分别使用已训练的行为，毫无办法。为了解决隐蔽数据泄露问题，支持向量机、TextCNN、邻近算法模型进行预测：采用基于人工智能的用户异常行为分析技术，从 11)使用少数服从多数的投票法，对预测结果传统的特征规则和人工分析转向大数据和机器学进行合并，挑出至少有2个模型预测结果均一样习驱动的新型安全模式。的样本，将这些样本合并到样本集Y中；基于从正常行为中发现规律，从规律中挖掘 12)重复步骤10以11)，直至样本数量达到要求。异常的思路：首先，基于历史数据构建用户个体行为、群体行为、场景行为三大行为基线，从个 3 基于无标记样本的实时用户异常体、群体、场景3个角度诠释正常用户行为；然行为分析技术后，采用神经网络，建立用户异常行为模型，对用户异常行为进行跟踪、预测与判定。模型具备实随着企业T架构日益复杂，业务系统逐步增时流处理、离线批量处理两项能力，实时流用于多，大量内部隐藏、持久、缓慢的数据泄露行为成实时分析日志，动态发现异常，并进行跟踪。离为企业数据安全关注的重点。传统的单点式安全线批量处理，用于对历史数据进行分析判定，在防护措施，对于具备一定反侦查能力的数据泄露历史数据中发现已发生的异常行为如图1所示。多源日志采集构建基线模型预测用户个体行为基线终端日志数据异常处置预处聚集类算法群体行为基线神经网络评分响应主机日志场景行为基线人工决策、动态干预、权重反馈图1模型构建过程 Fig.1 Build model process 在用户异常行为分析中，采用大数据和机器 3.3技术方案学习构建异常检测模型，显著提高异常行为识别 3.3.1离群点检测构建异常行为样本库基本原理能力，缩短策略升级严重滞后问题，异常行为检由于异常行为与正常行为日志数据混杂存测时间控制在24h以内，自动优化模型，实现自储，异常数据呈现出以下特点：适应动态风险识别的。 1)异常数据的特征与大多数数据的特征是不 3.1面临的技术问题致的，例如同一个员工，大多数情况下都会使目前采用机器学习技术帮助企业明确用户与用自己的账号登录业务系统，员工每天的工作内实体的行为基线，检测偏离基线的异常行为，防容都基本相同，其行为也应基本相同。如果某天止数据泄露。但在实际生产环境中，由于样本依在自己办公电脑上使用其他账号登录，就可能是赖度过高而导致异常行为识别准确率较低。非正常行为。现有的用户异常行为分析系统需要通过大量 2)异常数据在企业数据中的占比较小，例如已标注样本数据，训练生成用户异常行为分析模型，同一岗位的不同员工，大多数情况下工作内容基本但是在实际应用中，用户往往不具备足够的已标相同，其工作产生的行为日志特征也基本相同，注样本数据，从而导致系统识别准确率偏低61刀。如若某员工与其他同岗位员工行为不太一致，就 3.2解决思路可能是非正常行为。为解决目前用户异常行为分析过程中样本依针对上述日志数据的特点，可以采用基于统赖过高的问题，构建无样本依赖、实时识别异常计的、距离的、密度的量化指标，刻画异常数据与行为的分析系统。本文采用无监督异常点检测算全集数据的疏离程度，即离群点检测方法。法，以海量行为日志数据为基础，计算单一操作 33.2离群点检测构建异常行为样本库构建过程行为异常，自动构建异常行为样本库，解决样本依据企业日志数据的特点，企业用户异常行依赖问题。为样本库构建过程如下：

10) 从 Q 中取出一批样本，分别使用已训练的支持向量机、TextCNN、邻近算法模型进行预测； 11) 使用少数服从多数的投票法，对预测结果进行合并，挑出至少有 2 个模型预测结果均一样的样本，将这些样本合并到样本集 Y 中； 12) 重复步骤 10)~11)，直至样本数量达到要求。 3 基于无标记样本的实时用户异常行为分析技术随着企业 IT 架构日益复杂，业务系统逐步增多，大量内部隐藏、持久、缓慢的数据泄露行为成为企业数据安全关注的重点。传统的单点式安全防护措施，对于具备一定反侦查能力的数据泄露行为，毫无办法。为了解决隐蔽数据泄露问题，采用基于人工智能的用户异常行为分析技术，从传统的特征规则和人工分析转向大数据和机器学习驱动的新型安全模式[14]。基于从正常行为中发现规律，从规律中挖掘异常的思路：首先，基于历史数据构建用户个体行为、群体行为、场景行为三大行为基线，从个体、群体、场景 3 个角度诠释正常用户行为；然后，采用神经网络，建立用户异常行为模型，对用户异常行为进行跟踪、预测与判定。模型具备实时流处理、离线批量处理两项能力，实时流用于实时分析日志，动态发现异常，并进行跟踪。离线批量处理，用于对历史数据进行分析判定，在历史数据中发现已发生的异常行为[15] 如图 1 所示。多源日志采集终端日志主机日志构建基线用户个体行为基线群体行为基线场景行为基线模型预测神经网络异常评分处置响应人工决策、动态干预、权重反馈数据预处理密度聚集类算法图 1 模型构建过程 Fig. 1 Build model process 在用户异常行为分析中，采用大数据和机器学习构建异常检测模型，显著提高异常行为识别能力，缩短策略升级严重滞后问题，异常行为检测时间控制在 24 h 以内，自动优化模型，实现自适应动态风险识别[15]。 3.1 面临的技术问题目前采用机器学习技术帮助企业明确用户与实体的行为基线，检测偏离基线的异常行为，防止数据泄露。但在实际生产环境中，由于样本依赖度过高而导致异常行为识别准确率较低。现有的用户异常行为分析系统需要通过大量已标注样本数据，训练生成用户异常行为分析模型，但是在实际应用中，用户往往不具备足够的已标注样本数据，从而导致系统识别准确率偏低[16-17]。 3.2 解决思路为解决目前用户异常行为分析过程中样本依赖过高的问题，构建无样本依赖、实时识别异常行为的分析系统。本文采用无监督异常点检测算法，以海量行为日志数据为基础，计算单一操作行为异常，自动构建异常行为样本库，解决样本依赖问题。 3.3 技术方案 3.3.1 离群点检测构建异常行为样本库基本原理由于异常行为与正常行为日志数据混杂存储，异常数据呈现出以下特点： 1) 异常数据的特征与大多数数据的特征是不一致的，例如同一个员工，大多数情况下都会使用自己的账号登录业务系统，员工每天的工作内容都基本相同，其行为也应基本相同。如果某天在自己办公电脑上使用其他账号登录，就可能是非正常行为。 2) 异常数据在企业数据中的占比较小，例如同一岗位的不同员工，大多数情况下工作内容基本相同，其工作产生的行为日志特征也基本相同，如若某员工与其他同岗位员工行为不太一致，就可能是非正常行为。针对上述日志数据的特点，可以采用基于统计的、距离的、密度的量化指标，刻画异常数据与全集数据的疏离程度，即离群点检测方法[18]。 3.3.2 离群点检测构建异常行为样本库构建过程依据企业日志数据的特点，企业用户异常行为样本库构建过程如下：第 5 期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·935·

·936· 智能系统学报第16卷 1)在用户终端部署终端日志采集器，收集用采集层通过Logstash的input、filter、output组户操作行为数据，如系统登录、文档操作、软件使件对数据进行匹配、解析、组装，通过HTTP Cli- 用、邮件外发、上网行为等日志数据： ent读取Zabbix服务端的数据，进行处理操作后 2)在数据库、应用服务器、交换机等位置部将数据上报到数据存储层。署设备日志采集器，采集防火墙、业务系统、数据 4.3数据存储层库等系统与设备的用户操作日志：存储层存储训练用户异常行为分析模型需要 3)定义用户异常行为场景：的日志数据、训练分类分级模型需要的文档样本 4)依据异常行为场景，确定场景所需的用户数据、用户异常行为告警数据、安全事件审计数据。行为数据；其中日志数据包括终端、网络设备、主机设备、数 5)依据场景所需的用户行为数据，从用户及据库、应用系统日志数据。文档样本数据包括覆操作类型的角度切分数据：盖业务范围内各业务分类与各安全等级的文档。 6)对切分好的数据按照场景要求进行特征数据存储层使用Spark Streaming从Kafka中提取；读取主动探针采集、被动接口采集汇总的日志数 T)使用邻近算法、离群点检测算法和Feature 据，使用Spring Boot同步数据、生成文件，通过 Bagging等算法，分析建模特征数据，分离出正常 Common-pool2创建数据库连接池，通过Abstract- 数据和异常数据： RoutingDataSource访问关系型数据库，使用Elast-. 8)按场景聚合正常数据，形成样本库。 icsearch和Mysql存储用户异常行为告警数据、安全事件审计数据，使用Redis存储日志数据与文 4 实验系统档样本数据，采用Mysql存储规则、用户权限等 4.1系统架构系统管理数据。构建数据分类分级与异常行为分析实验系 4.4 数据分析层统，分析验证技术可行性与应用效果。分析层包括基本规则与高级模型两种分析方实验系统采用Spring Cloud微服务架构，使用式，其中基本规则是采用关键字、正则表达式等应用容器Docker进行部署，采用关系型与文件型简单匹配模型识别文档类别、安全等级与异常行混合存储模式，通过Nginx Web服务器实现负载为。高级模型包括文档分类分级模型、用户异常均衡。系统架构包括采集层、分析层、存储层、可行为分析模型。视化层。数据分析层包括工作流框架、特征提取、算 4.2数据采集层法模型、格式化输出等主要功能。工作流框架负实验系统采用探针主动采集和接口被动采集责构建业务流、调度数据处理任务，特征提取负两种模型，管理员可以通过图形化界面选择采集责选择各种数据的业务特征、特征提取和特征对模型，定义探针主动采集频率、被动采集服务地齐，根据业务场景和数据分布选择算法模型，对址。主动采集探针部署在操作终端、交换机、应接业务系统输出分析结果。用服务器、数据库审计系统，主动采集日志。被业务工作流采用SpiffWorkflow工作流框架，动采集服务部署在服务瑞.通过标准接口，对接实现动态配置业务流程、动态选择数据特征，动操作终端、交换机、应用服务器、数据库审计等系态配置算法模型、灵活调度业务场景。统上报的日志数据。日志数据上报后，数据流转特征选择和特征提取采用W-Gram语言模引擎将日志数据推送至分布式消息系统Kafka数型、词向量方法、线性差别分析、主成分分析、奇据队列组件中准备进行数据清洗处理与持久化。异值分解等技术对文档数据和行为数据进行特征采集探针利用日志处理引擎Logstash的file 选择和特征提取。 beat组件，采用TCP、UDP协议将日志数据上报算法模型采用插件化封装，根据数据分布特到采集层，通过网络和应用监测系统Zabbix Agent 点选择算法模型。算法模型包括K均值聚类、密将日志数据上报至Zabbix服务器。度聚类方法、高斯混合模型，以及支持向量机、决采集层汇集日志数据后，经过数据匹配、解策树、邻近算法、长短时记忆网络、神经网络。析以及组装操作，将数据推送到采集层中的Kafka 采用JSON、XML协议封装输出数据，满足上队列中，通过数据分流操作以及动态模板匹配操层业务系统对接要求。作将数据推送到数据搜索引擎Elasticsearch中完 4.5数据可视化层成日志数据的存储流程。可视化层用于审计分析用户异常行为安全事

1) 在用户终端部署终端日志采集器，收集用户操作行为数据，如系统登录、文档操作、软件使用、邮件外发、上网行为等日志数据； 2) 在数据库、应用服务器、交换机等位置部署设备日志采集器，采集防火墙、业务系统、数据库等系统与设备的用户操作日志； 3) 定义用户异常行为场景； 4) 依据异常行为场景，确定场景所需的用户行为数据； 5) 依据场景所需的用户行为数据，从用户及操作类型的角度切分数据； 6) 对切分好的数据按照场景要求进行特征提取； 7) 使用邻近算法、离群点检测算法和 Feature Bagging 等算法，分析建模特征数据，分离出正常数据和异常数据； 8) 按场景聚合正常数据，形成样本库。 4 实验系统 4.1 系统架构构建数据分类分级与异常行为分析实验系统，分析验证技术可行性与应用效果。实验系统采用 Spring Cloud 微服务架构，使用应用容器 Docker 进行部署，采用关系型与文件型混合存储模式，通过 Nginx Web 服务器实现负载均衡。系统架构包括采集层、分析层、存储层、可视化层。 4.2 数据采集层实验系统采用探针主动采集和接口被动采集两种模型，管理员可以通过图形化界面选择采集模型，定义探针主动采集频率、被动采集服务地址。主动采集探针部署在操作终端、交换机、应用服务器、数据库审计系统，主动采集日志。被动采集服务部署在服务端，通过标准接口，对接操作终端、交换机、应用服务器、数据库审计等系统上报的日志数据。日志数据上报后，数据流转引擎将日志数据推送至分布式消息系统 Kafka 数据队列组件中准备进行数据清洗处理与持久化。采集探针利用日志处理引擎 Logstash 的 filebeat 组件，采用 TCP、UDP 协议将日志数据上报到采集层，通过网络和应用监测系统 Zabbix Agent 将日志数据上报至 Zabbix 服务器。采集层汇集日志数据后，经过数据匹配、解析以及组装操作，将数据推送到采集层中的 Kafka 队列中，通过数据分流操作以及动态模板匹配操作将数据推送到数据搜索引擎 Elasticsearch 中完成日志数据的存储流程。采集层通过 Logstash 的 input、filter、output 组件对数据进行匹配、解析、组装，通过 HTTP Client 读取 Zabbix 服务端的数据，进行处理操作后将数据上报到数据存储层。 4.3 数据存储层存储层存储训练用户异常行为分析模型需要的日志数据、训练分类分级模型需要的文档样本数据、用户异常行为告警数据、安全事件审计数据。其中日志数据包括终端、网络设备、主机设备、数据库、应用系统日志数据。文档样本数据包括覆盖业务范围内各业务分类与各安全等级的文档。数据存储层使用 Spark Streaming 从 Kafka 中读取主动探针采集、被动接口采集汇总的日志数据，使用 Spring Boot 同步数据、生成文件，通过 Common-pool2 创建数据库连接池，通过 AbstractRoutingDataSource 访问关系型数据库，使用 Elasticsearch 和 Mysql 存储用户异常行为告警数据、安全事件审计数据，使用 Redis 存储日志数据与文档样本数据，采用 Mysql 存储规则、用户权限等系统管理数据。 4.4 数据分析层分析层包括基本规则与高级模型两种分析方式，其中基本规则是采用关键字、正则表达式等简单匹配模型识别文档类别、安全等级与异常行为。高级模型包括文档分类分级模型、用户异常行为分析模型。数据分析层包括工作流框架、特征提取、算法模型、格式化输出等主要功能。工作流框架负责构建业务流、调度数据处理任务，特征提取负责选择各种数据的业务特征、特征提取和特征对齐，根据业务场景和数据分布选择算法模型，对接业务系统输出分析结果。业务工作流采用 SpiffWorkflow 工作流框架，实现动态配置业务流程、动态选择数据特征，动态配置算法模型、灵活调度业务场景。特征选择和特征提取采用 N-Gram 语言模型、词向量方法、线性差别分析、主成分分析、奇异值分解等技术对文档数据和行为数据进行特征选择和特征提取。算法模型采用插件化封装，根据数据分布特点选择算法模型。算法模型包括 K 均值聚类、密度聚类方法、高斯混合模型，以及支持向量机、决策树、邻近算法、长短时记忆网络、神经网络。采用 JSON、XML 协议封装输出数据，满足上层业务系统对接要求。 4.5 数据可视化层可视化层用于审计分析用户异常行为安全事 ·936· 智能系统学报第 16 卷

第5期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·937· 件、查看文档分类分级结果。 1)实验准备可视化层使用前后端完全分离的机制，采用 ①服务器系统搭建，GPU驱动安装、tensor- VUE.JS结合Webpack搭建前端架构，使用HT- ow环境搭建，客户端系统搭建和客户端软件安装： TP协议进行前后端的数据通信。 ②准备3000名用户、30万条日志数据。日可视化层的接口服务模块，外部接口使用Nety 志数据包括邮件外发日志数据、U盘拷贝文件日进行TCP协议数据交互、HttpClient进行HTTP协志数据、账号准入登录日志数据3种类型。其中议数据交互。内部接口使用Aviator、Elasticsearch、邮件外发日志数据包括操作终端信息、发件人信 Mysql、Common-pool2以及Redis实现，息、收件人信息、抄送人信息、正文信息、附件信息、时间信息：U盘拷贝文件日志数据包括U盘 5实验分析设备信息、操作终端信息、拷贝操作信息、操作文实验环境包括硬件和软件配置两部分。件信息、操作时间信息；账号准入登录日志数据硬件配置：两台测试机器，CPU Intel Core i3-4130 包括人员账号信息、接入设备信息、接入网络信 3.40GHz4核，内存8GB,硬盘5TB.网卡1000MB。息、管控策略信息、接人时间信息。软件配置：操作系统CentOS7.6,数据库 2)实验输入 MySQL5.7.29。 ①首先将日志数据导人mongodb,3种行为日 5.1基于N元语言模型的文档智能分类分级技志数据单独存放。其次登录实验系统控制台，配置数据源和检测模型。最后使用准备数据训练得术实验过程基于N元语言模型的文档智能分类分级技到用户行为模型：术，验证数据分类分级准确率，采用业界与学术 ②使用客户端执行邮件外发、U盘拷贝文件界公认的测试基准数据集。首先使用训练数据集和账号登录系统操作；构建模型，然后使用测试数据集评价模型，其中 ③服务端接收客户端日志信息，对用户操作标准准确率ACC=品P为预测正确的样本数进行异常行为检测，并将结果展示在控制台。 5.3实验结论量，ALL为测试集样本总数。基于N元语言模型的文档智能分类分级技 1)实验准备术，数据分类分级准确率达到93%。 ①服务器、客户端系统部署完成、网络通信 4种分类数据、4个安全等级数据组成了16种正常；数据集合，每种数据集合各执行500次数据发送。 ②准备24000份样本文件，其中财经、体育、进入实验系统数据分类分级界面，可查看到8000 娱乐、时政各6000份；次数据发送邮件，按16组统计分析分类分级模型 ③测试发件箱test@wondersoft.cn,收件箱准确率分别为96.2%、93.6%、94.8%、87.4%、 test@shou.com 90.1%、92.1%、97.2%、86.2%、89.2%、90.1%、 2)实验输入 96.4%、92.7%、91.6%、87.4%、90.1%、88.3%0 ①登录控制台，创建财经、体育、娱乐、时政基于无标记样本的实时用户异常行为分析技分类，创建4个安全等级、定义每个安全等级涉术，用户异常行为分析准确率达86%以上。及的敏感数据形式，导入样本文件，构建分类分邮件外发、U盘文件拷贝和账号上下线操作级模型；各执行500次，进入实验系统用户行为分析界面， ②使用foxmail发件箱test@wondersoft.cn发可查看到邮件外发记录500次、U盘文件拷贝送各种类型、各种安全等级文档至test@shou.com, 500次、账号登录系统500次，统计分析异常行为检查分类分级结果。识别准确率分别为86.7%、88.6%、862%。 5.2基于无标记样本的实时用户异常行为分析技术实验过程 6结束语基于无标记样本的实时用户异常行为分析技在数字经济时代，数据安全是保障数字经济术，验证用户异常行为识别准确率，采用业界与发展的基础条件，数据安全也正在从传统的边界学术界公认的测试基准数据集。首先使用训练数防护逐步转向以数据为基础的纵深全链条防护据集构建模型，然后使用测试数据集评价模型，其中标准准确率AcC=品，TP为预测正确的样在这个转变过程中，准确地识别数据，找到管控重点，成为关键问题。人工智能赋能数据安全创本数量，ALL为测试集样本总数。新地解决了海量数据中敏感数据识别、数据分

件、查看文档分类分级结果。可视化层使用前后端完全分离的机制，采用 VUE.JS 结合 Webpack 搭建前端架构，使用 HTTP 协议进行前后端的数据通信。可视化层的接口服务模块，外部接口使用 Netty 进行 TCP 协议数据交互、HttpClient 进行 HTTP 协议数据交互。内部接口使用 Aviator、Elasticsearch、 Mysql、Common-pool2 以及 Redis 实现。 5 实验分析实验环境包括硬件和软件配置两部分。硬件配置：两台测试机器，CPU Intel Core i3-4130 3.40 GHz 4 核，内存 8 GB，硬盘 5 TB，网卡 1000 MB。软件配置：操作系统 CentOS7.6，数据库 MySQL5.7.29。 5.1 基于 N 元语言模型的文档智能分类分级技术实验过程 ACC = TP ALL 基于 N 元语言模型的文档智能分类分级技术，验证数据分类分级准确率，采用业界与学术界公认的测试基准数据集。首先使用训练数据集构建模型，然后使用测试数据集评价模型，其中标准准确率，TP 为预测正确的样本数量，ALL 为测试集样本总数。 1) 实验准备 ①服务器、客户端系统部署完成、网络通信正常； ②准备 24 000 份样本文件，其中财经、体育、娱乐、时政各 6 000 份； ③测试发件箱 test@wondersoft.cn，收件箱 test@shou.com。 2) 实验输入 ①登录控制台，创建财经、体育、娱乐、时政分类，创建 4 个安全等级、定义每个安全等级涉及的敏感数据形式，导入样本文件，构建分类分级模型； ②使用 foxmail 发件箱 test@wondersoft.cn 发送各种类型、各种安全等级文档至 test@shou.com，检查分类分级结果。 5.2 基于无标记样本的实时用户异常行为分析技术实验过程 ACC = TP ALL 基于无标记样本的实时用户异常行为分析技术，验证用户异常行为识别准确率，采用业界与学术界公认的测试基准数据集。首先使用训练数据集构建模型，然后使用测试数据集评价模型，其中标准准确率，TP 为预测正确的样本数量，ALL 为测试集样本总数。 1) 实验准备 ①服务器系统搭建，GPU 驱动安装、tensorflow 环境搭建，客户端系统搭建和客户端软件安装； ②准备 3 000 名用户、30 万条日志数据。日志数据包括邮件外发日志数据、U 盘拷贝文件日志数据、账号准入登录日志数据 3 种类型。其中邮件外发日志数据包括操作终端信息、发件人信息、收件人信息、抄送人信息、正文信息、附件信息、时间信息；U 盘拷贝文件日志数据包括 U 盘设备信息、操作终端信息、拷贝操作信息、操作文件信息、操作时间信息；账号准入登录日志数据包括人员账号信息、接入设备信息、接入网络信息、管控策略信息、接入时间信息。 2) 实验输入 ①首先将日志数据导入 mongodb，3 种行为日志数据单独存放。其次登录实验系统控制台，配置数据源和检测模型。最后使用准备数据训练得到用户行为模型； ②使用客户端执行邮件外发、U 盘拷贝文件和账号登录系统操作； ③服务端接收客户端日志信息，对用户操作进行异常行为检测，并将结果展示在控制台。 5.3 实验结论基于 N 元语言模型的文档智能分类分级技术，数据分类分级准确率达到 93%。 4 种分类数据、4 个安全等级数据组成了 16 种数据集合，每种数据集合各执行 500 次数据发送。进入实验系统数据分类分级界面，可查看到 8 000 次数据发送邮件，按 16 组统计分析分类分级模型准确率分别为 96.2%、93.6%、94.8%、87.4%、 90.1%、92.1%、97.2%、86.2%、89.2%、90.1%、 96.4%、92.7%、91.6%、87.4%、90.1%、88.3%。基于无标记样本的实时用户异常行为分析技术，用户异常行为分析准确率达 86% 以上。邮件外发、U 盘文件拷贝和账号上下线操作各执行 500 次，进入实验系统用户行为分析界面，可查看到邮件外发记录 500 次、U 盘文件拷贝 500 次、账号登录系统 500 次，统计分析异常行为识别准确率分别为 86.7%、88.6%、86.2%。 6 结束语在数字经济时代，数据安全是保障数字经济发展的基础条件，数据安全也正在从传统的边界防护逐步转向以数据为基础的纵深全链条防护，在这个转变过程中，准确地识别数据，找到管控重点，成为关键问题。人工智能赋能数据安全创新地解决了海量数据中敏感数据识别、数据分第 5 期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·937·

·938· 智能系统学报第16卷类分级和用户异常行分析识别问题。本文为数据 ment learning[J].Chinese journal of intelligent science 安全领域使用人工智能技术解决行业普遍性问题 and technology,2020,2(4):314-326 进行了前期的尝试与探索。同时，我们也应看到， [11]刘全，翟建伟，章宗长，等.深度强化学习综述.计算人工智能技术在数据安全领域的应用才刚刚开机学报，2018,41(1)：1-27. LIU Quan,ZHAI Jianwei,ZHANG Zongchang,et al.A 始，如何通过人工智能技术低成本、高效率地解决 survey on deep reinforcement learning[J].Chinese journ- 数据安全问题，还需要广大从业者不断努力探索。 al of computers,2018,41(1):1-27. 参考文献： [12]万里鹏，兰旭光，张翰博，等.深度强化学习理论及其应用综述.模式识别与人工智能，2019,32(1)：67-81. [1]新华社.中共中央国务院关于构建更加完善的要素市场 WAN Lipeng,LAN Xuguang.ZHANG Hanbo,et al.A 化配置体制机制的意见[EB/OL].新华社，2020(2020-03- review of deep reinforcement learning theory and applica- 20).http://www.gov.cn/zhengce/2020-04/09/content_5500622. tion[J].Pattern recognition and artificial intelligence, htm. 2019,32(1)少：67-81. [2]ERIC OUELLET,JEFFREY WHEATMAN.Typical ele- [13]实宇宸，胡勇.基于BERT的安全事件命名实体识别研 ments of an enterprise data security program[EB/OL]. 究).信息安全研究，2021,7(3)：242-249. Gartner,2015(2020-10-16).https://www.gartner.com/en/documents/ DOU Yuchen,HUYong.Research on name entity recog- 1153112. nition of security events based on BERT[].Journal of in- [3]罗军舟，韩志耕，王良民.一种可信可控的网络体系及协 formation security research,2021,7(3):242-249 议结构).计算机学报，2009,32(3：391-404。 [14]刘思琴，冯胥睿瑞.基于BERT的文本情感分析.信 LUO Junzhou,HAN Zhigeng,WANG Liangmin.Trust- 息安全研究.2020,6(3：220-227. worthy and controllable network architecture and protocol framework[J].Chinese journal of computers,2009,32(3): Liu Sigin,FengXuruirui.Text Sentiment Analysis Based 391-404. on BERT[J].Journal of information security reserach, [4]王琨，陆艳军.数据文件安全管控技术的研究与实现). 2020,6(3):220-227 信息安全研究，2018.4(1)：84-90. [15]陈红松，王钢，宋建林.基于云计算入侵检测数据集的 WANG Kun.LU Yanjun.Research and implementation of 内网用户异常行为分类算法研究[).信息网络安全， security management of data files[J].Journal of informa- 2018.18(3:1-7 tion security research,2018,4(1):84-90. CHEN Hongsong,WANG Gang,SONG Jianlin.Re- [5]MENEZES A J,VAN OORSCHOT P C,VANSTONE S search on anomaly behavior classification algorithm of in- A.Handbook of applied cryptography[M].Boca Raton: ternal network user based on cloud computing intrusion CRC Press,1997. detection data set[J].Netinfo Security,2018,18(3):1-7. [6]NOVAK R.SPA-based adaptive chosen-ciphertext attack [16]张建平，李洪敏，贾军，等.一种基于流量与日志的专网 on RSA implementation[C]//5th International Workshop 用户行为分析方法[.信息安全研究，2020,6(9)： on Practice and Theory in Public Key Cryptosystems.Par- 783-790. is,France,2002:252-262. ZHANG Jianping,LI Hongming,JIA Jun,et al.A meth- [7]FOUQUE P A,MARTINET G,POUPARD G.Attacking od of user behavior analysis based on network flow and unbalanced RSA-CRT using SPA[C]//5th International log in private network[J].Journal of information secury- Workshop on Cryptographic Hardware and Embedded Systems.Cologne,Germany,2003:254-268. ity research,2020,6(9y:783-790. [8]李增局，彭乾，史汝辉，等.CRT-RSA算法的选择明文攻 [17刀蹇诗婕卢志刚姜波，等.基于层次聚类方法的流量异击[.密码学报，2016,3(5：447-461. 常检测.信息安全研究，20206(6)：474-481 LI Zengju,PENG Qian,SHI Ruhui,et al.Chosen plaintext SAI Shiyi,LU Zhigang,JING Bo.Flow anomaly detec- attacks on CRT-RSA[J].Journal of cryptologic research, tion based on hierarchical clustering method[J].Journal of 2016.3(5):447-461. information security reserach,2020,6(6):474-481. [9]赵冬斌，邵坤，朱圆恒，等.深度强化学习综述：兼论计算 [18]SUTTON R S.Learning to predict by the methods of tem- 机围棋的发展[J】.控制理论与应用，2016,33(6)： poral differences[J].Machine learning,1988,3(1):9-44. 701-717. ZHAO Dongbin,SHAO Kun,ZHU Yuanheng,et al.Re- 作者简介： view of deep reinforcement learning and discussions on the 喻波，北京明朝万达科技股份有 development of computer[J].Control theory and applica- 限公司首席科学家、高级副总裁，兼 tions,.2016,33(6):701-717. 任公安部通信标准化技术委员会委 [10们刘朝阳，穆朝絮，孙长银.深度强化学习算法与应用研员，主要研究方向为数据安全。主持究现状综述[].智能科学与技术学报，2020,2(4) 国家重点研发计划、国家自然科学基 314326. 金重点项目6项。获吴文俊人工智能 LIU Zhaoyang,MU Chaoxu,SUN Changyin.An over- 科技进步奖一等奖、授权发明专利 view on algorithms and applications of deep reinforce- 120余项

类分级和用户异常行分析识别问题。本文为数据安全领域使用人工智能技术解决行业普遍性问题进行了前期的尝试与探索。同时，我们也应看到，人工智能技术在数据安全领域的应用才刚刚开始，如何通过人工智能技术低成本、高效率地解决数据安全问题，还需要广大从业者不断努力探索。参考文献：新华社. 中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见 [EB/OL]. 新华社,2020(2020-03- 20). http://www.gov.cn/zhengce/2020-04/09/content_5500622. htm. [1] ERIC OUELLET, JEFFREY WHEATMAN. Typical elements of an enterprise data security program[EB/OL]. Gartner,2015(2020-10-16).https://www.gartner.com/en/documents/ 1153112. [2] 罗军舟, 韩志耕, 王良民. 一种可信可控的网络体系及协议结构 [J]. 计算机学报, 2009, 32(3): 391−404. LUO Junzhou, HAN Zhigeng, WANG Liangmin. Trustworthy and controllable network architecture and protocol framework[J]. Chinese journal of computers, 2009, 32(3): 391−404. [3] 王琨, 陆艳军. 数据文件安全管控技术的研究与实现 [J]. 信息安全研究, 2018, 4(1): 84−90. WANG Kun, LU Yanjun. Research and implementation of security management of data files[J]. Journal of information security research, 2018, 4(1): 84−90. [4] MENEZES A J, VAN OORSCHOT P C, VANSTONE S A. Handbook of applied cryptography[M]. Boca Raton: CRC Press, 1997. [5] NOVAK R. SPA-based adaptive chosen-ciphertext attack on RSA implementation[C]//5th International Workshop on Practice and Theory in Public Key Cryptosystems. Paris, France, 2002: 252−262. [6] FOUQUE P A, MARTINET G, POUPARD G. Attacking unbalanced RSA-CRT using SPA[C]//5th International Workshop on Cryptographic Hardware and Embedded Systems. Cologne, Germany, 2003: 254−268. [7] 李增局, 彭乾, 史汝辉, 等. CRT-RSA 算法的选择明文攻击 [J]. 密码学报, 2016, 3(5): 447−461. LI Zengju, PENG Qian, SHI Ruhui, et al. Chosen plaintext attacks on CRT-RSA[J]. Journal of cryptologic research, 2016, 3(5): 447−461. [8] 赵冬斌, 邵坤, 朱圆恒, 等. 深度强化学习综述: 兼论计算机围棋的发展 [J]. 控制理论与应用, 2016, 33(6): 701–717. ZHAO Dongbin, SHAO Kun, ZHU Yuanheng, et al. Review of deep reinforcement learning and discussions on the development of computer[J]. Control theory and applications, 2016, 33(6): 701–717. [9] 刘朝阳, 穆朝絮, 孙长银. 深度强化学习算法与应用研究现状综述 [J]. 智能科学与技术学报, 2020, 2(4): 314–326. LIU Zhaoyang, MU Chaoxu, SUN Changyin. An overview on algorithms and applications of deep reinforce- [10] ment learning[J]. Chinese journal of intelligent science and technology, 2020, 2(4): 314–326. 刘全, 翟建伟, 章宗长, 等. 深度强化学习综述 [J]. 计算机学报, 2018, 41(1): 1–27. LIU Quan, ZHAI Jianwei, ZHANG Zongchang, et al. A survey on deep reinforcement learning[J]. Chinese journal of computers, 2018, 41(1): 1–27. [11] 万里鹏, 兰旭光, 张翰博, 等. 深度强化学习理论及其应用综述 [J]. 模式识别与人工智能, 2019, 32(1): 67–81. WAN Lipeng, LAN Xuguang, ZHANG Hanbo, et al. A review of deep reinforcement learning theory and application[J]. Pattern recognition and artificial intelligence, 2019, 32(1): 67–81. [12] 窦宇宸, 胡勇. 基于 BERT 的安全事件命名实体识别研究 [J]. 信息安全研究, 2021, 7(3): 242–249. DOU Yuchen, HUYong. Research on name entity recognition of security events based on BERT[J]. Journal of information security research, 2021, 7(3): 242–249. [13] 刘思琴, 冯胥睿瑞. 基于 BERT 的文本情感分析 [J]. 信息安全研究, 2020, 6(3): 220–227. Liu Siqin, FengXuruirui. Text Sentiment Analysis Based on BERT[J]. Journal of information security reserach, 2020, 6(3): 220–227. [14] 陈红松, 王钢, 宋建林. 基于云计算入侵检测数据集的内网用户异常行为分类算法研究 [J]. 信息网络安全, 2018, 18(3): 1–7. CHEN Hongsong, WANG Gang, SONG Jianlin. Research on anomaly behavior classification algorithm of internal network user based on cloud computing intrusion detection data set[J]. Netinfo Security, 2018, 18(3): 1–7. [15] 张建平, 李洪敏, 贾军, 等. 一种基于流量与日志的专网用户行为分析方法 [J]. 信息安全研究, 2020, 6(9): 783−790. ZHANG Jianping, LI Hongming, JIA Jun, et al. A method of user behavior analysis based on network flow and log in private network[J]. Journal of information securyity research, 2020, 6(9): 783−790. [16] 蹇诗婕卢志刚姜波, 等. 基于层次聚类方法的流量异常检测 [J]. 信息安全研究, 2020, 6(6): 474–481. SAI Shiyi, LU Zhigang, JING Bo. Flow anomaly detection based on hierarchical clustering method[J]. Journal of information security reserach, 2020, 6(6): 474–481. [17] SUTTON R S. Learning to predict by the methods of temporal differences[J]. Machine learning, 1988, 3(1): 9–44. [18] 作者简介：喻波，北京明朝万达科技股份有限公司首席科学家、高级副总裁，兼任公安部通信标准化技术委员会委员，主要研究方向为数据安全。主持国家重点研发计划、国家自然科学基金重点项目 6 项。获吴文俊人工智能科技进步奖一等奖、授权发明专利 120 余项。 ·938· 智能系统学报第 16 卷

第5期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·939· 王志海，北京明朝万达科技有限孙亚东，数据安全解决方案专家，公司董事长、总裁，计算机安全专业委主要研究方向为数据安全。获吴文俊员会常务委员、《信息安全技术》编人工智能科技进步奖一等奖、申请国委会委员，中国大数据生态产业联盟家发明专利13项，授权3项，参与编专家委员，国家移动信息产业技术创写数据安全国家标准2项。新战略联盟理事长，主要研究方向为数据安全。获吴文俊人工智能科技进步奖一等奖、授权发明专利120余项，出版专著1部。第三届国际高性能大数据暨智能系统会议 The 3rd International Conference on High Performance Big Data and Intelligent Systems 第三届国际高性能大数据暨智能系统会议(The3 rd International Conference on High Performance Big Data and Intelligent Systems,HPBD&IS2021)拟于2021年12月5-7日在中国澳门举办。会议旨在搭建高性能计算、大数据及人工智能领域高端前沿交流平台，促进海内外专家学者的交流与合作，推动智能技术进步和智能产业发展。会议主旨：本次会议将汇聚全球顶级专家、学者和产业界优秀人才，共同围绕国际研究热点、核心关键技术、产业发展及挑战等进行开放式研讨。会议由中国计算机学会(CCF)、中国人工智能学会(CAA)联合主办，IEEE Computer Society技术支持，澳门大学、中国科学院深圳先进技术研究院、中国科学院半导体研究所、CCF高性能计算专委会、CAAI神经网络与计算智能专委会、中国自动化学会(CAA)模式识别与机器智能专委会、北京联合大学、天津理工大学、深圳市龙岗区机器人协会、深圳国际机器人城产业园共同承办。会议论文集将由IEEE Xplore®出版，EI收录，优秀论文将推荐至Computation Practice and Experience(CCPE)、Optoelectron- ics Letters等SCI、EI期刊发表。征文内容（包括但不限于）： 1)高性能计算技术及应用（高性能计算机体系结构，高性能计算机系统软件，高性能计算环境，高性能微处理器，高性能存储技术，多核多线程体系结构方法，并行分布式系统的体系结构、软件及算法，高性能普适计算，高性能自适应进化计算，高性能区块链技术，高性能应用，大数据并行处理，大数据硬件操作系统加速)：2)大数据技术及应用（大数据模型、处理算法及编程技术，多媒体大数据的表示，大数据学习与分析，大数据持久性和保存，大数据的质量和来源控制，大数据保护、完整性和隐私，大数据存储与计算融合技术，大数据搜索与挖掘，大数据管理与可视化分析，大数据业务模式创新，大数据应用)：3)智能系统（神经网络与学习系统，计算机视觉，机器人科学与控制工程，智能传感器与传感器融合，智能存储设备与系统，实时系统，区块链系统，自适应系统，AR/VR/MR,复杂系统和网络，智能制造，模式识别，SLAM)。重要时间：全文投稿截止日期：2021年9月30日论文录用通知日期：2021年10月31日全文提交截止日期：2021年11月15日早鸟注册截止日期：2021年11月15日投稿链接：htps://easychair.org/conferences/?conf=hpbdis22021 会议官网：http:/www.hpbdis.org

王志海，北京明朝万达科技有限公司董事长、总裁，计算机安全专业委员会常务委员、《信息安全技术》编委会委员，中国大数据生态产业联盟专家委员，国家移动信息产业技术创新战略联盟理事长，主要研究方向为数据安全。获吴文俊人工智能科技进步奖一等奖、授权发明专利 120 余项，出版专著 1 部。孙亚东，数据安全解决方案专家，主要研究方向为数据安全。获吴文俊人工智能科技进步奖一等奖、申请国家发明专利 13 项，授权 3 项，参与编写数据安全国家标准 2 项。第三届国际高性能大数据暨智能系统会议 The 3rd International Conference on High Performance Big Data and Intelligent Systems 第三届国际高性能大数据暨智能系统会议（The 3rd International Conference on High Performance Big Data and Intelligent Systems, HPBD&IS 2021）拟于 2021 年 12 月 5-7 日在中国澳门举办。会议旨在搭建高性能计算、大数据及人工智能领域高端前沿交流平台，促进海内外专家学者的交流与合作，推动智能技术进步和智能产业发展。会议主旨：本次会议将汇聚全球顶级专家、学者和产业界优秀人才，共同围绕国际研究热点、核心关键技术、产业发展及挑战等进行开放式研讨。会议由中国计算机学会 (CCF)、中国人工智能学会 (CAAI) 联合主办，IEEE Computer Society 技术支持，澳门大学、中国科学院深圳先进技术研究院、中国科学院半导体研究所、CCF 高性能计算专委会、CAAI 神经网络与计算智能专委会、中国自动化学会 (CAA) 模式识别与机器智能专委会、北京联合大学、天津理工大学、深圳市龙岗区机器人协会、深圳国际机器人城产业园共同承办。会议论文集将由 IEEE Xplore®出版，EI 收录，优秀论文将推荐至 Computation Practice and Experience (CCPE)、Optoelectronics Letters 等 SCI、EI 期刊发表。征文内容 (包括但不限于)： 1）高性能计算技术及应用 (高性能计算机体系结构，高性能计算机系统软件，高性能计算环境，高性能微处理器，高性能存储技术，多核多线程体系结构方法，并行分布式系统的体系结构、软件及算法，高性能普适计算，高性能自适应进化计算，高性能区块链技术，高性能应用，大数据并行处理，大数据硬件/操作系统加速 )；2）大数据技术及应用 (大数据模型、处理算法及编程技术，多媒体大数据的表示，大数据学习与分析，大数据持久性和保存，大数据的质量和来源控制，大数据保护、完整性和隐私，大数据存储与计算融合技术，大数据搜索与挖掘，大数据管理与可视化分析，大数据业务模式创新，大数据应用)；3）智能系统 (神经网络与学习系统，计算机视觉，机器人科学与控制工程，智能传感器与传感器融合，智能存储设备与系统，实时系统，区块链系统，自适应系统，AR/VR/MR，复杂系统和网络，智能制造，模式识别，SLAM)。重要时间：全文投稿截止日期: 2021 年 9 月 30 日论文录用通知日期: 2021 年 10 月 31 日全文提交截止日期: 2021 年 11 月 15 日早鸟注册截止日期: 2021 年 11 月 15 日投稿链接：https://easychair.org/conferences/?conf=hpbdis2021 会议官网：http://www.hpbdis.org/ 第 5 期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·939·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录