操作效率造成影响，但如果弱管控，又会造成敏感数据泄露。因此中管控场景，识

正在加载图片...

第5期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·933· 操作效率造成影响，但如果弱管控，又会造成敏同类型文档语境下，其文档表达含义与分类截然感数据泄露。因此中管控场景，识别敏感数据与不同。而且，由于文档分类定级误判，会产生敏异常行为是目前数据安全领域研究的重要问题。感文档的非授权明文外发风险，进而导致数据泄露。由于分类误判对非敏感级文档进行加密、阻 1研究背景断处理，影响正常业务开展6 近年来企业内部人员窃取数据事件频发，如 2.1面临的技术问题银行内部人员窃取、贩卖上万条用户信息，根据通过自然语言处理技术检测识别文档敏感内 Gartner的调查结果，内部人员窃取敏感数据、盗容，已经演化为文档智能分类分级的技术趋势，在用账号等行为已经成为企业数据泄露的最主要原落地实施过程中，也面临如下突出的技术问题。因。由于内部人员具备企业数据资产的合法访问在文档语义特征表达层面，各领域文档形式权限，且了解企业敏感数据的存放位置，因此内多样、内容丰富、中文语体混杂的情况普遍存在，部人员在合法外衣的保护下，自由地游走在企业例如公安电子笔录形式多样，官方语体和方言语内网，进行长期而隐蔽的数据窃取行为。体交相混杂，且上下文语义高度相关。而目前的导致上述现象的根本原因是企业经营活动复语言模型建立在朴素贝叶斯独立性假设的基础杂、业务系统多、数据规模大，无法穷举人员、终上，现实情况明显无法满足独立性假设要求，从端、应用、数据之间多对多的使用与访问规则，从而导致文档分类分级的准确率较低？。而为内部恶意人员留下了巨大的非法活动空间。在文档内容识别层面，敏感文档的分类检测这种情况下，安全部门只能把管控重点放在已知技术分为有监督和无监督两种模式，无监督文档的、规则明确的安全威胁上，导致内部人员长期、分类技术不需要样本但准确率很低，有监督文档隐蔽数据窃取行为发现难，数据泄露事件依然层准确率相对较高，但存在样本标注工作量大、人出不穷B 工标注质量无法保证的问题，直接导致产品研发因此，研究文档分类分级技术，识别需要重点周期长、成本高、效果差的问题四。保护的敏感数据：研究用户异常行为分析技术，针对文档分类分级在实际应用中面临的技术识别用户异常操作，是解决内网数据泄露的重要问题，本文提出如下的解决思路：构建N元中文课题。语言模型，解决当前语言模型面临的独立性假设不成立问题。构建自动无监督样本库，解决当前 2基于N元语言模型的文档智能分样本标注工作量大，质量难保证问题。类分级技术 2.2技术方案根据数据安全治理理论，数据安全防护的基 2.2.1语言模型基本原理础是识别数据资产、分级分类数据资产，只有明语言模型的发展经历了专家语法规则模型、确了数据保护对象及安全等级，才能对数据实施统计语言模型和神经网络语言模型。专家语法规按需防护，避免一刀切式的静态防御，促进数据则模型在初始阶段利用模式匹配技术，以自然语的安全流通与共享。言的语法规则为切入点，模式匹配归纳总结，提在数据资产的识别过程中，按载体形态差异供自然语言建模能力，但随着语法规则规模急剧其识别方式也存在不同，数据按载体形态主要划扩大，专家语法规则已不可持续。分为结构化数据与非结构化数据两类。针对结构统计语言模型认为文档由单词序列构成，通化数据，数据集中承载在数据库中，可以通过元过建模，分析文档中单词的概率分布。统计语言数据的精确定义，较为直接地进行数据资产识别模型基于朴素贝叶斯的独立性假设，即将句子并实施分级分类管控，但针对广泛分布在终端、 S看成一组相互独立的单词序列(ww2w).那么网络、云存储中的非结构化敏感数据（如商务合对于任意一个单词w:(i≤m)在句子S中出现的条同、会议纪要、监管报告、技术资料等敏感文档)，件概率为P(www2w-i),那么整个句子的概率鉴于文档是由字、词及上下文语义构成的，单纯模型P(S)=P(wwm2wn),根据贝叶斯公式和全概的依赖关键词、正则表达式等传统规则手段对文率公式可推导出概率模型：档分类进行识别，缺乏词与词之间的上下文语义 P(S)=P(w1w2…wn) 级分析，导致文档分类分级的高误报率与高漏报 P(w)P(w2w)…P(ww1w2…w-1) (1) 率。如商务合同与涉诉文档，虽然都会存在甲方、乙方、联系电话、联系方式等关键词，但在不式(1)必须在基于朴素贝叶斯独立性假设条操作效率造成影响，但如果弱管控，又会造成敏感数据泄露。因此中管控场景，识别敏感数据与异常行为是目前数据安全领域研究的重要问题。 1 研究背景近年来企业内部人员窃取数据事件频发，如银行内部人员窃取、贩卖上万条用户信息，根据 Gartner 的调查结果[2] ，内部人员窃取敏感数据、盗用账号等行为已经成为企业数据泄露的最主要原因。由于内部人员具备企业数据资产的合法访问权限，且了解企业敏感数据的存放位置，因此内部人员在合法外衣的保护下，自由地游走在企业内网，进行长期而隐蔽的数据窃取行为。导致上述现象的根本原因是企业经营活动复杂、业务系统多、数据规模大，无法穷举人员、终端、应用、数据之间多对多的使用与访问规则，从而为内部恶意人员留下了巨大的非法活动空间。这种情况下，安全部门只能把管控重点放在已知的、规则明确的安全威胁上，导致内部人员长期、隐蔽数据窃取行为发现难，数据泄露事件依然层出不穷[3-5]。因此，研究文档分类分级技术，识别需要重点保护的敏感数据；研究用户异常行为分析技术，识别用户异常操作，是解决内网数据泄露的重要课题。 2 基于 N 元语言模型的文档智能分类分级技术根据数据安全治理理论，数据安全防护的基础是识别数据资产、分级分类数据资产，只有明确了数据保护对象及安全等级，才能对数据实施按需防护，避免一刀切式的静态防御，促进数据的安全流通与共享。在数据资产的识别过程中，按载体形态差异其识别方式也存在不同，数据按载体形态主要划分为结构化数据与非结构化数据两类。针对结构化数据，数据集中承载在数据库中，可以通过元数据的精确定义，较为直接地进行数据资产识别并实施分级分类管控，但针对广泛分布在终端、网络、云存储中的非结构化敏感数据 (如商务合同、会议纪要、监管报告、技术资料等敏感文档)，鉴于文档是由字、词及上下文语义构成的，单纯的依赖关键词、正则表达式等传统规则手段对文档分类进行识别，缺乏词与词之间的上下文语义级分析，导致文档分类分级的高误报率与高漏报率。如商务合同与涉诉文档，虽然都会存在甲方、乙方、联系电话、联系方式等关键词，但在不同类型文档语境下，其文档表达含义与分类截然不同。而且，由于文档分类定级误判，会产生敏感文档的非授权明文外发风险，进而导致数据泄露。由于分类误判对非敏感级文档进行加密、阻断处理，影响正常业务开展[6-8]。 2.1 面临的技术问题通过自然语言处理技术检测识别文档敏感内容，已经演化为文档智能分类分级的技术趋势，在落地实施过程中，也面临如下突出的技术问题[9]。在文档语义特征表达层面，各领域文档形式多样、内容丰富、中文语体混杂的情况普遍存在，例如公安电子笔录形式多样，官方语体和方言语体交相混杂，且上下文语义高度相关。而目前的语言模型建立在朴素贝叶斯独立性假设的基础上，现实情况明显无法满足独立性假设要求，从而导致文档分类分级的准确率较低[9-10]。在文档内容识别层面，敏感文档的分类检测技术分为有监督和无监督两种模式，无监督文档分类技术不需要样本但准确率很低，有监督文档准确率相对较高，但存在样本标注工作量大、人工标注质量无法保证的问题，直接导致产品研发周期长、成本高、效果差的问题[11]。针对文档分类分级在实际应用中面临的技术问题，本文提出如下的解决思路：构建 N 元中文语言模型，解决当前语言模型面临的独立性假设不成立问题。构建自动无监督样本库，解决当前样本标注工作量大，质量难保证问题。 2.2 技术方案 2.2.1 语言模型基本原理语言模型的发展经历了专家语法规则模型、统计语言模型和神经网络语言模型。专家语法规则模型在初始阶段利用模式匹配技术，以自然语言的语法规则为切入点，模式匹配归纳总结，提供自然语言建模能力，但随着语法规则规模急剧扩大，专家语法规则已不可持续[12]。 (w1w2 ···wn) wi(i ⩽ n) P(wi |w1w2 ···wi−1) (S ) = P(w1w2 ···wn) 统计语言模型认为文档由单词序列构成，通过建模，分析文档中单词的概率分布。统计语言模型基于朴素贝叶斯的独立性假设，即将句子 S 看成一组相互独立的单词序列，那么对于任意一个单词在句子 S 中出现的条件概率为，那么整个句子的概率模型 P ，根据贝叶斯公式和全概率公式可推导出概率模型： P(S ) = P(w1w2 ···wn) = ∏n i=1 P(w1)P(w2|w1)···P(wi |w1w2 ···wi−1) (1) 式 (1) 必须在基于朴素贝叶斯独立性假设条第 5 期喻波，等：非结构化文档敏感数据识别与异常行为分析 ·933·

<<向上翻页向下翻页>>

点击下载：【人工智能】非结构化文档敏感数据识别与异常行为分析