正在加载图片...
第5期 喻波,等:非结构化文档敏感数据识别与异常行为分析 ·933· 操作效率造成影响,但如果弱管控,又会造成敏 同类型文档语境下,其文档表达含义与分类截然 感数据泄露。因此中管控场景,识别敏感数据与 不同。而且,由于文档分类定级误判,会产生敏 异常行为是目前数据安全领域研究的重要问题。 感文档的非授权明文外发风险,进而导致数据泄 露。由于分类误判对非敏感级文档进行加密、阻 1研究背景 断处理,影响正常业务开展6 近年来企业内部人员窃取数据事件频发,如 2.1面临的技术问题 银行内部人员窃取、贩卖上万条用户信息,根据 通过自然语言处理技术检测识别文档敏感内 Gartner的调查结果,内部人员窃取敏感数据、盗 容,已经演化为文档智能分类分级的技术趋势,在 用账号等行为已经成为企业数据泄露的最主要原 落地实施过程中,也面临如下突出的技术问题。 因。由于内部人员具备企业数据资产的合法访问 在文档语义特征表达层面,各领域文档形式 权限,且了解企业敏感数据的存放位置,因此内 多样、内容丰富、中文语体混杂的情况普遍存在, 部人员在合法外衣的保护下,自由地游走在企业 例如公安电子笔录形式多样,官方语体和方言语 内网,进行长期而隐蔽的数据窃取行为。 体交相混杂,且上下文语义高度相关。而目前的 导致上述现象的根本原因是企业经营活动复 语言模型建立在朴素贝叶斯独立性假设的基础 杂、业务系统多、数据规模大,无法穷举人员、终 上,现实情况明显无法满足独立性假设要求,从 端、应用、数据之间多对多的使用与访问规则,从 而导致文档分类分级的准确率较低?。 而为内部恶意人员留下了巨大的非法活动空间。 在文档内容识别层面,敏感文档的分类检测 这种情况下,安全部门只能把管控重点放在已知 技术分为有监督和无监督两种模式,无监督文档 的、规则明确的安全威胁上,导致内部人员长期、 分类技术不需要样本但准确率很低,有监督文档 隐蔽数据窃取行为发现难,数据泄露事件依然层 准确率相对较高,但存在样本标注工作量大、人 出不穷B 工标注质量无法保证的问题,直接导致产品研发 因此,研究文档分类分级技术,识别需要重点 周期长、成本高、效果差的问题四。 保护的敏感数据:研究用户异常行为分析技术, 针对文档分类分级在实际应用中面临的技术 识别用户异常操作,是解决内网数据泄露的重要 问题,本文提出如下的解决思路:构建N元中文 课题。 语言模型,解决当前语言模型面临的独立性假设 不成立问题。构建自动无监督样本库,解决当前 2基于N元语言模型的文档智能分 样本标注工作量大,质量难保证问题。 类分级技术 2.2技术方案 根据数据安全治理理论,数据安全防护的基 2.2.1语言模型基本原理 础是识别数据资产、分级分类数据资产,只有明 语言模型的发展经历了专家语法规则模型、 确了数据保护对象及安全等级,才能对数据实施 统计语言模型和神经网络语言模型。专家语法规 按需防护,避免一刀切式的静态防御,促进数据 则模型在初始阶段利用模式匹配技术,以自然语 的安全流通与共享。 言的语法规则为切入点,模式匹配归纳总结,提 在数据资产的识别过程中,按载体形态差异 供自然语言建模能力,但随着语法规则规模急剧 其识别方式也存在不同,数据按载体形态主要划 扩大,专家语法规则已不可持续。 分为结构化数据与非结构化数据两类。针对结构 统计语言模型认为文档由单词序列构成,通 化数据,数据集中承载在数据库中,可以通过元 过建模,分析文档中单词的概率分布。统计语言 数据的精确定义,较为直接地进行数据资产识别 模型基于朴素贝叶斯的独立性假设,即将句子 并实施分级分类管控,但针对广泛分布在终端、 S看成一组相互独立的单词序列(ww2w).那么 网络、云存储中的非结构化敏感数据(如商务合 对于任意一个单词w:(i≤m)在句子S中出现的条 同、会议纪要、监管报告、技术资料等敏感文档), 件概率为P(www2w-i),那么整个句子的概率 鉴于文档是由字、词及上下文语义构成的,单纯 模型P(S)=P(wwm2wn),根据贝叶斯公式和全概 的依赖关键词、正则表达式等传统规则手段对文 率公式可推导出概率模型: 档分类进行识别,缺乏词与词之间的上下文语义 P(S)=P(w1w2…wn) 级分析,导致文档分类分级的高误报率与高漏报 P(w)P(w2w)…P(ww1w2…w-1) (1) 率。如商务合同与涉诉文档,虽然都会存在甲 方、乙方、联系电话、联系方式等关键词,但在不 式(1)必须在基于朴素贝叶斯独立性假设条操作效率造成影响,但如果弱管控,又会造成敏 感数据泄露。因此中管控场景,识别敏感数据与 异常行为是目前数据安全领域研究的重要问题。 1 研究背景 近年来企业内部人员窃取数据事件频发,如 银行内部人员窃取、贩卖上万条用户信息,根据 Gartner 的调查结果[2] ,内部人员窃取敏感数据、盗 用账号等行为已经成为企业数据泄露的最主要原 因。由于内部人员具备企业数据资产的合法访问 权限,且了解企业敏感数据的存放位置,因此内 部人员在合法外衣的保护下,自由地游走在企业 内网,进行长期而隐蔽的数据窃取行为。 导致上述现象的根本原因是企业经营活动复 杂、业务系统多、数据规模大,无法穷举人员、终 端、应用、数据之间多对多的使用与访问规则,从 而为内部恶意人员留下了巨大的非法活动空间。 这种情况下,安全部门只能把管控重点放在已知 的、规则明确的安全威胁上,导致内部人员长期、 隐蔽数据窃取行为发现难,数据泄露事件依然层 出不穷[3-5]。 因此,研究文档分类分级技术,识别需要重点 保护的敏感数据;研究用户异常行为分析技术, 识别用户异常操作,是解决内网数据泄露的重要 课题。 2 基于 N 元语言模型的文档智能分 类分级技术 根据数据安全治理理论,数据安全防护的基 础是识别数据资产、分级分类数据资产,只有明 确了数据保护对象及安全等级,才能对数据实施 按需防护,避免一刀切式的静态防御,促进数据 的安全流通与共享。 在数据资产的识别过程中,按载体形态差异 其识别方式也存在不同,数据按载体形态主要划 分为结构化数据与非结构化数据两类。针对结构 化数据,数据集中承载在数据库中,可以通过元 数据的精确定义,较为直接地进行数据资产识别 并实施分级分类管控,但针对广泛分布在终端、 网络、云存储中的非结构化敏感数据 (如商务合 同、会议纪要、监管报告、技术资料等敏感文档), 鉴于文档是由字、词及上下文语义构成的,单纯 的依赖关键词、正则表达式等传统规则手段对文 档分类进行识别,缺乏词与词之间的上下文语义 级分析,导致文档分类分级的高误报率与高漏报 率。如商务合同与涉诉文档,虽然都会存在甲 方、乙方、联系电话、联系方式等关键词,但在不 同类型文档语境下,其文档表达含义与分类截然 不同。而且,由于文档分类定级误判,会产生敏 感文档的非授权明文外发风险,进而导致数据泄 露。由于分类误判对非敏感级文档进行加密、阻 断处理,影响正常业务开展[6-8]。 2.1 面临的技术问题 通过自然语言处理技术检测识别文档敏感内 容,已经演化为文档智能分类分级的技术趋势,在 落地实施过程中,也面临如下突出的技术问题[9]。 在文档语义特征表达层面,各领域文档形式 多样、内容丰富、中文语体混杂的情况普遍存在, 例如公安电子笔录形式多样,官方语体和方言语 体交相混杂,且上下文语义高度相关。而目前的 语言模型建立在朴素贝叶斯独立性假设的基础 上,现实情况明显无法满足独立性假设要求,从 而导致文档分类分级的准确率较低[9-10]。 在文档内容识别层面,敏感文档的分类检测 技术分为有监督和无监督两种模式,无监督文档 分类技术不需要样本但准确率很低,有监督文档 准确率相对较高,但存在样本标注工作量大、人 工标注质量无法保证的问题,直接导致产品研发 周期长、成本高、效果差的问题[11]。 针对文档分类分级在实际应用中面临的技术 问题,本文提出如下的解决思路:构建 N 元中文 语言模型,解决当前语言模型面临的独立性假设 不成立问题。构建自动无监督样本库,解决当前 样本标注工作量大,质量难保证问题。 2.2 技术方案 2.2.1 语言模型基本原理 语言模型的发展经历了专家语法规则模型、 统计语言模型和神经网络语言模型。专家语法规 则模型在初始阶段利用模式匹配技术,以自然语 言的语法规则为切入点,模式匹配归纳总结,提 供自然语言建模能力,但随着语法规则规模急剧 扩大,专家语法规则已不可持续[12]。 (w1w2 ···wn) wi(i ⩽ n) P(wi |w1w2 ···wi−1) (S ) = P(w1w2 ···wn) 统计语言模型认为文档由单词序列构成,通 过建模,分析文档中单词的概率分布。统计语言 模型基于朴素贝叶斯的独立性假设,即将句子 S 看成一组相互独立的单词序列 ,那么 对于任意一个单词 在句子 S 中出现的条 件概率为 ,那么整个句子的概率 模型 P ,根据贝叶斯公式和全概 率公式可推导出概率模型: P(S ) = P(w1w2 ···wn) = ∏n i=1 P(w1)P(w2|w1)···P(wi |w1w2 ···wi−1) (1) 式 (1) 必须在基于朴素贝叶斯独立性假设条 第 5 期 喻波,等:非结构化文档敏感数据识别与异常行为分析 ·933·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有