·782· 智能系统学报 第12卷 视。国外已有不少学者对于内部威胁进行了研究, 部人员的异常行为序列。 这些研究主要存在于信息域,如D.F.Ferraiolo提出 序列模式挖掘是查找序列集合中的频繁序列的 了基于角色的访问控制(role based access control,. 重要方法,给定一个由不同序列组成的集合,其中 RBAC),Bishop Matt在此基础上,提出了基于属性 每个序列由不同的元素按顺序有序排列,同时给定 的组访问控制(attribute based group access control, 一个用户指定的最小支持度阈值min sup,序列模 ABGAC)等,这些研究对本文进行物理域异常检测 式挖掘就是找出所有出现频率不低于min sup 提供了很好的指导作用。 的子序列22。常用的基本序列模式挖掘算法有类 门禁日志分析是发现内部威胁的重要途径,作 Apriori算法(AprioriAll、AprioriSome、DynamicSo- 为物理域信息的重要来源,国内外已有不少学者对 me)和基于数据投影的算法(FreeSpant2),Prefix- 此展开研究,通常借鉴网络空间异常检测的方法来 Span)等。Apriori类算法的思想大致相同,首先遍 刻画人员的行为。序列模式挖掘是利用门禁日志数 历序列数据库生成候选序列,并利用先验性质进行 据刻画人员行为的有效方法,本文在此基础上提出 剪枝得到频繁序列,每次遍历都是通过连接上次得 了一种计算序列异常度分数的方法,通过利用Pr- 到的频繁序列生成新的长度加1的候选序列,然后 fixSpan算法找出人员行为的频繁序列,并通过计 扫描每个候选序列验证其是否为频繁序列,要对数 算序列异常度分数对人员的行为序列的异常度进行 据库进行反复多次的扫描。FreeSpan算法利用当前 了定量刻画表示,进而可根据阈值来找出异常行 挖掘的频繁序列集将序列数据库递归地投影到一组 为,有效减少了因精确匹配造成的高误报率,适用 更小的投影数据库上,分别在每个投影数据库上增 于对各种门禁日志的分析处理。 长子序列,PrefixSpan是FreeSpan的改进算法,其投 1相关研究 影时不考虑所有可能出现的频繁子序列,只检查前 缀序列,然后把相应的后缀投影成投影数据库,之 内部威胁是异常检测所面临的巨大挑战,国外 后在其中只检查局部频繁模式,不需要生成候选子 学者均提出了检测内部威胁的相关理论或实践方 序列。PrefixSpan算法在处理数据时有较高的效 法6,并取得了较好的效果。无论是国内外的学 率,故本文在后续的实验中采用此算法。 者,在进行实际的内部威胁检测时,通常借鉴网络 序列模式挖掘是查找序列集合中的频繁序列的 空间异常检测的方法来对用户行为进行分析,即构 重要方法,给定一个由不同序列组成的集合,其中, 建用户的正常行为模型后查找离群点,常用方法包 每个序列由不同的元素按顺序有序排列,同时给定 括有监督的异常检测、半监督的异常检测和无监督 一个用户指定的最小支持度阈值min sup,序列模 的异常检测到,通过建立正常的行为模式集,将实际 式挖掘就是找出所有出现频率不低于min_sup 行为模式与正常行为模式进行对比,看两者是否匹 的子序列22。常用的基本序列模式挖掘算法有类 配,若不匹配,说明是异常,反之则为正常。 Apriori算法(AprioriAll、AprioriSome、DynamicSo- 门禁日志分析是内部威胁检测的一个小分支, 国外学者对其已有一定的研究,如Bostjan等1通过 me)和基于数据投影的算法(FreeSpan2),Prefix- Span)等。类Apriori算法的思想大致相同,首先遍 将刷卡数据与监控数据结合提出了多层框架模型对 历序列数据库生成候选序列并利用先验性质进行剪 用户行为进行分析,M.Davis等采用图挖掘算法 枝得到频繁序列,每次遍历都是通过连接上次得到 检测门禁数据中的结构异常(建筑物中不正常路 径)和数值异常(不正常计时数据)等。与国外学者 的频繁序列生成新的长度加1的候选序列,然后扫 相比,国内学者对于门禁日志数据挖掘的研究较 描每个候选序列验证其是否为频繁序列,要对数据 少,不少学者关注于门禁系统架构的设计6刀,而 库进行反复多次的扫描。FreeSpan算法利用当前挖 对于门禁数据仅进行了统计学分析,较少对异常 掘的频繁序列集将序列数据库递归地投影到一组更 行为进行相应分析。郑伟平等对社区管理数据利 小的投影数据库上,分别在每个投影数据库上增长 用k-means找出社区人流规律,从而加强对社区治 子序列,PrefixSpan是FreeSpan的改进算法,其投影 安的管理;史殿习等2提出了可视为Apriori算 时不考虑所有可能出现的频繁子序列,只检查前缀 法扩展的加权模式挖掘算法,利用此算法刻画用户 序列,然后把相应的后缀投影成投影数据库,之后 的日常行为模式,取得了较好的效果:顾兆军等对 在其中只检查局部频繁模式,不需要生成候选子序 大型航站楼门禁日志进行了序列模式挖掘,对机场 列。PrefixSpan算法在处理数据时有较高的效率, 员工行为进行了有效刻画,并利用精确匹配找出内 故本文在后续的实验中采用此算法。视。国外已有不少学者对于内部威胁进行了研究, 这些研究主要存在于信息域,如 D.F.Ferraiolo[3]提出 了基于角色的访问控制(role based access control, RBAC),Bishop Matt[4]在此基础上,提出了基于属性 的组访问控制(attribute based group access control, ABGAC)等,这些研究对本文进行物理域异常检测 提供了很好的指导作用。 门禁日志分析是发现内部威胁的重要途径,作 为物理域信息的重要来源,国内外已有不少学者对 此展开研究,通常借鉴网络空间异常检测的方法来 刻画人员的行为。序列模式挖掘是利用门禁日志数 据刻画人员行为的有效方法,本文在此基础上提出 了一种计算序列异常度分数的方法,通过利用 PrefixSpan 算法[5]找出人员行为的频繁序列,并通过计 算序列异常度分数对人员的行为序列的异常度进行 了定量刻画表示,进而可根据阈值来找出异常行 为,有效减少了因精确匹配造成的高误报率,适用 于对各种门禁日志的分析处理。 1 相关研究 内部威胁是异常检测所面临的巨大挑战,国外 学者均提出了检测内部威胁的相关理论或实践方 法 [6-12] ,并取得了较好的效果。无论是国内外的学 者,在进行实际的内部威胁检测时,通常借鉴网络 空间异常检测的方法来对用户行为进行分析,即构 建用户的正常行为模型后查找离群点,常用方法包 括有监督的异常检测、半监督的异常检测和无监督 的异常检测[13] ,通过建立正常的行为模式集,将实际 行为模式与正常行为模式进行对比,看两者是否匹 配,若不匹配,说明是异常,反之则为正常。 门禁日志分析是内部威胁检测的一个小分支, 国外学者对其已有一定的研究,如 Bostjan 等 [14]通过 将刷卡数据与监控数据结合提出了多层框架模型对 用户行为进行分析,M. Davis 等 [15]采用图挖掘算法 检测门禁数据中的结构异常(建筑物中不正常路 径)和数值异常(不正常计时数据)等。与国外学者 相比,国内学者对于门禁日志数据挖掘的研究较 少,不少学者关注于门禁系统架构的设计[16-17] ,而 对于门禁数据仅进行了统计学分析[18] ,较少对异常 行为进行相应分析。郑伟平等[19]对社区管理数据利 用 k-means 找出社区人流规律,从而加强对社区治 安的管理;史殿习等[ 2 0 ]提出了可视为 Apriori 算 法扩展的加权模式挖掘算法,利用此算法刻画用户 的日常行为模式,取得了较好的效果;顾兆军等[21]对 大型航站楼门禁日志进行了序列模式挖掘,对机场 员工行为进行了有效刻画,并利用精确匹配找出内 部人员的异常行为序列。 序列模式挖掘是查找序列集合中的频繁序列的 重要方法,给定一个由不同序列组成的集合,其中, 每个序列由不同的元素按顺序有序排列,同时给定 一个用户指定的最小支持度阈值 min_sup,序列模 式挖掘就是找出所有出现频率不低于 min_sup 的子序列[22]。常用的基本序列模式挖掘算法有类 Apriori 算法(AprioriAll、AprioriSome、DynamicSome)和基于数据投影的算法(FreeSpan[23] ,PrefixSpan)等。Apriori 类算法的思想大致相同,首先遍 历序列数据库生成候选序列,并利用先验性质进行 剪枝得到频繁序列,每次遍历都是通过连接上次得 到的频繁序列生成新的长度加 1 的候选序列,然后 扫描每个候选序列验证其是否为频繁序列,要对数 据库进行反复多次的扫描。FreeSpan 算法利用当前 挖掘的频繁序列集将序列数据库递归地投影到一组 更小的投影数据库上,分别在每个投影数据库上增 长子序列,PrefixSpan 是 FreeSpan 的改进算法,其投 影时不考虑所有可能出现的频繁子序列,只检查前 缀序列,然后把相应的后缀投影成投影数据库,之 后在其中只检查局部频繁模式,不需要生成候选子 序列。PrefixSpan 算法在处理数据时有较高的效 率,故本文在后续的实验中采用此算法。 序列模式挖掘是查找序列集合中的频繁序列的 重要方法,给定一个由不同序列组成的集合,其中, 每个序列由不同的元素按顺序有序排列,同时给定 一个用户指定的最小支持度阈值 min_sup,序列模 式挖掘就是找出所有出现频率不低于 min_sup 的子序列[22]。常用的基本序列模式挖掘算法有类 Apriori 算法(AprioriAll、AprioriSome、DynamicSome)和基于数据投影的算法(FreeSpan[23] ,PrefixSpan)等。类 Apriori 算法的思想大致相同,首先遍 历序列数据库生成候选序列并利用先验性质进行剪 枝得到频繁序列,每次遍历都是通过连接上次得到 的频繁序列生成新的长度加 1 的候选序列,然后扫 描每个候选序列验证其是否为频繁序列,要对数据 库进行反复多次的扫描。FreeSpan 算法利用当前挖 掘的频繁序列集将序列数据库递归地投影到一组更 小的投影数据库上,分别在每个投影数据库上增长 子序列,PrefixSpan 是 FreeSpan 的改进算法,其投影 时不考虑所有可能出现的频繁子序列,只检查前缀 序列,然后把相应的后缀投影成投影数据库,之后 在其中只检查局部频繁模式,不需要生成候选子序 列。PrefixSpan 算法在处理数据时有较高的效率, 故本文在后续的实验中采用此算法。 ·782· 智 能 系 统 学 报 第 12 卷