视。国外已有不少学者对于内部威胁进行了研究，这些研究主要存在于信息域，如

正在加载图片...

·782· 智能系统学报第12卷视。国外已有不少学者对于内部威胁进行了研究，部人员的异常行为序列。这些研究主要存在于信息域，如D.F.Ferraiolo提出序列模式挖掘是查找序列集合中的频繁序列的了基于角色的访问控制(role based access control,. 重要方法，给定一个由不同序列组成的集合，其中 RBAC),Bishop Matt在此基础上，提出了基于属性每个序列由不同的元素按顺序有序排列，同时给定的组访问控制(attribute based group access control, 一个用户指定的最小支持度阈值min sup,序列模 ABGAC)等，这些研究对本文进行物理域异常检测式挖掘就是找出所有出现频率不低于min sup 提供了很好的指导作用。的子序列22。常用的基本序列模式挖掘算法有类门禁日志分析是发现内部威胁的重要途径，作 Apriori算法(AprioriAll、AprioriSome、DynamicSo- 为物理域信息的重要来源，国内外已有不少学者对 me)和基于数据投影的算法(FreeSpant2),Prefix- 此展开研究，通常借鉴网络空间异常检测的方法来 Span)等。Apriori类算法的思想大致相同，首先遍刻画人员的行为。序列模式挖掘是利用门禁日志数历序列数据库生成候选序列，并利用先验性质进行据刻画人员行为的有效方法，本文在此基础上提出剪枝得到频繁序列，每次遍历都是通过连接上次得了一种计算序列异常度分数的方法，通过利用Pr- 到的频繁序列生成新的长度加1的候选序列，然后 fixSpan算法找出人员行为的频繁序列，并通过计扫描每个候选序列验证其是否为频繁序列，要对数算序列异常度分数对人员的行为序列的异常度进行据库进行反复多次的扫描。FreeSpan算法利用当前了定量刻画表示，进而可根据阈值来找出异常行挖掘的频繁序列集将序列数据库递归地投影到一组为，有效减少了因精确匹配造成的高误报率，适用更小的投影数据库上，分别在每个投影数据库上增于对各种门禁日志的分析处理。长子序列，PrefixSpan是FreeSpan的改进算法，其投 1相关研究影时不考虑所有可能出现的频繁子序列，只检查前缀序列，然后把相应的后缀投影成投影数据库，之内部威胁是异常检测所面临的巨大挑战，国外后在其中只检查局部频繁模式，不需要生成候选子学者均提出了检测内部威胁的相关理论或实践方序列。PrefixSpan算法在处理数据时有较高的效法6，并取得了较好的效果。无论是国内外的学率，故本文在后续的实验中采用此算法。者，在进行实际的内部威胁检测时，通常借鉴网络序列模式挖掘是查找序列集合中的频繁序列的空间异常检测的方法来对用户行为进行分析，即构重要方法，给定一个由不同序列组成的集合，其中，建用户的正常行为模型后查找离群点，常用方法包每个序列由不同的元素按顺序有序排列，同时给定括有监督的异常检测、半监督的异常检测和无监督一个用户指定的最小支持度阈值min sup,序列模的异常检测到，通过建立正常的行为模式集，将实际式挖掘就是找出所有出现频率不低于min_sup 行为模式与正常行为模式进行对比，看两者是否匹的子序列22。常用的基本序列模式挖掘算法有类配，若不匹配，说明是异常，反之则为正常。 Apriori算法(AprioriAll、AprioriSome、DynamicSo- 门禁日志分析是内部威胁检测的一个小分支，国外学者对其已有一定的研究，如Bostjan等1通过 me)和基于数据投影的算法(FreeSpan2),Prefix- Span)等。类Apriori算法的思想大致相同，首先遍将刷卡数据与监控数据结合提出了多层框架模型对历序列数据库生成候选序列并利用先验性质进行剪用户行为进行分析，M.Davis等采用图挖掘算法枝得到频繁序列，每次遍历都是通过连接上次得到检测门禁数据中的结构异常（建筑物中不正常路径)和数值异常（不正常计时数据）等。与国外学者的频繁序列生成新的长度加1的候选序列，然后扫相比，国内学者对于门禁日志数据挖掘的研究较描每个候选序列验证其是否为频繁序列，要对数据少，不少学者关注于门禁系统架构的设计6刀，而库进行反复多次的扫描。FreeSpan算法利用当前挖对于门禁数据仅进行了统计学分析，较少对异常掘的频繁序列集将序列数据库递归地投影到一组更行为进行相应分析。郑伟平等对社区管理数据利小的投影数据库上，分别在每个投影数据库上增长用k-means找出社区人流规律，从而加强对社区治子序列，PrefixSpan是FreeSpan的改进算法，其投影安的管理；史殿习等2提出了可视为Apriori算时不考虑所有可能出现的频繁子序列，只检查前缀法扩展的加权模式挖掘算法，利用此算法刻画用户序列，然后把相应的后缀投影成投影数据库，之后的日常行为模式，取得了较好的效果：顾兆军等对在其中只检查局部频繁模式，不需要生成候选子序大型航站楼门禁日志进行了序列模式挖掘，对机场列。PrefixSpan算法在处理数据时有较高的效率，员工行为进行了有效刻画，并利用精确匹配找出内故本文在后续的实验中采用此算法。视。国外已有不少学者对于内部威胁进行了研究，这些研究主要存在于信息域，如 D.F.Ferraiolo[3]提出了基于角色的访问控制（role based access control， RBAC），Bishop Matt[4]在此基础上，提出了基于属性的组访问控制（attribute based group access control， ABGAC）等，这些研究对本文进行物理域异常检测提供了很好的指导作用。门禁日志分析是发现内部威胁的重要途径，作为物理域信息的重要来源，国内外已有不少学者对此展开研究，通常借鉴网络空间异常检测的方法来刻画人员的行为。序列模式挖掘是利用门禁日志数据刻画人员行为的有效方法，本文在此基础上提出了一种计算序列异常度分数的方法，通过利用 PrefixSpan 算法[5]找出人员行为的频繁序列，并通过计算序列异常度分数对人员的行为序列的异常度进行了定量刻画表示，进而可根据阈值来找出异常行为，有效减少了因精确匹配造成的高误报率，适用于对各种门禁日志的分析处理。 1 相关研究内部威胁是异常检测所面临的巨大挑战，国外学者均提出了检测内部威胁的相关理论或实践方法 [6-12] ，并取得了较好的效果。无论是国内外的学者，在进行实际的内部威胁检测时，通常借鉴网络空间异常检测的方法来对用户行为进行分析，即构建用户的正常行为模型后查找离群点，常用方法包括有监督的异常检测、半监督的异常检测和无监督的异常检测[13] ，通过建立正常的行为模式集，将实际行为模式与正常行为模式进行对比，看两者是否匹配，若不匹配，说明是异常，反之则为正常。门禁日志分析是内部威胁检测的一个小分支，国外学者对其已有一定的研究，如 Bostjan 等 [14]通过将刷卡数据与监控数据结合提出了多层框架模型对用户行为进行分析，M. Davis 等 [15]采用图挖掘算法检测门禁数据中的结构异常（建筑物中不正常路径）和数值异常（不正常计时数据）等。与国外学者相比，国内学者对于门禁日志数据挖掘的研究较少，不少学者关注于门禁系统架构的设计[16-17] ，而对于门禁数据仅进行了统计学分析[18] ，较少对异常行为进行相应分析。郑伟平等[19]对社区管理数据利用 k-means 找出社区人流规律，从而加强对社区治安的管理；史殿习等[ 2 0 ]提出了可视为 Apriori 算法扩展的加权模式挖掘算法，利用此算法刻画用户的日常行为模式，取得了较好的效果；顾兆军等[21]对大型航站楼门禁日志进行了序列模式挖掘，对机场员工行为进行了有效刻画，并利用精确匹配找出内部人员的异常行为序列。序列模式挖掘是查找序列集合中的频繁序列的重要方法，给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，同时给定一个用户指定的最小支持度阈值 min_sup，序列模式挖掘就是找出所有出现频率不低于 min_sup 的子序列[22]。常用的基本序列模式挖掘算法有类 Apriori 算法（AprioriAll、AprioriSome、DynamicSome）和基于数据投影的算法（FreeSpan[23] ，PrefixSpan）等。Apriori 类算法的思想大致相同，首先遍历序列数据库生成候选序列，并利用先验性质进行剪枝得到频繁序列，每次遍历都是通过连接上次得到的频繁序列生成新的长度加 1 的候选序列，然后扫描每个候选序列验证其是否为频繁序列，要对数据库进行反复多次的扫描。FreeSpan 算法利用当前挖掘的频繁序列集将序列数据库递归地投影到一组更小的投影数据库上，分别在每个投影数据库上增长子序列，PrefixSpan 是 FreeSpan 的改进算法，其投影时不考虑所有可能出现的频繁子序列，只检查前缀序列，然后把相应的后缀投影成投影数据库，之后在其中只检查局部频繁模式，不需要生成候选子序列。PrefixSpan 算法在处理数据时有较高的效率，故本文在后续的实验中采用此算法。序列模式挖掘是查找序列集合中的频繁序列的重要方法，给定一个由不同序列组成的集合，其中，每个序列由不同的元素按顺序有序排列，同时给定一个用户指定的最小支持度阈值 min_sup，序列模式挖掘就是找出所有出现频率不低于 min_sup 的子序列[22]。常用的基本序列模式挖掘算法有类 Apriori 算法（AprioriAll、AprioriSome、DynamicSome）和基于数据投影的算法（FreeSpan[23] ，PrefixSpan）等。类 Apriori 算法的思想大致相同，首先遍历序列数据库生成候选序列并利用先验性质进行剪枝得到频繁序列，每次遍历都是通过连接上次得到的频繁序列生成新的长度加 1 的候选序列，然后扫描每个候选序列验证其是否为频繁序列，要对数据库进行反复多次的扫描。FreeSpan 算法利用当前挖掘的频繁序列集将序列数据库递归地投影到一组更小的投影数据库上，分别在每个投影数据库上增长子序列，PrefixSpan 是 FreeSpan 的改进算法，其投影时不考虑所有可能出现的频繁子序列，只检查前缀序列，然后把相应的后缀投影成投影数据库，之后在其中只检查局部频繁模式，不需要生成候选子序列。PrefixSpan 算法在处理数据时有较高的效率，故本文在后续的实验中采用此算法。 ·782· 智能系统学报第 12 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】基于门禁日志挖掘的内部威胁异常行为分析