2 问题描述 2.1 路径序列数据由于门禁系统的存在，每个人的卡会由管理

正在加载图片...

第6期王培超，等：基于门禁日志挖掘的内部威胁异常行为分析 ·783· 2 问题描述 3异常序列挖掘 2.1路径序列数据对于序列的异常程度，本模型从两个方面来考由于门禁系统的存在，每个人的卡会由管理人虑：一方面是当前行为序列与正常行为序列库中的员统一进行授权，只被允许访问特定的区域。当一序列的差异程度，即序列差异分数，这需要考虑相个人进人某个区域时，需要预先刷卡，门禁系统会对编辑距离大小和相对支持度大小；另一方面是刷将当前刷卡时间、刷卡人姓名、卡号、刷卡地点等重卡的时间因素，包括刷卡行为的发生时间和过于短要信息进行记录。对于内部人员来说，他们的行为暂的刷卡时间间隔两个方面。路径是本文进行异常行为分析的重要对象，将一个 3.1序列差异分数人每天的刷卡地点按顺序进行采集，即可得到一个 3.1.1正常行为序列库建立人每天的行为序列。为了定量刻画异常序列的异常程度，首先应进 2.2正常路径序列数据行正常序列库的建立。通过利用PrefixSpan算法，对一个人来说，每天工作的流程是基本确定设定合理的最小支持度min sup(通常为20%左的，因此每天的行为路径序列应该有较大的相似右)，对预处理后得到的行为序列进行频繁模式挖性。例如，对于一个老师来说，每天来到办公室后，掘，可以得到行为序列中的高频序列。对于一个部在短暂准备后会去实验室和学生讨论问题，之后再门来说，在常年的正常运行中已基本形成固定的行回到办公室备课或完成论文等，这样就形成了“办公为模式，每名员工在岗位不变的情况下均会形成自室一实验室一办公室”的行为序列。将人员访问的身固定的行为模式（例如先去实验室α，后去实验门禁点用p.(=1,2,…,n)表示，按采集顺序排列就室b).因而通过对大量数据进行频繁模式挖掘得到可以得到人员的路径序列〈p,P2,…,P…,Pn〉，之的高频行为序列可以被认为是正常行为序列。后由决策者人为设定min sup,即可将这些数据进 3.1.2相对编辑距离计算行频繁模式挖掘，将支持度高于min sup的行为序将一个序列变换成另一个序列，其可能的最大列视为正常行为序列，从而得到正常行为序列库。编辑距离为正常行为序列长度和当前行为序列长度 2.3序列异常度分数中较大的那个。为了更好比较不同序列进行变换时通过精确匹配直接判定异常在数据有一定缺失需要的编辑距离的相对大小，计算相对编辑距离的情况下会导致极高的误报率，为此，本文引入了 RD公式为序列异常度分数(score of sequence's abnormal degree), ED(i) 来定量刻画一个正常序列与一个待评判序列之间的 Re(d.)=Max(lgi) (1) 差异。序列〈P,P2,P3,P4〉和〈pP,P2,P4,P3〉以及式中：ED为编辑距离函数，为测试序列中的第序列〈P1,P2,P,P〉和〈P,Ps,P,P6〉的差异显然 i条序列，g为正常序列库中的第j条序列，和是不同的，传统异常检测方法通过进行精确匹配， 1为相应序列的序列长度。相对编辑距离可以有将与正常行为序列库中所有内容均不同的序列直接效比较在编辑距离相同时两序列之间的差距。例判定为异常，不考虑两个序列之间的差异：为了更如，将序列〈P1,P2,P3〉变换为〈P1,P2,P,P4〉所需好比较两个序列之间的差异，可以采用编辑距离的编辑距离为2，将序列〈P,P2〉变换为〈P1,P2,P3, (edit distance,ED)对序列间的差异进行量化。由于 P4〉所需的编辑距离同样为2，然而，两个正常行为不同序列长短和复杂程度各不相同，用于比较的正序列的长度不同，在编辑距离相同的情况下，正常常行为序列的支持度也不相同，仅靠通过计算编辑行为序列的长度越长，当前行为序列和正常行为序距离会造成巨大误差，因此，本文计算相对编辑距列的相似度越高。相对编辑距离可以很好地刻画出离(relative edit distance,Rn)和相对支持度(relative 两序列间的差异程度。 support,.Rsup),进而计算可以得到序列差异分数 3.1.3相对支持度计算 (score of sequence's difference degree),之后根据时对于当前行为序列来说，与其对比的正常行为间规则计算时间异常分数(score of abnormal time), 序列的支持度对评价当前行为序列的差异程度有很通过将二者加权相加得到序列异常度分数，根据决大影响。为了定量刻画这种差异，定义相对支持度策者的阈值可以对异常序列进行发现。 Rup为2 问题描述 2.1 路径序列数据由于门禁系统的存在，每个人的卡会由管理人员统一进行授权，只被允许访问特定的区域。当一个人进入某个区域时，需要预先刷卡，门禁系统会将当前刷卡时间、刷卡人姓名、卡号、刷卡地点等重要信息进行记录。对于内部人员来说，他们的行为路径是本文进行异常行为分析的重要对象，将一个人每天的刷卡地点按顺序进行采集，即可得到一个人每天的行为序列。 2.2 正常路径序列数据对一个人来说，每天工作的流程是基本确定的，因此每天的行为路径序列应该有较大的相似性。例如，对于一个老师来说，每天来到办公室后，在短暂准备后会去实验室和学生讨论问题，之后再回到办公室备课或完成论文等，这样就形成了“办公室—实验室—办公室”的行为序列。将人员访问的门禁点用 pi (i=1, 2, …, n) 表示，按采集顺序排列就可以得到人员的路径序列〈p1 , p2 , …, pi , …, pn〉，之后由决策者人为设定 min_sup，即可将这些数据进行频繁模式挖掘，将支持度高于 min_sup 的行为序列视为正常行为序列，从而得到正常行为序列库。 2.3 序列异常度分数通过精确匹配直接判定异常在数据有一定缺失的情况下会导致极高的误报率，为此，本文引入了序列异常度分数（score of sequence’s abnormal degree），来定量刻画一个正常序列与一个待评判序列之间的差异。序列〈p1 , p2 , p3 , p4〉和〈p1 , p2 , p4 , p3〉以及序列〈p1 , p2 , p3 , p4〉和〈p3 , p5 , p1 , p6〉的差异显然是不同的，传统异常检测方法通过进行精确匹配，将与正常行为序列库中所有内容均不同的序列直接判定为异常，不考虑两个序列之间的差异；为了更好比较两个序列之间的差异，可以采用编辑距离（edit distance，ED）对序列间的差异进行量化。由于不同序列长短和复杂程度各不相同，用于比较的正常行为序列的支持度也不相同，仅靠通过计算编辑距离会造成巨大误差，因此，本文计算相对编辑距离（relative edit distance，RED）和相对支持度（relative support，RSup），进而计算可以得到序列差异分数（score of sequence’s difference degree），之后根据时间规则计算时间异常分数（score of abnormal time），通过将二者加权相加得到序列异常度分数，根据决策者的阈值可以对异常序列进行发现。 3 异常序列挖掘对于序列的异常程度，本模型从两个方面来考虑：一方面是当前行为序列与正常行为序列库中的序列的差异程度，即序列差异分数，这需要考虑相对编辑距离大小和相对支持度大小；另一方面是刷卡的时间因素，包括刷卡行为的发生时间和过于短暂的刷卡时间间隔两个方面。 3.1 序列差异分数 3.1.1 正常行为序列库建立为了定量刻画异常序列的异常程度，首先应进行正常序列库的建立。通过利用 PrefixSpan 算法，设定合理的最小支持度 min_sup（通常为 20% 左右），对预处理后得到的行为序列进行频繁模式挖掘，可以得到行为序列中的高频序列。对于一个部门来说，在常年的正常运行中已基本形成固定的行为模式，每名员工在岗位不变的情况下均会形成自身固定的行为模式（例如先去实验室 a，后去实验室 b），因而通过对大量数据进行频繁模式挖掘得到的高频行为序列可以被认为是正常行为序列。 3.1.2 相对编辑距离计算 RED 将一个序列变换成另一个序列，其可能的最大编辑距离为正常行为序列长度和当前行为序列长度中较大的那个。为了更好比较不同序列进行变换时需要的编辑距离的相对大小，计算相对编辑距离公式为 RED ( q t i ,q n j ) = ED( q t i ,q n j ) Max( q t i |,|q n j ) (1) q t i q n j q t i q n j 式中：ED 为编辑距离函数，为测试序列中的第 i 条序列，为正常序列库中的第 j 条序列，| |和 | |为相应序列的序列长度。相对编辑距离可以有效比较在编辑距离相同时两序列之间的差距。例如，将序列〈p1 , p2 , p3〉变换为〈p1 , p2 , p3 , p4〉所需的编辑距离为 2，将序列〈p1 , p2〉变换为〈p1 , p2 , p3 , p4〉所需的编辑距离同样为 2，然而，两个正常行为序列的长度不同，在编辑距离相同的情况下，正常行为序列的长度越长，当前行为序列和正常行为序列的相似度越高。相对编辑距离可以很好地刻画出两序列间的差异程度。 3.1.3 相对支持度计算 Rsup 对于当前行为序列来说，与其对比的正常行为序列的支持度对评价当前行为序列的差异程度有很大影响。为了定量刻画这种差异，定义相对支持度为第 6 期王培超，等：基于门禁日志挖掘的内部威胁异常行为分析 ·783·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于门禁日志挖掘的内部威胁异常行为分析