正在加载图片...
·784· 智能系统学报 第12卷 log(C(gl》 为序列库中每一条序列进行比较,从而得到序列差 R()=log(Max.) (2) 异分数score: 式中:Cwp(g)为正常序列库中第i条序列的支持度, 1)当相对编辑距离计算结果中存在0时,意味 Maxp为正常行为序列库中最大的支持度;取对数 着当前行为序列与正常行为序列库中的序列存在完 可以减少因支持度间差距太大导致的分数过小。相 全一致的情况,因此此时序列差异分数为0: 2)当相对编辑距离计算结果中不存在0时,意 对支持度越高,证明人员日常行为与当前正常行为 味着当前行为序列与正常行为序列库中的序列不存 序列存在差异时,日常行为序列的异常程度越大。 在完全一致的情况,这时考虑当前行为序列与正常 3.1.4序列差异分数计算 行为序列库中所有序列的整体差别,对计算出的多 相对编辑距离和相对支持度两方面在计算序列 个得分求平均值,从而得到该行为序列偏离正常行 差异分数时都需要考虑。当前行为序列应与正常行 为序列的总体程度: 0,3R(4,94)=0 score(4i,4))= Main su (3) mean( 100Rp(g)R(g,g),YRD(g,g))≠0 式中:Mmmp为在当前最小支持度下的正常行为序 间隔与累计频率的关系函数,刷卡时间间隔对应的 列库中行为序列的总数;mean为求平均值,可得出 累计频率越大,意味着该刷卡间隔过短的可能性越 该条测试序列与正常行为序列库中所有行为序列的 小,计算分数时使用式(4): 整体差距。 score2 (q)= 3.2时间异常分数 -1 (1-f(△t) 3.2.1时间规则 IMin(0,t;-threshold) 100× N-1 thresholdl 2 通过序列差异分数只能对序列的次序异常进行 刻画,由于没有考虑时间,对于异常的发现存在 (4) 定的缺陷。定义时间异常规则如下: 式中:∫为拟合出的函数,△1为当天的第k时间间隔 1)异常时间段进人:用户在非正常时间段进入 (min),threshold为设定的异常时间阈值,t,为第i 某地。 天最早的刷卡时间,N,为门禁测试序列中第1天的 2)刷卡间隔过短:两次刷卡时间间隔过于短 记录总数。 暂,异于平常。 3.3序列异常度分数 这两种异常利用序列差异分数的方法是无法发 3.3.1序列异常度分数计算 现的,例如,对于序列〈P1P1P1P2〉,当对编号p1的 序列异常度分数由序列差异分数和时间异常分 设备在10s内刷卡3次时,这种行为显然是异常的: 数两部分构成,计算第ⅰ条测试序列的序列异常度 然而,这条序列可能出现在构建的正常行为序列库 分数采用的方法如下: 中,因为用户在一天内对设备刷卡3次的行为是正 score(g)=a.scorei (qi,q")+(1-a).score2 (g)(5) 常的,此种情况使用异常度分数的方法无法发现其 式中:α和1-a为两个子分数的权重,权重可根据决 策者的偏好来决定,缺省值为0.5,即简单平均。 异常,而时间规则却可以很好地将其发现。 3.2.2时间分数计算 3.3.2异常路径行为发现 对于两条时间规则,而对于异常时间的刷卡行 分数计算出来后,人员行为序列的异常程度大 小就有了定量的刻画,而将哪些分数视为异常需要 为,不同部门的工作时间段有不同之处,部门的异 人为定性决定。不同部门的人员最后计算出的分数 常刷卡时间段阈值(threshold)应该根据对该部门的 是不一样的,直接对所有人员划定统一的异常分数 正常运行时间进行人为设定,当某天的刷卡时间出 阈值会导致高误报率,同一部门的人只有在同一部 现在异常时间段内时,根据出现时间与阈值之间的 门中进行比较才有较大的说服力;频繁序列的 相对差距来计算二者之间的分数:刷卡间隔为门禁 min_sup的设定也是一个问题,不同min_sup会对 系统中同一天内两条数据之间的时间差(min),对 最后计算得到的分数产生一定的影响。为了给决策 于刷卡间隔过短的异常,本文根据该部门的整体刷 者进行决策提供更好的支持,应为决策者提供在不 卡间隔情况来确定。通过绘制刷卡间隔与累积频率 同支持度下设定不同阈值时产生的报警率,为此, 的曲线,并将此曲线进行拟合,可以得到刷卡时间 本文通过绘制不同min sup下的报警率曲线来为决Rsup ( q n j ) = log(Csup ( q n j )) log(Maxsup) (2) Csup ( q n j ) Maxsup 式中: 为正常序列库中第 i 条序列的支持度, 为正常行为序列库中最大的支持度;取对数 可以减少因支持度间差距太大导致的分数过小。相 对支持度越高,证明人员日常行为与当前正常行为 序列存在差异时,日常行为序列的异常程度越大。 3.1.4 序列差异分数计算 相对编辑距离和相对支持度两方面在计算序列 差异分数时都需要考虑。当前行为序列应与正常行 为序列库中每一条序列进行比较,从而得到序列差 异分数 score1: 1)当相对编辑距离计算结果中存在 0 时,意味 着当前行为序列与正常行为序列库中的序列存在完 全一致的情况,因此此时序列差异分数为 0; 2)当相对编辑距离计算结果中不存在 0 时,意 味着当前行为序列与正常行为序列库中的序列不存 在完全一致的情况,这时考虑当前行为序列与正常 行为序列库中所有序列的整体差别,对计算出的多 个得分求平均值,从而得到该行为序列偏离正常行 为序列的总体程度: score1 ( q t i ,q n ) =    0,∃RED ( q t i ,q n j ) = 0 mean( M∑min_sup j=1 100Rsup ( q n j ) RED ( q t i ,q n j ) ),∀RED ( q t i ,q n j ) , 0 (3) 式中:Mmin_sup 为在当前最小支持度下的正常行为序 列库中行为序列的总数;mean 为求平均值,可得出 该条测试序列与正常行为序列库中所有行为序列的 整体差距。 3.2 时间异常分数 3.2.1 时间规则 通过序列差异分数只能对序列的次序异常进行 刻画,由于没有考虑时间,对于异常的发现存在一 定的缺陷。定义时间异常规则如下: 1)异常时间段进入:用户在非正常时间段进入 某地。 2)刷卡间隔过短:两次刷卡时间间隔过于短 暂,异于平常。 这两种异常利用序列差异分数的方法是无法发 现的,例如,对于序列〈p1 ,p1 ,p1 ,p2〉,当对编号 p1 的 设备在 10 s 内刷卡 3 次时,这种行为显然是异常的; 然而,这条序列可能出现在构建的正常行为序列库 中,因为用户在一天内对设备刷卡 3 次的行为是正 常的,此种情况使用异常度分数的方法无法发现其 异常,而时间规则却可以很好地将其发现。 3.2.2 时间分数计算 对于两条时间规则,而对于异常时间的刷卡行 为,不同部门的工作时间段有不同之处,部门的异 常刷卡时间段阈值(threshold)应该根据对该部门的 正常运行时间进行人为设定,当某天的刷卡时间出 现在异常时间段内时,根据出现时间与阈值之间的 相对差距来计算二者之间的分数;刷卡间隔为门禁 系统中同一天内两条数据之间的时间差(min),对 于刷卡间隔过短的异常,本文根据该部门的整体刷 卡间隔情况来确定。通过绘制刷卡间隔与累积频率 的曲线,并将此曲线进行拟合,可以得到刷卡时间 间隔与累计频率的关系函数,刷卡时间间隔对应的 累计频率越大,意味着该刷卡间隔过短的可能性越 小,计算分数时使用式 (4): score2 ( q t i ) = 100×   N∑i−1 k=1 (1− f (∆tk)) Ni −1 + |Min(0,ti −threshold)| |threshold|   × 1 2 (4) 式中:f 为拟合出的函数,Δtk 为当天的第 k 时间间隔 (min),threshold 为设定的异常时间阈值,ti 为第 i 天最早的刷卡时间,Ni 为门禁测试序列中第 i 天的 记录总数。 3.3 序列异常度分数 3.3.1 序列异常度分数计算 序列异常度分数由序列差异分数和时间异常分 数两部分构成,计算第 i 条测试序列的序列异常度 分数采用的方法如下: score ( q t i ) = α·score1 ( q t i ,q n ) +(1−α)·score2 ( q t i ) (5) 式中:α 和 1-α 为两个子分数的权重,权重可根据决 策者的偏好来决定,缺省值为 0.5,即简单平均。 3.3.2 异常路径行为发现 分数计算出来后,人员行为序列的异常程度大 小就有了定量的刻画,而将哪些分数视为异常需要 人为定性决定。不同部门的人员最后计算出的分数 是不一样的,直接对所有人员划定统一的异常分数 阈值会导致高误报率,同一部门的人只有在同一部 门中进行比较才有较大的说服力;频繁序列的 min_sup 的设定也是一个问题,不同 min_sup 会对 最后计算得到的分数产生一定的影响。为了给决策 者进行决策提供更好的支持,应为决策者提供在不 同支持度下设定不同阈值时产生的报警率,为此, 本文通过绘制不同 min_sup 下的报警率曲线来为决 ·784· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有