正在加载图片...
第6期 王培超,等:基于门禁日志挖掘的内部威胁异常行为分析 ·785· 策者提供决策依据,决策者可以自行决定需要设定 表2门禁数据属性说明 的min sup和异常分数阈值。 Table 2 Instruction on attributes of access control system 3.3.3序列异常度分数计算示例 属性 说明 假设对某部门一个月的行为序列数据进行频繁 模式挖掘,得到表1结果。 刷卡时间 记录在门禁系统中的进入某地的时间 设备名称 门禁设备的安放地点 表1测试用正常行为序列库 Table 1 Testing normal sequences library 设备编号 与设备名称是一对多的关系 行为序列 支持度计数 设备类型 有普通门禁和密码门禁两种 Pi,p2 P3,P4.Ps 15 用户姓名 每名用户的真实姓名 P1,P3,P2,P4 3 用户编号 每个持卡用户的唯一编号 P2s P3,Ps 19 群组 用户所在的部门 开门方式 用户打开门的方式,有按钮开门、刷卡开门等 给定测试路径序列为〈P1,P2,P5〉,设定异常刷 卡时间段阈值为早上7点,刷卡时间间隔与累计频 开门结果 成功或失败 率的对应函数为f(△)=0.18×(2.11×△)”,刷卡时 卡片号码 每张卡片对应的唯一号码 间序列为〈2012-3-17:30:12,2012-3-18:02:18, 由于系统延迟,数据库相应群组数据更新的 操作时间 2012-3-18:06:24),测试阈值设定为41,权重a 实际时间 设定为0.5。将测试路径分别与3条行为序列进行 操作人 数据库管理者,均为SYSTEM 比较: log(15).2 在门禁系统中,总共有103个记录点,但是由 scorel= 1og(19) ×100=36.79 于系统存在较大问题,很多门禁点在记录数据时存 log(3) 2 在不同程度的丢失现象,而且不同群组的数据记录 scoreb= log(19) 4×100=18.66 情况也各不相同,为了建立可以反映用户正常行为 1og(19) 2 score.=iog19×5×100=6.67 的行为序列,需要大量的数据,因此需要寻找数据 (36.79+18.66+66.67) 缺失最少的群组来进行正常路径行为模型建立。当 score 3 =40.71 使用有大量数据缺失的群组时,会导致极高的误报 接下来计算时间异常分数: 率。导出数据后,通过观察可以发现,群组A(部门 [(1-f(32.1)+(1-f(4.1),nl1 scoerz =100x 2+02-18.33 A)数据缺失较少,因而接下来的实验中使用部门 2 A的数据。 最后计算得到测试序列的序列异常度分数: 4.2正常路径行为模型建立 score=40.71×0.5+18.33×0.5=29.52 分数低于阈值,因此该序列被标记为正常。 本实验对部门A的数据进行了采集,该部门是 日常工作流程的关键部门之一,应当进行高度关 4实验结果及分析 注。并且,部门中的每个人在数据采集期间没有出 现工作变动的情况,长期工作性质未变,最终得到 为了验证本文所提分数计算方法的有效性,在 的正常行为序列库可以较好地反映出部门人员的正 python2.7和MATLAB2014a的环境下进行实验,实 验数据来自某涉密场所2012一2016年的门禁日志 常行为。通过对部门A在2012一2014年的数据进 记录。 行处理,并设定min sup为200到350的非连续整 4.1数据预处理 数,分别在不同支持度下对行为序列进行频繁序列 本文数据来自某单位的门禁系统,其系统记录 挖掘。通过数据预处理,得到每天的行为序列(共 的门禁数据属性如表2所示。其中,对本文的实验 1049条)后,建立该部门在不同支持度下的正常行 有帮助的属性有刷卡时间、设备名称、群组、用户姓 为序列库。如表3所示。 名、卡片号码、用户编号,6个属性中,最后两个是 在3年时间里,该部门的刷卡间隔数据共有 在找出异常序列后进行精确定位时使用,其余属性 38180条,而刷卡间隔在1h内的记录有32585条, 的去除原因为重复或与题目无关。门禁系统无法没 占总记录数的85.34%,因此认为超过1h的刷卡时 有对异常行为进行标记,因此无法通过传统的分类 间间隔不存在刷卡时间间隔过短的情况,统计1h 方法对异常行为进行模型的构建。 内的刷卡间隔与累积频率,结果如图1所示。策者提供决策依据,决策者可以自行决定需要设定 的 min_sup 和异常分数阈值。 3.3.3 序列异常度分数计算示例 假设对某部门一个月的行为序列数据进行频繁 模式挖掘,得到表 1 结果。 f (∆t) = 0.18×(2.11×∆t) 0.37 给定测试路径序列为〈p1 , p2 , p5〉,设定异常刷 卡时间段阈值为早上 7 点,刷卡时间间隔与累计频 率的对应函数为 ,刷卡时 间序列为〈2012-3-17:30:12,2012-3-18:02:18, 2012-3-18:06:24〉,测试阈值设定为 41,权重 α 设定为 0.5。将测试路径分别与 3 条行为序列进行 比较: score1a = log(15) log(19) × 2 5 ×100 = 36.79 score1b = log(3) log(19) × 2 4 ×100 = 18.66 score1c = log(19) log(19) × 2 3 ×100 = 66.67 score1 = (36.79+18.66+66.67) 3 = 40.71 接下来计算时间异常分数: scoer2 =100× [ (1− f (32.1))+(1− f (4.1)) 2 +0 ] × 1 2 =18.33 最后计算得到测试序列的序列异常度分数: score = 40.71×0.5+18.33×0.5 = 29.52 分数低于阈值,因此该序列被标记为正常。 4 实验结果及分析 为了验证本文所提分数计算方法的有效性,在 python2.7 和 MATLAB2014a 的环境下进行实验,实 验数据来自某涉密场所 2012—2016 年的门禁日志 记录。 4.1 数据预处理 本文数据来自某单位的门禁系统,其系统记录 的门禁数据属性如表 2 所示。其中,对本文的实验 有帮助的属性有刷卡时间、设备名称、群组、用户姓 名、卡片号码、用户编号,6 个属性中,最后两个是 在找出异常序列后进行精确定位时使用,其余属性 的去除原因为重复或与题目无关。门禁系统无法没 有对异常行为进行标记,因此无法通过传统的分类 方法对异常行为进行模型的构建。 在门禁系统中,总共有 103 个记录点,但是由 于系统存在较大问题,很多门禁点在记录数据时存 在不同程度的丢失现象,而且不同群组的数据记录 情况也各不相同,为了建立可以反映用户正常行为 的行为序列,需要大量的数据,因此需要寻找数据 缺失最少的群组来进行正常路径行为模型建立。当 使用有大量数据缺失的群组时,会导致极高的误报 率。导出数据后,通过观察可以发现,群组 A(部门 A)数据缺失较少,因而接下来的实验中使用部门 A 的数据。 4.2 正常路径行为模型建立 本实验对部门 A 的数据进行了采集,该部门是 日常工作流程的关键部门之一,应当进行高度关 注。并且,部门中的每个人在数据采集期间没有出 现工作变动的情况,长期工作性质未变,最终得到 的正常行为序列库可以较好地反映出部门人员的正 常行为。通过对部门 A 在 2012—2014 年的数据进 行处理,并设定 min_sup 为 200 到 350 的非连续整 数,分别在不同支持度下对行为序列进行频繁序列 挖掘。通过数据预处理,得到每天的行为序列(共 1 049 条)后,建立该部门在不同支持度下的正常行 为序列库。如表 3 所示。 在 3 年时间里,该部门的刷卡间隔数据共有 38 180 条,而刷卡间隔在 1 h 内的记录有 32 585 条, 占总记录数的 85.34%,因此认为超过 1 h 的刷卡时 间间隔不存在刷卡时间间隔过短的情况,统计 1 h 内的刷卡间隔与累积频率,结果如图 1 所示。 表 1 测试用正常行为序列库 Table 1 Testing normal sequences library 行为序列 支持度计数 p1 , p2 , p3 , p4 , p5 15 p1 , p3 , p2 , p4 3 p2 , p3 , p5 19 表 2 门禁数据属性说明 Table 2 Instruction on attributes of access control system 属性 说明 刷卡时间 记录在门禁系统中的进入某地的时间 设备名称 门禁设备的安放地点 设备编号 与设备名称是一对多的关系 设备类型 有普通门禁和密码门禁两种 用户姓名 每名用户的真实姓名 用户编号 每个持卡用户的唯一编号 群组 用户所在的部门 开门方式 用户打开门的方式,有按钮开门、刷卡开门等 开门结果 成功或失败 卡片号码 每张卡片对应的唯一号码 操作时间 由于系统延迟,数据库相应群组数据更新的 实际时间 操作人 数据库管理者,均为SYSTEM 第 6 期 王培超,等:基于门禁日志挖掘的内部威胁异常行为分析 ·785·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有