正在加载图片...
·892· 智能系统学报 第13卷 题,只保留了那些只包含95个可打印ASCI字符 的密码(出于用户使用习惯考虑),这一步滤除掉 30*10s e。Myspace 了少量的密码;3)我们对这些密码进行了长度的 25 Renren 统计分析,如图1所示。对于以上提到的密码数 ◆◆Rockyou 20 据集,我们发现任何一个密码数据集来说,大部 母Csdn Yahoo 分的密码长度都集中在[5,15]的范围内(对于本文 15 中采用到的密码数据集来说,密码长度分布在[5,1 10 区段内的数量都占据了总数的95%以上)。这是 因为一方面大部分网站在要求用户输入密码时, 都有最短长度限制,另一方面,对于大多数用户 1015202530 在设定密码时,为了方便自己记忆和输入,也不 密码长度 会选择长的密码。因此我们进一步只选取了长 图15个公开泄露的密码数据集的密码长度分布情况 度(不包括换行符)在[5,15]的密码作为我们的实 Fig.1 The password length distribution of the five leaked 验数据。最终的密码集细节情况如表1所示。 passwords dataset 表1密码数据集的统计以及数据清理情况 Table 1 Statistic of password datasets and data clean 全部被移除的 密码集 原始密码数 密码过滤 非ASCⅡ数量 长度在[5,15] 百分比% CSDN 6428632 6427077 1555 6349908 1.20 RenRen 4768599 4766815 1784 4549974 4.55 Rockyou 14344297 14259461 84836 14006368 1.77 Yahoo 453492 453346 146 438212 3.34 Myspace 37144 36874 270 36215 1.24 3实验及结果分析 集从密码长度和密码字符结构类型进行了统计分 析。图2(a)~(e)分别表示Rockyou、CSDN、Ren- 3.1PG-RNN的训练与数据切分 Ren、Yahoo、Myspace的训练数据集和生成的不同 为评估PG-RNN模型效果,我们对密码数据 量级的新密码集合在不同密码长度(5~15)上的数 集进行了随机切分:70%密码用于训练,30%用 量分布情况。 于测试。以Rockyou密码数据集为例,70%的训 103 练数据(一共有9804818个无重复密码),30%的 10 测试数据(一共4201550个无重复密码),对于其 总10 他数据集,我们也做了同样的处理。 神经网络通过在训练过程中不断地迭代,逐 步学习到数据特征。考虑到我们收集到的数据集 10 之间大小差异巨大,而数据集的大小对于网络的 10 81012 1416 训练次数是有着至关重要的影响。在实际训练过 密码长度 (a)Rockyou 程中,发现PG-RNN网络迭代到约1.5个Epoch之 --训练集 后,误差就不再下降了,网络性能也达到了相对 10 新密 稳定阶段。因此根据每个数据集的大小,我们选 一新密码集2 10 择设置不同的迭代次数。 3.2 新生成密码长度分布和字符结构评估 10 密码长度和密码字符结构类型一直是衡量密 10 码特性的重要指标。在该小节中,我们参考了文献[⑤ 10 4 8 1012 14 16 的方法。对Rockyou、CSDN、RenRen、Yahoo、 密码长度 Myspace原始数据集以及各自新生成的密码数据 (b)CSDN题,只保留了那些只包含 95 个可打印 ASCII 字符 的密码 (出于用户使用习惯考虑),这一步滤除掉 了少量的密码;3) 我们对这些密码进行了长度的 统计分析,如图 1 所示。对于以上提到的密码数 据集,我们发现任何一个密码数据集来说,大部 分的密码长度都集中在[5, 15]的范围内 (对于本文 中采用到的密码数据集来说,密码长度分布在[5, 15] 区段内的数量都占据了总数的 95% 以上)。这是 因为一方面大部分网站在要求用户输入密码时, 都有最短长度限制,另一方面,对于大多数用户 在设定密码时,为了方便自己记忆和输入,也不 会选择长的密码。因此我们进一步只选取了长 度 (不包括换行符) 在[5, 15]的密码作为我们的实 验数据。最终的密码集细节情况如表 1 所示。 3 实验及结果分析 3.1 PG-RNN 的训练与数据切分 为评估 PG-RNN 模型效果,我们对密码数据 集进行了随机切分:70% 密码用于训练,30% 用 于测试。以 Rockyou 密码数据集为例,70% 的训 练数据 (一共有 9 804 818 个无重复密码),30% 的 测试数据 (一共 4 201 550 个无重复密码),对于其 他数据集,我们也做了同样的处理。 神经网络通过在训练过程中不断地迭代,逐 步学习到数据特征。考虑到我们收集到的数据集 之间大小差异巨大,而数据集的大小对于网络的 训练次数是有着至关重要的影响。在实际训练过 程中,发现 PG-RNN 网络迭代到约 1.5 个 Epoch 之 后,误差就不再下降了,网络性能也达到了相对 稳定阶段。因此根据每个数据集的大小,我们选 择设置不同的迭代次数。 3.2 新生成密码长度分布和字符结构评估 密码长度和密码字符结构类型一直是衡量密 码特性的重要指标。在该小节中,我们参考了文献[5] 的方法。对 Rockyou、CSDN、RenRen、Yahoo、 Myspace 原始数据集以及各自新生成的密码数据 集从密码长度和密码字符结构类型进行了统计分 析。图 2(a) ~ (e) 分别表示 Rockyou、CSDN、Ren￾Ren、Yahoo、Myspace 的训练数据集和生成的不同 量级的新密码集合在不同密码长度 (5~15) 上的数 量分布情况。 表 1 密码数据集的统计以及数据清理情况 Table 1 Statistic of password datasets and data clean 密码集 原始密码数 密码过滤 非 ASCII 数量 长度在[5, 15] 全部被移除的 百分比/% CSDN 6 428 632 6 427 077 1 555 6 349 908 1.20 RenRen 4 768 599 4 766 815 1 784 4 549 974 4.55 Rockyou 14 344 297 14 259 461 84 836 14 006 368 1.77 Yahoo 453 492 453 346 146 438 212 3.34 Myspace 37 144 36 874 270 36 215 1.24 密码数量 密码长度 0 5 10 15 20 25 30 30 25 20 15 10 5 Myspace Renren Rockyou Csdn Yahoo ×105 图 1 5 个公开泄露的密码数据集的密码长度分布情况 Fig. 1 The password length distribution of the five leaked passwords dataset (a) Rockyou (b) CSDN 108 107 106 105 104 103 108 107 106 105 104 103 密码数量 密码数量 4 6 8 10 12 14 16 4 6 8 10 12 14 16 训练集 新密码集 1 新密码集 2 新密码集 3 新密码集 4 密码长度 训练集 新密码集 1 新密码集 2 新密码集 3 新密码集 4 密码长度 ·892· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有