正在加载图片...
第6期 滕南君,等:PG-RNN:一种基于递归神经网络的密码猜测模型 ·895· 文献[11]中是3094199,计算比例时是相对于各 从表格中看出,我们的PG-RNN模型针对不同的 自的测试集密码数而言,这样比较起来相对公 数据集都有较好的效果。此外,可以预见的是随 平)。对比两个模型的第3、4行数据结果,PG- 着生成数量的进一步增大,能够匹配上的数目会 RNN在生成密码数量上与PassGAN相同的情况 进一步增加。而针对PG-RNN模型在Myspace数 下,依然能够获得比PassGAN大的在测试集的覆 据集上的表现相对于在其他数据集表现较差的原 盖率,甚至超过了1.2%,这进一步说明本文提出 因,我们分析主要在于神经网络的训练是高度依 的PG-RNN模型是非常具有竞争力的。需要指 赖于数据的,因而对于数据量较多的情况能够学 出的是,PassGAN使用了复杂的多层残差卷积神 习到更多的特征,而我们收集到的Myspace数据 经网络,在网络模型复杂度和训练难度上都要远 集太小,因此数据集体现的统计特征并不明显,如 远高于PG-RNN模型。 表6。但是,总的来说,基于递归神经网络的模型 除了Rockyou数据集,我们也在表5~6中, 相对于人为设定规则和Markov等方法,具备更强 列出了我们的模型在其他数据集上的测试结果。 的发掘密码特征能力。 表5对比PG-RNN和PassGAN的生成密码在Rockyou测试集上的评估结果 Table 5 The evaluation results between PG-RNN and PassGAN on Rockyou test dataset 生成的密码总数在测试集中不在训练集中的在测试集中的 在测试集中不在训练集中的 在测试集中的 生成模型 (无重复) 密码数量(有重复) 比例% 密码数量(无重复) 无重复比例/% 515431 7065 0.168 6943 0.165 4144913 59228 1.410 51850 1.234 PG-RNN 10969748 140835 3.352 118551 2.822 80245649 1034121 24.613 396314 9.433 182036 2039 0.10 1850 0.094 1357874 12489 0.60 11398 0.576 Pass-GAN 10969748 58682 2.88 54325 2.746 80245649 172997 8.51 162652 8.221 表6PG-RNN在其他密码数据集上的评估结果 Table 6 The evaluation results of PG-RNN on other datasets 数据集生成的总密码数 在测试集中不在训练集中的在测试集上匹在测试集中不在训练集中的在测试集上无重复 名称 (无重复) 密码(有重复) 配度% 密码(无重复) 匹配度% CSDN 36913159 201304 15.17 48705 3.67 RenRen 16685460 271287 28.44 82202 8.62 Yahoo 15294620 11824 10.57 3975 3.55 Myspace 762163 321 2.93 189 1.72 4结束语 同密码规模情况下,都能够较好地在密码结构字 本文提出了一种基于递归神经网络的密码猜 符类型,密码长度分布等特征上接近原始训练数 测模型。在网上公开的泄露密码数据集(包括 据的。此外,在Rockyou数据集上,我们的PG-RNN Rockyou、CSDN、RenRen、Yahoo、Myspace)上对 模型在生成数据规模相当的情况下,在测试集中 模型进行了一系列的训练、测试:实验结果表明, 匹配超过11%的密码个数,相对于PassGAN模 当在泄露密码数据上训练后,针对字符级别建模 型,超过了12%。我们的下一步工作主要分为以 的递归神经网络模型提供了一种端到端的密码生 下两个方面:I)尝试其他的RNN网络结构,并分 成解决方法,能够很好地用来生成大量密码,从 析其在不同的结构在密码猜测上的效果;2)进一 而方便破译出更多潜在密码。 步观察RNN模型在生成密码时的内部数据表示 我们的模型针对不同的数据集,以及生成不 状态。文献[11]中是 3 094 199,计算比例时是相对于各 自的测试集密码数而言,这样比较起来相对公 平)。对比两个模型的第 3、4 行数据结果,PG￾RNN 在生成密码数量上与 PassGAN相同的情况 下,依然能够获得比 PassGAN 大的在测试集的覆 盖率,甚至超过了 1.2%,这进一步说明本文提出 的 PG-RNN 模型是非常具有竞争力的。 需要指 出的是,PassGAN 使用了复杂的多层残差卷积神 经网络,在网络模型复杂度和训练难度上都要远 远高于 PG-RNN 模型。 除了 Rockyou 数据集,我们也在表 5~6 中, 列出了我们的模型在其他数据集上的测试结果。 从表格中看出,我们的 PG-RNN 模型针对不同的 数据集都有较好的效果。此外,可以预见的是随 着生成数量的进一步增大,能够匹配上的数目会 进一步增加。而针对 PG-RNN 模型在 Myspace 数 据集上的表现相对于在其他数据集表现较差的原 因,我们分析主要在于神经网络的训练是高度依 赖于数据的,因而对于数据量较多的情况能够学 习到更多的特征,而我们收集到的 Myspace 数据 集太小,因此数据集体现的统计特征并不明显,如 表 6。但是,总的来说,基于递归神经网络的模型 相对于人为设定规则和 Markov 等方法,具备更强 的发掘密码特征能力。 4 结束语 本文提出了一种基于递归神经网络的密码猜 测模型。在网上公开的泄露密码数据集 (包括 Rockyou、CSDN、RenRen、Yahoo、Myspace) 上对 模型进行了一系列的训练、测试;实验结果表明, 当在泄露密码数据上训练后,针对字符级别建模 的递归神经网络模型提供了一种端到端的密码生 成解决方法,能够很好地用来生成大量密码,从 而方便破译出更多潜在密码。 我们的模型针对不同的数据集,以及生成不 同密码规模情况下,都能够较好地在密码结构字 符类型,密码长度分布等特征上接近原始训练数 据的。此外,在 Rockyou 数据集上,我们的 PG-RNN 模型在生成数据规模相当的情况下,在测试集中 匹配超过 11% 的密码个数,相对于 PassGAN 模 型,超过了 1.2%。我们的下一步工作主要分为以 下两个方面:1) 尝试其他的 RNN 网络结构,并分 析其在不同的结构在密码猜测上的效果;2) 进一 步观察 RNN 模型在生成密码时的内部数据表示 状态。 表 5 对比 PG-RNN 和 PassGAN 的生成密码在 Rockyou 测试集上的评估结果 Table 5 The evaluation results between PG-RNN and PassGAN on Rockyou test dataset 生成模型 生成的密码总数 (无重复) 在测试集中不在训练集中的 密码数量 (有重复) 在测试集中的 比例/% 在测试集中不在训练集中的 密码数量 (无重复) 在测试集中的 无重复比例/% PG-RNN 515 431 7 065 0.168 6 943 0.165 4 144 913 59 228 1.410 51 850 1.234 10 969 748 140 835 3.352 118 551 2.822 80 245 649 1 034 121 24.613 396 314 9.433 Pass-GAN 182 036 2 039 0.10 1 850 0.094 1 357 874 12 489 0.60 11 398 0.576 10 969 748 58 682 2.88 54 325 2.746 80 245 649 172 997 8.51 162 652 8.221 表 6 PG-RNN 在其他密码数据集上的评估结果 Table 6 The evaluation results of PG-RNN on other datasets 数据集 名称 生成的总密码数 (无重复) 在测试集中不在训练集中的 密码 (有重复) 在测试集上匹 配度/% 在测试集中不在训练集中的 密码 (无重复) 在测试集上无重复 匹配度/% CSDN 36 913 159 201 304 15.17 48 705 3.67 RenRen 16 685 460 271 287 28.44 82 202 8.62 Yahoo 15 294 620 11 824 10.57 3 975 3.55 Myspace 762 163 321 2.93 189 1.72 第 6 期 滕南君,等:PG-RNN: 一种基于递归神经网络的密码猜测模型 ·895·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有