文献[11]中是 3 094 199，计算比例时是相对于各自的测试集密码

正在加载图片...

第6期滕南君，等：PG-RNN:一种基于递归神经网络的密码猜测模型 ·895· 文献[11]中是3094199，计算比例时是相对于各从表格中看出，我们的PG-RNN模型针对不同的自的测试集密码数而言，这样比较起来相对公数据集都有较好的效果。此外，可以预见的是随平)。对比两个模型的第3、4行数据结果，PG- 着生成数量的进一步增大，能够匹配上的数目会 RNN在生成密码数量上与PassGAN相同的情况进一步增加。而针对PG-RNN模型在Myspace数下，依然能够获得比PassGAN大的在测试集的覆据集上的表现相对于在其他数据集表现较差的原盖率，甚至超过了1.2%，这进一步说明本文提出因，我们分析主要在于神经网络的训练是高度依的PG-RNN模型是非常具有竞争力的。需要指赖于数据的，因而对于数据量较多的情况能够学出的是，PassGAN使用了复杂的多层残差卷积神习到更多的特征，而我们收集到的Myspace数据经网络，在网络模型复杂度和训练难度上都要远集太小，因此数据集体现的统计特征并不明显，如远高于PG-RNN模型。表6。但是，总的来说，基于递归神经网络的模型除了Rockyou数据集，我们也在表5~6中，相对于人为设定规则和Markov等方法，具备更强列出了我们的模型在其他数据集上的测试结果。的发掘密码特征能力。表5对比PG-RNN和PassGAN的生成密码在Rockyou测试集上的评估结果 Table 5 The evaluation results between PG-RNN and PassGAN on Rockyou test dataset 生成的密码总数在测试集中不在训练集中的在测试集中的在测试集中不在训练集中的在测试集中的生成模型 (无重复) 密码数量（有重复）比例% 密码数量（无重复）无重复比例/% 515431 7065 0.168 6943 0.165 4144913 59228 1.410 51850 1.234 PG-RNN 10969748 140835 3.352 118551 2.822 80245649 1034121 24.613 396314 9.433 182036 2039 0.10 1850 0.094 1357874 12489 0.60 11398 0.576 Pass-GAN 10969748 58682 2.88 54325 2.746 80245649 172997 8.51 162652 8.221 表6PG-RNN在其他密码数据集上的评估结果 Table 6 The evaluation results of PG-RNN on other datasets 数据集生成的总密码数在测试集中不在训练集中的在测试集上匹在测试集中不在训练集中的在测试集上无重复名称 (无重复) 密码（有重复）配度% 密码（无重复）匹配度% CSDN 36913159 201304 15.17 48705 3.67 RenRen 16685460 271287 28.44 82202 8.62 Yahoo 15294620 11824 10.57 3975 3.55 Myspace 762163 321 2.93 189 1.72 4结束语同密码规模情况下，都能够较好地在密码结构字本文提出了一种基于递归神经网络的密码猜符类型，密码长度分布等特征上接近原始训练数测模型。在网上公开的泄露密码数据集（包括据的。此外，在Rockyou数据集上，我们的PG-RNN Rockyou、CSDN、RenRen、Yahoo、Myspace)上对模型在生成数据规模相当的情况下，在测试集中模型进行了一系列的训练、测试：实验结果表明，匹配超过11%的密码个数，相对于PassGAN模当在泄露密码数据上训练后，针对字符级别建模型，超过了12%。我们的下一步工作主要分为以的递归神经网络模型提供了一种端到端的密码生下两个方面：I)尝试其他的RNN网络结构，并分成解决方法，能够很好地用来生成大量密码，从析其在不同的结构在密码猜测上的效果；2)进一而方便破译出更多潜在密码。步观察RNN模型在生成密码时的内部数据表示我们的模型针对不同的数据集，以及生成不状态。文献[11]中是 3 094 199，计算比例时是相对于各自的测试集密码数而言，这样比较起来相对公平)。对比两个模型的第 3、4 行数据结果，PGRNN 在生成密码数量上与 PassGAN相同的情况下，依然能够获得比 PassGAN 大的在测试集的覆盖率，甚至超过了 1.2%，这进一步说明本文提出的 PG-RNN 模型是非常具有竞争力的。需要指出的是，PassGAN 使用了复杂的多层残差卷积神经网络，在网络模型复杂度和训练难度上都要远远高于 PG-RNN 模型。除了 Rockyou 数据集，我们也在表 5～6 中，列出了我们的模型在其他数据集上的测试结果。从表格中看出，我们的 PG-RNN 模型针对不同的数据集都有较好的效果。此外，可以预见的是随着生成数量的进一步增大，能够匹配上的数目会进一步增加。而针对 PG-RNN 模型在 Myspace 数据集上的表现相对于在其他数据集表现较差的原因，我们分析主要在于神经网络的训练是高度依赖于数据的，因而对于数据量较多的情况能够学习到更多的特征，而我们收集到的 Myspace 数据集太小，因此数据集体现的统计特征并不明显，如表 6。但是，总的来说，基于递归神经网络的模型相对于人为设定规则和 Markov 等方法，具备更强的发掘密码特征能力。 4 结束语本文提出了一种基于递归神经网络的密码猜测模型。在网上公开的泄露密码数据集 (包括 Rockyou、CSDN、RenRen、Yahoo、Myspace) 上对模型进行了一系列的训练、测试；实验结果表明，当在泄露密码数据上训练后，针对字符级别建模的递归神经网络模型提供了一种端到端的密码生成解决方法，能够很好地用来生成大量密码，从而方便破译出更多潜在密码。我们的模型针对不同的数据集，以及生成不同密码规模情况下，都能够较好地在密码结构字符类型，密码长度分布等特征上接近原始训练数据的。此外，在 Rockyou 数据集上，我们的 PG-RNN 模型在生成数据规模相当的情况下，在测试集中匹配超过 11% 的密码个数，相对于 PassGAN 模型，超过了 1.2%。我们的下一步工作主要分为以下两个方面：1) 尝试其他的 RNN 网络结构，并分析其在不同的结构在密码猜测上的效果；2) 进一步观察 RNN 模型在生成密码时的内部数据表示状态。表 5 对比 PG-RNN 和 PassGAN 的生成密码在 Rockyou 测试集上的评估结果 Table 5 The evaluation results between PG-RNN and PassGAN on Rockyou test dataset 生成模型生成的密码总数 (无重复) 在测试集中不在训练集中的密码数量 (有重复) 在测试集中的比例/% 在测试集中不在训练集中的密码数量 (无重复) 在测试集中的无重复比例/% PG-RNN 515 431 7 065 0.168 6 943 0.165 4 144 913 59 228 1.410 51 850 1.234 10 969 748 140 835 3.352 118 551 2.822 80 245 649 1 034 121 24.613 396 314 9.433 Pass-GAN 182 036 2 039 0.10 1 850 0.094 1 357 874 12 489 0.60 11 398 0.576 10 969 748 58 682 2.88 54 325 2.746 80 245 649 172 997 8.51 162 652 8.221 表 6 PG-RNN 在其他密码数据集上的评估结果 Table 6 The evaluation results of PG-RNN on other datasets 数据集名称生成的总密码数 (无重复) 在测试集中不在训练集中的密码 (有重复) 在测试集上匹配度/% 在测试集中不在训练集中的密码 (无重复) 在测试集上无重复匹配度/% CSDN 36 913 159 201 304 15.17 48 705 3.67 RenRen 16 685 460 271 287 28.44 82 202 8.62 Yahoo 15 294 620 11 824 10.57 3 975 3.55 Myspace 762 163 321 2.93 189 1.72 第 6 期滕南君，等：PG-RNN: 一种基于递归神经网络的密码猜测模型 ·895·

<<向上翻页向下翻页>>

点击下载：【机器学习】PG-RNN一种基于递归神经网络的密码猜测模型