让人担忧的是，密码的使用者总是倾向于设置一些强度低、易猜测的弱密码，例如

正在加载图片...

·890· 智能系统学报第13卷让人担忧的是，密码的使用者总是倾向于设置一络能够很好地学习到文本数据特征，并且生成一些强度低、易猜测的弱密码，例如：abcdefg, 些之前从未出现过的新字符组合。这表明，递归 1234567等。实际上，密码的安全性和方便性之神经网络并不仅仅只是简单的复刻、重现训练数间，总是存在某种程度上的折中：即强密码不容据，而是通过内部的特征表示不同的训练样本，易被攻击破解，但是对于用户来说，很难记忆；而在高维度中综合重构出新的数据。我们的PG 弱密码虽然方便记忆和使用，但却容易被猜到。 RNN模型很大程度上是基于之前的这些方法，旨现阶段大部分网站在用户设定密码时，都会加入在通过小规模泄露密码样本数据，生成更多符合密码强度测试机制（一般分为“弱、中等、强”3个真实用户密码样本分布空间特征的密码，提高密级别)这样的预防措施能够在一定程度上提醒用码猜测算法效率；同时，通过端到端的小模型生户避免设定过于简单的密码。这些机制通常都是成方式，能够有效地扩充密码攻击字典，缩小密基于规则的，比如：要求密码必须包含一个数字、码猜测空间。一个小写字母或者一个特殊字符山，密码长度在预测是一个概率问题，对于一个训练好的RN 6-18位之间等。网络，给定一串输入字符序列，然后计算出下一如何更快、更有效地找到有效的用户密码，个字符的概率分布并且根据概率生成下一个出现一直以来都是一个活跃的研究领域。目前流行的的字符，并将当前时刻的字符作为下一步网络的基于规则的密码猜测工具hash-cat,John the ripper 输人。由于密码本身就是一串字符串，因此，密 TR)P,主要通过原有的密码字典或泄露的密码码的生成和文本生成之间有着非常相似的特点。数据集，加上密码规则的模糊化和变形来生成新最早尝试使用递归神经网络来做密码猜测攻击的的大量近似的密码。文献[4]开发了一种基于模是一篇博客，它的想法是通过一大堆已经被破板结构的密码模型PCFGs.,采用了上下文无关法，解的密码，产生新的、有效的密码，来预测那些还这种方法背后的思想是将密码切分成不同的模板没有被破解的密码。但是遗憾的是，作者只是简结构(e.g,5个小写字母加3个数字)，让终端产生单地搭建了个RNN模型，并没有对模型进行调整的密码符合这样的密码结构。每个生成的密码和修改，每个模型只生成了很少的密码数量，而 P概率等于该密码结构类型的概率P,与各子结且匹配上的密码数量也非常有限，以至于作者对构的概率乘积，例如，如果一个密码由两部分组这种方法可行性表示怀疑。最近，文献[11第1次尝试成：字母+数字，那么该密码的生成概率则为P= 了使用生成对抗网络2l(generative adversarial Pleter PigiPT,值得一提的是，PCFGs模型在针对长 networks,GAN)来进行密码猜测攻击。在生成对密码时有着较好的效果。文献[1]采用一种基于抗网络PassGAN中，生成网络G和对抗网络D采马尔可夫的模型，该模型通过评估n元概率的原用的都是卷积神经网络，生成网络G接受输入作理，在衡量密码强度上性能要优于基于规则的方为噪声向量，前向传播经过卷积层后输出一个长法。文献[6]系统地比较和实现了目前流行的几度为l0的one-hot编码的字符序列。这些字符序种密码猜测的技术来评估密码强度，发现字典攻列经过Softmax非线性函数之后，进入对抗网络击在发现弱密码时最有效，它们能够快速地以哈 D中进行判别。在测试中，文献[11]通过两个网希校验的方法快速检验大量规则相似的密码，而站公开泄露的密码数据集来训练PassGAN 马尔可夫链模型则在强密码时表现更加突出。所模型，然后生成不同数量级别的密码数量，结果有的这些攻击方法随着搜索空间的不断扩大，有显示他们的模型能够在测试密码数据中匹配上一效性会出现指数型的下降刀。定数量的密码。Melicher等提出了一种快速的尽管上述的这些方法，都能够在一定程度上密码猜测方法，他们采用了复杂的3层长短时记弥补人为设定密码规则的一些不足，但是这些方忆(long-short term memory,.LSTM)递归层和两层法往往也包含大量非真实用户设置密码；此外，全连接层的网络来产生新的密码字符序列。在测密码规则的确立和启发式探索依然需要大量密码评中，文献[13]基于蒙特卡罗仿真的方法：在一个专家的参与。对于人为设定的密码，在一定程度非常大的数量范围内(10°~10)，对模型在5组密上，可以将其看成语言的延伸，因此，明文密码的码长度、字符类型都不同的测试数据上进行测设置习惯依然符合人类的表达习惯；在本文中我试，结果表明他们的方法性能要优于基于字典和们希望能够直接、有效地挖掘出密码的一些内在规则的Hash-cat与JTR,以及基于概率的PCFGs 的规律或特征。文献[8-9]中，展示了递归神经网 Markov模型。让人担忧的是，密码的使用者总是倾向于设置一些强度低、易猜测的弱密码，例如： abcdefg， 1234567 等。实际上，密码的安全性和方便性之间，总是存在某种程度上的折中：即强密码不容易被攻击破解，但是对于用户来说，很难记忆；而弱密码虽然方便记忆和使用，但却容易被猜到。现阶段大部分网站在用户设定密码时，都会加入密码强度测试机制 (一般分为“弱、中等、强”3 个级别) 这样的预防措施能够在一定程度上提醒用户避免设定过于简单的密码。这些机制通常都是基于规则的，比如：要求密码必须包含一个数字、一个小写字母或者一个特殊字符[1] ，密码长度在 6~18 位之间等。如何更快、更有效地找到有效的用户密码，一直以来都是一个活跃的研究领域。目前流行的基于规则的密码猜测工具 hash-cat，John the ripper (JTR)[2-3] , 主要通过原有的密码字典或泄露的密码数据集，加上密码规则的模糊化和变形来生成新的大量近似的密码。文献[4]开发了一种基于模板结构的密码模型 PCFGs，采用了上下文无关法, 这种方法背后的思想是将密码切分成不同的模板结构 (e.g.，5 个小写字母加 3 个数字)，让终端产生的密码符合这样的密码结构。每个生成的密码 P 概率等于该密码结构类型的概率 PT 与各子结构的概率乘积，例如，如果一个密码由两部分组成：字母+数字，那么该密码的生成概率则为 P= PletterPdigitPT，值得一提的是，PCFGs 模型在针对长密码时有着较好的效果。文献[1]采用一种基于马尔可夫的模型，该模型通过评估 n 元概率的原理，在衡量密码强度上性能要优于基于规则的方法。文献[6]系统地比较和实现了目前流行的几种密码猜测的技术来评估密码强度，发现字典攻击在发现弱密码时最有效，它们能够快速地以哈希校验的方法快速检验大量规则相似的密码，而马尔可夫链模型则在强密码时表现更加突出。所有的这些攻击方法随着搜索空间的不断扩大，有效性会出现指数型的下降[7]。尽管上述的这些方法，都能够在一定程度上弥补人为设定密码规则的一些不足，但是这些方法往往也包含大量非真实用户设置密码[5] ；此外，密码规则的确立和启发式探索依然需要大量密码专家的参与。对于人为设定的密码，在一定程度上，可以将其看成语言的延伸，因此，明文密码的设置习惯依然符合人类的表达习惯；在本文中我们希望能够直接、有效地挖掘出密码的一些内在的规律或特征。文献[8-9]中，展示了递归神经网络能够很好地学习到文本数据特征，并且生成一些之前从未出现过的新字符组合。这表明，递归神经网络并不仅仅只是简单的复刻、重现训练数据，而是通过内部的特征表示不同的训练样本，在高维度中综合重构出新的数据。我们的 PGRNN 模型很大程度上是基于之前的这些方法，旨在通过小规模泄露密码样本数据，生成更多符合真实用户密码样本分布空间特征的密码，提高密码猜测算法效率；同时，通过端到端的小模型生成方式，能够有效地扩充密码攻击字典，缩小密码猜测空间。预测是一个概率问题，对于一个训练好的 RNN 网络，给定一串输入字符序列，然后计算出下一个字符的概率分布并且根据概率生成下一个出现的字符，并将当前时刻的字符作为下一步网络的输入。由于密码本身就是一串字符串，因此，密码的生成和文本生成之间有着非常相似的特点。最早尝试使用递归神经网络来做密码猜测攻击的是一篇博客[10] ，它的想法是通过一大堆已经被破解的密码，产生新的、有效的密码，来预测那些还没有被破解的密码。但是遗憾的是，作者只是简单地搭建了个 RNN 模型，并没有对模型进行调整和修改，每个模型只生成了很少的密码数量，而且匹配上的密码数量也非常有限，以至于作者对这种方法可行性表示怀疑。最近，文献[11]第 1 次尝试了使用生成对抗网络[12] (generative adversarial networks, GAN) 来进行密码猜测攻击。在生成对抗网络 PassGAN 中，生成网络 G 和对抗网络 D 采用的都是卷积神经网络，生成网络 G 接受输入作为噪声向量，前向传播经过卷积层后输出一个长度为 10 的 one-hot 编码的字符序列。这些字符序列经过 Softmax 非线性函数之后，进入对抗网络 D 中进行判别。在测试中，文献[11]通过两个网站公开泄露的密码数据集来训练 PassGAN 模型，然后生成不同数量级别的密码数量，结果显示他们的模型能够在测试密码数据中匹配上一定数量的密码。Melicher 等 [13]提出了一种快速的密码猜测方法，他们采用了复杂的 3 层长短时记忆 (long-short term memory, LSTM) 递归层和两层全连接层的网络来产生新的密码字符序列。在测评中，文献[13]基于蒙特卡罗仿真的方法：在一个非常大的数量范围内 (1010~1025)，对模型在 5 组密码长度、字符类型都不同的测试数据上进行测试，结果表明他们的方法性能要优于基于字典和规则的 Hash-cat 与 JTR，以及基于概率的 PCFGs、 Markov 模型。 ·890· 智能系统学报第 13 卷

<<向上翻页向下翻页>>

点击下载：【机器学习】PG-RNN一种基于递归神经网络的密码猜测模型