1 递归神经网络和 PG-RNN 模型参数设置 1.1 递归神经网络递

正在加载图片...

第6期滕南君，等：PG-RNN:一种基于递归神经网络的密码猜测模型 ·891· 1 递归神经网络和PG-RNN模型递归神经网络的训练增加难度。梯度爆炸会带参数设置来RNN网络训练的不稳定性，在实际训练中，梯度爆炸的情况可以通过对梯度进行裁剪（将梯度 1.1递归神经网络限制在一定数值范围内)来有效地控制。后来出递归神经网络(RNN)是一种基于时间序列的现的long short term memory(LSTM),GRU则网络结构，因而能够对具有时间顺序特性的数据是解决了RNN梯度衰减问题。通过改变神经元进行建模。对于字符级别的RNN网络，在每个时内部的结构方式，并且加入中间信息的存储单间步上，输入值为one-hot编码的一维向量（其中，元，使得梯度可以在很长的时间步上传播，输出向量维度由数据集包含的字符种类数决定)，输人与输入之间依赖的时间跨度变大。对于密码猜测数据信息传递到隐层，并更新隐层状态，经过非任务来说，单个密码的长度是有限的（绝大部分线性函数后最后达到输出层，输出一个预测概率 ≤15)。因此，长时间序列上的可依赖性或许并不分布，并通过概率分布的值，确定输出字符的种是我们所需要的，因为对于一个长度有限的密码类。RNN网络可以具有多层隐含层，并且每一层来说，当前字符可能仅仅取决于之前的几个字包含若干个神经元，加上非线性激活函数；因而符，而不是很多个。出于这样的考虑，本文中的整个网络具有非常强大的特征表达能力。在连续 PG-RNN模型采用的是之前没有人尝试过的RNN 多个时间步上，RNN网络能够组合、记录大量的网络结构，从而能够搭建一个轻量化但非常有效信息，从而能够用来进行准确地预测工作。对于地密码猜测模型（整个网络模型参数约0.12M)。某一个特定时间步T的输出，它不仅仅依赖于当 1.2PG-RNN模型参数设置前的输入值，还与T之前的若干步输入有关。举本文提出的PG-RNN模型，参数设置如下：出个例子，一个RNN网络要输出“Beijing”这个字于对训练数据中绝大部分的密码长度的考虑，时符串，我们可能会给该网络输入Beijin,而对于接间序列长度为20：模型采用单层递归神经网络，下来网络要输出的这个字符，根据输出概率分隐层神经元数量为256，两个全连接层；学习率初布，输出字符“g”的概率要显著高于其他候选字始化为0.0l,采用了Adagrad梯度更新算法。符。另外，在输出一串字符之后，我们依赖一个特殊的换行符作为单个密码结束的标志。 2密码数据集分析 RNN网络的整个计算流程如下，给定输入向本文采用的是从公开互联网上收集到的一些量序列X=(x1,x2,,),其中，x代表的是时刻的网站泄露的真实密码数据集合，这些公开的密码输入向量：通过输入一隐层之间的权重矩阵传入集合都是以纯文本xt或者sql格式存在。我们仅网络隐层，加上从上一个时刻隐层传人的状态信仅使用这些数据集中的密码部分，而滤除掉其他息，经过非线性函数后计算出隐层向量序列H= 非相关信息（包括用户注册邮箱或者用户名等）。 (h1,h2,…,hr)和输出序列Y=,y2,3,,r)。具体我们在实验中使用了如下的密码数据集，它们分迭代过程如下： for i=1 to T: 别是Rockyou、.Yahoo、CSDN、RenRen和Myspace h;=tanh(Wax;Wuh1+b) (1) Rockyou密码集包含了2009年12月由于SQL漏 yi=Whi+b 洞遭到了黑客攻击，导致约3200万用户密码，我式中：W表示的是权重矩阵，大小与连接的神经元们收集到大约1400万无重复的密码；2012年，个数有关；W表示隐层与输入层之间的权重矩 Yahoo公司的Voices泄露了大约40万个账号信阵；W表示隐层与隐层之间权重矩阵；W则表示息，CSDN(Chinese software developer network)是目的是隐层与输出层之间的权重矩阵；b、b,分别表前国内最大的T开发者社区，它在2011年发生示的是隐层和输出层的偏置矩阵；tanh是隐层输的数据库泄露事件，有大约600万用户账号和明出值必须经过的非线性函数。文密码被公开。同样是在2011年，国内著名的社递归神经网络的误差通过反向梯度传播算法交平台人人网也被曝遭到黑客攻击，将近500 按照时间步从后往前传递。但是，由于梯度在传万用户账号和密码泄露.此外，还有Myspace网站递过程中需要经过连续地相乘，因此这样的参数泄露的部分数据，大约37000个存在于txt的明关系使得RNN的梯度传播会存在一定的难度。文密码。 Bengio等I16-1证明了梯度在反向传播中，会随着我们对这些数据进行了以下清洗工作。1)剔别时间步的推移呈指数级的衰减或者爆炸问题，给除掉了除密码之外的其他信息；2)考虑到编码问1 递归神经网络和 PG-RNN 模型参数设置 1.1 递归神经网络递归神经网络 (RNN) 是一种基于时间序列的网络结构，因而能够对具有时间顺序特性的数据进行建模。对于字符级别的 RNN 网络，在每个时间步上，输入值为 one-hot 编码的一维向量 (其中，向量维度由数据集包含的字符种类数决定)，输入数据信息传递到隐层，并更新隐层状态，经过非线性函数后最后达到输出层，输出一个预测概率分布，并通过概率分布的值，确定输出字符的种类。RNN 网络可以具有多层隐含层，并且每一层包含若干个神经元，加上非线性激活函数；因而整个网络具有非常强大的特征表达能力。在连续多个时间步上，RNN 网络能够组合、记录大量的信息，从而能够用来进行准确地预测工作。对于某一个特定时间步 T 的输出，它不仅仅依赖于当前的输入值，还与 T 之前的若干步输入有关。举个例子，一个 RNN 网络要输出“Beijing”这个字符串，我们可能会给该网络输入 Beijin，而对于接下来网络要输出的这个字符，根据输出概率分布，输出字符“g”的概率要显著高于其他候选字符。另外，在输出一串字符之后，我们依赖一个特殊的换行符作为单个密码结束的标志。 X = (x1, x2,···, xT ) xi i (h1, h2,···, hT ) Y = (y1, y2, y3,···, yT ) RNN 网络的整个计算流程如下，给定输入向量序列，其中，代表的是时刻的输入向量；通过输入−隐层之间的权重矩阵传入网络隐层，加上从上一个时刻隐层传入的状态信息，经过非线性函数后计算出隐层向量序列 H = 和输出序列。具体迭代过程如下： for i = 1 to T : hi = tanh(Whxxi +Whhhi−1 + bh) yi = Wyhhi + by (1) W Whx Whh Wyh bh by 式中：表示的是权重矩阵，大小与连接的神经元个数有关；表示隐层与输入层之间的权重矩阵；表示隐层与隐层之间权重矩阵；则表示的是隐层与输出层之间的权重矩阵；、分别表示的是隐层和输出层的偏置矩阵；tanh 是隐层输出值必须经过的非线性函数。递归神经网络的误差通过反向梯度传播算法按照时间步从后往前传递。但是，由于梯度在传递过程中需要经过连续地相乘，因此这样的参数关系使得 RNN 的梯度传播会存在一定的难度。 Bengio 等 [16-17]证明了梯度在反向传播中，会随着时间步的推移呈指数级的衰减或者爆炸问题，给 ⩽ 15 递归神经网络的训练增加难度。梯度爆炸会带来 RNN 网络训练的不稳定性，在实际训练中，梯度爆炸的情况可以通过对梯度进行裁剪 (将梯度限制在一定数值范围内) 来有效地控制。后来出现的 long short term memory (LSTM)[14] ，GRU[15]则是解决了 RNN 梯度衰减问题。通过改变神经元内部的结构方式，并且加入中间信息的存储单元，使得梯度可以在很长的时间步上传播，输出与输入之间依赖的时间跨度变大。对于密码猜测任务来说，单个密码的长度是有限的 (绝大部分 )。因此，长时间序列上的可依赖性或许并不是我们所需要的，因为对于一个长度有限的密码来说，当前字符可能仅仅取决于之前的几个字符，而不是很多个。出于这样的考虑，本文中的 PG-RNN 模型采用的是之前没有人尝试过的 RNN 网络结构，从而能够搭建一个轻量化但非常有效地密码猜测模型 (整个网络模型参数约 0.12 M)。 1.2 PG-RNN 模型参数设置本文提出的 PG-RNN 模型，参数设置如下：出于对训练数据中绝大部分的密码长度的考虑，时间序列长度为 20；模型采用单层递归神经网络，隐层神经元数量为 256，两个全连接层；学习率初始化为 0.01，采用了 Adagrad 梯度更新算法。 2 密码数据集分析本文采用的是从公开互联网上收集到的一些网站泄露的真实密码数据集合, 这些公开的密码集合都是以纯文本 txt 或者 sql 格式存在。我们仅仅使用这些数据集中的密码部分，而滤除掉其他非相关信息 (包括用户注册邮箱或者用户名等)。我们在实验中使用了如下的密码数据集，它们分别是 Rockyou、Yahoo、CSDN、RenRen 和 Myspace[18-20]。 Rockyou 密码集包含了 2009 年 12 月由于 SQL 漏洞遭到了黑客攻击，导致约 3 200 万用户密码，我们收集到大约 1 400 万无重复的密码；2012 年， Yahoo 公司的 Voices 泄露了大约 40 万个账号信息，CSDN(Chinese software developer network) 是目前国内最大的 IT 开发者社区，它在 2011 年发生的数据库泄露事件，有大约 600 万用户账号和明文密码被公开。同样是在 2011 年，国内著名的社交平台人人网也被曝遭到黑客攻击，将近 500 万用户账号和密码泄露. 此外，还有 Myspace 网站泄露的部分数据，大约 37 000 个存在于 txt 的明文密码。我们对这些数据进行了以下清洗工作。1) 剔除掉了除密码之外的其他信息；2) 考虑到编码问第 6 期滕南君，等：PG-RNN: 一种基于递归神经网络的密码猜测模型 ·891·

<<向上翻页向下翻页>>

点击下载：【机器学习】PG-RNN一种基于递归神经网络的密码猜测模型