《数据科学引论——Python之道》课程教学资源（教案讲义）10 TensorFlow-深度学习实践.pdf_大学文库

载入数据 MNIST致据集大约12MB并且使用TensorFlow提供的库两数可以自动下载 data/dx-ubyte. /10 0y6+92 当你看到上在输出的信息时，MNST双据集已经加基完毕。MNST数据集一共有70000个图片并且有对应的标签（标签表示的是图片所对应的数乳，整个MNST数据集会被分为3个不同的子数据集，包括刹练数据集、测试数据集和验证数据集，本教程只使用悠数据集和测试数据集。 In [4]1 print("Size of:") print("-Training-set:\t\t()".format(len(data.train.labels))) ion.labels))) size of: Training-set: vidation-et 5000 这个MNIST数据集是以One-Host编码方式进行加载的，这意味着标签从一个单独的数字转换成了一个vector,而vector的长度等于所有可能类别的数量。本次教程中一共有0到9十个数字，所以vector的长度就是10。每个vector中只有一个代表第几个类别的元素是1，其他的元素都是0。例如，测试数据集前五个图片标签中，第一行第七个坐标对应的数字是1，其他都是0，这也就意味着第一个标签对应的图片就是7。 One-Hot编码数据集以Oot的编码方式扣载，这意球着标签从一个单独的数字转为 ecto的长座等于所有可能类别的数量本教程中的vector长座是10，表示0型 g-共10个类别的数。每个v9cto中只有个代表第几个类别的元素是1，其他的元素都是0。例如我们展示的测试据集前五个图片的标签 In [5]:data.test.labels[0:5,:] array(I[..0.. 0 D.r 0 8 0 0. 0 0.j 1,0.0 0 . 0. 0. 0.j 【0,,0.。0,。 0.,1.,0,0.,0, 0.,0.111 为了比校和性能测试，我们还是需要把标益的类别表示为单个数字的，我们通过取出vec1or中最大元索的下标nde的方法将Oe-Hot端码的vector转换为单个的数字。为了和Py0中的关键字s区分开，我们使用cs来命名表示为单个数字的标签类别，下面我们将测试数据集标签都转换为单个数字，并取出前五个标签。第一个图片的标签类别是7，对应一个One-Hots编阳的vector中index为7的元素是1，其他的元素都是0， 0ut[51:array(【7,2,1,0,4]）为了比较和性能测试，我们还是需要把标签的类别表示为单独的数字。因此，我们通过取出vector中最大元素的下标，也就是index的方法，将One-Hot编码的vector转换为单个的数字。为了和Python中的关键字class区分开，我们使用cs来命名，表示单个数字的标签类别。我们将测试数据集标签都转换为单个数字，然后取出前五个标签，可以看到它们组成的数组是7,2,10,4]，也就是说

占位符Placeholder)变量我们通过操作符号变量来描迷交互的提作单元，x不是一个特定的值，而是一个占位荷placehoider,我们在TensorFlowi运行计算时裙入这个值。x就被称作张量 tensor),x可以表示为多维度的vector成者矩阵。我们希望缩够编入任您数量的M 图像，年一引 2B维的向量我们用2维的泸点数张量来表示这些图，该张量的数据类型极设置为E1cat32,这个张量的形状是【N0ne,28x28]。(这里的one表示此张量的第一个维度可以是任何长度的， In [10]:x=tf.placeholder(tf.float32,[None,img_size_flat]) 然后我们使用占位符变量表示图片对应的标益，这个占位符受量的形状是Ioe,um_classes],这表示该变量可以存储任意数星的标签，并且每个标益都是个长度为num_classest也就是10的vecto In [11]:y_true tf.placeholder(tf.float32,[None,num_classes]) 最后我们定义一个保存标签对应的数字的占位符变量，我们之前提到过为了方便比较我们把标签都转换为单个数字，所以下面定义的这个变量祝是存储这些数字。[Woae】表示这个变量是一个一-维任意长座的vect0r In [12]:y_true_cls -tf.placeholder(tf.int64,[Nome]) 我们的模型除了前面的占位符变量之外，还需要一些权重值和偏置量，这些当作另外的输入。我们可以使用占位符来表示它们，但是TensorFlow有一个更好的方法表示，就是用Variable.。一个Variable代表一个可修改的张量，存放在 TensorFlow用于交互操作的图中，它们可以用于计算输入值，也可以在计算中被修改。各种机器学习应用一般都会有模型参数，这些模型参数都可以用Variable 来表示，我们赋予Variable不同的初值来创建不同的Variable。在这里，我们使用全为0的张量来初始化权重值weights和偏置量biases。.因为我们要学习 weights和biases的值，所以它们的初值可以随意设置。在这里，我们需要注意到的是weights的形状是28×28和10，因为我们想用28×28位的图片向量乘以它得到一个10维的向量，这个10维的向量每一个维度都对应不同的数字的类别。然后，把biases的形状设置为一个1维的长度为10的向量，这样我们可以直接把它加到输出上面。 In [13]:weights tf.Variable(tf.zeros([ing_size_flat,num_classes])) biases tf.Variable(tf.zeros([num_classes])) 下面我们将正式进入简单的线性模型的建立。首先，我们使用的这个简单的线性模型就是把占位符变量X保存的图片vector和变量weights相乘，然后再加上biases变量。从第一个代码框我们可以看到这个计算，因为我们的预测值得到的结果可能很大或者很小，所以很难去分析这些预测值，所以我们希望能够归

一化这些预测值，使得logits结果矩阵的每一行加起来等于1并且每个元素都限制在[O,1]之间，这样，我们就可以分析这些预测值。所以我们使用TensorFlow里面提供的softmax这个函数，然后把得到的预测结果保存在y_pred这个变量里面。为了将预测值表示为单个数字，我们会使用TensorFlow的argmax这个函数。这个函数把输入的矩阵中每一行最大值的坐标取出，因为我们每一行中最大值的坐标对应这个图片所代表的数字的类别，所以也就获得了预测的标签值。这个简单的双学模型就是把占位符变量x保存的图片vectorf和安量weighta相乘，然后再加上biae变量，这样计算的结果是一个形状为[num images,num classes]的矩阵，因为x的形状是[nun images,ing size f1at]并且weighta的形状是[1ng1zef1at,num_c1anae】,所以这两个变量的乘积是一个拥有Ina1nag0n,num_cla8e】形状的炬阵，再把b1a器e vector加到矩阵中的年行， In [14]:logits -tf.matmul(x,weights)+biases 但是因为预测值可能很小或者很大，所以很流去分析这些预测值，因此我门希望能够归一化这些预调值。使得1gt矩华的每一行加起米等于1并且每个元素却限制在0和1之间，这就是s0max径数的作用，得到的佑果存在y preds变量里面。为了将测值表示为单个数字，我们使用1.argma函致，把ypre钜阵中每一行的最大值的坐标取出，也就获得了预测的标签值。 In [151:y_pred -tf.nn.softmax(logits) y_pred_cls tf.argnax(y_pred,1) 现在我们获得的logits这个变量就是一个有输入图片数量行和数字类别数量列的一个矩阵，这个矩阵中第ⅰ行第]列的数据表示的是模型估计出第二张输入图片的标签是第j个类别的概率，也就是说第二张图片上的手写数字是j的概率。为了能够使得我们建立的模型更加准确地识别输入的图片，我们必须要调整 weights权重值和biases偏置量。在机器学习中，我们通常定义一个指标来表示一个模型的好坏，这个指标通常被称为成本或损失，我们需要尽量最小化这个指标。一个非常常见的成本函数就是交叉熵。交叉熵产生于信息论里面的信息压缩编码技术，但是到后来演变成为从博弈论到机器学习等其他领域里的重要技术手段。TensorFlow提供了一个计算交叉熵的内部函数，直接将logits变量输入进去，并且把保存图片对应的正确标签的ytue变量输入进去，它就可以对于每一个图片计算出它的交叉熵。 In [16]:cross_entropy-tf.nn.softmax_cross_entropy_with_logits(logits-logits, labels=y true)

现在，我们已经对于每个图片分类进行了交叉熵的计算，可以得到我们的模型对于每张图片的预测表现，但是对于所有数据点的预测表现比单一数据点的表现能更好地描述模型的性能，所以我们将所有图片的预测表现取平均值来作为我们整个模型的预测表现。 In [17]:cost tf.reduce_mean(cross_entropy) 现在，我们已经可以表示出模型的一个成本，为了能够最小化这个成本，我们需要建立一个优化函数。本次教程中使用的是一个基本的梯度下降算法，以0.5 的学习速率最小化这个交叉熵成本。需要注意的是，我们定义的优化函数在这里并没有执行，事实上，所有之前定义的语句都没有执行，我们只是把它们添加到 TensorFlow的工作图当中，在之后的语句中我们会让所有语句开始执行。 In [18]:optimizer tf.train.GradientDescentoptimizer(learning_rate-0.5).minimize(coat) 接下来，我们需要对模型的性能进行评估。首先，我们需要找出那些预测正确的标签，我们使用TensorFlow的equal函数来检测我们的预测是否与真实标签匹配。输入的y_pred_cls代表的是对于任意输入图片预测到的标签值，而 y_true._cls代表图片对应的正确标签。这里获得的correct_prediction是一组bool 值，为了确定正确预测项的比例，我们可以把b0ol值转化为浮点数，然后再取平均值，也就是使用第20行这个代码框。性能评估首先让我们找出那些预测正确的标签。y_pred.cs代表对于任一输入图片预测到的标签值，而y心_cs代表图片对应正裤的标盗，我们可以用.qua来检测我们的预测是否真实标签匹配索引位置一样表示匹和。 In [191:correct_prediction tf.equal(y_pred_cl8,y_true_cla) comect_prediction是一组布尔值。为了确定正确预测项的此例，我们可以把布尔值转换成浮点，然后取平均值。例如，ue,False,TUe,True]会变成1,0,1， ,取平均值后得到0.75. In [201:accuracy tf.reduce_mean(tf.cast(correct_prediction,tf.float32)) 我们可以举个例子，当correction_prediction这组bool值是[true,false,true, tue],经过我们的转换就会得到[1,0,1,1]这个数组，然后再取平均值，之后就是 0.75,也就是表示我们正确预测项的比例是0.75

到目前为止，我们已经把TensorFlow的工作图创建完成。下面，我们需要创建一个Session来执行这个图。创建完Session之后，其中我们定义的weights和 biases这些变量需要在优化它们之前被初始化。创建TensorFlow session 当TensorFlow工作图创建完减，我们需提创建一个session来执行这个图， In [21]:session tf.Session() 初始化变量变量we1ght=和b1ae每需要在我们优化他们之前被初始化. In [22]:session.run(tf.global_variables_initializer()) 下面我们会定义一个执行优化迭代的函数，因为训练集中一共有5万张图片，在理想情况下，我们希望使用所有的数据来进行每一步的训练，因为使用所有数据集可以带来更好的训练结果。但是，这显然有很大的计算开销，因此，我们使用其中的一小部分的随机数据来进行训练，这又被称作随机训练。在这里，更确切地说是一个随机梯度下降训练，所以每一次训练我们可以使用不同的数据子集。这样做既可以减少计算开销，又可以最大化学习到的数据集的总体特性。我们将采取的是随机抓取训练数据中的一百个批处理数据点，用这些数据点作为参数替换之前的占位符来进行训练。执行优化迭代的函数州塔集中一共有5000餐图片，在甲机情识下.，段们弟望用理们所右的药好来讲行每一指的信因为这馆给程面好的体结果，相已燃这需要阀大的计领开销，因此我们使用一小部分的机数超来进行训练，这又被称为植机训练(stochastic training)·在这里更确切的说是徒机梯度下降训练。所似，每一次训我们可以使用不司的故据子集，这样做可以减少计算开镇，又可以最大化地学习到数据集的总体特性。 In【23]:batch_size100 在酒环的每个步骤中，我们都会陆机抓取训练数据中的100个批处理数据点，然后我们用这些数据点作为参数替换之前的占位符来进行训悠， In [24]:def optimize(num iterations): 如保存的示应的正益数据 x_batch,y_true_batch-data.train.next_batch(batch_eize) 卡将批处理据款入字莞1ict)中，字英中k@y的名字要与之前定义的占位符变量对拉 ,使用这些批处理取据作为诚陈欧据。然后运行优化函数卡en8orF2ow会把：eedd1 ct erai1n中的变量赏值给对应的占位符变量，然后诺行优化裙数 session.run(optimizer,feed_dict-feed_dict_train) 上面就是一个执行优化迭代的函数。其中，我们首先获取一百个训练样本作为批处理数据，然后将这些批处理数据放入一个字典中，字典中Ky的名字要与

面出楼华权重值的金故，一共西出10个图片，每个图片代表模型识别的一个数字， In [281:def plot weights(): 从r@na6rF1ow变量中获得权重值 w-seasion.run(weights) 卡获得所有机重值中最小和最大的值，这两个值用来改变图片上领色的密度，从面使得图片直坡可以进行比较 0a即nxw} F建立一个包含3x4个子图的图形，最后两个子图没有被使用，因为一共只有10个数字 fig,axes plt.subplot8(3,4) fig.subplotn_adjust(hspace-0.3,wspace-0.3) to) f1c10: 票取得鹅1个数字的机重值并且改变这个张量的形状，注意的形状是1nga1gef1ātx10 image -w[:,i].reshape(img_shape) el("Weightsi (0)".format(i)) 两图 ax.inshow(image,vmin-w min,vnax-w nax,cmap='neismic') 将被线从每个子图中除下面，我们将正式运行我们的代码，然后检查整个模型优化前后的性能。首先，我们在未进行任何优化迭代时，打印一下测试数据的准确性，发现只有9.8%，这是因为模型只进行了初始化，但是没有进行优化，所以模型对于图片的预测值都是0，这也就意味着10次预测只有一次是正确的，这和展示的错误例子相符合。我们可以看到预测错误的这些图片，其预测值因为初始化为0，所以它的预测值都是0。测试据集的准调性只有9.8，这是因为模型只进行了初始化很是没有优化，所以模型对于图片的预调值都是0，这意着10次预测有1次是正确的，这和展示的例子相特。 In [291:print_accuracy() Accuracy on test-set:9.8 In [30]:plot example errors) 2 4.Pre .Pre ue 9,Pred: rue:5.Pred True Pred o 然后，我们调用优化函数来完成一次优化迭代，我们可以发现模型的准确性从9.8%提升到了37%。这里需要注意的是这里的37%，每次运行结果不一定都等于这个数字，因为每次随机选取的图片样本可能不同，所以导致了我们优化之后的准确性不同。下面会展示一些错误预测的图片