电子科技大学：《统计学习理论及应用 Statistical Learning Theory and Applications》课程教学资源（课件讲稿）第三讲回归模型

1 一个例子 2 最小二乘法 3 从线性到非线性：用线性模型 4 概率解释最大似然估计最大后验概率估计正则化效果 5 偏置-方差困境损失函数的第一步分解损失函数的第二步分解对多个数据集的简单总结

团购合买资源类别：文库，文档格式：PDF，文档页数：52，文件大小：947.34KB

统计学习理论及应用第三讲回归模型编写：文泉、陈娟电子科技大学计算机科学与工程学院

目录 ①一个例子 ②最小二乘法 ③从线性到非线性：用线性模型 ④概率解释。最大似然估计。最大后验概率估计。正则化效果 ⑤偏置-方差困境。损失函数的第一步分解。损失函数的第二步分解。对多个数据集的简单总结 1/51

目录 1 一个例子 2 最小二乘法 3 从线性到非线性：用线性模型 4 概率解释最大似然估计最大后验概率估计正则化效果 5 偏置-方差困境损失函数的第一步分解损失函数的第二步分解对多个数据集的简单总结 1 / 51

知识点： ·回归分析的基本理论概念、性质、计算 ·最小二乘法的推导和计算。回归分析的概率解释。非线性函数的回归分析 ·回归分析的偏置-方差困境重点与难点： ·重点：回归分析推导和计算。难点：回归分析概率解释 2/51

知识点：回归分析的基本理论概念、性质、计算最小二乘法的推导和计算回归分析的概率解释非线性函数的回归分析回归分析的偏置-方差困境重点与难点：重点：回归分析推导和计算难点：回归分析概率解释 2 / 51

3.1.一个例子。考察房价走势，有如下数据：年份平方米价格（万） 1999 70 6 2000 60 6 2001 120 20 2002 125 26 ·通常希望通过这些数据，预测未来房价走势。 3/51

3.1. 一个例子考察房价走势，有如下数据：年份平方米价格 (万) 1999 70 6 2000 60 6 2001 120 20 2002 125 26 . . . . . . . . . 通常希望通过这些数据，预测未来房价走势。 3 / 51

假定x=[x1,x2,·,x,各个分量代表各个特征输入，构成一个回归量；d对应于x的一个输出。它们的依赖关系可以由如下一个线性回归模型表达。 M d=∑wx+e i=1 公式中w1,w2,·,wM定义的是一组固定但未知的参数， ε表示模型的期望误差，“固定的”表示我们假定环境是稳定的，静态的(stationary),写为向量矩阵形式： d=wx+8 4/51

▶ 假定 x = [x1, x2, · · · , xM] T ，各个分量代表各个特征输入，构成一个回归量； d 对应于 x 的一个输出。它们的依赖关系可以由如下一个线性回归模型表达。 d = X M i=1 wixi + ε 公式中 w1,w2, · · · ,wM 定义的是一组固定但未知的参数， ε 表示模型的期望误差，“固定的”表示我们假定环境是稳定的，静态的 (stationary) ，写为向量矩阵形式： d = w T x + ε 4 / 51

3.2.最小二乘法假定有训练集2={(x2,d),(x2,),…,(x,d)},定义如下cost function(代价或能量函数)： h(m)=2∑)=专∑d-wx 通过梯度下降算法，我们可以得到w w+1=W-六h(w) )称为step size,.机器学习中叫做学习速率。 5/51

3.2. 最小二乘法 ▶ 假定有训练集 Ω = {(x 1 , d 1 ),(x 2 , d 2 ), · · · ,(x N , d N )}, 定义如下 cost function（代价或能量函数）： JΩ(w) = 1 2 X N i=1 ε 2 i (w) = 1 2 X N i=1 (d i − w T x i ) 2 ▶ 通过梯度下降算法，我们可以得到 w : wt+1 = wt − η ∂ ∂w JΩ(wt) η 称为step size，机器学习中叫做学习速率。 5 / 51

·梯度下降算法，基于这样的观察：如果实值函数F(x)在点a处可微并且有定义，那么函数F(x)在点a沿着梯度相反的方向-又F(x)下降最快对2仅一个样本有：是am)=×{品w-d}×2xw-0 =x(wx-d) =(wx-d)x scalar 采用了denominator layout/Hessian formulation求导 6/51

▶ 梯度下降算法，基于这样的观察：如果实值函数 F (x) 在点 a 处可微并且有定义，那么函数 F (x) 在点 a 沿着梯度相反的方向 − ▽F (x) 下降最快 ▶ 对 Ω 仅一个样本有： ∂ ∂w JΩ(w) = 1 2 × ∂ ∂w (w T x − d) × 2 × (w T x − d) = x(w T x − d) = (w T x − d) | {z } scalar x 采用了denominator layout/Hessian formulation求导 6 / 51

·因此计算参数w的算法是 W+1=W:+n(d-w.x)x 这个算法也称为Widrow-Hoff学习规则，这只针对仅有一个样本的情况。 ·对N个样本情形，可改造算法如下： w+1=w+n∑d-wx)x =1 注意到算法每次迭代都是把整个训练集用来更新参数，这种形式称为batch gradient descent(BGD)批量梯度下降。 7/51

▶ 因此计算参数 w 的算法是 wt+1 = wt + η(d − w T t x)x 这个算法也称为 Widrow-Hoff 学习规则，这只针对 Ω 仅有一个样本的情况。 ▶ 对N 个样本情形，可改造算法如下： wt+1 = wt + η X N i=1 (d i − w T t x i )x i 注意到算法每次迭代都是把整个训练集用来更新参数，这种形式称为 batch gradient descent(BGD) 批量梯度下降。 7 / 51

梯度下降的原理 Minimize the cost function C(x1,x2),and following Calculus,C changes as follows: Ax+0x2 △C≈0x x2 Define△r=(r,△x2)',VC=(S,)',and get:: △C≈VC·△x To make△C negative,set△xr=-nVC,and get: △C≈-nVC.7C=-ll7C2≤0 Then fromx+1-x,=Ax =-nVC,get: X1+1=xI-nVC Gradient is fastest descent direction only,as △C≈7C·△x=C△cos(0)≤=0，π/2≤9≤π3/2 8/51

梯度下降的原理 ▶ Minimize the cost function C(x1, x2)，and following Calculus, C changes as follows: ∆C ≈ ∂C ∂x1 ∆x1 + ∂C ∂x2 ∆x2 ▶ Define ∆x = (∆x1, ∆x2) T , ∇C = ( ∂C ∂x1 , ∂C ∂x2 ) T , and get: ∆C ≈ ∇C · ∆x ▶To make ∆C negative, set ∆x = −η∇C, and get: ∆C ≈ −η∇C · ∇C = −η∥∇C∥ 2 ≤ 0 ▶Then from xt+1 − xt = ∆x = −η∇C, get: xt+1 = xt − η∇C ▶ Gradient is fastest descent direction only, as ∆C ≈ ∇C · ∆x = ∥∇C∥∥∆x∥ cos(θ) ≤= 0, π/2 ≤ θ ≤ π3/2 8 / 51

随机梯度下降算法 for i =1 to N W+1=W+n(d-wix')x 这种方法称为随机梯度下降算法(stochastic gradient desent(SGD)). 在比较大的训练集的情况下，BGD算法计算量大。虽然SGD算法在最小值的周边震荡，但可以较快收敛，可仍然选择该算法。 9/51

随机梯度下降算法 for i = 1 to N { wt+1 = wt + η(d i − w T t x i )x i } 这种方法称为随机梯度下降算法（stochastic gradient desent(SGD)）。在比较大的训练集的情况下，BGD 算法计算量大。虽然 SGD 算法在最小值的周边震荡，但可以较快收敛，可仍然选择该算法。 9 / 51

点击进入文档下载页（PDF格式）

共52页，可试读18页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录