统计学习理论及应用 第三讲回归模型 编写:文泉、陈娟 电子科技大学计算机科学与工程学院
统计学习理论及应用 第三讲 回归模型 编写:文泉、陈娟 电子科技大学 计算机科学与工程学院
目录 ①一个例子 ②最小二乘法 ③从线性到非线性:用线性模型 ④概率解释 。最大似然估计 。最大后验概率估计 。正则化效果 ⑤偏置-方差困境 。损失函数的第一步分解 。损失函数的第二步分解 。对多个数据集的简单总结 1/51
目录 1 一个例子 2 最小二乘法 3 从线性到非线性:用线性模型 4 概率解释 最大似然估计 最大后验概率估计 正则化效果 5 偏置-方差困境 损失函数的第一步分解 损失函数的第二步分解 对多个数据集的简单总结 1 / 51
知识点: ·回归分析的基本理论概念、性质、计算 ·最小二乘法的推导和计算 。回归分析的概率解释 。非线性函数的回归分析 ·回归分析的偏置-方差困境 重点与难点: ·重点:回归分析推导和计算 。难点:回归分析概率解释 2/51
知识点: 回归分析的基本理论概念、性质、计算 最小二乘法的推导和计算 回归分析的概率解释 非线性函数的回归分析 回归分析的偏置-方差困境 重点与难点: 重点:回归分析推导和计算 难点:回归分析概率解释 2 / 51
3.1.一个例子 。考察房价走势,有如下数据: 年份 平方米价格(万) 1999 70 6 2000 60 6 2001 120 20 2002 125 26 ·通常希望通过这些数据,预测未来房价走势。 3/51
3.1. 一个例子 考察房价走势,有如下数据: 年份 平方米 价格 (万) 1999 70 6 2000 60 6 2001 120 20 2002 125 26 . . . . . . . . . 通常希望通过这些数据,预测未来房价走势。 3 / 51
假定x=[x1,x2,·,x,各个分量代表各个特征输入, 构成一个回归量;d对应于x的一个输出。它们的依赖关 系可以由如下一个线性回归模型表达。 M d=∑wx+e i=1 公式中w1,w2,·,wM定义的是一组固定但未知的参数, ε表示模型的期望误差,“固定的”表示我们假定环境是稳 定的,静态的(stationary),写为向量矩阵形式: d=wx+8 4/51
▶ 假定 x = [x1, x2, · · · , xM] T ,各个分量代表各个特征输入, 构成一个回归量; d 对应于 x 的一个输出。它们的依赖关 系可以由如下一个线性回归模型表达。 d = X M i=1 wixi + ε 公式中 w1,w2, · · · ,wM 定义的是一组固定但未知的参数, ε 表示模型的期望误差,“固定的”表示我们假定环境是稳 定的,静态的 (stationary) ,写为向量矩阵形式: d = w T x + ε 4 / 51
3.2.最小二乘法 假定有训练集2={(x2,d),(x2,),…,(x,d)},定义 如下cost function(代价或能量函数): h(m)=2∑)=专∑d-wx 通过梯度下降算法,我们可以得到w w+1=W-六h(w) )称为step size,.机器学习中叫做学习速率。 5/51
3.2. 最小二乘法 ▶ 假定有训练集 Ω = {(x 1 , d 1 ),(x 2 , d 2 ), · · · ,(x N , d N )}, 定义 如下 cost function(代价或能量函数): JΩ(w) = 1 2 X N i=1 ε 2 i (w) = 1 2 X N i=1 (d i − w T x i ) 2 ▶ 通过梯度下降算法,我们可以得到 w : wt+1 = wt − η ∂ ∂w JΩ(wt) η 称为step size,机器学习中叫做学习速率。 5 / 51
·梯度下降算法,基于这样的观察: 如果实值函数F(x)在点a处可微并且有定义,那么函 数F(x)在点a沿着梯度相反的方向-又F(x)下降最快 对2仅一个样本有: 是am)=×{品w-d}×2xw-0 =x(wx-d) =(wx-d)x scalar 采用了denominator layout/Hessian formulation求导 6/51
▶ 梯度下降算法,基于这样的观察: 如果实值函数 F (x) 在点 a 处可微并且有定义,那么函 数 F (x) 在点 a 沿着梯度相反的方向 − ▽F (x) 下降最快 ▶ 对 Ω 仅一个样本有: ∂ ∂w JΩ(w) = 1 2 × ∂ ∂w (w T x − d) × 2 × (w T x − d) = x(w T x − d) = (w T x − d) | {z } scalar x 采用了denominator layout/Hessian formulation求导 6 / 51
·因此计算参数w的算法是 W+1=W:+n(d-w.x)x 这个算法也称为Widrow-Hoff学习规则,这只针对仅有 一个样本的情况。 ·对N个样本情形,可改造算法如下: w+1=w+n∑d-wx)x =1 注意到算法每次迭代都是把整个训练集用来更新参数,这 种形式称为batch gradient descent(BGD)批量梯度下降。 7/51
▶ 因此计算参数 w 的算法是 wt+1 = wt + η(d − w T t x)x 这个算法也称为 Widrow-Hoff 学习规则,这只针对 Ω 仅有 一个样本的情况。 ▶ 对N 个样本情形,可改造算法如下: wt+1 = wt + η X N i=1 (d i − w T t x i )x i 注意到算法每次迭代都是把整个训练集用来更新参数,这 种形式称为 batch gradient descent(BGD) 批量梯度下降。 7 / 51
梯度下降的原理 Minimize the cost function C(x1,x2),and following Calculus,C changes as follows: Ax+0x2 △C≈0x x2 Define△r=(r,△x2)',VC=(S,)',and get:: △C≈VC·△x To make△C negative,set△xr=-nVC,and get: △C≈-nVC.7C=-ll7C2≤0 Then fromx+1-x,=Ax =-nVC,get: X1+1=xI-nVC Gradient is fastest descent direction only,as △C≈7C·△x=C△cos(0)≤=0,π/2≤9≤π3/2 8/51
梯度下降的原理 ▶ Minimize the cost function C(x1, x2),and following Calculus, C changes as follows: ∆C ≈ ∂C ∂x1 ∆x1 + ∂C ∂x2 ∆x2 ▶ Define ∆x = (∆x1, ∆x2) T , ∇C = ( ∂C ∂x1 , ∂C ∂x2 ) T , and get: ∆C ≈ ∇C · ∆x ▶To make ∆C negative, set ∆x = −η∇C, and get: ∆C ≈ −η∇C · ∇C = −η∥∇C∥ 2 ≤ 0 ▶Then from xt+1 − xt = ∆x = −η∇C, get: xt+1 = xt − η∇C ▶ Gradient is fastest descent direction only, as ∆C ≈ ∇C · ∆x = ∥∇C∥∥∆x∥ cos(θ) ≤= 0, π/2 ≤ θ ≤ π3/2 8 / 51
随机梯度下降算法 for i =1 to N W+1=W+n(d-wix')x 这种方法称为随机梯度下降算法(stochastic gradient desent(SGD)). 在比较大的训练集的情况下,BGD算法计算量大。 虽然SGD算法在最小值的周边震荡,但可以较快收敛,可 仍然选择该算法。 9/51
随机梯度下降算法 for i = 1 to N { wt+1 = wt + η(d i − w T t x i )x i } 这种方法称为随机梯度下降算法(stochastic gradient desent(SGD))。 在比较大的训练集的情况下,BGD 算法计算量大。 虽然 SGD 算法在最小值的周边震荡,但可以较快收敛,可 仍然选择该算法。 9 / 51