55方差分析 通常在分析估计回归直线的性能和自变量对 最终回归的影响时用方差分析方法。 方差分析是一种主要用于线性回归模型中值 非零的情况下的识别方法。假设用最小二乘法 已求出参数的值,那么观察到的输出值和拟 合值的差异是残差。 RFyrNxi) >对数据集中的m个样本,残差的大小和方差 σ2的大小是有联系的。方差可用下式估计
5.5 方差分析 ►通常,在分析估计回归直线的性能和自变量对 最终回归的影响时,用方差分析方法。 ►方差分析是一种主要用于线性回归模型中β值 非零的情况下的识别方法。假设用最小二乘法 已求出参数β的值,那么观察到的输出值和拟 合值的差异是残差。 Ri=yi -f(xi ) ►对数据集中的m个样本,残差的大小和方差 σ2的大小是有联系的。方差可用下式估计:
s=1(-f(x)3](m-(n-1) 式中分子是残差和,分母是残差的自由度。 分析步骤: 首先,计算模型所有输入的S2,然后 删除这些输入,若删除一个有用的输入,S2
[ ( ( )) ]/( ( 1)) 1 2 2 = − − − = m n i f x i S y m i 式中分子是残差和,分母是残差的自由度。 •分析步骤: •首先,计算模型所有输入的S2,然后一一 删除这些输入,若删除一个有用的输入,S2
的估计值将会大幅度上升,若删除一个多余 的输入,估计值不会有太大的变化 在上述步骤的迭代过程中,引入F比率和F 统计检验,形式如下 2 F=S2/ S new old 若—个输入被删除后,F接近于1,新模型 合适;若F值明显大于1,说明新模型不合 适。应用迭代的方差分析方法,能识别哪 个输入和输出的相关的,哪些是不相关的
的估计值将会大幅度上升,若删除一个多余 的输入,估计值不会有太大的变化。 •在上述步骤的迭代过程中,引入F比率和F 统计检验,形式如下: 2 2 / F = Snew Sold •若一个输入被删除后,F接近于1,新模型 合适;若F值明显大于1,说明新模型不合 适。应用迭代的方差分析方法,能识别哪一 个输入和输出的相关的,哪些是不相关的
下表是有3个输入的数据集的方差分析 情况 输入集 S F 1×2-×3 3.56 X1X 3.98 21 X1X 6.22 F 31 1.75 4 8.34 F41=2.34 9.02 52=227 6 9.89 F52=2.48 2 6
•下表是有3个输入的数据集的方差分析 情况 输入集 Si 2 F 1 x1 ,x2 ,x3 3.56 2 x1 ,x2 3.98 F21=1.12 3 x1 ,x3 6.22 F31=1.75 4 x2 ,x3 8.34 F41=2.34 5 X1 9.02 F52=2.27 6 X2 9.89 F62=2.48
上述分析结果,只有删除3,F没有明显变 化,其他情況F比值显著增加,因此可以删 除,不影响模型的性能。 方差的多元分析是方差分析的一个推广,解 决了输出不是单个数值而是一个向量的数据 分析问题。方差的多元分析基于这样一个假 设,输出变量间相互独立,采用一个多元线 性模型来建模 =a+月·x1+B2·x21+B3x1+…+Bn·xm+
►上述分析结果,只有删除x3,F没有明显变 化,其他情况F比值显著增加,因此可以删 除,不影响模型的性能。 ►方差的多元分析是方差分析的一个推广,解 决了输出不是单个数值而是一个向量的数据 分析问题。方差的多元分析基于这样一个假 设,输出变量间相互独立,采用一个多元线 性模型来建模: i j j j n n j j Y = + x + x + x +...+ x + 1 1 2 2 3 3
·残差矩阵R为 R=∑(y1-y)(y-y") 古典的多元分析也包含基本的分析方法,如 组样本向量如何转换为一组新的维数更少 的样本向量。数据归约和数据转换中用到
•残差矩阵R为: = = − − m j T R y j yj yj yj 1 ( ')( ') •古典的多元分析也包含基本的分析方法,如 一组样本向量如何转换为一组新的维数更少 的样本向量。数据归约和数据转换中用到
5.6对数回归 线性回归用于对连续值函数进行建模。广义 回归模型提供了将线性回归用于分类响应变 缱建模的理论基础,它最常见的形式是对数 回归。 >对数回归将某些事件发生的概率建模为预测 变量集的线性函数。它不是预测因变量的值 是试着估计顾客有好的信用等级的概紧分谷 而是估计因变量取给定值的概率p。例如, 数回归不预测顾客的信用等级是好是坏
5.6 对数回归 ►线性回归用于对连续值函数进行建模。广义 回归模型提供了将线性回归用于分类响应变 量建模的理论基础,它最常见的形式是对数 回归。 ►对数回归将某些事件发生的概率建模为预测 变量集的线性函数。它不是预测因变量的值, 而是估计因变量取给定值的概率p。例如,对 数回归不预测顾客的信用等级是好是坏,而 是试着估计顾客有好的信用等级的概率
对数回归仅适用于输出变量是二元分类变 量的情况。但输入变量也可以是定量的, 它支持一般的输入数据集。假设输出Y有两 分类值编码为0和1,由数据集能计算出 所给输入样本所产生的输出值取0和取1的 概率。 对数回归的模型表示为 log(P(1-p1)=C+B1x1+B2x21+B3·xy+…+Bnx 输出用对数据是为了结果输出在[0,1区间
►对数回归仅适用于输出变量是二元分类变 量的情况。但输入变量也可以是定量的, 它支持一般的输入数据集。假设输出Y有两 个分类值编码为0和1,由数据集能计算出 所给输入样本所产生的输出值取0和取1的 概率。 ►对数回归的模型表示为: j j j j j n n j log( p /(1− p )) = + x + x + x +...+ x 1 1 2 2 3 3 •输出用对数据是为了结果输出在[0,1]区间
假设有一训练数据集,用线性回归建成模 为 logi()=1.5-0.6x1+0.4x2-0.3x 并假设给出一新的待分类的样本,其输入 值{x1Ⅹ3}={1,0,4},用上面模型可估计出 输出值为1的概率。 >根据概率p的最终结果,可推出输出值Y=1 的可能性比分类值Y=0小。 >和挖掘的其他方法对比较
1 2 3 3 log it( p) =1.5−0.6 x + 0.4x −0. x ►假设有一训练数据集,用线性回归建成模 为: ►并假设给出一新的待分类的样本,其输入 值{x1 ,x2 ,x3}={1.,0,1},用上面模型可估计出 输出值为1的概率。 ►根据概率p的最终结果,可推出输出值Y=1 的可能性比分类值Y=0小。 ►和挖掘的其他方法对比较
5.7对数线性模型 对数线性建模是一种分类(或数量型)变量 间关系的方法。对数线性模型近似于烹散 的、多元的概率分布。它是一种假设输出Y 具有泊松分布的的广义线性模型,假设其 期望值的自然对数是输入的线性函数 log)=a+B1·x1+B2.x21+B3·x31+…+Bn nn/
5.7 对数-线性模型 ►对数-线性建模是一种分类(或数量型)变量 间关系的方法。对数-线性模型近似于离散 的、多元的概率分布。它是一种假设输出Yi 具有泊松分布的的广义线性模型,假设其 期望值μj的自然对数是输入的线性函数: j j j j n n j log( ) = + x + x + x +...+ x 1 1 2 2 3 3