什么是多元统计分析 令多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法 是一元统计学的推广 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计 学科。 二、多元统计分析的内容和方法 1、简化数据结构(降维问题 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到 简化但损失的信息又不太多。 (1)主成分分析 (2)因子分析 (3)对应分析等 ☆2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法 (2)判别分析:判别样本应属何种类型的统计方法。 例5:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。 考察指标有6个: 1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数 令3、变量间的相互联系 是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 二是:两组变量间的相互关系(典型相关分析) 多元数据的统计推断 点估计 参数估计区间估计 统计推 u检验 参数t检验 F检验 断假设 相关与回归 检验 卡方检验 非参 秩和检验 秩相关检验 同量、特征同量 方差、协方差及其 协方差矩的基运算 l/13
1/13 一、什么是多元统计分析 ❖ 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法, 是一元统计学的推广。 ❖ 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计 学科。 二、多元统计分析的内容和方法 ❖ 1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到 简化但损失的信息又不太多。 (1)主成分分析 (2)因子分析 (3)对应分析等 ❖ 2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。 (2)判别分析:判别样本应属何种类型的统计方法。 例 5:根据信息基础设施的发展状况,对世界 20 个国家和地区进行分类。 考察指标有 6 个: 1、X1:每千居民拥有固定电话数目 2、X2:每千人拥有移动电话数目 3、X3:高峰时期每三分钟国际电话的成本 4、X4:每千人拥有电脑的数目 5、X5:每千人中电脑使用率 6、X6:每千人中开通互联网的人数 ❖ 3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 二是:两组变量间的相互关系(典型相关分析) ❖ 4、多元数据的统计推断 点估计 参数估计 区间估计 统 u 检验 计 参数 t 检验 推 F 检验 断 假设 相关与回归 检验 卡方检验 非参 秩和检验 秩相关检验
1、假设检验的基本原理 小概率事件原理 小概率思想是指小概率事件(Pt,a} W={=ua} B、总体方差未知 用样本方差s2代替总体方差 这种检验叫t检验 总体方差a2已知 总体方差2未知 X 统计量z Ho Hy 统计量。F 在显著水平下拒绝H,若 >1.(m-1) t>1-a(n-1) ⅢI|4=4o|<o 2<-ll -t1-a(n-1) 首先,可以画出这些重量的直方图(下图) ◇判断样本是否服从正态分布 2/13
2/13 ❖ 1、假设检验的基本原理 小概率事件原理 ❖ 小概率思想是指小概率事件(P<0.01 或 P<0.05 等)在一次试验中基本上不会发生。 反证法思想是先提出假设(检验假设 H0),再用适当的统计方法确定假设成立的可能 性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。 ❖ 2、假设检验的步骤 (1)提出一个原假设和备择假设 ❖ 例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cm (u=160cm )。这种原假设也称为零假设( null hypothesis ),记为 H 0 。 2.1 均值向量的检验 ❖ 1、正态总体均值检验的类型 ❖ 根据样本对其总体均值大小进行检验( One-Sample T Test ) 如妇女身高的检验。 ❖ 根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test ) 如两个班平均成绩的检验。 ❖ 配对样本的检验( Pair-Sample T Test ) 如减肥效果的检验。 ❖ 多个总体均值的检验 ❖ A、总体方差已知 用 u 检验,检验的拒绝域为 即 ❖ B、总体方差未知 用样本方差 代替总体方差 ,这种检验叫 t 检验. 首先,可以画出这些重量的直方图(下图) ❖ 判断样本是否服从正态分布 1 2 W z u { } − = 1 1 2 2 W z u z u { } − − = − 或 2 s 2 总体方差 2 已知 统计量 z= n X − 0 总体方差 2 未知 统计量t = n s X − 0 H0 H1 在显著水平 下拒绝 H0,若 Ⅰ = 0 0 2 1 − z u ( 1) 2 1 − − t t n Ⅱ = 0 0 u1− z ( 1) t t 1− n − Ⅲ = 0 0 −u1− z ( 1) t −t 1− n −
std. Dev 4.33 Mean=498.3 5。. 490.0492.0494.0496.0498.050O.D5。2.5o斗.506.O 491.0493.0495D497.D 9.0501.05。3.0505.D WE工cHT (2)根据来自两个总体的独立样本对其总体均值的检验 ◆目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t检验 也没有大的差别,只是假设的表达和t值的计算公式不同 两样本均数比较的t检验其假设一般为 即两样本来自的总体均数相等 H:1>2或1<m2,即两样本来自的总体均数不相等,检验水准为0.05。 令计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误 ◆A、与∝已知时 构造统计量z X-y Yn, n2 冷B、与G未知但相等时 构造统计量 2(4+n2-2) √-+-1214+ ◆相应的假设检验问题为 H0:41=2 H1:41大于p2 ◆μ1为第一组的总体均值,而μ2为第二组的总体均值。 ◆用SPSS处理数据 Spss it Ij: Analyze-Compare Means - Independent-Samples T Test 3/13
3/13 (2)根据来自两个总体的独立样本对其总体均值的检验 ❖ 目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种 t 检验 也没有大的差别,只是假设的表达和 t 值的计算公式不同。 ❖ 两样本均数比较的 t 检验,其假设一般为: H0:µ1=µ2,即两样本来自的总体均数相等. H1:µ1>µ2 或 µ1<µ2,即两样本来自的总体均数不相等,检验水准为 0.05。 ❖ 计算 t 统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。 ❖ 相应的假设检验问题为: H0:μ1=μ2 H1: μ1 大于μ2 ❖ μ1 为第一组的总体均值,而μ2 为第二组的总体均值。 ❖ 用 SPSS 处理数据: Spss 选项:Analyze—Compare Means — Independent-Samples T Test
令3、配对样本的检验( paired samples) (针对同样的样本)考察实验前后样本均值有无差异。能够很好地控制非实验因素对结果 的影响注意:实验前后两个样本两个样本并不独立 注意:同一样本实验前后并不独立,但不同样本之间却相互独立 ◆配对样本的检验实际上是用配对差值与总体均数0”进行比较,即推断差数的总体均 数是否为0”。故其检验过程与依据样本均数推断总体均数大小的t检验类似,即: A、建立假设 H0:d=0,即差值的总体均数为“0”,H:>0或灿d=a,则还不 能拒绝HO。 ◆例4要比较50个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有50 个数目。 ◆这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。 每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令 减肥前的重量均值为n1,而减肥后的均值为2;这样所要进行的检验为 Hl=卩2 Hl:1大于2 方差分析的基本思想 l、定义 方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相 同,检验两个或多个样本均数的差异是否有统计学意义。 令2、了解方差分析中几个重要概念 ◆(1)观测因素或称为观测变量 如:考察农作物产量的影响因素。农作物产量就是观测变量 令(2)控制因紊或称控制变量 进行试验(实验)时我们称可控制的试验条件为因素( Factor),因素变化的各个等级为 水平( Level) 影响农作物产量的因素,如品种、施肥量、土壤等 如果在试验中只有一个因素在变化其他可控制的条件不变称它为单因素试验 若试验中变化的因素有两个或两个以上则称为双因素或多因素试验 ◆方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对 观测变量有显著影响的变量 令3、方差分析的基本原理 设有r个总体,各总体分别服从N(A1,2)N(2a2)……N(,a2),假定 各总体方差相等。现从各总体随机抽取样本。透过各总体的样本数据推断r个总体的均值 是否相等? 4/13
4/13 ❖ 3、配对样本的检验( paired samples ) (针对同样的样本)考察实验前后样本均值有无差异。能够很好地控制非实验因素对结果 的影响注意:实验前后两个样本两个样本并不独立 ❖ 注意:同一样本实验前后并不独立,但不同样本之间却相互独立。 ❖ 配对样本的检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均 数是否为“0”。故其检验过程与依据样本均数推断总体均数大小的 t 检验类似,即: ❖ A、建立假设 H0:µd=0,即差值的总体均数为“0”,H1:µd>0 或 µd=α,则还不 能拒绝 H0。 ❖ 例 4:要比较 50 个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有 50 个数目。 ❖ 这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。 ❖ 每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令 减肥前的重量均值为 μ1 ,而减肥后的均值为μ2 ;这样所要进行的检验为: H0: μ1=μ2 H1: μ1 大于μ2 一、方差分析的基本思想 1、定义 方差分析又称变异数分析或 F 检验,其目的是推断两组或多组资料的总体均数是否相 同,检验两个或多个样本均数的差异是否有统计学意义。 ❖ 2、了解方差分析中几个重要概念: ❖ (1)观测因素或称为观测变量 如:考察农作物产量的影响因素。农作物产量就是观测变量。 ❖ (2)控制因素或称控制变量 进行试验(实验)时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为 水平(Level)。 影响农作物产量的因素,如品种、施肥量、土壤等。 如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验; 若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验 。 ❖ 方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对 观测变量有显著影响的变量 ❖ 3、方差分析的基本原理 设有 r 个总体,各总体分别服从 …… ,假定 各总体方差相等。现从各总体随机抽取样本。透过各总体的样本数据推断 r 个总体的均值 是否相等? 2 1 N( , ) 2 2 N( , ) 2 ( , ) N r
H0: H1:至少有一组数据的平均值与其它组的平均值有显著性差异。 分析的思路:用离差平方和(Ss)描述所有样本总的变异情况,将总变异分为两个 来源: (1)组内变动( within groups),代表本组内各样本与该组平均值的离散程度,即水平 内部(组内)方差 (2)组间变动( between groups),代表各组平均值关于总平均值的离散程度。即水平 之间(组间)方差 即:SS总=SS组间+SS组内 ◆消除各组样本数不同的影响-离差平方和除以自由度(即均方差)。从而构造统计量: ☆方差分析的基本思想就是通过组内方差与组间方差的比值构造的F统计量,将其与 给定显著性水平、自由度下的F值相对比,判定各组均数间的差异有无统计学意义 零假设否定城:F>F1,,(a) 例2SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度 SPSS处理; Analyze- Compare Mean- One-Way ANOva ◆多元方差分析(操作参见书例21,第36页) ☆SPSS选项: Analyze- General Linear model- Multivariate 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育 指标的总体均数向量u1和μ2相等与否,得到: F=88622,P=0.0008拒绝该年级男女生身体发育指标的总体均数向量相等的假设, 从而可认为该校男女生身体发育状况不同 4、方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态 分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换 平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到 的。即若组间方差不齐则不适用方差分析。 依据涉及的分析变量多少分为:一元方差分析、多元方差分析 依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析 什么是聚类分析? 令聚类分析(P54) 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 ◆聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性最大化 、聚类分析的基本思想 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度 的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不 5/13
5/13 :至少有一组数据的平均值与其它组的平均值有显著性差异。 ❖ 分析的思路:用离差平方和(SS)描述所有样本总的变异情况,将总变异分为两个 来源: (1)组内变动(within groups),代表本组内各样本与该组平均值的离散程度,即水平 内部(组内)方差 (2)组间变动(between groups),代表各组平均值关于总平均值的离散程度。即水平 之间(组间)方差 即:SS 总=SS 组间+SS 组内 ❖ 消除各组样本数不同的影响--离差平方和除以自由度(即均方差)。从而构造统计量: ❖ 方差分析的基本思想就是通过组内方差与组间方差的比值构造的 F 统计量,将其与 给定显著性水平、自由度下的 F 值相对比,判定各组均数间的差异有无统计学意义。 ❖ 零假设否定域: ❖ 例 2 SIM 手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。 ❖ SPSS 处理:Analyze — Compare Mean — One-Way ANOVA ❖ 多元方差分析(操作参见书例 2.1,第 36 页): ❖ SPSS 选项: Analyze— General Linear Model — Multivariate 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育 指标的总体均数向量μ1 和μ2 相等与否, 得到: F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设, 从而可认为该校男女生身体发育状况不同。 ❖ 4、方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态 分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、 平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。 ❖ (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到 的。即若组间方差不齐则不适用方差分析。 依据涉及的分析变量多少分为:一元方差分析、多元方差分析 依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析 ❖ 一、什么是聚类分析? ❖ 聚类分析(P54) 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 ❖ 聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性最大化。 ❖ 二、聚类分析的基本思想: 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度 的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不 0 1 2 : H = = r H1 SS r( 1) F SS − = 组间 组内 (n-r)1, ( ) F F r n r − −
相似的归为其他类。直到把所有的样品(或指标)聚合完毕 令相似样本或指标的集合称为类。 聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的 样本分高开来 R型聚类是对变量进行聚类,它使具有相似性的变量豪集在一起,差异性大的变量分 高开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数, 达到变量降维的目的。 2、聚类分析的方法: 系统聚类(层次聚类 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 令非系统聚类法包括:模糊聚类法、K一均值法(快速聚类法)等等 常用距离 (1)、明考夫斯基距离( Minkowski distance) 明氏距离有三种特殊形式 (1a)、绝对距离( Block距离):当q=1时 d(1)=∑|xk-xk (1b)欧氏距离( Euclidean distance):q=2时 k k=1 (1c)切比雪夫距离当a=∞时 d, (oo)=maxlxik-xjkl ◆当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对 各变量的数据作标准化处理然后用标准化后的数据计算距离常用的标准化处理: i=1,2, j=1,2,…,p 其中x x为第j个变量的样本均值 为第j个变量的样本方差。 6/13
6/13 相似的归为其他类。直到把所有的样品(或指标)聚合完毕. ❖ 相似样本或指标的集合称为类。 ❖ 1、聚类分析的类型有: 对样本分类,称为 Q 型聚类分析 对变量分类,称为 R 型聚类分析 Q 型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的 样本分离开来。 R 型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分 离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数, 达到变量降维的目的。 ❖ 2、聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) ❖ 系统聚类法包括:凝聚方式聚类、分解方式聚类 ❖ 非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等 ❖ 常用距离: (1)、明考夫斯基距离(Minkowski distance) 明氏距离有三种特殊形式: (1a)、绝对距离(Block 距离):当 q=1 时 (1b)欧氏距离(Euclidean distance):当 q=2 时 (1c)切比雪夫距离:当 时 ik jk k p ij d = x − x 1 ( ) max ❖ 当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对 各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理: 其中 为第 j 个变量的样本均值; 为第 j 个变量的样本方差。 g p k g ij ik jk d x x 1 1 ( | | ) = = − ( ) = = − p k dij xik xjk 1 1 ( ) 2 1 1 2 2 ( ) = − = p k ij i k j k d x x q = * 1,2, , 1,2, , ij j ij jj x x x i n j p s − − = = = 1 1 n j ij i x x n − = = 2 1 1 ( ) 1 n jj ij j i s x x n − = = − −
如何避免明氏距离的缺点: 心(3)兰氏距离 当号>01=12…=12…P时 dn(L)=∑ 这是一个自身标准化的量 k=l g+r 克服量纲的影响 未考虑指标间 相关性的影响 2006-12-9 适用于变量之间互不相美的情彩 (4)马氏距离 d2=(x1-x,)2(x,-x1) d=(x1-X)2 克服量纲的影响 克服指标间相 缺点:协方差 关性的影响 矩阵难以确定 马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假 定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各 个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观 测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和 欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。 7/13
7/13 ❖ (4)马氏距离 马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假 定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各 个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观 测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和 欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。 克服量纲的影响 克服指标间相 缺点:协方差 关性的影响 矩阵难以确定 ( ) ( ) 2 i j 1 = xi − xj x − x − dij 1/2 [( ) ( )] ij d − = − − 1 i j i j x x x x
令1、类的定义 相似样本或指标的集合称为类。 (数学表达见63-64页定义31-3.4) 2、类的特征描述: 设类G这一集合有x1x2……xnm为G内的样本数。其特征: (1)均值(或称为重心) (2)协方差矩阵 SG=2(x,-x(x,xG) >G-n-isa (3)G的直径 DG=max di dl2=(797.68)2+(39.7750.37)2+(8.49-1135)2+(12.94-13.3)2+(1927-1925)2+(11.05-14.592+( 2.04-2.75)2+(13.29-14.87)2]0.5=11.67 dl3=13.80dl4=13.12d15=1280d23=2463d24=2406d25=23.54d34=22 d35=3.51d45=2.2 河南与甘肃的距离最近, 211.670 先将二者(3和4)合为 313.8024.630 一类G6={G2,G4} 413.1224.062.200 512.8023.543.512.21 8/13
8/13 ❖ 1、类的定义 相似样本或指标的集合称为类。 (数学表达见 63-64 页定义 3.1-3.4) ❖ 2、类的特征描述: 设类 G 这一集合有 x x xm , ...... 1 2 m 为 G 内的样本数。其特征: (1)均值(或称为重心) (2)协方差矩阵 (3) G 的直径 d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+( 2.04-2.75)2+(13.29-14.87)2]0.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 河南与甘肃的距离最近, 2 11.67 0 先将二者(3 和 4)合为 3 13.80 24.63 0 一类 G6={G2,G4} 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 1 1 m G i i x x m − = = ' 1 ( )( ) m G i G i G i s x x x x − − = = − − 1 1 G Gs n = − , G ij max i j G D d =
◆判别分析 根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。 如何判断(判断依据)?利用已知类别的样本信息求判别函数,根据判别函数对未知样 本所属类别进行判别 判别分析的特点(基本思想) 1、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该 事物分类的规律性,建立判别公式和判别准则 2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。 判别分析的目的:识别一个个体所属类别 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样 本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况: 被解释变量为属性变量; 解释变量是定量变量 判别分析类型及方法 (1)按判别的组数来分,有两组判别分析和多组判别分析 (2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 (3)按判别对所处理的变量方法不同有逐步判别、序贯判别。 (4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则 距高判别 基本思想即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判 别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类 两个总体的距离判别法 1、方差相等 先考虑两个总体的情况,设有两个协差阵∑相同的p维正态总体,对给定的样本Y, 判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距高。 故我们用马氏距高来给定判别规则,有 y∈G,如d(!y,G)< y∈G2,如d(y,G2)<d(y,G) 待判,如d(y,G)=d2(y,G2) d(y, G2)-d(y, Gu) =(y-2)(y-42)-(y-41)(y-41) =y2y-yk2+422-(y∑y-2y2+A42) 2[: (1+l2 2 -(1-12) 令=+=2(H1A2)=(a,a2…“,a 当总体的协方差已知,且不相等 如a2(y,G1)<d2(: y∈G2,如d(y,G2)<d2(y,G1) 待判 如a2(y,G1)=d2(y,G2) 9/13
9/13 ❖ 判别分析 根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。 如何判断(判断依据)? 利用已知类别的样本信息求判别函数,根据判别函数对未知样 本所属类别进行判别 判别分析的特点(基本思想) 1、是根据已掌握的、历史上若干样本的 p 个指标数据及所属类别的信息,总结出该 事物分类的规律性,建立判别公式和判别准则。 2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。 ❖ 判别分析的目的:识别一个个体所属类别 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样 本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况: 被解释变量为属性变量; 解释变量是定量变量。 判别分析类型及方法 (1)按判别的组数来分,有两组判别分析和多组判别分析 (2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 (3)按判别对所处理的变量方法不同有逐步判别、序贯判别。 (4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则 距离判别 基本思想即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判 别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。 (一)两个总体的距离判别法 1、方差相等 先考虑两个总体的情况,设有两个协差阵 相同的 p 维正态总体,对给定的样本 Y, 判别一个样本 Y 到底是来自哪一个总体,一个最直观的想法是计算 Y 到两个总体的距离。 故我们用马氏距离来给定判别规则,有: 2、当总体的协方差已知,且不相等 ( ) ( ) ( ) ( ) = ( , ) ( , ) 2 2 1 2 1 2 2 2 2 2 2 1 2 1 d y G d y G G d G d G G d G d G 待判, 如 , 如 , , , 如 , , , y y y y y y ( ) ( ) ( ) ( ) = ( , ) ( , ) 2 2 1 2 1 2 2 2 2 2 2 1 2 1 d y G d y G G d G d G G d G d G 待判, 如 , 如 , , , 如 , , , y y y y y y ( ) ( ) ( ) ( ) ( , ) ( , ) 1 1 2 1 1 2 1 2 2 2 = − − − − − − − − y y y y y y d G d G 2 2 2 1 1 y y y 1 2 − − − = − + ( 2 ) 1 1 1 1 − − − − − + 1 1 y y y ] ( ) 2 ( ) 2[ 1 2 1 2 1 y − + = − − 2 1 2 + 令 = ( ) ( , , , ) 1 2 = − = − p a a a 1 2 1
d(y, G-d(y,G) =(y-42)2Σ2(y-12)-(y-1)1(y-41) 贝叶斯( Bayes判别---(考计算题) 口贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2比 较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最 小的总体)的判别方法 口一、最大后验概率准则 设有k个总体G④G…G且总体G1的概率密度为∫(x) ,样本x来自G,的先验概率为q1=12…k满足 q1+q2+ +91,利用贝叶斯理论,X属于G的后验概率 (即当样本x已知时,它属于G1的概率为: P(G/2)=92 i=12………k ∑qf(x) 最大后验概率判别准则:x∈G:若P(G/x)=maxP(G/x) 口例7:设有G1,G2和G3三个类,欲判别某样本x0属于哪一类.已 知q1=0.05,q2=0.65,q3=0.30,f(x0)=0.10f(x0)=063 f(x0)=24 现利用后验概率准则计算x属于各组的后验概率 P(G/x0)= f1(x0) 0.05×0.10 0.005 ∑(x)0.05×010+065×063+030×2411345=004 P(G1/x)=4x) 0.65×0.63 0.4095 =0.361 ∑9(x) 0.05×0.10+065×0.63+0.30×241.1345 P(G xo) a3s(o) 0.30×24 0.635 ∑q(x 0.05×0.10+0.65×063+0.30×241.1345 贝叶斯公式:P(B|A)=P(A|B)P(B ∑P(A|B)P(B) 口所谓 Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分 散,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区 分各个总体的线性判别法 -(只作了解)
10/13 贝叶斯(Bayes)判别 ---------(考计算题) 贝叶斯判别法是通过计算被判样本 x属于 k个总体的条件概率 P(n/x),n=1,2…..k. 比 较 k 个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最 小的总体)的判别方法。 一、最大后验概率准则 例 7:设有 G1,G2 和 G3 三个类,欲判别某样本 x0 属于哪一类.已 知 现利用后验概率准则计算 x0 属于各组的后验概率: 贝叶斯公式: 所谓 Fisher 判别法,就是用投影的方法将 k 个不同总体在 p 维空间上的点尽可能分 散,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区 分各个总体的线性判别法 -------- (只作了解) ( ) ( ) ( ) ( ) ( , ) ( , ) 1 1 2 1 1 1 2 2 1 2 2 2 = − − − − − − − − y y y y d y G d y G 0.05, 0.65, 0.30, q1 = q2 = q3 = f 1 (x0 ) = 0.10 f 2 (x0 ) = 0.63 f 3 (x0 ) = 2.4 0.004 1.1345 0.005 0.05 0.10 0.65 0.63 0.30 2.4 0.05 0.10 ( ) ( ) ( ) 3 1 0 1 1 0 1 0 = = + + = = i= i i q f x q f x P G x 0.361 1.1345 0.4095 0.05 0.10 0.65 0.63 0.30 2.4 0.65 0.63 ( ) ( ) ( ) 3 1 0 2 2 0 2 0 = = + + = = i= i i q f x q f x P G x 0.635 1.1345 0.72 0.05 0.10 0.65 0.63 0.30 2.4 0.30 2.4 ( ) ( ) ( ) 3 1 0 3 3 0 3 0 = = + + = = i= i i q f x q f x P G x ( | ) ( ) ( | ) ( ) ( | ) i i i i i P A B P B P A B P B P B A =