中国科学技术大学：《多元统计分析》课程教学资源（课件讲义）第九讲判别与分类

团购合买资源类别：文库，文档格式：PDF，文档页数：74，文件大小：989.06KB

简介 1.1 简介 1.2 距离判别法 4 1.3 最大似然方法 6 1.4 Bayes判别分析 12 1.5 Logistic回归 22 1.6 Fisher线性判别. 24 1.7支持向量机 37 决策树. 1.8 49 1.9k-NN方法 61 1.10分类效果的评价... 62 Previous Next First Last Back Forward 1

简介 1.1 简介 . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 距离判别法 . . . . . . . . . . . . . . . . . . . 4 1.3 最大似然方法 . . . . . . . . . . . . . . . . . . 6 1.4 Bayes 判别分析 . . . . . . . . . . . . . . . . . 12 1.5 Logistic 回归 . . . . . . . . . . . . . . . . . . 22 1.6 Fisher 线性判别 . . . . . . . . . . . . . . . . . 24 1.7 支持向量机 . . . . . . . . . . . . . . . . . . . 37 1.8 决策树 . . . . . . . . . . . . . . . . . . . . . . 49 1.9 k-NN 方法 . . . . . . . . . . . . . . . . . . . . 61 1.10 分类效果的评价 . . . . . . . . . . . . . . . . . 62 Previous Next First Last Back Forward 1

1.1 简介 ·判别(Discrimination):使用具有类别信息的观测数据(Train- ing Set,.Learning set)建立一个分类器(classifier)或者分类法则(classification rule),其可以最大可能的区分事先定义的类。 (Separation) ·分类(Classification):给定一组新的未知类别信息的观测数据集，使用分类器将其分配到一些已知的类中.(A1 location) ·实际应用中，判别与分类常常混在一起：一一个作为判别的p元函数也可以用于对新的观测进行分类一一个分类准则常常作为判别法则使用 Previous Next First Last Back Forward

1.1 简介 • 判别 (Discrimination): 使用具有类别信息的观测数据 (Training Set, Learning set) 建立一个分类器 (classifier) 或者分类法则 (classification rule)，其可以最大可能的区分事先定义的类。 (Separation) • 分类 (Classification) : 给定一组新的未知类别信息的观测数据集，使用分类器将其分配到一些已知的类中.(Allocation) • 实际应用中, 判别与分类常常混在一起: – 一个作为判别的 p 元函数也可以用于对新的观测进行分类. – 一个分类准则常常作为判别法则使用 Previous Next First Last Back Forward 1

·机器学习领域中，判别与分类称为有指导（监督）的学习(Supervised learning) 三文鱼年轮直径大小 ·拉新加。拿大 60 0 100120140 160 180 Previous Next First Last Back Forward 2

• 机器学习领域中，判别与分类称为有指导 (监督) 的学习(Supervised learning) Previous Next First Last Back Forward 2

·假设有飞个总体（类），G=1,2,.,k表示类别.x为取值2 上的多元观测，且xG=g~pg(x),g=1,2.p为概率函数. ·对任意给定的观测x0,目的是把x0归到k个类中的某个 ·判别与分类的研究是一个交叉领域，常用方法有一距离判别法一最大似然判别方法 -Bayes判别 -Fisher线性判别分析(FLDA) -最近邻分类(NNC) -支持向量机(SVM),C4.5,神经网络，等等 Previous Next First Last Back Forward 2

• 假设有 k 个总体 (类), G = 1, 2, . . . , k 表示类别. x 为取值 Ω 上的多元观测, 且 x|G = g ∼ pg(x), g = 1, 2. p 为概率函数. • 对任意给定的观测 x0, 目的是把 x0 归到 k 个类中的某个. • 判别与分类的研究是一个交叉领域, 常用方法有 – 距离判别法 – 最大似然判别方法 – Bayes 判别 – Fisher 线性判别分析 (FLDA) – 最近邻分类 (NNC) – 支持向量机 (SVM), C4.5, 神经网络, 等等 Previous Next First Last Back Forward 3

1.2 距离判别法 ·基本思想：个体x距离哪个总体近，就将其判为哪个总体。因此，如何刻画总体的位置？使用哪种距离度量？。对于连续数据，常使用总体期望来表示总体的位置，使用欧式距离来度量距离。在给定训练集后，使用样本平均对总体均值进行估计。 ·记(x,Gg)为点x到总体Gg的距离，则距离判别法则为 6(x)=arg min d(x,Ga) ·实际问题中，由于x的各分量往往测量单位不同，而欧式距离一般没有不变性。因此，常使用马氏距离(Mahalanobis,l936) 代替： d2(x,y)=(x-y)'g(x-y),x,yEGg Previous Next First Last Back Forward 4

1.2 距离判别法 • 基本思想：个体 x 距离哪个总体近，就将其判为哪个总体。因此，如何刻画总体的位置？使用哪种距离度量？ • 对于连续数据，常使用总体期望来表示总体的位置，使用欧式距离来度量距离。在给定训练集后，使用样本平均对总体均值进行估计。 • 记 d(x, Gg) 为点 x 到总体 Gg 的距离，则距离判别法则为 δ(x) = arg min g d(x, Gg) • 实际问题中，由于 x 的各分量往往测量单位不同，而欧式距离一般没有不变性。因此，常使用马氏距离 (Mahalanobis,1936) 代替: d 2 (x, y) = (x − y) ′Σ −1 g (x − y), x, y ∈ Gg Previous Next First Last Back Forward 4

其中∑。表示总体Gg的协方差矩阵。 ·记xg和S,分别表示总体Gg的样本均值和样本协方差矩阵，则马氏距离判别法则为 6(x)=argmin(x-元g)YSg(x-元g) 。如果k个总体的方差是相同的，则使用所有训练样本估计∑： 2=Spool=∑，(ng-1)Sg/(n-),n=n1+…+nk ·距离判别法与各总体出现的概率无关，与判错后造成的损失无关。总体位置和距离度量准则的选取至关重要。 Previous Next First Last Back Forward S

其中 Σg 表示总体 Gg 的协方差矩阵。 • 记 x¯g 和 Sg 分别表示总体 Gg 的样本均值和样本协方差矩阵，则马氏距离判别法则为 δ(x) = arg min g (x − x¯g) ′ Sˆ−1 g (x − x¯g) • 如果 k 个总体的方差是相同的，则使用所有训练样本估计 Σ： Σ =ˆ Spool = ∑ g (ng − 1)Sg/(n − k), n = n1 + · · · + nk • 距离判别法与各总体出现的概率无关，与判错后造成的损失无关。总体位置和距离度量准则的选取至关重要。 Previous Next First Last Back Forward 5

1.3最大似然方法 ·最大似然分类器(MLC)选择使观测机会最大的类。假设每个类的条件概率函数（密度或者分布律）为 Pg(x)=Pr(x G=g),g=1,...,k ·最大似然判别法则通过确定X的最大似然来预测观测x的类： 6(x)=arg maxpg(x) ·对两分类问题（化=2），最大似然判别法则(x)等价于决策函数h(x)=p1(x)/p2(x)-1来表示（分类规则，决策法则）： 6(x)= 1,h(x)>0, 2,h(x)<0. Previous Next First Last Back Forward 6

1.3 最大似然方法 • 最大似然分类器 (MLC) 选择使观测机会最大的类 • 假设每个类的条件概率函数 (密度或者分布律) 为 pg(x) = P r(x|G = g), g = 1, . . . , k • 最大似然判别法则通过确定 X 的最大似然来预测观测 x 的类: δ(x) = arg max g pg(x) • 对两分类问题 (k = 2)，最大似然判别法则 δ(x) 等价于决策函数 h(x) = p1(x)/p2(x) − 1 来表示 (分类规则, 决策法则)： δ(x) = { 1, h(x) > 0, 2, h(x) < 0. Previous Next First Last Back Forward 6

其中(x)=0称为决策边界。此时错误将第1类的个体分类到第2类的概率为 p21=P(6(x)=2g=1)= Pi(u)du (1.1) 而错误将第2类的个体分类到第1类的概率为 pP12=P(6(x)=1g=2)= p2(u)du, (1.2) h(u)>0 因此总错误分类概率(TPM,total probability of missclassifi- cation)为 TPM=p21+P12 =o pi(u)du+ p2(u)du h(u)0 =1- pi(u)-p2(u)]du. (1.3) p1(u)>p2(u) Previous Next First Last Back Forward

其中 h(x) = 0 称为决策边界。此时错误将第 1 类的个体分类到第 2 类的概率为 p21 = P(δ(x) = 2|g = 1) = ∫ h(u)0 p2(u)du, (1.2) 因此总错误分类概率 (TPM, total probability of missclassification) 为 T PM = p21 + p12 = ∫ h(u)0 p2(u)du = 1 − ∫ p1(u)>p2(u) [p1(u) − p2(u)]du. (1.3) Previous Next First Last Back Forward 7

可以看出，最大似然判别法则最小化总错误分类概率。考虑两个一元正态总体： TExample Π1：N(41,o2), Π2：N(2,o2),山1<2 求最大似然判别法则。 ⊥Example 容易解出 h=ep-2ae-mP-e-四9-】从而 Previous Next First Last Back Forward

可以看出，最大似然判别法则最小化总错误分类概率。 ↑Example 考虑两个一元正态总体： Π1 : N(µ1, σ 2 ), Π2 : N(µ2, σ 2 ), µ1 0, 2, h(x) (µ1 + µ2)/2. Previous Next First Last Back Forward 8

·若总体为正态分布，则 -QDA(二次型法则)若XIg~N(g,∑g),则最大似然判别法则为 6(x)=arg min (x-ua)'(x-ua)+logol 实际中，4g,乃g使用训练样本估计产g=xg,立g=Sg.从而判别函数为 6(x)=arg min(xa)xa)+log -LDA(线性法则)若Xlg~N(μg,),则最大似然判别 Previous Next First Last Back Forward 9

• 若总体为正态分布，则 – QDA(二次型法则) 若 X|g ∼ Np(µg, Σg), 则最大似然判别法则为 δ(x) = arg min g [ (x − µg) ′Σ −1 g (x − µg) + log|Σg| ] 实际中, µg, Σg 使用训练样本估计 µˆg = x¯g, Σˆ g = Sg. 从而判别函数为 δ(x) = arg min g [ (x − µˆg) ′Σˆ −1 g (x − µˆg) + log|Σˆ g| ] – LDA(线性法则) 若 X|g ∼ Np(µg, Σ), 则最大似然判别 Previous Next First Last Back Forward 9

点击进入文档下载页（PDF格式）

共74页，可试读20页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录