简介 1.1 简介 1.2 距离判别法 4 1.3 最大似然方法 6 1.4 Bayes判别分析 12 1.5 Logistic回归 22 1.6 Fisher线性判别. 24 1.7支持向量机 37 决策树. 1.8 49 1.9k-NN方法 61 1.10分类效果的评价... 62 Previous Next First Last Back Forward 1
简介 1.1 简介 . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 距离判别法 . . . . . . . . . . . . . . . . . . . 4 1.3 最大似然方法 . . . . . . . . . . . . . . . . . . 6 1.4 Bayes 判别分析 . . . . . . . . . . . . . . . . . 12 1.5 Logistic 回归 . . . . . . . . . . . . . . . . . . 22 1.6 Fisher 线性判别 . . . . . . . . . . . . . . . . . 24 1.7 支持向量机 . . . . . . . . . . . . . . . . . . . 37 1.8 决策树 . . . . . . . . . . . . . . . . . . . . . . 49 1.9 k-NN 方法 . . . . . . . . . . . . . . . . . . . . 61 1.10 分类效果的评价 . . . . . . . . . . . . . . . . . 62 Previous Next First Last Back Forward 1
1.1 简介 ·判别(Discrimination):使用具有类别信息的观测数据(Train- ing Set,.Learning set)建立一个分类器(classifier)或者分类法 则(classification rule),其可以最大可能的区分事先定义的类。 (Separation) ·分类(Classification):给定一组新的未知类别信息的观测数据 集,使用分类器将其分配到一些已知的类中.(A1 location) ·实际应用中,判别与分类常常混在一起: 一一个作为判别的p元函数也可以用于对新的观测进行分 类 一一个分类准则常常作为判别法则使用 Previous Next First Last Back Forward
1.1 简介 • 判别 (Discrimination): 使用具有类别信息的观测数据 (Training Set, Learning set) 建立一个分类器 (classifier) 或者分类法 则 (classification rule),其可以最大可能的区分事先定义的类。 (Separation) • 分类 (Classification) : 给定一组新的未知类别信息的观测数据 集,使用分类器将其分配到一些已知的类中.(Allocation) • 实际应用中, 判别与分类常常混在一起: – 一个作为判别的 p 元函数也可以用于对新的观测进行分 类. – 一个分类准则常常作为判别法则使用 Previous Next First Last Back Forward 1
·机器学习领域中,判别与分类称为有指导(监督)的学习(Supervised learning) 三文鱼年轮直径大小 ·拉新加 。拿大 60 0 100120140 160 180 Previous Next First Last Back Forward 2
• 机器学习领域中,判别与分类称为有指导 (监督) 的学习(Supervised learning) Previous Next First Last Back Forward 2
·假设有飞个总体(类),G=1,2,.,k表示类别.x为取值2 上的多元观测,且xG=g~pg(x),g=1,2.p为概率函数. ·对任意给定的观测x0,目的是把x0归到k个类中的某个 ·判别与分类的研究是一个交叉领域,常用方法有 一距离判别法 一最大似然判别方法 -Bayes判别 -Fisher线性判别分析(FLDA) -最近邻分类(NNC) -支持向量机(SVM),C4.5,神经网络,等等 Previous Next First Last Back Forward 2
• 假设有 k 个总体 (类), G = 1, 2, . . . , k 表示类别. x 为取值 Ω 上的多元观测, 且 x|G = g ∼ pg(x), g = 1, 2. p 为概率函数. • 对任意给定的观测 x0, 目的是把 x0 归到 k 个类中的某个. • 判别与分类的研究是一个交叉领域, 常用方法有 – 距离判别法 – 最大似然判别方法 – Bayes 判别 – Fisher 线性判别分析 (FLDA) – 最近邻分类 (NNC) – 支持向量机 (SVM), C4.5, 神经网络, 等等 Previous Next First Last Back Forward 3
1.2 距离判别法 ·基本思想:个体x距离哪个总体近,就将其判为哪个总体。因 此,如何刻画总体的位置?使用哪种距离度量? 。对于连续数据,常使用总体期望来表示总体的位置,使用欧式 距离来度量距离。在给定训练集后,使用样本平均对总体均值 进行估计。 ·记(x,Gg)为点x到总体Gg的距离,则距离判别法则为 6(x)=arg min d(x,Ga) ·实际问题中,由于x的各分量往往测量单位不同,而欧式距离 一般没有不变性。因此,常使用马氏距离(Mahalanobis,l936) 代替: d2(x,y)=(x-y)'g(x-y),x,yEGg Previous Next First Last Back Forward 4
1.2 距离判别法 • 基本思想:个体 x 距离哪个总体近,就将其判为哪个总体。因 此,如何刻画总体的位置?使用哪种距离度量? • 对于连续数据,常使用总体期望来表示总体的位置,使用欧式 距离来度量距离。在给定训练集后,使用样本平均对总体均值 进行估计。 • 记 d(x, Gg) 为点 x 到总体 Gg 的距离,则距离判别法则为 δ(x) = arg min g d(x, Gg) • 实际问题中,由于 x 的各分量往往测量单位不同,而欧式距离 一般没有不变性。因此,常使用马氏距离 (Mahalanobis,1936) 代替: d 2 (x, y) = (x − y) ′Σ −1 g (x − y), x, y ∈ Gg Previous Next First Last Back Forward 4
其中∑。表示总体Gg的协方差矩阵。 ·记xg和S,分别表示总体Gg的样本均值和样本协方差矩阵, 则马氏距离判别法则为 6(x)=argmin(x-元g)YSg(x-元g) 。如果k个总体的方差是相同的,则使用所有训练样本估计∑: 2=Spool=∑,(ng-1)Sg/(n-),n=n1+…+nk ·距离判别法与各总体出现的概率无关,与判错后造成的损失无 关。总体位置和距离度量准则的选取至关重要。 Previous Next First Last Back Forward S
其中 Σg 表示总体 Gg 的协方差矩阵。 • 记 x¯g 和 Sg 分别表示总体 Gg 的样本均值和样本协方差矩阵, 则马氏距离判别法则为 δ(x) = arg min g (x − x¯g) ′ Sˆ−1 g (x − x¯g) • 如果 k 个总体的方差是相同的,则使用所有训练样本估计 Σ: Σ =ˆ Spool = ∑ g (ng − 1)Sg/(n − k), n = n1 + · · · + nk • 距离判别法与各总体出现的概率无关,与判错后造成的损失无 关。总体位置和距离度量准则的选取至关重要。 Previous Next First Last Back Forward 5
1.3最大似然方法 ·最大似然分类器(MLC)选择使观测机会最大的类 。假设每个类的条件概率函数(密度或者分布律)为 Pg(x)=Pr(x G=g),g=1,...,k ·最大似然判别法则通过确定X的最大似然来预测观测x的类: 6(x)=arg maxpg(x) ·对两分类问题(化=2),最大似然判别法则(x)等价于决策函 数h(x)=p1(x)/p2(x)-1来表示(分类规则,决策法则): 6(x)= 1,h(x)>0, 2,h(x)<0. Previous Next First Last Back Forward 6
1.3 最大似然方法 • 最大似然分类器 (MLC) 选择使观测机会最大的类 • 假设每个类的条件概率函数 (密度或者分布律) 为 pg(x) = P r(x|G = g), g = 1, . . . , k • 最大似然判别法则通过确定 X 的最大似然来预测观测 x 的类: δ(x) = arg max g pg(x) • 对两分类问题 (k = 2),最大似然判别法则 δ(x) 等价于决策函 数 h(x) = p1(x)/p2(x) − 1 来表示 (分类规则, 决策法则): δ(x) = { 1, h(x) > 0, 2, h(x) < 0. Previous Next First Last Back Forward 6
其中(x)=0称为决策边界。此时错误将第1类的个体分类 到第2类的概率为 p21=P(6(x)=2g=1)= Pi(u)du (1.1) 而错误将第2类的个体分类到第1类的概率为 pP12=P(6(x)=1g=2)= p2(u)du, (1.2) h(u)>0 因此总错误分类概率(TPM,total probability of missclassifi- cation)为 TPM=p21+P12 =o pi(u)du+ p2(u)du h(u)0 =1- pi(u)-p2(u)]du. (1.3) p1(u)>p2(u) Previous Next First Last Back Forward
其中 h(x) = 0 称为决策边界。此时错误将第 1 类的个体分类 到第 2 类的概率为 p21 = P(δ(x) = 2|g = 1) = ∫ h(u)0 p2(u)du, (1.2) 因此总错误分类概率 (TPM, total probability of missclassification) 为 T PM = p21 + p12 = ∫ h(u)0 p2(u)du = 1 − ∫ p1(u)>p2(u) [p1(u) − p2(u)]du. (1.3) Previous Next First Last Back Forward 7
可以看出,最大似然判别法则最小化总错误分类概率。 考虑两个一元正态总体: TExample Π1:N(41,o2), Π2:N(2,o2),山1<2 求最大似然判别法则。 ⊥Example 容易解出 h=ep-2ae-mP-e-四9-】 从而 Previous Next First Last Back Forward
可以看出,最大似然判别法则最小化总错误分类概率。 ↑Example 考虑两个一元正态总体: Π1 : N(µ1, σ 2 ), Π2 : N(µ2, σ 2 ), µ1 0, 2, h(x) (µ1 + µ2)/2. Previous Next First Last Back Forward 8
·若总体为正态分布,则 -QDA(二次型法则)若XIg~N(g,∑g),则最大似然判 别法则为 6(x)=arg min (x-ua)'(x-ua)+logol 实际中,4g,乃g使用训练样本估计产g=xg,立g=Sg.从 而判别函数为 6(x)=arg min(xa)xa)+log -LDA(线性法则)若Xlg~N(μg,),则最大似然判别 Previous Next First Last Back Forward 9
• 若总体为正态分布,则 – QDA(二次型法则) 若 X|g ∼ Np(µg, Σg), 则最大似然判 别法则为 δ(x) = arg min g [ (x − µg) ′Σ −1 g (x − µg) + log|Σg| ] 实际中, µg, Σg 使用训练样本估计 µˆg = x¯g, Σˆ g = Sg. 从 而判别函数为 δ(x) = arg min g [ (x − µˆg) ′Σˆ −1 g (x − µˆg) + log|Σˆ g| ] – LDA(线性法则) 若 X|g ∼ Np(µg, Σ), 则最大似然判别 Previous Next First Last Back Forward 9