统计学习理论及应用 第四讲感知机 编写:文泉、陈娟 电子科技大学计算机科学与工程学院
统计学习理论及应用 第四讲 感知机 编写:文泉、陈娟 电子科技大学 计算机科学与工程学院
目录 ①感知机的概念 感知机的学习策略 3 感知机学习算法 4 感知机学习算法的对偶形式 1/28
目录 1 感知机的概念 2 感知机的学习策略 3 感知机学习算法 4 感知机学习算法的对偶形式 1 / 28
知识点: ·感知机的概念 ●感知机的学习策略 。感知机的学习算法 ·感知机算法的对偶形式 重点与难点: ·重点:感知机的学习策略 ·难点:感知机算法的对偶形式 2/28
知识点: 感知机的概念 感知机的学习策略 感知机的学习算法 感知机算法的对偶形式 重点与难点: 重点:感知机的学习策略 难点:感知机算法的对偶形式 2 / 28
4.1.感知机的概念 感知机(perceptron)是二类分类的线性分类模型(linear classification model),其输入为实例的特征向量,输出为实 例的类别,取+1和-1二值。感知机对应于输入空间(特 征空间)中,将实例划分为正、负两类的分离超平面,属 于判别模型 第3讲涉及的线性回归模型((linear regression model).的 输出是连续的。 ·第4讲涉及的感知机模型是线性分类模型(linea classification model)的输出是离散的。 3/28
4.1. 感知机的概念 ▶ 感知机(perceptron) 是二类分类的线性分类模型(linear classification model), 其输入为实例的特征向量,输出为实 例的类别,取 +1 和 −1二值。感知机对应于输入空间(特 征空间)中,将实例划分为正、负两类的分离超平面,属 于判别模型 ▶ 第 3 讲涉及的线性回归模型(linear regression model)的 输出是连续的。 ▶ 第 4 讲涉及的感知机模型是线性分类模型(linear classification model)的输出是离散的。 3 / 28
感知机的定义 定义:(感知机)假设输入空间(特征空间)是XCm, 输出空间是y={+1,-1}。输入x∈X表示实例的特征 向量,对应于输入空间(特征空间)的点;输出y∈)y表示 实例的类别。感知机是由输入空间到输出空间的映射函数: y=f(x)=sign(w·x+b) sign() 其中 ·w·x是w与x的内积。 ·w和b是感知机的模型参数。 ·sign()是符号函数。 4/28
感知机的定义 ▶ 定义:(感知机)假设输入空间(特征空间)是 X ⊆ R n , 输出空间是 Y = {+1, −1} 。输入 x ∈ X 表示实例的特征 向量,对应于输入空间(特征空间)的点;输出 y ∈ Y 表示 实例的类别。感知机是由输入空间到输出空间的映射函数: y = f (x) = sign(w · x + b) sign(z) = +1, z ≥ 0 −1, z < 0 其中 w · x 是 w 与 x 的内积。 w 和 b 是感知机的模型参数。 sign(·) 是符号函数。 4 / 28
·感知机是一种线性分类模型,属于判别模型。 ·感知机模型的假设空间是定义在特征空间中的所有线性 分类模型(linear classification model)或线性分类器(linear classifier),即函数集合: {flf(x)=w·x+b} 5/28
▶ 感知机是一种线性分类模型,属于判别模型。 ▶ 感知机模型的假设空间是定义在特征空间中的所有线性 分类模型(linear classification model) 或线性分类器 (linear classifier),即函数集合: {f | f (x) = w · x + b} 5 / 28
感知机的几何解释 w+x+8-0 线性方程:w·x+b=0,对应于特征空间中的一个超平面S,其 中w是超平面的法向量,b是超平面的截距。 这个超平面将特征空间划分为两个部分。位于这两部分的点(特征 向量)分为正(法向量的方向)、负两类。因此,超平面S称为分 离超平面(separating hyperplane)。 6/28
感知机的几何解释 线性方程: w · x + b = 0 ,对应于特征空间中的一个超平面 S ,其 中 w 是超平面的法向量, b 是超平面的截距。 这个超平面将特征空间划分为两个部分。位于这两部分的点(特征 向量)分为正(法向量 w的方向)、负两类。因此,超平面 S 称为分 离超平面(separating hyperplane)。 6 / 28
4.2.感知机的学习策略 数据集的线性可分性: 定义:给定一个数据集 T={(1,y1),(x2,2),,(w,w)}, 其中,∈X=R,∈y={+1,-1},i=1,2,,N,如 果存在某个超平面S w·x+b=0 能够将数据集的正实例点和负实例点完全正确地划分到超 平面的两侧,即对所有片=+1的实例有w·x:+b>0, 对所有y=-1的实例有w·x+b<0,则称数据集T 为线性可分数据集(linearly separable dataset)),否则,称数 据集T线性不可分。 7/28
4.2. 感知机的学习策略 ▶ 数据集的线性可分性: 定义:给定一个数据集 T = {(x1, y1),(x2, y2), . . . ,(xN, yN)}, 其中, xi ∈ X = R n , yi ∈ Y = {+1, −1}, i = 1, 2, . . . , N ,如 果存在某个超平面 S w · x + b = 0 能够将数据集的正实例点和负实例点完全正确地划分到超 平面的两侧,即对所有 yi = +1 的实例有 w · xi + b > 0 , 对所有 yi = −1 的实例有 w · xi + b < 0 ,则称数据集 T 为线性可分数据集(linearly separable dataset); 否则,称数 据集 T 线性不可分。 7 / 28
线性可分数据集与线性不可分数据集T的示意图。 Decision Boundary 1as58 Class e Class 62 Class (a) (b) FIGURE 1.4 (a)A pair of linearly separable patterns.(b)A pair of non-linearly separable patterns. 8/28
线性可分数据集与线性不可分数据集 T 的示意图。 8 / 28
感知机的学习策略 ·假设训练数据集是线性可分的,感知机学习的目标是求 得一个能够将训练集的正、负实例点完全正确分开的分离 超平面。 ·为了找出这样的超平面,即确定感知机模型参数",b, 需要确定一个学习策略,即定义(经验)损失函数,并将 损失函数极小化 ·损失函数的一个自然选择是误分类点的总数。这样的损 失函数不是参数w,b的连续可导函数,不易优化。 ·感知机所采用的损失函数是误分类点到超平面S的总距 离。 9/28
感知机的学习策略 ▶ 假设训练数据集是线性可分的,感知机学习的目标是求 得一个能够将训练集的正、负实例点完全正确分开的分离 超平面。 ▶ 为了找出这样的超平面,即确定感知机模型参数 w, b , 需要确定一个学习策略,即定义(经验)损失函数,并将 损失函数极小化. ▶ 损失函数的一个自然选择是误分类点的总数。这样的损 失函数不是参数 w, b 的连续可导函数,不易优化。 ▶ 感知机所采用的损失函数是误分类点到超平面 S 的总距 离。 9 / 28