第二讲基础概念 周文晖 杭州电子科技大学
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 第二讲 基础概念 周文晖 杭州电子科技大学
基础术语与基本概念 基础术语 数据,学习方法,泛化能力, 模型评估 模型评估方法 留出法,交叉验证法, 性能度量 模型性能度量 错误率,精度,PR曲线,… 比较检验 比较检验 二项检验,检验,交叉验证,… 偏差与方差 偏差与方差 偏差,方差, Hangzhou Dian21乙Umes1y杭州电子科技大学 School of Computer Science and Tecfmology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语 比较检验 模型评估 性能度量 偏差与方差 基础术语与基本概念 数据,学习方法,泛化能力,… 模型评估方法 留出法,交叉验证法,… 模型性能度量 比较检验 二项检验,t检验,交叉验证,… 偏差与方差 ? 偏差,方差,… 错误率,精度,P-R曲线,…
基础术语与基本概念 基础术语 数据,学习方法,泛化能力, 模型评估 模型评估方法 留出法,交叉验证法, 性能度量 模型性能度量 错误率,精度,PR曲线,… 比较检验 比较检验 二项检验,检验,交叉验证,… 偏差与方差 偏差与方差 偏差,方差, Hangzhou Dian21乙Umes1y杭州电子科技大学 School of Computer Science and Tecfmnology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语 比较检验 模型评估 性能度量 偏差与方差 基础术语与基本概念 数据,学习方法,泛化能力,… 模型评估方法 留出法,交叉验证法,… 模型性能度量 比较检验 二项检验,t检验,交叉验证,… 偏差与方差 ? 偏差,方差,… 错误率,精度,P-R曲线,…
基础术语与基本概念 模式(Patterr):为执行和完成识别任务,对分类识别对象进行科学的抽象,建立其数学模型,用以描述和代 替识别对象,这种对象特性的描述就是模式。如规律、模板、特征组合等。 模式的表现形式:特征矢量、符号串、图、关系式。 模式类:具有某些共同特性的类别或类的总称,通常采用特定的抽象符号来表示。 模式表示具体对象的抽象特性,模式类则是对这一类事物的概念性描述。 样本:个别具体的模式称为样本。 样本是具体对象的个体,而模式是对同一类对象的概念性概括。 模式识别:研究对象的特征或者属性,运用一定的分析算法认定其类别,且分类识别结果尽可能地符合真实。 Hangzhou Dianzi University杭州电子科技大学 School of Computer Science and Tecfnology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语与基本概念 模式(Pattern):为执行和完成识别任务,对分类识别对象进行科学的抽象,建立其数学模型,用以描述和代 替识别对象,这种对象特性的描述就是模式。如规律、模板、特征组合等。 模式的表现形式:特征矢量、符号串、图、关系式。 模式类 :具有某些共同特性的类别或类的总称,通常采用特定的抽象符号来表示。 模式表示具体对象的抽象特性,模式类则是对这一类事物的概念性描述。 样本:个别具体的模式称为样本。 样本是具体对象的个体,而模式是对同一类对象的概念性概括。 模式识别:研究对象的特征或者属性,运用一定的分析算法认定其类别,且分类识别结果尽可能地符合真实
基础术语与基本概念 样本(sample):所研究对象的一个个体,是一类事物的一个具体体现或实例。 样本集(sample set):若干样本的集合。 类或类别(cass):在所有样本上定义的一个子集,属于同一类的样本具有相同模式(属性或特征)。 特征(features)):指用于表征样本特点或性状的观测和量化集合,也被称为属性(attribute)。若存在多维 特征,则为特征向量(feature vector)。样本的特征构成了样本特征空间。模式识别则是在样本特征空间中 完成模式识别(决策)。 已知样本(known samples):指事先知道类别标号的样本。 未知样本(unknown samples):指类别标号未知但特征已知的样本。 Hangzhou Dianzi University杭州电子科技大学 School of Computer Science and Tecfnology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语与基本概念 样本(sample):所研究对象的一个个体,是一类事物的一个具体体现或实例。 样本集(sample set):若干样本的集合。 类或类别(class):在所有样本上定义的一个子集,属于同一类的样本具有相同模式(属性或特征)。 特征(features):指用于表征样本特点或性状的观测和量化集合,也被称为属性(attribute)。若存在多维 特征,则为特征向量(feature vector)。样本的特征构成了样本特征空间。模式识别则是在样本特征空间中 完成模式识别(决策)。 已知样本(known samples):指事先知道类别标号的样本。 未知样本(unknown samples):指类别标号未知但特征已知的样本
基础术语与基本概念 模式识别研究内容 ·数据预处理 ·视频、图像、信号处理 ·模式分割 ·模式/背景分离、模式-模式分离 ·运动分析 ·目标跟踪、运动模式描述 ·模式描述与分类 ·特征提取/选择、模式分类、聚类、机器学习 ·模式识别应用研究 ·针对具体应用的方法与系统 Hangzhou Dianzi University杭州电子科技大学 School of Computer Science and Technology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语与基本概念 模式识别研究内容 • 数据预处理 • 视频、图像、信号处理 • 模式分割 • 模式/背景分离、模式-模式分离 • 运动分析 • 目标跟踪、运动模式描述 • 模式描述与分类 • 特征提取/选择、模式分类、聚类、机器学习 • 模式识别应用研究 • 针对具体应用的方法与系统
基础术语与基本概念 模式识别系统简例:建立感性认识 以癌细胞识别为例,了解模式识别的全过程。 浆0 第1步:信息输入与数据获取 将显微细胞图像转换成数字化细胞图像,是计算 机分析的原始数据基础。灰度数字图像的像素值 核N 反映光密度的大小。 背景B 经过染色处理过的彩色图象 灰度图象 数字化显微细胞图像 Hangzhou Dianzi University杭州电子科技大学 School of Computer Science and Tecfnology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语与基本概念 模式识别系统简例:建立感性认识 以癌细胞识别为例,了解模式识别的全过程。 第1步:信息输入与数据获取 数字化显微细胞图像 经过染色处理过的彩色图象 灰度图象 核N 浆C 背景B 将显微细胞图像转换成数字化细胞图像,是计算 机分析的原始数据基础。灰度数字图像的像素值 反映光密度的大小
基础术语与基本概念 模式识别系统简例:建立感性认识 核N浆C 以癌细胞识别为例,了解模式识别的全过程。 第2步:数字化细胞图像的预处理与区域划分 预处理目的: (1)去除在数据获取时引入的噪声与干扰。 疑似肿瘤细胞 检测的边缘 (2)增强主要的待识别细胞图像。 例:平滑、图像增强等数字图像处理技术。 设灰度阈值为T和Tn,图像中某像素的灰度值为T,则: T,≥Tn的点属于胞核区: 区域划分的目的:找出边界,划分出三个区域,为 T<T的点属于背景区: 特征抽取做准备。 T≤T,<Tn的点属于胞浆区: Hangzhou Dianzi University杭州电子科技大学 School of Computer Science and Tecfnology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语与基本概念 模式识别系统简例:建立感性认识 以癌细胞识别为例,了解模式识别的全过程。 预处理目的: (1)去除在数据获取时引入的噪声与干扰。 (2)增强主要的待识别细胞图像。 例:平滑、图像增强等数字图像处理技术。 区域划分的目的:找出边界,划分出三个区域,为 特征抽取做准备。 检测的边缘 Tn Tc 疑似肿瘤细胞 Tc Tn 核N 浆C Tc Tn 设灰度阈值为Tc 和Tn ,图像中某像素的灰度值为Ti ,则: Ti ≥ Tn 的点属于胞核区; Ti < Tc 的点属于背景区; Tc≤Ti < Tn 的点属于胞浆区; 第2步:数字化细胞图像的预处理与区域划分
基础术语与基本概念 模式识别系统简例:建立感性认识 以癌细胞识别为例,了解模式识别的全过程。 第3步:细胞特征的抽取、选择和提取 目的:为了建立各种特征的数学模型,以用于分类: ①抽取特征:原始采集数据量大。是特征选择和提取的依据。 例:一个细胞抽取33个特征,建立一个33维的空间X, 每个细胞可通过一个33维向量表示,记为:X=[x1,x2,…,x33] 即把一个“细胞”变成了一个数学模型“33维随机向量”,也即33维空间中的一点。 ②特征选择:在原始特征基础上选择一些主要特征作为判别用的特征。 Hangzhou Dianzi University杭州电子科技大学 School of Computer Science and Tecfnology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语与基本概念 模式识别系统简例:建立感性认识 以癌细胞识别为例,了解模式识别的全过程。 第3步:细胞特征的抽取、选择和提取 目的:为了建立各种特征的数学模型,以用于分类: ① 抽取特征 :原始采集数据量大。是特征选择和提取的依据。 即把一个 “细胞”变成了一个数学模型“33维随机向量”,也即33维空间中的一点。 ② 特征选择:在原始特征基础上选择一些主要特征作为判别用的特征。 例:一个细胞抽取33个特征 ,建立一个33维的空间 X, 每个细胞可通过一个33维向量表示,记为: T 1 2 33 X [ x , x , , x ]
基础术语与基本概念 模式识别系统简例:建立感性认识 以癌细胞识别为例,了解模式识别的全过程。 第3步:细胞特征的抽取、选择和提取 ③特征提取:采用某种变换技术,提取综合特征用于分类,亦称特征维数压缩。 例:有五个特征x1,x2,x3,x4,x5,以及变换f()、g),则可有: 1=f(x1,x2,x3,x4,x3))y2=gx1,2,x3,x4,x5) 结果:X空间中的向量 X=[x1,x2,x3,x4,x] 即:特征向量由5维降为2维。 变成Y空间的向量 Y=[y1,y2]T Hangzhou Dianzi University杭州电子科技大学 School of Computer Science and Tecfmology计算机学院周文晖
Hangzhou Dianzi University 杭州电子科技大学 School of Computer Science and Technology 计算机学院 周文晖 基础术语与基本概念 模式识别系统简例:建立感性认识 以癌细胞识别为例,了解模式识别的全过程。 ③ 特征提取:采用某种变换技术,提取综合特征用于分类,亦称特征维数压缩。 例:有五个特征 ,以及变换 f (·)、g(·) , 则可有: 1 1 2 3 4 5 2 1 2 3 4 5 y f x , x , x , x , x y g x , x , x , x , x 结果:X 空间中的向量 变成 Y 空间的向量 T 1 2 3 4 5 X [x , x , x , x , x ] T 1 2 Y [ y , y ] 即:特征向量由5维降为2维。 1 2 3 4 5 x , x , x , x , x 第3步:细胞特征的抽取、选择和提取