到哪些对分类信息足够的特征,常常是在特征抽取时,尽可能多的抽取岀模式的特征,其中 有些特征对识别是必要的,有些特征对识别来说是无用,这就要对这些特征进行选择,找到 那些对识别有用的特征;另一方面,在各个特征之间往往存在着信息的冗余,我们可以进行 某种变换来取出掉特征之间的冗余性。这两种措施的结果都是降低了特征矢量的维数,特征 维数的降低,对分类器设计性能的好坏有着直接的影响,特征维数越少,分类器设计起来难 度越小,因此我们要尽可能的降低特征维数。如何来从原始特征中选择出识别特征,是模式 识别要研究的一个问题 3、识别和训练 人类的分类识别能力不是天生就具有的,而是后天经过不断的实践和学习而逐渐具有的 功能,例如对语言的学习,对文字的学习。 我们要使机器具有分类能力,也必须要对计算机进行训练,使计算机在不断的学习过程 中,逐渐地具有识别能力。这个训练过程主要是通过预先输入一些样本(称为训练样本), 然后依据一定的学习算法来完成 模式识别的训练方法主要分两种: 1)有监督学习(有教师学习):预先已知训练样本集中每个样本的类别标号,也就是说分 别给出了每个类别的训练样本集,然后应用这样的训练样本机进行训练 2)无监督学习(无教师学习):预先不知道训练样本集中每个样本的类别标号,首先需要 按照样本特征的相似性,对训练样本集进行归并,形成若干个训练样本的分类,此方法 也称为聚类。 模式识别的学习算法是与识别方法密切相关的,每一种识别方法对应有不同的学习算 法。在下面的课程中,我们在介绍每一种识别算法时,都要介绍相关的训练算法,这个训练 过程也称为分类器设计过程。 所谓的模式分类实际上是一个决策的过程,当分类器已经设计好之后,每当我们输入一 个待识别的类别未知的样本时,分类器需要作出一个分类决策,确定出该样本的类别标号, 提供给下面的执行机构去执行相应的操作 统计识别方法的分类: 1)根据类别样本在空间中的几何分布特性来进行分类: 前面说过,我们可以将输入的样本转化为一个特征矢量,也就是将模式空间中的一个点 映射为特征空间中的一个点,为了叙述方便,这个特征空间我们可以暂时理解为一个欧式空 间,我们可以合理地作出这样的假设:同一类别的样本在特征空间中应该聚集在一个特定的 区域,不同类别在空间中聚集的区域应该有一定的差别 ·红苹果 绿苹果 橙子 0.20 0.600.70 方法一:近邻法,以距离哪个类别中心最近作为决策依据 方法二:线性判别函数法,寻找到一个线型函数,由现行函数将空间划分为两个区域6 到哪些对分类信息足够的特征,常常是在特征抽取时,尽可能多的抽取出模式的特征,其中 有些特征对识别是必要的,有些特征对识别来说是无用,这就要对这些特征进行选择,找到 那些对识别有用的特征;另一方面,在各个特征之间往往存在着信息的冗余,我们可以进行 某种变换来取出掉特征之间的冗余性。这两种措施的结果都是降低了特征矢量的维数,特征 维数的降低,对分类器设计性能的好坏有着直接的影响,特征维数越少,分类器设计起来难 度越小,因此我们要尽可能的降低特征维数。如何来从原始特征中选择出识别特征,是模式 识别要研究的一个问题。 3、 识别和训练 人类的分类识别能力不是天生就具有的,而是后天经过不断的实践和学习而逐渐具有的 功能,例如对语言的学习,对文字的学习。 我们要使机器具有分类能力,也必须要对计算机进行训练,使计算机在不断的学习过程 中,逐渐地具有识别能力。这个训练过程主要是通过预先输入一些样本(称为训练样本), 然后依据一定的学习算法来完成。 模式识别的训练方法主要分两种: 1) 有监督学习(有教师学习):预先已知训练样本集中每个样本的类别标号,也就是说分 别给出了每个类别的训练样本集,然后应用这样的训练样本机进行训练; 2) 无监督学习(无教师学习):预先不知道训练样本集中每个样本的类别标号,首先需要 按照样本特征的相似性,对训练样本集进行归并,形成若干个训练样本的分类,此方法 也称为聚类。 模式识别的学习算法是与识别方法密切相关的,每一种识别方法对应有不同的学习算 法。在下面的课程中,我们在介绍每一种识别算法时,都要介绍相关的训练算法,这个训练 过程也称为分类器设计过程。 所谓的模式分类实际上是一个决策的过程,当分类器已经设计好之后,每当我们输入一 个待识别的类别未知的样本时,分类器需要作出一个分类决策,确定出该样本的类别标号, 提供给下面的执行机构去执行相应的操作。 统计识别方法的分类: 1) 根据类别样本在空间中的几何分布特性来进行分类: 前面说过,我们可以将输入的样本转化为一个特征矢量,也就是将模式空间中的一个点 映射为特征空间中的一个点,为了叙述方便,这个特征空间我们可以暂时理解为一个欧式空 间,我们可以合理地作出这样的假设:同一类别的样本在特征空间中应该聚集在一个特定的 区域,不同类别在空间中聚集的区域应该有一定的差别。 1.40 1.00 0.60 0.20 0.30 x2 x1 0.40 0.50 0.60 0.70 红苹果 橙子 1.40 1.00 0.60 0.20 0.30 x2 x1 0.40 0.50 0.60 0.70 红苹果 绿苹果 橙子 方法一:近邻法,以距离哪个类别中心最近作为决策依据; 方法二:线性判别函数法,寻找到一个线型函数,由现行函数将空间划分为两个区域