第6卷第5期 智能系统学报 Vol.6 No.5 2011年10月 CAAI Transactions on Intelligent Systems 0ct.2011 doi:10.3969/j.issn.16734785.2011.05.003 高斯过程及其在高光谱图像分类中的应用 姚伏天12,钱法涛2 (1.浙江大学计算机学院,浙江杭州310027:2.浙江大学人工智能研究所,浙江杭州310027) 摘要:高光谱遥感图像分类是高光谱成像信息处理的研究热点,高光谱成像的内在特点对于分类器设计具有直接 影响.高斯过程是近年来发展迅速的一种新的机器学习方法,具备容易实现、超参数可自适应获取以及预测输出具 有概率意义等优点,比较适合于处理图像分类问题.首先对高斯过程的基本概念及其主要的分类算法进行了简要介 绍,然后在对高光谱图像分类的特点和高光谱图像分类的研究现状的分析基础上,讨论了基于高斯过程的高光谱图 像分类的基本思想,提出了基于空间约束的高斯过程分类和基于半监督高斯过程分类等适合高光谱图像分类的新 方法.最后对基于高斯过程的高光谱图像分类研究的发展趋势进行了展望, 关键词:高斯过程:高光谱图像:机器学习:图像分类 中图分类号:TP181文献标志码:A文章编号:16734785(2011)05039609 Gaussian process and its applications in hyperspectral image classification YAO Futian'2,QIAN Yuntao'2 (1.College of Computer Science,Zhejiang University,Hangzhou 310027,China;2.Institute of Artificial Intelligence,Zhejiang Uni- versity,Hangzhou 310027,China) Abstract:Hyperspectral image classification is one of the hotspots in the field of remote sensing applications.The classification performance is affected by the inherit characteristics of hyperspectral imaging.Gaussian process(GP) is a recently developed machine learning method which enables explicitly probabilistic modeling and makes results easily interpretable.Furthermore,hyper-parameters of GP can be learned from training data,which overcomes the difficulties of fixing model parameters in most classifiers.This paper introduced the basic concept of GP and some GP-based classification methods.After analyzing the characteristics of hyperspectral imaging and the existing classi- fication methods for hyperspectral images,GP based classification for hyperspectral images was discussed,and some new GP-based classification methods such as GP with spatial constraints and semisupervised GP methods were proposed.Finally,several future research trends of GP and hyperspectral image classification were given. Keywords:Gaussian process;hyperspectral imaging;machine learning;image classification 高斯过程(Gaussian process,GP)是近几年发展 率解释。 起来的一种机器学习技术,是目前国际上机器学习 GP预测的思想可以追溯到20世纪40年代[山 研究的热点领域,常被成功应用于处理回归与分类 众所周知,GP预测在地理统计学中被称为Kig 问题.与人工神经网络(artificial neural network, ing23].Thompson和Daley]将其引入气象学中, ANN)和支持向量机(support vector machine,SVM) Whittle将该方法用于空间预测,Ripley和Cress- 相比,GP的突出优点是在不牺牲性能的条件下容易 ie8]将GP预测用于空间统计.随后人们逐渐意识到 实现,其超参数可在模型构建过程中自适应获得,具 GP预测可用于通用回归问题,文献[9-11]中将GP 有严格的统计基础,并且其预测输出具有清晰的概 用于计算机实验数据分析,文献[12-13]基于机器学 习理论重新描述了GP回归和分类. 收稿日期:2010-1019. 基金项目:国家自然科学基金资助项目(60872071), 基于G的分类器设计近年来受到越来越多的 通信作者:钱沄涛.E-mail:ytqian@ju.cd.cn 关注416.分类问题定义为给定输入向量x,通过预
第5期 姚伏天,等:高斯过程及其在高光谱图像分类中的应用 ·397· 测概率值P(clx)来给输入向量x指定类别c.传统 也就是p(yl)=N(ylf,o). 分类方法中,分类面由一组加权基函数组合而成,通 GP是把多元高斯分布推广到无限多个随机变 过训练数据求得每个基函数的系数,从而确定分类 量的形式.假设数据服从GP先验,则数据集合中的 面;但是,对于高维数据,因基函数和待求系数过多, 任意有限长的子集都服从联合多元高斯分布,其核 易引起过拟合问题.由于G不是将约束加在一系 函数为K,则 列的基函数上,而是直接对函数空间加上Bayes先 p(f)=N(0,K) 验,即通用的平滑性约束;因此该模型中没有大量的 目标是求得p(y)的边缘分布,可用如下积分: 参数,取而代之的是GP先验中协方差函数(核函 p(y)=p(yI A)p(f)df=N(yl 0,c). 数)的超参数,这就将模型转化为非参数Bayes模 型,从而解决了过拟合问题 式中协方差矩阵C中的元素如下: 高光谱遥感成像(hyperspectral remote sens- C(x,xm)=k(x.,xm)+o6m (1) ing)[1是光谱分辨率在10~20nm的光谱遥感,可 要预测y·,需要求出分布p(y·Iyw).这里yw表示 获得几百个地物波段的光谱信息,具有波段数众多、 N个数据向量(y1,y2,…,yw),同理yw+1表示(y1, 非线性、空间相关性和谱间相关性共存、难以获得样 y2,…,yw,y·)T.根据GP假设,联合分布为 本标记等特点.遥感图像分类是遥感地理信息系统 p(yN1)=N(yN10,CN). 中的关键技术之一,快速、高精度的遥感图像自动分 式中: 类算法是实现环境的动态监测、评价、预报的关键. 如何把新的模式分析和图像处理理论运用于高光谱 c[ (2) 影像分类是当前的研究热点之一 式中:Cw是N×N的协方差矩阵,其元素由式(1)而 本文首先介绍GP的基本理论及其发展;然后 得;向量K有N个元素k(x.,xw+1)组成,其中n=1, 分析了高光谱图像的特点及其当前常用的分类方 2,…,N;C的元素c=k(xw+1,xw+i)+o 法;在此基础上结合笔者的研究成果,重点讨论用于 根据高斯分布性质,P(y·Iyw)也是高斯分布, 高光谱图像分类的GP算法及其各种改进;最后给 其均值和方差分别为: 出了今后可能的一些关键研究问题, m(N)K'CNyN, 1 GP基本理论 o2(xw1)=c-KCNK. 根据Bayes决策论,损失函数最小化值为预测分布 GP是在Bayes框架中对函数f(x)进行推理,故 的中值,这里预测分布p(y·yw)为高斯分布,故可 对函数(x)在函数空间概率分布的可能形式给出 先验.在GP模型中,假设这样的先验分布符合GP: 用其均值来作为y·的预测值, f~p(fI X)=fcp(m(x),k(x,x')). L.2高斯过程分类(Gaussian process classification, 式中:fp由均值函数m(x)和协方差函数k(x,x')完 GPC) 全确定,即m(x)=E[f(x)],k(x,x)= 对于分类问题,由于分类结果是概率值,故可通 cov[f代x),f(x)].而且,对于由任何x所对应的函 1 过gic函数a()=1+erp(-力或者Probit函 数值的集合中的任意子集,也假设服从多元高斯分 数()=N(xI0,1)dx构成似然函数p(ylf), 布,其均值和方差可以直接由均值函数m(x)和协 将GPR的结果转换成概率值,这样目标变量y服从 方差函数k(x,x)分别计算出来. 贝努利分布: GP的先验意味着在观察训练样本以前,就相信 p(yID=σ()'(1-σ())1, 函数f(x)的可能形式是从先验p(f)中随机采样而 将f代x)f(x2),…,f(xw),f(x)记作向量fw+1…对 实现的,根据训练数据D,函数∫的先验可以更新成 于fN+1,GP的形式为 后验分布p(f1D) l.1高斯过程回归(Gaussian process regression, p(fv-1)=N(fv 0.CN). 式中:CN+1定义和式(2)中一致 GPR) 回归问题的定义为:给定训练数据D={(x, 对于分类问题,其实就是求p(y=1y)的分 布,该分布形式为 y),i=1,2,…,n,对于新输人x°,预测其输出y° p(y*=1Iy)= 考虑观察目标值上增加了零均值方差为σ:的 高斯噪声,形式为y=f(x)+E,其中8~N(0,σ), p(y°=1If)p(fIy)df°. (3)
·398 智能系统学报 第6卷 由于式(3)中被积分函数中2个分布函数不是 analysis,Local FDA)[261或者其他判别函数.Grochow 高斯分布的乘积形式,求不出解析解,因此通常可以 在文献[27]中通过尺度化高斯过程隐变量模型 用Laplace法14、变分法I51、MCMC16、EP18]和其 (scaled GPLVM),从低维空间上给人体姿态进行约 他近似算法90求解。 束,对于人体的姿态进行插值,从而对人的动作进行 1.3GP的核函数 预测。 在机器学习领域中,协方差函数通常称为核函 另外,可以通过在GP中加载稀疏性约束来获 数21.核函数具有超参数0,表示为k(x,x;0).一 得大数据集上GP的近似解.L.Csat6在文献[28]中 般地,假设均值函数m(x)=0,则选择核函数类型 提出利用约束G来求得真实后验稀疏近似解.该 并确定超参数就可以将GP确定下来, 方法通过增加参数的数量使得GP可以突破计算限 GP是基于核函数的方法.核函数是GP预测和 制用于任意大的数据集,该近似解法基于最小化原 分类的关键因素,集成了待学习函数的假设.函数要 始GP和带约束GP之间的KL距离,带约束CP的 成为有效核函数的充分必要条件是,矩阵元素为 约束指的是,整个圳练样本中只有很少量的子集用 k(xm,xn)构成的Gram矩阵K必须是半正定矩阵2 来表示GP,该约束导致稀疏性 GP核函数可以是多种函数形式,如高斯核函数、神经 1.6基于半监督学习的GP 网络核函数、多项式核函数等,也可以通过2个核函 GP可与半监督学习相结合,这时半监督可以看 数的相加、相乘、卷积等运算来构造新的核函数 成是加在GP上的一种特殊的平滑性约束, 1.4GP超参数的训练 半监督学习可以利用少数带标记样本加上大量 超参数求解方法的思想来自于求出使得似然函 无标记样本,从而提高分类和预测精度.半监督学习 数p(yl8)取最大值的GP超参数a.最简单的方法 方法最初基于几何直觉,对于许多现实问题,无标记 是通过求最大对数似然函数来求出0的点估计,该 样本经常可以识别出整个数据的结构,如数据聚类 求解过程可以通过类似于共轭梯度法或其他基于梯 或低维流型,这些知识可以帮助进行推理.例如,人 度的优化算法来完成231.GP的对数似然函数形 们常期望在一个聚类中的数据点间或者在一个流形 式为 中相近的数据点间的类别有很强的相关性,这就是 hpg10)=-2h1Cn1-Cy-%n(2m). 半监督学习中的聚类假设和流形假设, 最近,有一些学者提出多个基于图集成无标记 将对数似然函数对于超参数0求梯度,得到 训练样本的半监督GP算法.文献[29]中提出基于 &hp010)=-2(cS)+ 1. 图先验知识的直推式高斯过程(transductive GP),其 a0. 核心概率模型只是定义在带标记样本和无标记样本 c (4) 的有限训练集合上,但需要额外的过程将模型扩展 到未知的测试样本中。 这样可以根据训练样本集D求得式(4)中的最大值 文献[30]中提出的半监督高斯过程方法中,将 而得到最优的超参数0. 无标记数据的空间属性和基于图的半监督核函数结 1.5带约束的GP 合起来,建立了在整个空间上的GP模型,提供了天 目前,有一些学者对于带约束的GP进行了一 然的样本之外数据的预测能力.正则化算子加在图 些研究.通常,约束通过判别高斯过程隐变量模型 顶点上的平滑性被转换成为定义在整体数据空间上 discriminative Gaussian processes latent variable 的再生核希尔伯特空间(reproducing kernel Hilbert model,D-GPLVM)加在低维数据流形上. spaces,RKHS).通过该RKHS核函数,标准的监督 R.Urtasun24]指出只要数据存在低维流形,D- 核方法可以用来进行半监督推理 GPLVM可以在训练样本很少而数据维数很高的情 Zhu在文献[29]中指出高斯随机场(Gaussian 况下分类,并得到较好的分类精度.D-GPLVM方法 andom field,GRF)和半监督学习中的谐能量最小 通过在高斯过程隐变量模型(GPLVM)的数据隐空 化函数框架可以看成是协方差矩阵源自图Laplace 间中加上判别式先验,就可以通过判别的方式来学 的GP,从半监督学习的角度指出了GRF与GP在概 习GP分类器的协方差矩阵,从而达到提高分类精 率框架中的联系, 度的目的.该判别式先验标准可以是广义判别分析 综上,GP作为一种核方法,可用于分类和回归, generalized discriminative analysis,GDA)25, 其超参数可由训练得到,G模型加上约束后可以有 以是局部费舍尔判别分析(local Fisher discriminative 较多变形算法,这为GP在实际问题中的应用提供
第5期 姚伏天,等:高斯过程及其在高光谱图像分类中的应用 .399. 了较强的理论基础 的急剧增加,在训练样本数量一定的条件下,导致分类 精度在特征空间的维数增加到一定数量后,反而会随 2高光谱图像 着维数的增加而下降.为了保持分类精度,通常有2种 2.1高光谱遥感图像的特点 措施,一是在分类前对原始光谱空间进行降维预处理, 2.1.1高维非线性 得到一个保持了原始空间全局和局部特征结构的低维 高光谱遥感图像由卫星或飞机上携带传感器记 子空间,然后在低维子空间中进行分类判别2];二是尽 录而成.图像数据包含像素的2种误差:辐射误差和 可能增加训练样本的数量,由于带标记的训练样本难 几何误差.数据记录仪器、太阳辐射对波长的依 以获得,因此这点通常难以做到 赖和大气影响都可能产生辐射误差.图像几何误差 2.2高光谱遥感图像分类 产生是多方面的,如平台、扫描仪与地球的相对运动 高光谱遥感图像分类方法以统计模式识别方法 可能导致图像的扭曲,传感器本身非理想特性、地球 占主流,包括传统遥感图像分类方法、基于核函数分 曲率以及遥感平台在位置和姿态方面无法控制的变 类方法和其他分类方法, 化都可能导致不同程度的几何误差 1)传统遥感图像分类主要分为有监督分类和 辐射误差可以通过某些计算方法进行补偿.而 非监督分类.监督分类包括:最大似然分类法、Bayes 几何误差由于其产生因素较复杂,很难完全去除其 分类法、最近邻分类法、KNN分类法、费舍尔判别分 影响,这就使得高光谱图像不同程度上具有非线性 类、多尺度自回归®]等.这些方法在对高光谱图像 的特性,造成图像很难进行线性拟合,也难以用线性 分类时往往无法获得足够的训练样本,容易引起 分类器对高光谱图像进行正确分类 Hughes现象.非监督方法主要是聚类法,按照图像 2.1.2空间相关性和谱间相关性共存 的光谱特征的分布规律,以某种相似性测度自动聚 空间相关性是指每个谱段内某一像素与其相邻像 集成类,其分类结果只是对不同类别进行了区分,主 素之间的相似性.谱间相关性是指每个谱段光谱图像 要包括K均值法、ISODATA法、分级聚类等, 的同一空间位置像素具有相似性.高光谱图像中,相邻 2)核函数方法通过非线性映射,将输人空间的 像素之间在空间上总存在一定联系.首先,传感器在对 样本映射到高维特征空间中,在高维空间中构造分 该像素成像时,同时吸收了周围像素的一部分能量;其 类判决面进行分类.核函数方法包括:SVM、GP、核 次,某一地物类别在地面所占的实际面积与一个像素 主成分分析、核函数费舍尔判别法(kerel Fisher 的实际面积相比也大得多.例如,一个农业区域,已知 discriminant,KFD)、核投影寻踪法等,这些方法都 某一像素代表小麦,那么它周围的像素是小麦的概率 在高光谱图像处理中得到了应用。 比不是小麦的概率要大很多.相邻像素点之间的空间 3)其他分类方法主要包括神经网络分类法「34] 相关性的强弱主要取决于传感器的空间分辨率和地表 决策树分类法等. 自然、人文区域的规模大小回 在高光谱遥感图像分类上,核函数方法占有一 高光谱图像的谱间相似性的产生原因有2点: 定优势,原因在于:一方面,高光谱图像的波段数一 ·是光谱图像的每个波段图像的像素值,是相同区 般较大,线性分类器通常很难将其有效分开,核函数 域地物在各个波段的反射值,它们是具有相关性的, 方法可以将输入空间映射到高维空间,在高维空间 其相关性的强弱在很大程度上取决于光谱分辨率; 更易于找到有效的线性分类器,通常可以取得较好 二是由于不同波段的图像所涉及的地面目标相同, 的分类效果;另一方面,核函数方法为非参数方法, 它们具有相同的空间拓扑结构。 只需要对少数几个超参数进行学习,速度较快,也比 2.1.3训练样本标记难以获得 较简单,而其他参数方法通常要学习很多参数,学习 目前用于高光谱遥感图像的有监督分类算法, 过程较长,也比较复杂 由于波段数量巨大,需要大量正确的训练样本.然 SVM因具备能有效处理较多输人波段,鲁棒地 而,获得样本标记不仅费时费力,而且在许多情况 处理带噪声样本,产生稀疏解等优点,近几年被成功 下,很难对样本进行标记,例如森林大火、山体滑坡、 应用于高光谱遥感图像分类3s36].但SVM本身也存 洪水和地震,获得标记的训练样本是不可能的。 在着一些问题,如:特定问题中核函数的选取、核函 另一方面,根据Hughes的研究结果3u,随着特征 数的参数选择、如何选取合适的惩罚项来防止过拟 空间维数的增加,类别可分性提高,但由于遥感中常用 合、SVM的估计输出不具有概率意义 的监督分类方法首先要顾及样本的分布函数或者分布 另外高光谱图像的空间相关性可以为分类提供 函数中的一些参数,随着空间维数的增加,待估计参数 很多有用的信息,正确的使用上下文空间信息可以
·400 智能系统学报 第6卷 纠正由于噪声影响或者分类器缺陷引起的孤立像素 光谱遥感图像,图像大小为145×145,取其中非耕 错分,从而提高分类精度.关于遥感图像的上下文分 犁玉米地、最小耕犁玉米地、牧草、禾木、干草、非耕 类,很多学者做了有用的探索印3],典型的方法有 犁大豆地、最小耕犁大豆地、完全耕犁大豆地和林地 Kriging9],MRFi)、条件随机场(conditional random 9个不同类别做实验,见图1. field,CRF)方法[等.CRF是Lafftery于2001年新 提出的方法[2,Kumar31于2003年将其有效地运 用于图像的人工建筑物检测,Zhog41将其用于高 光谱遥感图像的目标检测, 3基于GP的高光谱图像分类 GP和SVM一样,也是基于核函数的方法,具有 核函数方法分类的优势.与SVM不同的是,GP具有 图1印第安纳AVIRIS第25波段 完全的Bayes公式化表示,所以能够明确地进行概 Fig.1 Hyperspectral image of AVIRIS in Indiana 92, 率建模,使结果更易于解释.更重要的是,GP的 Band 25 Bayes学习提供了一个范式,根据训练样本,从先验 2)高光谱遥感实验数据二是HYDICE传感器 分布到后验分布的转换,可以对核函数的超参数进 拍摄的华盛顿特区的某区域,该子图有500×307个 行推理,而SVM对超参数的选择却通常只能采用经 像元,210个波段,由屋顶、道路、水、草、树、人造建 验法或者交叉验证方法。 筑和阴影7个类组成,见图2. 高光谱图像具有高维非线性、空间相关性和谱 间相关性共存以及训练样本难以获得的特点;故使 用GPC时,应充分针对上述特点,将GP进行改进, 使其更适用于高光谱图像分类。 GP的核函数可以有多种不同的形式,如线性核 函数、多项式核函数、高斯核函数、指数核函数等.高 光谱图像中多个谱段的像元之间近似服从高斯分 布,故采用高斯形式核函数的GP来对高光谱图像 图2华盛顿特区HYDICE第80波段 进行分类较为合理, Fig.2 Hyperspectral image of HYDICE in Washington D.C.,Band 80 标准GP℃只利用高光谱图像的谱间相关性,并 没有利用空间相关性.CRF利用高光谱图像的空间 在基于GP的高光谱遥感分类中,图像数据表示 相关性,可以根据邻域像元将错分类孤立像元类别 成D={x,y:,x:为某个特定像元,y为像元x:的类 纠正.构造CRF和GP相结合的GPCRF分类器进行 别标签,矢量x表示高光谱像元的波段矢量,若遥感 高光谱图像分类,能够进一步提高图像分类精度. 数据光谱波段为n维,则每个x:都是n维数据. 由于高光谱图像的训练样本难以获得,在少量 3.2基于非线性核函数GP的高光谱图像分类 训练样本下进行监督GP℃,将给参数估计带来较大 高光谱图像具有高维非线性的特性,而GP是 误差,导致分类精度严重下降.考虑在遥感图像上可 一种非线性Bayes核函数方法,通过采用非线性核 以获得大量的无标记的训练样本,在GP中引入半 函数,比如高斯核函数GP可以较好地解决高光谱 监督学习思想,充分利用大量无标记样本所蕴含的 遥感图像的非线性问题.这里用线性核函数和高斯 信息辅助分类,构造半监督高斯过程(semi-super~- 核函数分别做实验进行比较 vised Gaussian process,SSGP)分类器,能够有效克 线性核函数形式为 服高光谱图像训练样本少的问题。 (x,x)= x 3.1实验数据集 高斯核函数形式为 下面将详细介绍几种笔者提出的改进的GP℃ 算法,并给出相应的高光谱图像分类实验结果.首先 (,0=ep(-2(-). 介绍一下实验采用的高光谱遥感数据. 式中:σ:和1均为超参数.用线性核函数高斯过程分 1)高光谱遥感实验数据一是AVIRIS传感器于 类方法和高斯核函数高斯过程分类方法其训练时间 1992年拍摄的220个波段印第安纳州西北区域高
第5期 姚伏天,等:高斯过程及其在高光谱图像分类中的应用 .401· 都为O(n3),测试时间都为0(mn2),其中n为训练 信息条件下整幅图像类别的条件概率.根据最大后 样本的个数,m为测试样本的个数.这2种分类方法 验法则,整幅图像类别y最佳取值为使得条件概率 的实验结果如图3.根据实验结果可以看出,2幅不 最大时y的取值,故求解时应通过估计算法求出后 同的高光谱遥感图像,高斯核函数GP℃精度均明显 验概率最大值时的y值,就可对整幅图像所有像元 优于线性核函数GP.因此可以得出结论,高斯核函 都加上该类别标签 数的GP更适合于高维非线性高光谱图像分类, GPCRF分类方法的训练时间为O(MWn3),测 94 避线性核高斯核 试时间为O(MWn2),其中n为训练样本的个数,m 为测试样本的个数,M为整幅图像的像素点个数,N 86 为邻域内像素点个数 3.3.2实验结果及分析 在印第安纳遥感图像和华盛顿特区遥感图像上 均进行了GP分类实验和GPCRF分类实验.图像数 74 据一中训练样本与测试样本数目比例近似于1:1, 70 印第安纳图像 华盛顿图像 图像数据二中训练样本与测试样本比例为1:4,其 中的GP模型采用Laplace法近似,GPCRF采用ICM 图32种不同核函数G高光谱图像分类对比 Fig.3 Comparing results of linear kernel GP and SE (iterated conditional modes)法来计算最大后验, 90 kernel GP classification GP GPCRF 3.3基于GPCRF的高光谱图像分类 结合高光谱图像特点,可以在GPC加上空间相 85 关性约束,把GP分类框架和CRF框架结合起来,先 通过GP框架求出每个像元的隐函数值,再将隐函 80 数值代入到CRF框架中,通过求最大后验法则求出 整幅图像的类别, 75 3.3.1 GPCRF模型 4阶邻域 8阶邻域12阶邻域 图像邻域阶数 用于图像分析时,CRF可以写成如下形式: 图4印第安纳图像不同邻域阶数GP与GPCRF分类比较 P(yl x)= Fig.4 Comparing results of Indiana classification ac- ep())1 curacy GP and GPCRF in different order num. ics jeN bers 式中:x是观察值;y是像素点的类别标签;A:称为 联合势能,I称为相互作用势能,A:仅与单个变量x 95 器GP CPCRF 有关,I则与一对相邻变量有关;N:为变量i的邻 域,但它们都与观察量y而不仅仅与y:有关系,这 90 里可看出CRF能利用丰富的特征建模, 85 GP和CRF组合构成的GPCRF分类器,可以利 用高光谱图像中的光谱和空间的相互作用,通过用 80 GP中的隐函数f来代替式(4)中的联合势能,可得 式(5): 75 4阶邻域8阶邻域12阶邻域 P(yl x)= 图像邻域阶数 zpA4)+Bg4所 图5华盛顿特区图像不同域阶数GP与GPCRF分类 比较 Zexp((logo(:fx,))+ Fig.5 Comparing results of Washington D.C.classifi- cation accuracy GP and GPCRF in different or- B>loga(y;,y;(K(x;,)-a))).(5) der numbers jeN: 式中:Z称为配分函数,实际为所有y的取值情况之 图4和图5表明了2个数据集在不同的邻域阶 和.式(5)表示在已知整幅高光谱图像像元的光谱 数下GPCRF方法的平均分类正确率,同时为了进行
·402 智能系统学报 第6卷 比较,也给出了G方法的分类结果.从实验结果可 均进行了标准GP的分类实验和SSGP的分类实验: 以看出,分类正确率基本上随着邻域阶数的提高而提 在实验数据一中随机选取853个像元作为带标记训 高.另外,GPCRF方法的计算时间并没有随着邻域阶 练样本,在实验数据二中随机选取1400个像元作为 数的提高而增加太多.根据实验结果,可以得出2点 带标记训练样本,然后分别在2幅图像中任意取若 结论:1)被分错的数据零散地分布在每个类中,并且 干比例的像元作为无标记训练样本,剩下的像元作 随着邻域的阶数提高,GPCRF方法中的空间相关性 为测试样本.通过M=L形式构造M矩阵.实验结 越来越重要;2)当训练样本的比例相对高的时候, 果如图6和图7所示. GPCRF可以对高光谱图像分类得到较好的结果, 64 GP 93,P 3.4基于半监督GP的高光谱图像分类 60 高光谱遥感图像分类之前,为了避免Hughes现 象,应先对图像进行特征选择.针对高光谱图像特征 56 选择,目前有很多相关研究工作446.然而即使进 行了特征选择,由于高光谱遥感图像难以获得大量 训练样本标记,分类依然是一个小样本的问题,这就 4 1020304050607080 会导致参数估计带有大的方差,以致于分类错误率 图像无标记训练数据比例/% 较高,而高光谱遥感图像上大量的无标记的样本可 图6印第安纳图像GP与SSGP分类比较 用来进行辅助分类4] Fig.6 Comparing results of Indiana classification ac- 3.4.1SSGP数学模型 curacy GP and SSGP 标准GP由其核函数惟一决定.SSGP通过在数 据低维流形上加平滑性约束来构造半监督核函数, 88 GP SSGP 通过半监督核函数来对测试样本进行分类.SSGP中 84 半监督核函数构造公式如式(6): K(x,y)=K(x,y)-K(I+MK)-MK 80 (6) 76 从式(6)可以看出,构造半监督核函数的关键是如何选 72 择M矩阵,以反映我们对于数据几何特性的直觉,该 直觉可以来自于无标记数据的边缘分布.在文献[48] 68 0 203040506070 中,采用图拉普拉斯(gaph-Laplacian)来描述数据的结 图像无标记训练数据比例/% 构,实现了边缘分布几何结构平滑的假设, 图7华盛顿特区图像GP与SSGP分类比较 针对数据集X={X,X.},X为高光谱图像中 Fig.7 Comparing results of Washington D.C.classifi. 带标记的训练样本,X,为无标记训练样本.可以构 cation accuracy GP and SSGP 建一个图G={V,E},其中顶点集V代表了整个数 从这2个数据集的实验结果中,不难发现,SS 据点集,边界集E代表了数据点间的边界权重,可 GP方法与有监督GP相比,在少量训练样本的情况 通过权重矩阵W={0:}来描述各个数据点间的加 下,分类精度有了较大的提高.因此,空间约束的半 权情况.典型地,SSGP算法中用最近邻来构造M矩 监督GP通过引人未标记数据信息,使得分类算法 阵,先求出L矩阵,L矩阵为对潜在的几何结构建模 性能得到提升,充分显示了SSGP算法的有效性, 的图拉普拉斯矩阵,L=D-W,D是对角矩阵,Da= 另外,可以看出,当无标记的训练样本数量增加 若相邻,则,=心;香则w,=0, 到某个程度后,再提高无标记训练样本数量,对于分 类精度的提升几乎没有帮助.这体现了空间流形假 求得L矩阵后,通过M=L或者M=∑,BLV可求 设仅在一定邻域范围内有效,超出该邻域范围,基于 得M矩阵,B和p都是参数,P要求是整数. 空间流形假设的半监督学习将不再有效. SSGP分类方法的训练时间为O(1n3),测试时 间为O(lmn2),其中n为训练样本的个数,m为测试 4结论 样本的个数,1为未标记训练样本的个数. 本文总结了基于GP的高光谱图像分类技术近 3.4.2实验结果及分析 年来的研究进展,重点讨论了高光谱图像本身的特 在印第安纳遥感图像和华盛顿特区遥感图像上 点,以及针对以上特点,将G适当变形,进一步提
第5期 姚伏天,等:高斯过程及其在高光谱图像分类中的应用 ·403· 高分类精度的一些算法.基于GP的高光谱遥感图 for machine learning[M].Cambridge,USA:MIT Press 像分类,仍需要进一步的发展和完善,未来的研究方 2006:15-30. 向如下: [14]WILLIAMS C K I,BARBER D.Bayesian classification with Gaussian processes[J].IEEE Transactions on Pattern 1)高光谱数据在空间上和波段上存在着大量 Analysis and Machine Intelligence,1998,20(12):1342- 冗余.如何针对这一特点来进行GP训练样本的选 1351. 择,有效减少训练样本数目而又不影响G预测和 [15 GIBBS M N,MACKAY D J C.Variational Gaussian 分类精度,这是一个重要的研究目标 process classifiers[J].IEEE Transactions on Neural Net- 2)高光谱图像波段数较多,地物的光谱曲线连 work3,2000,11(6):1458-1464. 续,可利用地物物理光学性质的光谱曲线进行地物 [16]NEAL R.Regression and classification using Gaussian process priors[J].Bayesian Statistics,1998,6(10): 识别.如何将GP分类方法与基于光谱曲线的匹配 475-501. 方法结合起来,进一步提高分类精度,有很大的实用 [17]CHANG C I.Hyperspectral imaging:techniques for spec- 价值. tral detection and classification[M].New York,USA: 3)基于GP的高光谱图像分类往往先做特征选 Kluwer Academic Plenum Publishers,2003:8-16. 择,再进行分类,这2个步骤是割裂的,相互之间几 [18]MINKA T P.A family of algorithms for approximate Bayes- 乎没有联系.如何将特征选择和GP分类有机结合 ian inference[D].Cambridge:Massachusetts Institute of Technology,2001:36-48. 起来,使得特征选择的结果更适用于分类,也是值得 [19]GIBBS M N,MACKAY D J C.Variational Gaussian 研究的一个问题, process classifiers[J].IEEE Transactions on Neural Net- works,2002,11(6):1458-1464. 参考文献: [20]SEEGER M.Bayesian model selection for support vector [1]WIENER N.Extrapolation,interpolation,and smoothing of machines,Gaussian processes and other kemel classifiers stationary time series,with engineering applications[M]. [M]//SOLLA S A,LEEN T K,MULLER K L.Ad- Cambridge,USA:MIT Press,1949:102-106. vances in Neural Information Processing Systems.Cam- [2]MATHERON G.The intrinsic random functions and their bridge,USA:the MIT Press,2000:603-609. applications[J].Advances in Applied Probability,1973,5 [21 ]SHAWE-TAYLOR J,CRISTIANINI N.Kernel methods for (3):439468. pattern analysis[M].Cambridge,UK:Cambridge Univer- [3]JOURNEL A G,HUIJBREGTS C J.Mining geostatistics sity Pres8,2004:48-57. [M].New York,USA:Springer-Verlag,1978:304-310. [22]FLETCHER R.Practical methods of optimization:con- [4]THOMPSON P D.Optimum smoothing of two-dimensional strained optimization[M].Hoboken,USA:John Wiley fields[J].Tellus,1956,8(3):384-393 Sons Inc,1984:87-94. [5]DALEY R.Atmospheric data analysis M].Cambridge, [23]NOCEDAL J,WRIGHT S J.Numerical optimization[M]. UK:Cambridge University Press,1993:99-107. New York,USA:Springer-Verlag,1999:53-64 [6]WHITTLE P.Prediction and regulation by linear least- 24]URTASUN R,DARRELL T.Discriminative Gaussian process square methods[M].London,UK:English Universities latent variable model for classification C]//Intemational Press,1984:5869. Conference on Machine Leaming.Corvallis,USA,2007: [7]RIPLEY B D.Spatial statistics[M].Hoboken,USA:Wi- 934-937. 1ey-IEEE,2004:44-50. [25 ]BAUDAT G,ANOUAR F.Generalized discriminant analy- [8]CRESSIE N.Statistics for spatial data [J].Terra Nova, sis using a kernel approach J].Neural Computation, 1992,4(5):613617. 2000,12(10):2385-2404. [9]0'HAGAN A,KINGMAN J F C.Curve fitting and optimal [26]SUGIYAMA M.Local Fisher discriminant analysis for su- design for prediction[J].Journal of the Royal Statistical So- pervised dimensionality reduction[C]//International Con- ciety:Series B (Methodological),1978,40(1):1-42. ference on Machine Learning.Pittsburgh,USA,2006: [10]SACKS J,WELCH W J,MITCHELL T J,et al.Design 905-912. and analysis of computer experiments J].Statistical Sci- [27]GROCHOW K,MARTIN S L,HERTZMANN A,et al. ence,1989,4(4):409423. Style-based inverse kinematics[J].ACM Transactions on [11]SANTNER T J,WILLIAMS B J,NOTZ W.The design Graphics,2004,23(3):522-531. and analysis of computer experiments[M].New York, [28]CSAT L.Gaussian processes:iterative sparse approxima- USA:Springer-Verlag,2003:61-65. tion[D].Birmingham,UK:Aston University,2005:26- [12]WILLIAMS C K I,RASMUSSEN C E.Gaussian processes 34. for regression[M].Cambridge,USA:MIT Press,1996: [29]ZHU Xiaojin,GHAHRAMANI Z,LAFFERTY J.Semi-su- 25-37. pervised learning using Gaussian fields and harmonic func- [13]RASMUSSEN C E,WILLIAMS C K.Gaussian processes tions[C]//Proceedings of the 20th Intemational Confer-
·404· 智能系统学报 第6卷 ence on Machine Learning.Washington,DC,USA, [41]ZHONG Ping,WANG Runsheng.A multiple conditional 2003:912914. random fields ensemble model for urban area detection in [30]SINDHWANI V,CHU W,KEERTHI S S.Semi-super- remote sensing optical images[J].IEEE Transactions on vised Gaussian process classifiers[C]//Interational Joint Geoscience and Remote Sensing,2007,45(12):3978- Conference on Artificial Intelligence.Hyderabad,India, 3988. 2007:1059-1064. [42]LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional [31]HUGHES G.On the mean accuracy of statistical pattem random fields:probabilistic models for segmenting and la- recognizers[J].IEEE Transactions on Information Theo- beling sequence data[C]//Proceedings of the Eighteenth y,1968,14(1):5563. Intemational Conference on Machine Leaming.Williams- [32]QIAN Y,YAO F,JIA S.Band selection for hyperspectral towm,USA,2001:282-289. imagery using affinity propagation[J].IET Computer Vi- [43 KUMAR S,HEBERT M.Discriminative random fields sion,2010,3(4):213-222. [J].International Joumal of Computer Vision,2006,68 [33]贺霖,潘泉,邸韦华,等.高光谱图像高维多尺度自回归 (2):179-201. 有监督检测[J].自动化学报,2009,35(5):509-518. [44]LI Jiming,HU Zhenfang,QIAN Yuntao.Hyperspectral HE Lin,PAN Quan,DI Weihua,et al.Supervised detec- data classification using margin infused relaxed algorithm tion for hyperspectral imagery based on high dimensional [C]//Interational Conference on Image Processing. multiscale autoregression[J].Acta Automatica Sinica, Hong Kong,China,2009:1669-1672. 2009,35(5):509-518. [45 ]LI Jiming,QIAN Yuntao.Regularized multinomial regres- [34]熊桢,童庆禧.用于高光谱遥感图象分类的一种高阶神 sion method for hyperspectral data classification via path- 经网络算法[J].中国图象图形学报,2000,5(3): wise coordinate optimization[C]//Digital Image Compu- 196-201. ting:Techniques and Applications.Melbourne,Australia, XIONG Zhen,TONG Qingxi.High-rank artificial neural 2009:540-545. network algorithm for classification of hyperspectral image [46]YAO Futian,Qian Yuntao.Band selection based Gaussian data[J].Joumal of Image and Graphics,2000,5(3): processes for hyperspectral remote sensing images classifi- 196-201. cation[C]//Intemational Conference on Image Processing. [35]MELGANI F,BRUZZONE L.Classification of hyperspec- Hong Kong,China,2009:2845-2848. tral remote sensing images with support vector machines [47]VATSAVAI RR,SHEKHAR S,BURK T E.A semi-su- [J].IEEE Transactions on Geoscience and Remote Sens- pervised learing method for remote sensing data mining ing,2004,42(8):1778-1790. [C]//International Conference on Tools with Artificial In- [36]刘春红.超光谱遥感图像降维及分类方法研究[D].哈 telligence.Hong Kong,China,2005:205-211. 尔滨:哈尔滨工程大学,2005:8694. [48]BELKIN M,NIYOGI P,SINDHWANI V.Manifold regu- LIU Chunhong.Research on dimensional reduction and larization:a geometric framework for learning from labeled classification of hyperspectral remote sensing image[D]. and unlabeled examples[J].The Joumal of Machine Harbin:Harbin Engineering University,2005:86-94. Learing Research,2006,7:2399-2434. [37]KITTLER J,PAIRMAN D.Contextual patter recognition 作者简介: applied to cloud detection and identification [J].IEEE 姚伏天,男,1976年生,博士研究 Transactions on Geoscience and Remote Sensing,2007,23 生,主要研究方向为模式识别、机器学 (6):855863 习、高光谱成像信息处理,发表学术论 [38]姚伏天,钱沄涛.用于高光谱遥感图像分类的空间约束 文20余篇. 高斯过程方法[J].南京大学学报:自然科学版,2009, 45(5):665670. YAO Futian,QIAN Yuntao.A spatial Gaussian process method for hyperspectral remote sensing imagery classifica- tion[J].Journal of Nanjing University:Natural Sciences, 钱沄涛,男,1968年生,教授,博士 2009,45(5):665670. 生导师,中国计算机学会人工智能与模 [39]ROSSI R E,DUNGAN J L,BECK L R.Kriging in the 式识别专业委员会委员、模糊逻辑与多 shadows:geostatistical interpolation for remote sensing 值逻辑专业委员会委员.主要研究方向 [J].Remote Sensing of Environment,1994,49(1):32- 为模式识别、机器学习、信号处理,承担 40. 多项国家自然科学基金项目、国际合作 [40]DENG H,CLAUSI D A.Advanced Gaussian MRF rota- 基金项目和省部级重点科技项目,发表 tion-invariant texture features for classification of remote 学术论文70余篇, sensing imagery [C]//Computer Society Conference on Computer Vision and Patter Recognition.Madison,USA, 2003:685-689