机器学习：融合邻域信息的k-近邻分类

团购合买资源类别：文库，文档格式：PDF，文档页数：4，文件大小：447.67KB

第9卷第2期智能系统学报 Vol.9 No.2 2014年4月 CAAI Transactions on Intelligent Systems Apr.2014 D0I:10.3969/j.issn.1673-4785.201307015 网络出版t地址：htp:/ww.cmki.net/kcms/doi/10.3969/j.issn.1673-4785.201307015.html 融合邻域信息的k-近邻分类林耀进，李进金12，陈锦坤2，马周明2 (1.闽南师范大学计算机科学与工程系，福建漳州363000：2.闽南师范大学数学与统计学院，福建漳州363000) 摘要：距离度量是影响k-近邻(KNN)法分类精度的重要因素之一。提出一种融合邻域信息的k-近邻算法。首先，定义了样本邻域的概念，并根据邻域的影响提出2条相应准则：然后，在计算测试样本与训练样本的距离时，综合考虑了样本邻域所带来的影响。该算法不仅可以更加精确地刻画样本之间的距离，而且一定程度上增强了KNN的稳定性。该方法在·C标准数据集上进行了测试，结果表明，性能优于或与其他相关的分类器相当，并且在噪声扰动下具有较强的鲁棒性。关键词：k近邻：邻域信息：分类学习：距离测量：噪音千扰中图分类号：TP181文献标志码：A文章编号：1673-4785(2014)02-0240-04 中文引用格式：林耀进，李进金，陈锦坤，等.融合邻域信息的k-近邻分类[J].智能系统学报，2014,9(2)：240-243. 英文引用格式：LIN Yaojin,LI Jinjin,CHEN Jinkun,etal.K-nearest neighbor classification algorithm fusing neighborhood infor- mation[J].CAAI Transactions on Intelligent Systems,2014,9(2):240-243. K-nearest neighbor classification algorithm fusing neighborhood information LIN Yaojin',LI Jinjin'2,CHEN Jinkun2,MA Zhouming? (1.Department of Computer Science and Engineering,Zhangzhou 363000,China;2.School of Mathematics and Statistics,Zhangzhou 363000.China) Abstract:Distance measurement is one of the important factors which affect the classification accuracy of the k nea- rest neighbor(KNN)algorithm.In this paper,an improved k nearest neighbor algorithm fusing neighborhood infor- mation is presented.Firstly,the concept of the instance neighborhood is defined and two criterions are presented according to neighborhood influence;then,the influence of the instance neighborhood is comprehensively consid- ered when the distance between the testing instances and the training instances is computed.This algorithm can characterize the distance among instances more precisely,and enhance the stability of the KNN to some extent.This presented method was tested on the UCI datasets,and the results showed that this proposed technique is better than or equal to other classifiers,and it is more robust under the noise disturbance. Keywords:k-nearest neighbor;neighborhood information;classification learning;distance measurement;noise dis- turbance k-近邻法是一种非常简单有效的分类算法，广泛原则对待分类样本的类别进行判定。k-近邻算法的应用于数据挖掘和模式识别的各个领域)。其基本分类精度很大程度受影响于样本之间距离的度量。思想是通过计算寻找训练集中距离待分类样本最近近几儿年，出现了许多改进的距离度量方法以提的k个邻居，然后基于它们的类别信息，依据投票的高k-近邻算法的分类性能，主要分为局部距离和全局距离两大类。在传统的全局距离度量方面，针对收稿日期：2013-06-22.网络出版日期：2014-03-31. 基金项目：国家自然科学基金资助项目(61303131,61379021)：福建省异构特征，提出了相应的距离度量方法，如：值差度自然科学基金资助项目(2013J01028,2012D141):福建省A量(value difference metric,VDM)、修正的值差度量类科技资助项目(JA12220) 通信作者：林耀进.E-mail:zzlinyaojin@163.com. (modified value difference metric,MVDM)和异构欧

第９卷第２期智能系统学报Ｖｏｌ．９ №．２２０１４年４月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｐｒ．２０１４ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０７０１５网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｏｉ／１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０７０１５．ｈｔｍｌ融合邻域信息的ｋ⁃近邻分类林耀进１，李进金１，２，陈锦坤２，马周明２（１．闽南师范大学计算机科学与工程系，福建漳州３６３０００；２．闽南师范大学数学与统计学院，福建漳州３６３０００）摘要：距离度量是影响ｋ⁃近邻（ＫＮＮ）法分类精度的重要因素之一。提出一种融合邻域信息的ｋ⁃近邻算法。首先，定义了样本邻域的概念，并根据邻域的影响提出２条相应准则；然后，在计算测试样本与训练样本的距离时，综合考虑了样本邻域所带来的影响。该算法不仅可以更加精确地刻画样本之间的距离，而且一定程度上增强了ＫＮＮ的稳定性。该方法在ＵＣＩ标准数据集上进行了测试，结果表明，性能优于或与其他相关的分类器相当，并且在噪声扰动下具有较强的鲁棒性。关键词：ｋ⁃近邻；邻域信息；分类学习；距离测量；噪音干扰中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１４）０２⁃０２４０⁃０４中文引用格式：林耀进，李进金，陈锦坤，等．融合邻域信息的ｋ⁃近邻分类［Ｊ］．智能系统学报，２０１４，９（２）：２４０⁃２４３．英文引用格式：ＬＩＮＹａｏｊｉｎ，ＬＩＪｉｎｊｉｎ，ＣＨＥＮＪｉｎｋｕｎ，ｅｔａｌ．Ｋ⁃ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｆｕｓｉｎｇｎｅｉｇｈｂｏｒｈｏｏｄｉｎｆｏｒ⁃ ｍａｔｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１４，９（２）：２４０⁃２４３．Ｋ⁃ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｆｕｓｉｎｇｎｅｉｇｈｂｏｒｈｏｏｄｉｎｆｏｒｍａｔｉｏｎＬＩＮＹａｏｊｉｎ１，ＬＩＪｉｎｊｉｎ１，２，ＣＨＥＮＪｉｎｋｕｎ２，ＭＡＺｈｏｕｍｉｎｇ２（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，Ｚｈａｎｇｚｈｏｕ３６３０００，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＭａｔｈｅｍａｔｉｃｓａｎｄＳｔａｔｉｓｔｉｃｓ，Ｚｈａｎｇｚｈｏｕ３６３０００，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｄｉｓｔａｎｃｅｍｅａｓｕｒｅｍｅｎｔｉｓｏｎｅｏｆｔｈｅｉｍｐｏｒｔａｎｔｆａｃｔｏｒｓｗｈｉｃｈａｆｆｅｃｔｔｈｅｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｏｆｔｈｅｋｎｅａ⁃ ｒｅｓｔｎｅｉｇｈｂｏｒ（ＫＮＮ）ａｌｇｏｒｉｔｈｍ．Ｉｎｔｈｉｓｐａｐｅｒ，ａｎｉｍｐｒｏｖｅｄｋｎｅａｒｅｓｔｎｅｉｇｈｂｏｒａｌｇｏｒｉｔｈｍｆｕｓｉｎｇｎｅｉｇｈｂｏｒｈｏｏｄｉｎｆｏｒ⁃ ｍａｔｉｏｎｉｓｐｒｅｓｅｎｔｅｄ．Ｆｉｒｓｔｌｙ，ｔｈｅｃｏｎｃｅｐｔｏｆｔｈｅｉｎｓｔａｎｃｅｎｅｉｇｈｂｏｒｈｏｏｄｉｓｄｅｆｉｎｅｄａｎｄｔｗｏｃｒｉｔｅｒｉｏｎｓａｒｅｐｒｅｓｅｎｔｅｄａｃｃｏｒｄｉｎｇｔｏｎｅｉｇｈｂｏｒｈｏｏｄｉｎｆｌｕｅｎｃｅ；ｔｈｅｎ，ｔｈｅｉｎｆｌｕｅｎｃｅｏｆｔｈｅｉｎｓｔａｎｃｅｎｅｉｇｈｂｏｒｈｏｏｄｉｓｃｏｍｐｒｅｈｅｎｓｉｖｅｌｙｃｏｎｓｉｄ⁃ ｅｒｅｄｗｈｅｎｔｈｅｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｔｈｅｔｅｓｔｉｎｇｉｎｓｔａｎｃｅｓａｎｄｔｈｅｔｒａｉｎｉｎｇｉｎｓｔａｎｃｅｓｉｓｃｏｍｐｕｔｅｄ．Ｔｈｉｓａｌｇｏｒｉｔｈｍｃａｎｃｈａｒａｃｔｅｒｉｚｅｔｈｅｄｉｓｔａｎｃｅａｍｏｎｇｉｎｓｔａｎｃｅｓｍｏｒｅｐｒｅｃｉｓｅｌｙ，ａｎｄｅｎｈａｎｃｅｔｈｅｓｔａｂｉｌｉｔｙｏｆｔｈｅＫＮＮｔｏｓｏｍｅｅｘｔｅｎｔ．ＴｈｉｓｐｒｅｓｅｎｔｅｄｍｅｔｈｏｄｗａｓｔｅｓｔｅｄｏｎｔｈｅＵＣＩｄａｔａｓｅｔｓ，ａｎｄｔｈｅｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔｔｈｉｓｐｒｏｐｏｓｅｄｔｅｃｈｎｉｑｕｅｉｓｂｅｔｔｅｒｔｈａｎｏｒｅｑｕａｌｔｏｏｔｈｅｒｃｌａｓｓｉｆｉｅｒｓ，ａｎｄｉｔｉｓｍｏｒｅｒｏｂｕｓｔｕｎｄｅｒｔｈｅｎｏｉｓｅｄｉｓｔｕｒｂａｎｃｅ．Ｋｅｙｗｏｒｄｓ：ｋ⁃ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ；ｎｅｉｇｈｂｏｒｈｏｏｄｉｎｆｏｒｍａｔｉｏｎ；ｃｌａｓｓｉｆｉｃａｔｉｏｎｌｅａｒｎｉｎｇ；ｄｉｓｔａｎｃｅｍｅａｓｕｒｅｍｅｎｔ；ｎｏｉｓｅｄｉｓ⁃ ｔｕｒｂａｎｃｅ收稿日期：２０１３⁃０６⁃２２．网络出版日期：２０１４⁃０３⁃３１．基金项目：国家自然科学基金资助项目（６１３０３１３１，６１３７９０２１）；福建省自然科学基金资助项目（２０１３Ｊ０１０２８，２０１２Ｄ１４１）；福建省Ａ类科技资助项目（ＪＡ１２２２０）通信作者：林耀进．Ｅ⁃ｍａｉｌ：ｚｚｌｉｎｙａｏｊｉｎ＠１６３．ｃｏｍ．ｋ⁃近邻法是一种非常简单有效的分类算法，广泛应用于数据挖掘和模式识别的各个领域［１⁃３］。其基本思想是通过计算寻找训练集中距离待分类样本最近的ｋ个邻居，然后基于它们的类别信息，依据投票的原则对待分类样本的类别进行判定。ｋ⁃近邻算法的分类精度很大程度受影响于样本之间距离的度量。近几年，出现了许多改进的距离度量方法以提高ｋ⁃近邻算法的分类性能，主要分为局部距离和全局距离两大类。在传统的全局距离度量方面，针对异构特征，提出了相应的距离度量方法，如：值差度量（ｖａｌｕｅｄｉｆｆｅｒｅｎｃｅｍｅｔｒｉｃ，ＶＤＭ）、修正的值差度量（ｍｏｄｉｆｉｅｄｖａｌｕｅｄｉｆｆｅｒｅｎｃｅｍｅｔｒｉｃ，ＭＶＤＭ）和异构欧

第2期林耀进，等：融合邻域信息的k近邻分类 .241 几里德一重叠度量(heterogeneous euclidean--overlap 上分析，可以得出准则1。 metric,.HEOM)等[4s]。另外，许多学者考虑了样本准则1考虑样本邻域信息的影响能更加精确之间的权重以增强样本之间的相似性。H山等6)提地刻画样本之间的距离。出一种通过梯度下降的方法估计样本之间的权重进行改进KNN的分类算法：Wang等)提出一种简单的自适应距离度量来估算样本的权重。同时，一些学者通过属性加权或属性选择途径改进距离度量8。在局部距离度量方面，许多方法利用局部自适应距离处理全局优化问题，如：ADAMENN中的自适应距离，WAKNN中的权重校正度量方法及图1样本邻域图 Fig.1 Neighborhood of sample DANN中的差异化自适应度量方法[c-) 上述方法虽能有效地度量样本之间的距离，但 2.2样本邻域的定义基本上都是从单一的距离进行考虑，存在着以下缺据2.1节分析可知，考虑样本邻域之间的距离可点：1)并未考虑样本之间的邻域结构：2)易受噪声以更加精确地刻画样本之间的距离△，因此，寻找样的影响：3)不能处理多模态分布问题。因此，本文本邻域对提高k-近邻分类算法具有重要的影响。本受推荐中的用户群体影响概念的启发以)，提出了一节中给出样本的度量空间及样本邻域的定义。种融合样本邻域信息的k-近邻分类算法。定义13]给定一个m维的样本空间2，△： Xm×Xm→X,称△是Xm上的一个度量，如果△满 1k-近邻分类法足：1)△(x1,x2)≥0,4(x1,x2)=0,当且仅当 k-近邻分类法是一种非常简单有效的用于分类 x1=x2,x1,x2∈X;2)4(x1,x2)=△(x2,x1), 学习和函数逼近的算法。给定由n个样本标签对组 Vx1,x2∈Xm;3)△(x1,x3)≤△(x1,x2)+△(x2, 成的数据集D,D={(x1,c1),(x2,C2),…,(xn,Cn)}, x3),x1,x2,3∈X;称〈D,△〉为度量空间。其分类的任务在于获取映射函数∫，使得能正确预测在N维欧氏空间中，给定任意2点x:=(x1,x2, 无标签样本。设N,(x)为测试样本x的k-近邻集合， …,)和考=(2，…，x),其距离为 k-近邻分类法在于通过测试样本x的k-近邻进行大 (2)）众数投票进行确定x的标签，其公式为 4=(点内另外，为了处理异构特征，许多学者提出了多种 c=argmax∑∑1(g=c,) (1) 距离函数。如VDM、HVDM和HEOM。其中，VDM EieCIjEN(x) 式中：c为样本x,的类标签，I()为指示函数，当c:与定义为VDM(x:,x)= 立d-,且 9一样时，1(c=c)=1,否则，1(c=c)=0。 d(xa,x)=(P(x1,x)2,P(x)表示样本x在特征 2融合邻域信息的k-近邻分类算法 1下的分布概率。定义2给定样本空间上的非空有限集合X= 2.1 邻域信息的影响 {x1,x2,…,xm},对于X上的任意样本x,定义其6 传统的k-近邻分类算法本质上是利用样本个邻域为6(x)={xlx∈X,△(x,x:)≤8}，其中，0≤ 体与个体之间的距离（寻找对测试样本影响最大的 6≤1.8(x)称为样本x,相应的8邻域。前k个近似邻居)来预测测试样本的类标签，该预测定义3给定样本空间上的非空有限集合X= 只是简单地考虑样本个体之间的相似性，而忽略了 {x1,x2,…,xm},对于X上的任意样本x:及x,根据样本的邻域信息。因此，在计算样本个体距离时不 VDM公式，定义样本x:及，之间的邻域距离为仅要考虑样本个体之间的距离，也要考虑样本邻域 16(x)116,(g)12 信息产生的距离。图1清楚地描述了样本邻域信息 n()=Σ-1）(3) 1=1 产生的影响作用，从图1可以看出，虽然样本x,与性质1]给定一个度量空间〈2，△〉，一个 x2之间的距离与样本x1与x3之间的距离相等，即非空有限样本集合X={x1,出2，…，x}。如果6，≤ d(x1,x2)=d(x1,x3),但是样本x1的邻域信息与x3 62,则有的邻域信息之间包含更多的大量的共同邻居，则从 1)Hx:∈X:δ1(x)≥82(x); 认识论的角度出发，d(x1,x3)≥d(x1,x2)。根据以 2)U8(x)=X

几里德—重叠度量（ｈｅｔｅｒｏｇｅｎｅｏｕｓｅｕｃｌｉｄｅａｎ⁃ｏｖｅｒｌａｐｍｅｔｒｉｃ，ＨＥＯＭ）等［４⁃５］。另外，许多学者考虑了样本之间的权重以增强样本之间的相似性。Ｈｕ等［６］提出一种通过梯度下降的方法估计样本之间的权重进行改进ＫＮＮ的分类算法；Ｗａｎｇ等［７］提出一种简单的自适应距离度量来估算样本的权重。同时，一些学者通过属性加权或属性选择途径改进距离度量［８⁃９］。在局部距离度量方面，许多方法利用局部自适应距离处理全局优化问题，如：ＡＤＡＭＥＮＮ中的自适应距离，ＷＡＫＮＮ中的权重校正度量方法及ＤＡＮＮ中的差异化自适应度量方法［１０⁃１１］。上述方法虽能有效地度量样本之间的距离，但基本上都是从单一的距离进行考虑，存在着以下缺点：１）并未考虑样本之间的邻域结构；２）易受噪声的影响；３）不能处理多模态分布问题。因此，本文受推荐中的用户群体影响概念的启发［１２］，提出了一种融合样本邻域信息的ｋ⁃近邻分类算法。１ｋ⁃近邻分类法ｋ⁃近邻分类法是一种非常简单有效的用于分类学习和函数逼近的算法。给定由ｎ个样本标签对组成的数据集Ｄ，Ｄ＝｛（ｘ１，ｃ１），（ｘ２，ｃ２），…，（ｘｎ，ｃｎ）｝，其分类的任务在于获取映射函数ｆ，使得能正确预测无标签样本。设Ｎｋ（ｘ）为测试样本ｘ的ｋ⁃近邻集合，ｋ⁃近邻分类法在于通过测试样本ｘ的ｋ⁃近邻进行大众数投票进行确定ｘ的标签，其公式为ｃ＝ａｒｇｍａｘｃｉ ∑ｃｉ∈Ｃｘ ∑ ｊ∈Ｎｋ（ｘ）Ｉ（ｃｊ＝ｃｉ）（１）式中：ｃｊ为样本ｘｊ的类标签，Ｉ（·）为指示函数，当ｃｉ与ｃｊ一样时，Ｉ（ｃｊ＝ｃｉ）＝１，否则，Ｉ（ｃｊ＝ｃｉ）＝０。２融合邻域信息的ｋ⁃近邻分类算法２．１邻域信息的影响传统的ｋ⁃近邻分类算法本质上是利用样本个体与个体之间的距离（寻找对测试样本影响最大的前ｋ个近似邻居）来预测测试样本的类标签，该预测只是简单地考虑样本个体之间的相似性，而忽略了样本的邻域信息。因此，在计算样本个体距离时不仅要考虑样本个体之间的距离，也要考虑样本邻域信息产生的距离。图１清楚地描述了样本邻域信息产生的影响作用，从图１可以看出，虽然样本ｘ１与ｘ２之间的距离与样本ｘ１与ｘ３之间的距离相等，即ｄ（ｘ１，ｘ２）＝ｄ（ｘ１，ｘ３），但是样本ｘ１的邻域信息与ｘ３的邻域信息之间包含更多的大量的共同邻居，则从认识论的角度出发，ｄ（ｘ１，ｘ３） ≥ ｄ（ｘ１，ｘ２）。根据以上分析，可以得出准则１。准则１考虑样本邻域信息的影响能更加精确地刻画样本之间的距离。图１样本邻域图Ｆｉｇ．１Ｎｅｉｇｈｂｏｒｈｏｏｄｏｆｓａｍｐｌｅ２．２样本邻域的定义据２．１节分析可知，考虑样本邻域之间的距离可以更加精确地刻画样本之间的距离 Δ，因此，寻找样本邻域对提高ｋ⁃近邻分类算法具有重要的影响。本节中给出样本的度量空间及样本邻域的定义。定义１［１３］给定一个ｍ维的样本空间 Ω， Δ：Ｘｍ ×Ｘｍ → Ｘ，称 Δ 是Ｘｍ上的一个度量，如果 Δ 满足：１） Δ（ｘ１，ｘ２） ≥ ０，Δ（ｘ１，ｘ２）＝０，当且仅当ｘ１＝ｘ２，∀ｘ１，ｘ２ ∈ Ｘｍ；２） Δ（ｘ１，ｘ２）＝ Δ（ｘ２，ｘ１）， ∀ｘ１，ｘ２ ∈ Ｘｍ；３） Δ（ｘ１，ｘ３） ≤ Δ（ｘ１，ｘ２）＋ Δ（ｘ２，ｘ３），∀ｘ１，ｘ２，ｘ３ ∈ Ｘｍ；称〈Ω，Δ〉为度量空间。在Ｎ维欧氏空间中，给定任意２点ｘｉ＝（ｘｉ１，ｘｉ２， …，ｘｉＮ）和ｘｊ＝（ｘｊ１，ｘｊ２，…，ｘｊＮ），其距离为 Δ（ｘｉ，ｘｊ）＝（∑ Ｎｌ＝１（ｘｉｌ－ｘｊｌ）２）１２（２）另外，为了处理异构特征，许多学者提出了多种距离函数。如ＶＤＭ、ＨＶＤＭ和ＨＥＯＭ。其中，ＶＤＭ定义为ＶＤＭ（ｘｉ，ｘｊ）＝ ∑ Ｎｌ＝１ｄｌ（ｘｉｌ－ｘｊｌ），且ｄｌ（ｘｉｌ，ｘｊｌ）＝（Ｐ（ｘｉｌ，ｘｊｌ））２，Ｐ（ｘｌ）表示样本ｘ在特征ｌ下的分布概率。定义２给定样本空间上的非空有限集合Ｘ＝｛ｘ１，ｘ２，…，ｘｍ｝，对于Ｘ上的任意样本ｘｉ，定义其 δ 邻域为 δ（ｘｉ）＝｛ｘ｜ｘ ∈ Ｘ，Δ（ｘ，ｘｉ） ≤ δ｝，其中，０ ≤ δ ≤ １。 δ（ｘｉ）称为样本ｘｉ相应的 δ 邻域。定义３给定样本空间上的非空有限集合Ｘ＝｛ｘ１，ｘ２，…，ｘｍ｝，对于Ｘ上的任意样本ｘｉ及ｘｊ，根据ＶＤＭ公式，定义样本ｘｉ及ｘｊ之间的邻域距离为ｎ（ｘｉ，ｘｊ）＝ ∑ Ｎｌ＝１（｜ δｌ（ｘｉ）｜Ｘ－｜ δｌ（ｘｊ）｜Ｘ）２（３）性质１［１３］给定一个度量空间〈Ω，Δ〉，一个非空有限样本集合Ｘ＝｛ｘ１，ｘ２，…，ｘｍ｝。如果 δ１ ≤ δ２，则有１） ∀ｘｉ ∈ Ｘ：δ１（ｘｉ） ≥ δ２（ｘｉ）；２） ∪ ｍｉ＝１ δ（ｘｉ）＝Ｘ。第２期林耀进，等：融合邻域信息的ｋ⁃近邻分类 ·２４１·

.242 智能系统学报第9卷根据定义3及性质1，随着样本距离δ的增大， 1)初始化c(x)=P; 样本邻域中所包含的对象数量随着增加，样本之间 2)根据式(2)获取测试样本与训练样本的k/2 的区分度将降低。如图2所示，随着距离的增大，原个近邻R; 来不属于同一邻域的样本x1x2x变成处于同一邻 3)根据式(3)获取测试样本邻域与训练样本邻域：即样本x1、2、x3在图1中不属于同一邻域，而在域的k/2个近邻R2: 图2中则处于同一邻域。根据以上分析，可以得出 4)获得测试样本x的融合近邻集合R=R,UR2 准则2。后，即测试样本x的k近邻N(x); 准则2选择样本邻域的大小影响着样本之间 5)根据式(1)获得测试样本x的类标签c(x)。距离的精确刻画。 4实验结果及分析为了验证所提出算法的有效性，从UCI数据集中挑选了6组数据。其中，为了验证算法的适用性，其数据集的类别从2类到3类，特征数从5~60，具体描述信息见表1。同时，进行2组实验，第1组实验与经典的分类算法KNN、NEC1)、CART、LSVM 进行比较：另一组检测在噪声数据影响下，本文所提出的FK3N与其他分类器的比较。图2δ减小后的样本邻域图表1数据描述 Fig.2 Neighborhood of sample with smaller 8 Table 1 Data set description 数据集 Instances 特征数类别 3算法设计 Heart 270 13 2 在对样本邻域影响分析的基础上，利用欧式距 ICU 200 20 离计算样本之间的距离，用改进的VDM计算样本 Rice 104 5 2 邻域之间的距离，设计融合样本邻域信息的k-近邻 Sonar 208 60 分类算法如下： Wdbe 569 30 3 算法1融合样本邻域信息的k-近邻分类算 wpbe 198 33 法(FK3N)。输入：数据集D,测试样本x,距离阈值6，近邻实验1为了验证K3N的分类性能，在本实个数k; 验中，与其他流行的分类算法进行了比较，如表2。输出：测试样本x的标签c(x)。表2不同分类器的分类精度比较 Table 2 The comparison of classification accuracy with different classifiers 数据集 KNN NEC CART LSVM FK3N Heart 82.59±6.06 80.00±6.10 74.07±6.30 83.33±5.31 84.44±6.00 ICU 92.61±2.25 86.29±17.85 79.40±31.64 92.56±4.27 93.61±3.12 Rice 81.69±10.30 83.07±10.96 82.07±11.70 78.16±8.10 82.98±10.90 Sonar 72.62±7.05 82.74±5.48 72.07±13.94 77.86±7.05 79.31±5.59 Wdbe 96.67±2.09 95.79±2.37 90.50±4.55 97.73±2.48 97.01±2.04 Wpbe 76.26±5.89 78.26±7.24 70.63±7.54 77.37±7.73 76.79±7.96 平均 83.74 84.35 78.12 84.50 85.69 其中将FK3N、KNN涉及到的参数k设置为1O, 器的平均分类精度。从表2可以看出，FK3N虽然只将FK3N、NEL涉及到的参数delta设置为O.l。为了在2个数据集上取得最优的分类效果，但是在其他3 显示标注FK3N在6个UCI数据集上的分类精度，个数据集上取得第2（或并列）的分类精度。另外，在FK3N中加粗的代表分类精度最高，下划线代表在平均分类精度可以看出，FK3N取得最高的平均分分类精度第2。另外，在表2最后一行显示不同分类类精度，比LSVM还高出1.19%。因此，从本实验可

根据定义３及性质１，随着样本距离 δ 的增大，样本邻域中所包含的对象数量随着增加，样本之间的区分度将降低。如图２所示，随着距离的增大，原来不属于同一邻域的样本ｘ１、ｘ２、ｘ３变成处于同一邻域：即样本ｘ１、ｘ２、ｘ３在图１中不属于同一邻域，而在图２中则处于同一邻域。根据以上分析，可以得出准则２。准则２选择样本邻域的大小影响着样本之间距离的精确刻画。图２ δ 减小后的样本邻域图Ｆｉｇ．２Ｎｅｉｇｈｂｏｒｈｏｏｄｏｆｓａｍｐｌｅｗｉｔｈｓｍａｌｌｅｒ δ ３算法设计在对样本邻域影响分析的基础上，利用欧式距离计算样本之间的距离，用改进的ＶＤＭ计算样本邻域之间的距离，设计融合样本邻域信息的ｋ⁃近邻分类算法如下：算法１融合样本邻域信息的ｋ⁃近邻分类算法（ＦＫ３Ｎ）。输入：数据集Ｄ，测试样本ｘ，距离阈值 δ，近邻个数ｋ；输出：测试样本ｘ的标签ｃ（ｘ）。１）初始化ｃ（ｘ）＝ φ；２）根据式（２）获取测试样本与训练样本的ｋ／２个近邻Ｒ１；３）根据式（３）获取测试样本邻域与训练样本邻域的ｋ／２个近邻Ｒ２；４）获得测试样本ｘ的融合近邻集合Ｒ＝Ｒ１ ∪Ｒ２后，即测试样本ｘ的ｋ近邻Ｎｋ（ｘ）；５）根据式（１）获得测试样本ｘ的类标签ｃ（ｘ）。４实验结果及分析为了验证所提出算法的有效性，从ＵＣＩ数据集中挑选了６组数据。其中，为了验证算法的适用性，其数据集的类别从２类到３类，特征数从５～６０，具体描述信息见表１。同时，进行２组实验，第１组实验与经典的分类算法ＫＮＮ、ＮＥＣ［１３］、ＣＡＲＴ、ＬＳＶＭ进行比较；另一组检测在噪声数据影响下，本文所提出的ＦＫ３Ｎ与其他分类器的比较。表１数据描述Ｔａｂｌｅ１Ｄａｔａｓｅｔｄｅｓｃｒｉｐｔｉｏｎ数据集Ｉｎｓｔａｎｃｅｓ特征数类别Ｈｅａｒｔ２７０１３２ＩＣＵ２００２０３Ｒｉｃｅ１０４５２Ｓｏｎａｒ２０８６０２Ｗｄｂｃ５６９３０２ｗｐｂｃ１９８３３２实验１为了验证ＦＫ３Ｎ的分类性能，在本实验中，与其他流行的分类算法进行了比较，如表２。表２不同分类器的分类精度比较Ｔａｂｌｅ２Ｔｈｅｃｏｍｐａｒｉｓｏｎｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｗｉｔｈｄｉｆｆｅｒｅｎｔｃｌａｓｓｉｆｉｅｒｓ数据集ＫＮＮＮＥＣＣＡＲＴＬＳＶＭＦＫ３ＮＨｅａｒｔ８２．５９±６．０６８０．００±６．１０７４．０７±６．３０８３．３３±５．３１８４．４４±６．００ＩＣＵ９２．６１±２．２５８６．２９±１７．８５７９．４０±３１．６４９２．５６±４．２７９３．６１±３．１２Ｒｉｃｅ８１．６９±１０．３０８３．０７±１０．９６８２．０７±１１．７０７８．１６±８．１０８２．９８±１０．９０Ｓｏｎａｒ７２．６２±７．０５８２．７４±５．４８７２．０７±１３．９４７７．８６±７．０５７９．３１±５．５９Ｗｄｂｃ９６．６７±２．０９９５．７９±２．３７９０．５０±４．５５９７．７３±２．４８９７．０１±２．０４Ｗｐｂｃ７６．２６±５．８９７８．２６±７．２４７０．６３±７．５４７７．３７±７．７３７６．７９±７．９６平均８３．７４８４．３５７８．１２８４．５０８５．６９其中将ＦＫ３Ｎ、ＫＮＮ涉及到的参数ｋ设置为１０，将ＦＫ３Ｎ、ＮＥＬ涉及到的参数ｄｅｌｔａ设置为０．１。为了显示标注ＦＫ３Ｎ在６个ＵＣＩ数据集上的分类精度，在ＦＫ３Ｎ中加粗的代表分类精度最高，下划线代表分类精度第２。另外，在表２最后一行显示不同分类器的平均分类精度。从表２可以看出，ＦＫ３Ｎ虽然只在２个数据集上取得最优的分类效果，但是在其他３个数据集上取得第２（或并列）的分类精度。另外，在平均分类精度可以看出，ＦＫ３Ｎ取得最高的平均分类精度，比ＬＳＶＭ还高出１．１９％。因此，从本实验可 ·２４２· 智能系统学报第９卷

第2期林耀进，等：融合邻域信息的k近邻分类 .243. 以看出，与其他流行的分类器相比，说明了本文提出然后乘以系数a后加入原始训练数据中。本文设a 的FK3N算法具有较为优越的分类性能。的值为01。从表3可以看出，与其他分类器相比，实验2为了考察FK3N的稳定性，在训练数据在存在噪声情况下，FK3N在多个数据集上的分类精的属性中注入噪声。首先生成一个服从标准正态分度取得良好的结果。布的m×n(m为样本数，n为属性数)的噪声数据，表3噪声数据下不同分类器的分类精度比较 Table 3 The comparison of classification accuracy with different classifiers under noisy data 数据集 KNN NEC CART LSVM FK3N Heart 82.22±6.49 80.37±4.96 77.78±7.61 83.33±6.11 82.96±5.30 ICU 92.61±2.25 87.29±18.03 84.19±29.92 91.55±5.44 92.61±2.24 Rice 81.80±6.61 81.78±7.96 77.05±10.69 77.05±3.84 81.98±8.96 Sonar 71.64±11.21 78.28±7.20 69.21±11.35 77.38±6.98 77.52±9.11 Wdbe 94.96±2.49 94.56±3.35 93.16±3.74 97.03±2.01 94.68±2.89 Wpbe 73.29±7.42 74.66±11.2571.11±9.89 76.32±5.61 74.79±8.51 平均 82.71 82.82 78.75 83.78 84.09 5结束语 Pattern Recognition Letters,2007,28 207-213 [8]KOHAVI R,LANGLEY P,YUNG Y.The utility of feature 本文提出了一种FK3N分类算法。首先，从度 weighting in nearest neighbor algorithms [C]//Proceedings 量空间角度定义了样本邻域信息，分析了样本的邻 of the Ninth European Conference on Machine Learning.[S. 域对能否精确地计算样本之间的距离具有重要的影 1.],1997. 响，提出了2条符合实际情况的准则：然后在计算样 [9]SUN Y J.Iterative RELIEF for feature weighting:algo- 本个体之间的距离时，综合考虑了样本邻域之间的 rithms,theories,and applications[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29 相似性：最后提出了一种获取最近邻的计算方法。 (6):1035-1051 在多个公开UCI数据集上的实验结果表明，本文方 [10]MU Y,DING W,TAO D C.Local discriminative distance 法在原始数据和噪声数据上分类性能优于或相当于 metrics ensemble learning[J].Pattern Recognition,2013, 其他相关分类器。 46(8):2337-2349. 参考文献： [11]SONG Y,HUANG J,ZHOU D,et al.IKNN:informative k-nearest neighbor pattern classification[C]//PKDD 2007. [1]COVER T,HART P.Nearest neighbor pattern classification [S.1],2007:248-264. [J].IEEE Transactions on Information Theory,1967 (13): [12]林耀进，胡学钢，李慧宗.基于用户群体影响的协同过 21-27. 滤推荐算法[J],情报学报，2013,32(3)：299-350. [2]WU X D,KUMAR V,QUINLAN J R,et al.Top 10 algo- [13]HU Q H,YU D R,XIE Z X.Neighborhood classifiers[J]. rithms in data mining[].Knowledge and Information Sys- Expert Systems with Applications,2008,34(2):866-876. tems,2008,14(1):1-37. 作者简介： [3]吕锋，杜妮，文成林.一种模糊-证据kNN分类方法[J] 林耀进，男，1980年生，讲师，主要电子学报，2012,40(12)：2930-2935 研究方向为数据挖掘、粒计算。 [4]WANG H.Nearest neighbors by neighborhood counting[J]. IEEE Transactions on Pattern Analysis and Machine Intelli- gence,2005,28(6):942-953. [5]WILSON D R,MARTINEZ T R.Improve heterogeneous dis- tance functions[J].Journal of Artificial Intelligence Re- 李进金，男，1960年生，教授，博士生导师，主要研究方向为粗糙集理论及 8 earch,1997(6):1-34. [6]HU Q H,ZHU P F,YANG Y B,et al.Large-margin nea- 应用。 rest neighbor classifiers via sample weight learning[J].Neu- rocomputing,2011,74(4):656-660. [7]WANG J,NESKOVIC COOPER L.N.Improving nearest neighbor rule with a simple adaptive distance measure[J]

以看出，与其他流行的分类器相比，说明了本文提出的ＦＫ３Ｎ算法具有较为优越的分类性能。实验２为了考察ＦＫ３Ｎ的稳定性，在训练数据的属性中注入噪声。首先生成一个服从标准正态分布的ｍ × ｎ（ｍ为样本数，ｎ为属性数）的噪声数据，然后乘以系数ａ后加入原始训练数据中。本文设ａ的值为０．１。从表３可以看出，与其他分类器相比，在存在噪声情况下，ＦＫ３Ｎ在多个数据集上的分类精度取得良好的结果。表３噪声数据下不同分类器的分类精度比较Ｔａｂｌｅ３Ｔｈｅｃｏｍｐａｒｉｓｏｎｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙｗｉｔｈｄｉｆｆｅｒｅｎｔｃｌａｓｓｉｆｉｅｒｓｕｎｄｅｒｎｏｉｓｙｄａｔａ数据集ＫＮＮＮＥＣＣＡＲＴＬＳＶＭＦＫ３ＮＨｅａｒｔ８２．２２±６．４９８０．３７±４．９６７７．７８±７．６１８３．３３±６．１１８２．９６±５．３０ＩＣＵ９２．６１±２．２５８７．２９±１８．０３８４．１９±２９．９２９１．５５±５．４４９２．６１±２．２４Ｒｉｃｅ８１．８０±６．６１８１．７８±７．９６７７．０５±１０．６９７７．０５±３．８４８１．９８±８．９６Ｓｏｎａｒ７１．６４±１１．２１７８．２８±７．２０６９．２１±１１．３５７７．３８±６．９８７７．５２±９．１１Ｗｄｂｃ９４．９６±２．４９９４．５６±３．３５９３．１６±３．７４９７．０３±２．０１９４．６８±２．８９Ｗｐｂｃ７３．２９±７．４２７４．６６±１１．２５７１．１１±９．８９７６．３２±５．６１７４．７９±８．５１平均８２．７１８２．８２７８．７５８３．７８８４．０９５结束语本文提出了一种ＦＫ３Ｎ分类算法。首先，从度量空间角度定义了样本邻域信息，分析了样本的邻域对能否精确地计算样本之间的距离具有重要的影响，提出了２条符合实际情况的准则；然后在计算样本个体之间的距离时，综合考虑了样本邻域之间的相似性；最后提出了一种获取最近邻的计算方法。在多个公开ＵＣＩ数据集上的实验结果表明，本文方法在原始数据和噪声数据上分类性能优于或相当于其他相关分类器。参考文献：［１］ＣＯＶＥＲＴ，ＨＡＲＴＰ．Ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｐａｔｔｅｒｎｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ，１９６７（１３）：２１⁃２７．［２］ＷＵＸＤ，ＫＵＭＡＲＶ，ＱＵＩＮＬＡＮＪＲ，ｅｔａｌ．Ｔｏｐ１０ａｌｇｏ⁃ ｒｉｔｈｍｓｉｎｄａｔａｍｉｎｉｎｇ［Ｊ］．ＫｎｏｗｌｅｄｇｅａｎｄＩｎｆｏｒｍａｔｉｏｎＳｙｓ⁃ ｔｅｍｓ，２００８，１４（１）：１⁃３７．［３］吕锋，杜妮，文成林．一种模糊－证据ｋＮＮ分类方法［Ｊ］．电子学报，２０１２，４０（１２）：２９３０⁃２９３５．［４］ＷＡＮＧＨ．Ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｂｙｎｅｉｇｈｂｏｒｈｏｏｄｃｏｕｎｔｉｎｇ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉ⁃ ｇｅｎｃｅ，２００５，２８（６）：９４２⁃９５３．［５］ＷＩＬＳＯＮＤＲ，ＭＡＲＴＩＮＥＺＴＲ．Ｉｍｐｒｏｖｅｈｅｔｅｒｏｇｅｎｅｏｕｓｄｉｓ⁃ ｔａｎｃｅｆｕｎｃｔｉｏｎｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＲｅ⁃ ｓｅａｒｃｈ，１９９７（６）：１⁃３４．［６］ＨＵＱＨ，ＺＨＵＰＦ，ＹＡＮＧＹＢ，ｅｔａｌ．Ｌａｒｇｅ⁃ｍａｒｇｉｎｎｅａ⁃ ｒｅｓｔｎｅｉｇｈｂｏｒｃｌａｓｓｉｆｉｅｒｓｖｉａｓａｍｐｌｅｗｅｉｇｈｔｌｅａｒｎｉｎｇ［Ｊ］．Ｎｅｕ⁃ ｒｏｃｏｍｐｕｔｉｎｇ，２０１１，７４（４）：６５６⁃６６０．［７］ＷＡＮＧＪ，ＮＥＳＫＯＶＩＣ，ＣＯＯＰＥＲＬ．Ｎ．Ｉｍｐｒｏｖｉｎｇｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｒｕｌｅｗｉｔｈａｓｉｍｐｌｅａｄａｐｔｉｖｅｄｉｓｔａｎｃｅｍｅａｓｕｒｅ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅｔｔｅｒｓ，２００７，２８：２０７⁃２１３．［８］ＫＯＨＡＶＩＲ，ＬＡＮＧＬＥＹＰ，ＹＵＮＧＹ．Ｔｈｅｕｔｉｌｉｔｙｏｆｆｅａｔｕｒｅｗｅｉｇｈｔｉｎｇｉｎｎｅａｒｅｓｔｎｅｉｇｈｂｏｒａｌｇｏｒｉｔｈｍｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＮｉｎｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．［Ｓ．ｌ．］，１９９７．［９］ＳＵＮＹＪ．ＩｔｅｒａｔｉｖｅＲＥＬＩＥＦｆｏｒｆｅａｔｕｒｅｗｅｉｇｈｔｉｎｇ：ａｌｇｏ⁃ ｒｉｔｈｍｓ，ｔｈｅｏｒｉｅｓ，ａｎｄａｐｐｌｉｃａｔｉｏｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２００７，２９（６）：１０３５⁃１０５１［１０］ＭＵＹ，ＤＩＮＧＷ，ＴＡＯＤＣ．Ｌｏｃａｌｄｉｓｃｒｉｍｉｎａｔｉｖｅｄｉｓｔａｎｃｅｍｅｔｒｉｃｓｅｎｓｅｍｂｌｅｌｅａｒｎｉｎｇ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２０１３，４６（８）：２３３７⁃２３４９．［１１］ＳＯＮＧＹ，ＨＵＡＮＧＪ，ＺＨＯＵＤ，ｅｔａｌ．ＩＫＮＮ：ｉｎｆｏｒｍａｔｉｖｅｋ⁃ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｐａｔｔｅｒｎｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／ＰＫＤＤ２００７．［Ｓ．ｌ．］，２００７：２４８⁃２６４．［１２］林耀进，胡学钢，李慧宗．基于用户群体影响的协同过滤推荐算法［Ｊ］，情报学报，２０１３，３２（３）：２９９⁃３５０．［１３］ＨＵＱＨ，ＹＵＤＲ，ＸＩＥＺＸ．Ｎｅｉｇｈｂｏｒｈｏｏｄｃｌａｓｓｉｆｉｅｒｓ［Ｊ］．ＥｘｐｅｒｔＳｙｓｔｅｍｓｗｉｔｈＡｐｐｌｉｃａｔｉｏｎｓ，２００８，３４（２）：８６６⁃８７６．作者简介：林耀进，男，１９８０年生，讲师，主要研究方向为数据挖掘、粒计算。李进金，男，１９６０年生，教授，博士生导师，主要研究方向为粗糙集理论及应用。第２期林耀进，等：融合邻域信息的ｋ⁃近邻分类 ·２４３·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录

机器学习：融合邻域信息的k-近邻分类