正在加载图片...
第9卷第2期 智能系统学报 Vol.9 No.2 2014年4月 CAAI Transactions on Intelligent Systems Apr.2014 D0I:10.3969/j.issn.1673-4785.201307015 网络出版t地址:htp:/ww.cmki.net/kcms/doi/10.3969/j.issn.1673-4785.201307015.html 融合邻域信息的k-近邻分类 林耀进,李进金12,陈锦坤2,马周明2 (1.闽南师范大学计算机科学与工程系,福建漳州363000:2.闽南师范大学数学与统计学院,福建漳州363000) 摘要:距离度量是影响k-近邻(KNN)法分类精度的重要因素之一。提出一种融合邻域信息的k-近邻算法。首先, 定义了样本邻域的概念,并根据邻域的影响提出2条相应准则:然后,在计算测试样本与训练样本的距离时,综合考 虑了样本邻域所带来的影响。该算法不仅可以更加精确地刻画样本之间的距离,而且一定程度上增强了KNN的稳 定性。该方法在·C标准数据集上进行了测试,结果表明,性能优于或与其他相关的分类器相当,并且在噪声扰动 下具有较强的鲁棒性。 关键词:k近邻:邻域信息:分类学习:距离测量:噪音千扰 中图分类号:TP181文献标志码:A文章编号:1673-4785(2014)02-0240-04 中文引用格式:林耀进,李进金,陈锦坤,等.融合邻域信息的k-近邻分类[J].智能系统学报,2014,9(2):240-243. 英文引用格式:LIN Yaojin,LI Jinjin,CHEN Jinkun,etal.K-nearest neighbor classification algorithm fusing neighborhood infor- mation[J].CAAI Transactions on Intelligent Systems,2014,9(2):240-243. K-nearest neighbor classification algorithm fusing neighborhood information LIN Yaojin',LI Jinjin'2,CHEN Jinkun2,MA Zhouming? (1.Department of Computer Science and Engineering,Zhangzhou 363000,China;2.School of Mathematics and Statistics,Zhangzhou 363000.China) Abstract:Distance measurement is one of the important factors which affect the classification accuracy of the k nea- rest neighbor(KNN)algorithm.In this paper,an improved k nearest neighbor algorithm fusing neighborhood infor- mation is presented.Firstly,the concept of the instance neighborhood is defined and two criterions are presented according to neighborhood influence;then,the influence of the instance neighborhood is comprehensively consid- ered when the distance between the testing instances and the training instances is computed.This algorithm can characterize the distance among instances more precisely,and enhance the stability of the KNN to some extent.This presented method was tested on the UCI datasets,and the results showed that this proposed technique is better than or equal to other classifiers,and it is more robust under the noise disturbance. Keywords:k-nearest neighbor;neighborhood information;classification learning;distance measurement;noise dis- turbance k-近邻法是一种非常简单有效的分类算法,广泛 原则对待分类样本的类别进行判定。k-近邻算法的 应用于数据挖掘和模式识别的各个领域)。其基本 分类精度很大程度受影响于样本之间距离的度量。 思想是通过计算寻找训练集中距离待分类样本最近 近几儿年,出现了许多改进的距离度量方法以提 的k个邻居,然后基于它们的类别信息,依据投票的 高k-近邻算法的分类性能,主要分为局部距离和全 局距离两大类。在传统的全局距离度量方面,针对 收稿日期:2013-06-22.网络出版日期:2014-03-31. 基金项目:国家自然科学基金资助项目(61303131,61379021):福建省异构特征,提出了相应的距离度量方法,如:值差度 自然科学基金资助项目(2013J01028,2012D141):福建省A量(value difference metric,VDM)、修正的值差度量 类科技资助项目(JA12220) 通信作者:林耀进.E-mail:zzlinyaojin@163.com. (modified value difference metric,MVDM)和异构欧第 9 卷第 2 期 智 能 系 统 学 报 Vol.9 №.2 2014 年 4 月 CAAI Transactions on Intelligent Systems Apr. 2014 DOI:10.3969 / j.issn.1673⁃4785.201307015 网络出版地址:http: / / www.cnki.net / kcms/ doi / 10.3969 / j.issn.1673⁃4785.201307015.html 融合邻域信息的 k⁃近邻分类 林耀进1 ,李进金1,2 ,陈锦坤2 ,马周明2 (1.闽南师范大学 计算机科学与工程系,福建 漳州 363000; 2. 闽南师范大学 数学与统计学院,福建 漳州 363000) 摘 要:距离度量是影响 k⁃近邻(KNN)法分类精度的重要因素之一。 提出一种融合邻域信息的 k⁃近邻算法。 首先, 定义了样本邻域的概念,并根据邻域的影响提出 2 条相应准则;然后,在计算测试样本与训练样本的距离时,综合考 虑了样本邻域所带来的影响。 该算法不仅可以更加精确地刻画样本之间的距离,而且一定程度上增强了 KNN 的稳 定性。 该方法在 UCI 标准数据集上进行了测试,结果表明,性能优于或与其他相关的分类器相当, 并且在噪声扰动 下具有较强的鲁棒性。 关键词:k⁃近邻; 邻域信息;分类学习;距离测量;噪音干扰 中图分类号: TP181 文献标志码:A 文章编号:1673⁃4785(2014)02⁃0240⁃04 中文引用格式:林耀进,李进金,陈锦坤, 等. 融合邻域信息的 k⁃近邻分类[J]. 智能系统学报, 2014, 9(2): 240⁃243. 英文引用格式:LIN Yaojin, LI Jinjin, CHEN Jinkun, et al. K⁃nearest neighbor classification algorithm fusing neighborhood infor⁃ mation[J]. CAAI Transactions on Intelligent Systems, 2014, 9(2): 240⁃243. K⁃nearest neighbor classification algorithm fusing neighborhood information LIN Yaojin 1 , LI Jinjin 1,2 , CHEN Jinkun 2 , MA Zhouming 2 (1. Department of Computer Science and Engineering, Zhangzhou 363000, China; 2. School of Mathematics and Statistics, Zhangzhou 363000, China) Abstract:Distance measurement is one of the important factors which affect the classification accuracy of the k nea⁃ rest neighbor (KNN) algorithm. In this paper, an improved k nearest neighbor algorithm fusing neighborhood infor⁃ mation is presented. Firstly, the concept of the instance neighborhood is defined and two criterions are presented according to neighborhood influence; then, the influence of the instance neighborhood is comprehensively consid⁃ ered when the distance between the testing instances and the training instances is computed. This algorithm can characterize the distance among instances more precisely, and enhance the stability of the KNN to some extent. This presented method was tested on the UCI datasets, and the results showed that this proposed technique is better than or equal to other classifiers, and it is more robust under the noise disturbance. Keywords:k⁃nearest neighbor; neighborhood information; classification learning; distance measurement; noise dis⁃ turbance 收稿日期:2013⁃06⁃22. 网络出版日期:2014⁃03⁃31. 基金项目:国家自然科学基金资助项目( 61303131,61379021);福建省 自然科学基金资助项目( 2013J01028,2012D141);福建省 A 类科技资助项目(JA12220) 通信作者:林耀进. E⁃mail:zzlinyaojin@ 163.com. k⁃近邻法是一种非常简单有效的分类算法,广泛 应用于数据挖掘和模式识别的各个领域[1⁃3] 。 其基本 思想是通过计算寻找训练集中距离待分类样本最近 的 k 个邻居,然后基于它们的类别信息,依据投票的 原则对待分类样本的类别进行判定。 k⁃近邻算法的 分类精度很大程度受影响于样本之间距离的度量。 近几年,出现了许多改进的距离度量方法以提 高 k⁃近邻算法的分类性能,主要分为局部距离和全 局距离两大类。 在传统的全局距离度量方面,针对 异构特征,提出了相应的距离度量方法,如:值差度 量(value difference metric, VDM)、修正的值差度量 (modified value difference metric, MVDM) 和异构欧
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有