正在加载图片...
·154 智能系统学报 第5卷 每扫描一遍数据集只能发现1个离群点,因此 1.1 aOMBIE &LOF DENBROD GreedAlg GreedAlg算法的运行效率则降低了.LOF算法与 1.0 ENBROD算法在处理高维数据时,索引结构失效, 遇类 0.9 0.8 时间复杂度退化为0(n2). 0.7 不同算法的准确度对比 0.6 18 22 36 56 1.r OMBIE&LOF DENBROD GreedAlg 维度 1.0 0.9 图2不同算法对数据集维数的伸缩性对比 0.8 Fig.2 Scaling of precisions with dataset dimensionality 0.7 06 4.3恒星光谱数据 NE1000LS NE2000LS NE4000LS NE6000LS NE8000LS 采用国家天文台提供的恒星光谱数据,并使用 图3不同算法的准确度对比 文献[15]中的方法对其进行预处理,预处理后作为 Fig.3 Accuracy of OMBIE,LOF,ENBROD and GreedAlg 实验数据集.预处理简述如下:1)选定间隔为20的 200个波长为3810,3530,··,7790作为属性集, 2510数据集大小对算法执行时问的影响 ◆一OMBIE 20 共200个属性;2)依据每一波长处的流量、峰宽和 4一LOF 15 ENBROD 形状,将其离散化为13种数值之一,并作为该波长 10 GreedAlg 处的取值.然后,均匀地加入3%具有较大偏差的数 据点作为离群点,得到测试数据集.采取对测试数据 04 0.10.20.40.60.8315×10 集中的采样数据作预分析的实验方案,离群检测的 数据集中记录的数量 准确度的评估标准为 图4数据集大小对算法协作时间的影响对比 正确离群点的个数 Fig.4 Running time of OMBIE,LOF,ENBROD and GreedAlg 准确率=期望得到离群点的个数 5结束语 图3是测试算法检测离群点准确度的实验结 果,从图中可以知道OMBIE比LOF、ENBROD算法 对于高维数据,传统的离群数据挖掘算法不再 的准确度高,与GreedAlg算法的准确度相当.这是 有效.本文引人一个离群数据度量因子用来度量每 因为OMBE算法既可以发现离群程度最强的离群 一条记录的离群程度,与L0F算法中通过局部异常 点,也可以发现离群程度最弱的离群点,所以它可以 因子定义的离群点类似,即离群不再是一个二值属 发现尽可能多的离群点.而LOF算法不能发现全部 性(不是离群点,就是常规点),摒弃了以前异常定 的离群数据是因为高维空间中的数据具有高稀疏性 义中非此即彼的绝对异常观念,更加符合现实生活 和不规则性的特点,基于密度的异常意义应用到高 中的应用.OMBE算法不需要事先人为设置参数和 维数据时失效了,使得LOF算法不能检测到一些离 阈值,算法可以自动产生离群点.由离群数据度量因 群点.ENBROD算法的准确度受输人参数的影响较 子定义的离群点,可以对其做出解释(离群点就是 大.尽管实验结果表明GreedAlg算法的准确度与 使系统无序和杂乱的因素),此外OMBIE算法还可 OMBE算法相当,这是由于此实验方案事先知道数 以应用于标称属性数据.实验结果表明,OMB亚与 据集中有多少离群点;但是在实际应用中,事先并不 ENBROD、GreedAlg和LOF算法相比,在发现高维空 知道数据集中有多少离群数据,GreedAlg算法的准 间的离群数据的能力和效率上都有提高 确度则会有所降低的.OMBE算法在挖掘离群点 参考文献: 时,不需要人为设置参数,会自动地检测数据集中的 离群点;所以不会因为事先不知道数据集中有多少 [1]HAN Jiawei,KAMBER M.Data mining:concepts and tech- 离群数据而受到影响,能更有效地检测出离群点· niques[M].Bejing:China Machine Press,2006:254-255. [2]HAWKINS D.Identification of outliers [M].London:Chap- 图4是测试数据集大小对算法影响的实验结 man and Hall,1980:2-28. 果,OMBIE比LOP、ENBROD及GreedAlg算法(参数 [3]BARNETT V,LEWIS T.Outliers in statistical data[M]. k设置为5时)挖掘效率要高.OMBE算法在挖掘离 New York:John Wiley Sons,1994:7,49. 群点时,无论用户期望产生多少离群点都只扫描一 [4]RUTS I,ROUSSEEUW P.Computing depth contours of bi- 遍数据集,而GreedAlg算法需要扫描k遍数据集, variate point clouds[J].Computational Statistics and Data
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有