第5卷第2期 智能系统学报 Vol.5 No.2 2010年4月 CAAI Transactions on Intelligent Systems Apr.2010 doi:10.3969/i.issn.1673-4785.2010.02.009 信息熵度量的离群数据挖掘算法 张贺,蔡江辉,张继福,乔行2 (1.太原科技大学计算机科学与技术学院,山西太原030024:2.北京航空航天大学自动化科学与电气工程学院,北 京100191) 摘要:离群数据挖掘是为了找出隐含在海量数据中相对稀疏而孤立的异常数据模式,但传统的离群数据挖掘方法 受人为因素影响较大,通过引入基于信息熵的离群度量因子,给出一种离群数据挖掘新算法.该算法先利用信息熵 计算每个数据对象的离群度量因子,然后通过离群度量因子来衡量每个对象的离群程度,进而检测离群数据,有效 地消除了人为主观因素对离群检测的影响,并能很好地解释离群点的含义.最后,采用UC和恒星光谱数据作为实 验数据,通过对实验的分析,验证了该算法的可行性和有效性】 关键词:离群数据:信息熵;离群度量因子:数据挖掘 中图分类号:TP311文献标识码:A文章编号:16734785(2010)02-0150-06 An outlier mining algorithm based on information entropy ZHANG He',CAI Jiang-hui,ZHANG Ji-fu',QIAO Kan2 (1.School of Computer Science and Technology,Taiyuan University of Science&Technology,Taiyuan030024,China;2.Automation Science and Electrical Engineering College,Beijing University of Aeronautics and Astronautics,Beijing 100191,China) Abstract:The task of outlier mining is to discover patterns that are exceptional,interesting,and sparse or isolated even though they are concealed within tremendous volumes of data.Traditional outlier detection methods are easily influenced by man-made factors.A novel outlier mining algorithm based on information entropy has been formula- ted.It used an outlier measurement factor based on information entropy.In the algorithm,the outlier measurement factor of each record was calculated using information entropy.Outliers were then detected by analyzing the values of the outlier measurement factor.In this way the impact of man-made factors was eliminated in outlier mining.The definition of an outlier was based on an outlier measurement factor which could explain the meaning of the outliers. Experimental results proved the feasibility and effectiveness of the algorithm when it was used to analyze the UC Ir- vine (UCI)data set as well as high-dimensional star spectrum data. Keywords:outlier;information entropy;outlier measure factor;data mining 离群数据(Outlier)是明显偏离其他数据,不满仅仅得出一个信息,而l0个异常数据很可能得出 足数据的一般模式或行为,与存在的其他数据不一 10个不同的信息.离群数据的发现往往可以使人们 致的数据「山.但是,迄今为止,离群点还没有一个被 发现一些真实的,但又出乎意料的知识;因此通过对 普遍采纳的定义,统计学家Hawkins2]1980年给出 离群数据的研究,发现异常的行为和模式,有着非常 的离群点定义在一定意义上揭示了离群点的本质: 重要的意义.离群数据检测技术现已被广泛地应用 “离群点与其他点如此不同,以至于让人怀疑它们 于许多领域,如金融欺诈、电信计费、医疗保险、网络 是由一个不同的机制产生的”.事实上,“一个人的 安全等 噪声可能是另一个人的信号”,稀有事件比普通 目前,现有经典离群检测算法主要分为以下几 事件更有研究价值,这是由于数万个数据记录可能 类:基于统计(statistical-based)的方法[31、基于深度 (depth-based)的方法[41、基于偏离(deviation-based) 收稿日期:2008-12-30, 基金项目:山西省青年科学基金资助项目(2008021028). 的方法s)]、基于距离(distance-based)的方法[6与基 通信作者:张贺.Emai:zhanghe_.helen@126.com. 于密度(density-based)的方法).这些方法存在以
第2期 张贺,等:信息熵度量的离群数据挖掘算法 ·151· 下不足之处:1)需要人为事先给出一些参数和阈 问题;2)文中提到GreedAlg算法需要全面扫描数据 值,受人为因素影响较大,从而导致检测结果的客观 集k次,因此V0代价通常比较高;3)因为使用贪婪 性较差.例如:基于距离的离群检测算法需要人为事 算法的策略,计算过程中很容易陷入局部最小,而该 先确定参数,当pct、dmin参数选择不当时,会产生 算法未对此问题采取有效措施;4)作者在文中没有 错误结论;2)不能对非数值型数据进行处理,例如: 解释依据最大熵影响(maximal entropy impact)来识 基于统计和距离的离群检测算法较难对非数值属性 别离群点的原理, 数据进行挖掘;3)可解释性和可用性差,例如:基于 2008年,倪巍伟等人提出基于局部信息熵的加 统计的方法在解释时会发生多义性.原因是:同一个 权子空间离群点检测算法(SPOD).通过对数据点 离群点有可能是不同的分布模型检测出来的,即产 在各维进行邻域信息熵分析,生成数据点相应的离 生离群点的机制有可能不惟一,从而产生了多义性 群子空间和属性权向量,对离群子空间中的属性赋 数据的维度是多少才能算高维数据?10维、 以较高的权值,进一步提出子空间加权距离等概念 100维,还是1000维.实际上,高维数据拥有多少个 采用基于密度离群点检测的思想,分析计算数据对 属性并没有一个既定的界限,而是相对于某个算法 象的子空间离群影响因子,判断是否为离群点.算法 而言.例如,基于统计的方法:只能处理单变量数据 能够有效地适应于高维数据离群点检测.缺点是在 集,即当数据维度为2时,算法不再有效;再如:基于 处理高维数据时与LOF算法处于一个数量级 深度方法,当数据维度大于3时,算法的可行性则非 0(2),而且还需要人为事先设置很多参数,从 常差;基于距离和密度的方法,当数据的维度增加到 而影响了检测的结果. 一定程度,由于距离和密度对离群数据定义的局限 同年,于绍越等人提出基于信息嫡的相对离群 性,使得方法执行效率也随之减弱.因此离群检测算 点的检测方法(ENBROD).文中首先引入一种新的 法在处理高维数据时,其可扩展性是尤为重要的, 信息熵增量的概念一去一划分信息熵增量,并在 信息熵可以用来度量一个系统无序和杂乱程 其基础上给出了每个对象所对应的相对离群点因子 (ROF)的定义.利用ENBROD算法来实现对ROF 度.嫡值越大,说明系统中的数据越无序,系统越 “杂乱”;反之,嫡值越小,则说明系统中的数据越有 的计算,但ENBROD算法也需要人为事先设置参 序,系统越“纯净”[8].出现在数据中的离群点是造 数,而这正影响了算法的运行效果[12]。 成数据无序的主要原因之一,因此利用信息熵来度 2信息熵 量、识别造成数据中无序的数据点[4],可以客观地 信息熵被用来度量一个系统的“无序”程度和 识别出数据中的离群点].同时,利用信息嫡来度 “纯净”程度8].信息嫡是信息有用程度的一种表现 量原始数据的无序特性,客观性比较强,受人为因素 形式 影响较小,不需要人为干预,从而得出更符合客观的 定义1称四元有序组D=(U,A,V,f)为 结果.信息熵也可以运用于非数值型属性数据集,例 数据集,其中:U为所考虑对象的非空有限集合且 如标称属性数据集.本文提出一种新的离群点检测 IU川=m,称为对象集;A为属性非空有限集合,属性 方法—基于信息嫡的离群数据挖掘算法(OM 集的势为lA|=n;V=UVa,而V。为属性a的值域; BE).通过引入离群数据度量因子量化地度量每个 f:U×A→V是一个映射函数,Hx∈U,a∈A, 数据点的无序程度,即离群程度,并利用其挖掘造成 f(x,a)∈V.,对于给定对象x,f八x,a)赋予对象x在 数据无序的离群点,挖掘时无需人为事先设置参数 属性a下的属性值.数据集也可以简记为 或阈值,算法可以自动产生离群点,并能很好地解释 D=(U,A). 离群点的含义. 在本文中约定,数据集D=(U,A)中的对象集 基于信息熵的离群数据挖掘研究现状 的势为IU1=m,属性集的势为|A|=n;记录、数据 点、对象是在不同范畴下表述的同一个事物 2006年,何曾友等人提出了基于信息熵的快速 定义2假设有一组离散的符号集{1,2,…, 贪婪算法(GreedAlg)[o].GreedAlg算法事先人为设 v},每个符号具有相应的出现频率P.为了衡量用 定期望产生的离群点个数,同时参数k用于发现一 这组符号组成的特定序列的随机性(不确定性或不 个势为k的离群数据集O(101=k);但此算法存 可预测性),定义离散分布的熵为 在以下不足:1)需要人为事先给出期望产生的离群 H=- (1) 点个数k,这会有不能发现全部和多发现离群点的
·152. 智能系统学报 第5卷 式中:对数的底a可为任何正数,一般取2,此时熵 OMF(xj)=H(D)-H(D;) 的单位为“bit”.规定当P:=0时, 式中:对象x:对应的离群数据度量因子OMF(x:)的 1=0 ∑plog. 值越大,成为离群点的可能性越大 (2) =0 通过离群数据度量因子定义的离群点与LOF算 这里要特别注意熵的值并不依赖于符号(对 法中通过局部异常因子定义的离群点类似,即离群不 象、数据)本身,而只依赖于这些符号(对象、数据) 再是一个二值属性,它摒弃了以前异常定义中非此即 的概率]」 彼的绝对异常观念,更加符合现实生活中的应用.离 定义3如果X是一个离散的随机变量,S(X) 群数据度量因子OMF(x)可以量化地度量每个数据 是X可能取值的集合,P(x)是X的概率函数,那么 点x:的离群程度,OMF()的值越大,x:离群程度越 信息嫡H(X)如式(3)所定义8] 强;反之,OMF(x:)越小,x:离群程度越弱.因此,引进 H(X)=- ∑p(x)lg(p(x). (3) 该因子既可以发现离群程度强的离群点,也可以发现 xES(X) 对于含有多个属性的记录=X,…,X}的 离群程度弱的离群点,离群数据度量因子OMF(x:)是 信息熵如式(4)计算: 将数据集中的每个数据点看作一个有机整体并对其 进行统一度量的,而不像GreedAlg算法把每个数据 H()=-∑…∑[p(x1,…,xn)· ES(X1)nE5(X) 点孤立地度量.此外,文中给出离群数据度量因子 lgp(x1,…,xn)]. (4) OMF(x:)时,很好地利用了熵值并不依赖于符号(对 如果记录的属性之间相互独立,式(4)可以转 象、数据)本身,而只依赖于这些符号(对象、数据)的 化成式(5).为了简化对信息嫡的计算,在本文中一 概率4这一特性此方法不需要人为事先输入参数 律假设数据集中的记录的属性间是相互独立的. 或设置阈值,从数据自身的本质和特征出发,更有利 H(X)=-】 ∑…∑[(p(x)p(x))· 于挖掘隐藏在数据中的知识 1e31)e3n) 3.2算法描述 lg(p(x1)p(x.)]= 根据上个小节的基本思想,图1给出了信息嫡 H(X)+H(X2)+…+H(Xn). (5) 度量的离群数据挖掘算法(outlier mining based on 3基于信息熵的离群数据挖掘算法 information entropy,OMBIE)的流程. Algorithm:信息嫡度量的离群数据挖掘算法OMBIE 3.1离群数据度量因子 Input:数据集D 信息嫡可以用来度量一个系统无序和杂乱程度, Output:离群数据集Outliers 熵值越大,说明系统中的数据越无序,系统越杂乱;反 1)初始化将离散化的数据集存入数组Array[m[n巾; 之,熵值越小,则说明系统中的数据越有序,系统越 2)计算数据集D的总信息嫡itotalInfoEtp: 纯净8].如果将信息熵理论应用到离群数据挖掘中, 3计算每个数据点对应的离群数据度量因子OMF(x,): 根据Hawkins21对离群点定性地描述,出现在数据中 For i=0tom- 计算别除第记录后得到的新数据集的信息 的离群点是使系统不“纯净”、“杂乱”的原因,相当于 熵limlnfoEtpl 系统中的“杂质”,如果去除系统中的不“纯净”因素, OMF[i]=totalInfoEtp-ElimInfoEtp[i]; 那么系统则变得相对“有序”和“纯净”,熵值比去除 End For 前相对变小.去除后,嫡值相对减小地较大,说明去除 4)将0M按大到小排序; 的因素相对“杂乱”;熵值相对减小地较小,说明去除 5)输出离群数据集。 的因素相对“纯净”.与此同时,从另外一个角度来讲, 图1算法OMBIE的描述 被去除的不“纯净”因素,也就是要寻找的离群数据, Fig.1 The Description of OMBIE algorithm 基于此理论基础,可通过测量熵值的变化来检测离群 OMBE算法的基本思想与GreedAlg算法相似, 点.为此定义了如下“离群数据度量因子”,来度量数 区别在于:1)不需要事先设置参数和阈值,从而避 据集中的离群数据。 免GreedAlg算法不能找出尽可能多的离群点或多 定义4离群数据度量因子(outlier measure fac- 识别错误的离群点;2)GreedAlg算法需要扫描数据 tor,OMF).在数据集D=(U,A)中,从对象集U中别 集k趟(k是人为事先输人的参数),大大地增加了 除对象x:后,得到的新数据集,记作D=O:,A},其 算法的时间复杂度,而OMBE算法只需对数据扫描 与原数据集D的信息嫡的差H(D)-H(D)定义为对 一趟,从而大幅度地降低了算法的时间复杂度, 象:的离群数据度量因子,记作OMF(x:). OMBIE算法的复杂度主要受数据集中的记录
第2期 张贺,等:信息嫡度量的离群数据挖掘算法 ·153· 数(m)、每条记录的属性个数(n)、每个属性值的类 视为离群数据.选用此数据集和此方案来做实验是 别个数(c)影响.OMBE算法中,主要是2个步骤: 因为Z00数据集的背景知识对于大家是熟知的,算 1)计算每条记录对应的离群数据度量因子;2)将其 法检测出来的离群数据,可以从客观角度去分析和 排序找出离群点.第1步最坏的情况是数据集中每 检验算法的有效性和可行性. 个属性的属性值互不相等,时间复杂度O(m×n× 表1列出的是从客观实际角度,统计属性集合 m):但是实际情况下,每个属性的属性值的类别个 中每个属性对应的对象集合中的对象是与众不同的 数c远远的小于数据集的记录条数m,因此,此步骤 次数.其中,与众不同的评判标准是:对象集中某个 的时间复杂度应为O(m×n×c).第2步就是一个 属性为某个属性值时,有小于15.22%的对象取该 简单的排序,可以选用一个时间复杂度在 属性值,则此对象在这个属性上是与众不同.从客观 O(mlog m)的排序算法.所以,OMBE算法的时间 实际角度分析和解释,如果某对象入选次数越多,则 复杂度是O(m×n×c). 说明此对象成为离群点的可能性越大.在表2中,参 数取值是ENBROD、LOF和GreedAlg算法获得期望 4 实验分析 目标(将所有的爬行动物数据找出来)的较优取值; 对OMBE算法的性能进行实验分析.实验平台 而OMBE算法在进行挖掘离群点的过程中,不需要 配置如下:在PentiumIV3.0GCPU,512MB内存, 人为进行干预,即不需要事先输入任何参数和阈值: Windows XP操作系统、DBMS为ORACLE9i,采用 从表2中,可以知道OMBE算法在发现离群点的准 Visual C++6.0实现了OMBIE、ENBROD[12、LOF 确度上优于ENBROD和LOP算法.通过表1和表2 I和GreedAlg?算法Io) 的对比,OMBIE和GreedAlg算法更能挖掘出符合客 4.1应用实例分析 观规律的离群点· 选用UCI中的Z00数据集,此数据集中有101 表1Z00数据集中与众不同的对象入选次数统计 条记录,每条记录拥有18个属性一由1个动物名 Table 1 The number of distinct objects selected in ZOO 称属性、15个布尔属性、2个数值属性组成.其中,15 data set 个布尔属性与动物腿个数的离散数值属性是条件属 入选 与众不同的对象 性;动物类别的离散数值属性是决策属性,采用文献 次数 [12]中使用的方法,只取动物类别是哺乳动物和爬 7 seasnake 行动物2类.这样做的原因是:1)使用数据集中的 6 pitviper 5 slowworm 所有记录会使离群特征表现不显著;2)为了构造不 tortoise tuatara seal dolphin porpoise 平衡的分布,构造出来的新数据集中有41个哺乳动 物(89%)和5个爬行动物(11%),其中将爬行动物 表2算法的检测准确度对比 Table 2 The contrast of algorithm accuracy 检测5个离群爬行动物数据 算法 参数 正确率/% 1 2ad 3州 4 ENBROD MinPts =45,46 seasnake pitviper tortoise slowworm seal 80 OMBIE无需事先设置参数 seasnake pitviper slowworm tortoise tuatara 100 LOF MinPts =5 seasnake pitviper slowworm tortoise seal 80 GreedAlg k=5 seasnake pitviper slowworm tortoise tuatara 100 4.2UCI数据集13] 为了测试算法对数据集维数的伸缩性,从UCI 的数据点作为离群点,得到测试数据集.由图2可 中选取UCI_ZO0(18维)、UCI_MUSHR00M(22 知,随着测试数据集维数的增加,OMBE算法的准 维)、UCL_CHESS(36维)和UCI_LUNGCANCER(56 确度变化不大并且比LOF算法和ENBROD算法有 维)4个数据集,分别均匀地加入3%具有较大偏差 所提高,与GreedAlg算法的准确度相当
·154 智能系统学报 第5卷 每扫描一遍数据集只能发现1个离群点,因此 1.1 aOMBIE &LOF DENBROD GreedAlg GreedAlg算法的运行效率则降低了.LOF算法与 1.0 ENBROD算法在处理高维数据时,索引结构失效, 遇类 0.9 0.8 时间复杂度退化为0(n2). 0.7 不同算法的准确度对比 0.6 18 22 36 56 1.r OMBIE&LOF DENBROD GreedAlg 维度 1.0 0.9 图2不同算法对数据集维数的伸缩性对比 0.8 Fig.2 Scaling of precisions with dataset dimensionality 0.7 06 4.3恒星光谱数据 NE1000LS NE2000LS NE4000LS NE6000LS NE8000LS 采用国家天文台提供的恒星光谱数据,并使用 图3不同算法的准确度对比 文献[15]中的方法对其进行预处理,预处理后作为 Fig.3 Accuracy of OMBIE,LOF,ENBROD and GreedAlg 实验数据集.预处理简述如下:1)选定间隔为20的 200个波长为3810,3530,··,7790作为属性集, 2510数据集大小对算法执行时问的影响 ◆一OMBIE 20 共200个属性;2)依据每一波长处的流量、峰宽和 4一LOF 15 ENBROD 形状,将其离散化为13种数值之一,并作为该波长 10 GreedAlg 处的取值.然后,均匀地加入3%具有较大偏差的数 据点作为离群点,得到测试数据集.采取对测试数据 04 0.10.20.40.60.8315×10 集中的采样数据作预分析的实验方案,离群检测的 数据集中记录的数量 准确度的评估标准为 图4数据集大小对算法协作时间的影响对比 正确离群点的个数 Fig.4 Running time of OMBIE,LOF,ENBROD and GreedAlg 准确率=期望得到离群点的个数 5结束语 图3是测试算法检测离群点准确度的实验结 果,从图中可以知道OMBIE比LOF、ENBROD算法 对于高维数据,传统的离群数据挖掘算法不再 的准确度高,与GreedAlg算法的准确度相当.这是 有效.本文引人一个离群数据度量因子用来度量每 因为OMBE算法既可以发现离群程度最强的离群 一条记录的离群程度,与L0F算法中通过局部异常 点,也可以发现离群程度最弱的离群点,所以它可以 因子定义的离群点类似,即离群不再是一个二值属 发现尽可能多的离群点.而LOF算法不能发现全部 性(不是离群点,就是常规点),摒弃了以前异常定 的离群数据是因为高维空间中的数据具有高稀疏性 义中非此即彼的绝对异常观念,更加符合现实生活 和不规则性的特点,基于密度的异常意义应用到高 中的应用.OMBE算法不需要事先人为设置参数和 维数据时失效了,使得LOF算法不能检测到一些离 阈值,算法可以自动产生离群点.由离群数据度量因 群点.ENBROD算法的准确度受输人参数的影响较 子定义的离群点,可以对其做出解释(离群点就是 大.尽管实验结果表明GreedAlg算法的准确度与 使系统无序和杂乱的因素),此外OMBIE算法还可 OMBE算法相当,这是由于此实验方案事先知道数 以应用于标称属性数据.实验结果表明,OMB亚与 据集中有多少离群点;但是在实际应用中,事先并不 ENBROD、GreedAlg和LOF算法相比,在发现高维空 知道数据集中有多少离群数据,GreedAlg算法的准 间的离群数据的能力和效率上都有提高 确度则会有所降低的.OMBE算法在挖掘离群点 参考文献: 时,不需要人为设置参数,会自动地检测数据集中的 离群点;所以不会因为事先不知道数据集中有多少 [1]HAN Jiawei,KAMBER M.Data mining:concepts and tech- 离群数据而受到影响,能更有效地检测出离群点· niques[M].Bejing:China Machine Press,2006:254-255. [2]HAWKINS D.Identification of outliers [M].London:Chap- 图4是测试数据集大小对算法影响的实验结 man and Hall,1980:2-28. 果,OMBIE比LOP、ENBROD及GreedAlg算法(参数 [3]BARNETT V,LEWIS T.Outliers in statistical data[M]. k设置为5时)挖掘效率要高.OMBE算法在挖掘离 New York:John Wiley Sons,1994:7,49. 群点时,无论用户期望产生多少离群点都只扫描一 [4]RUTS I,ROUSSEEUW P.Computing depth contours of bi- 遍数据集,而GreedAlg算法需要扫描k遍数据集, variate point clouds[J].Computational Statistics and Data
第2期 张贺,等:信息嫡度量的离群数据挖掘算法 ·155· Analysis,1996,23(1):153-168, YU Shaoyue,SHANG Lin.An entropy-based algorithm to [5]ARNING A,AGRAWAL R,RAGHAVAN P.A linear detect relative outliers:ENBROD[J].Joural of Nanjing method for deviation in large database[C]//Proceedings of University:Natural Sciences,2008,44 (2):1189-1194. the 2nd International Conference on Knowledge Discovery [13]DUDA R O,HART P E,STOCK D G.Pattern classifica- and Data Mining.Portlan,Oregon,USA,1996:164-169. tion[M].2nd ed.Beijing:China Machine Press,2003: [6]KNORR E M,NG R T.Algorithms of mining distance- 317-356 based outliers in large datasets[C]//Proc of Int Conf on [14]NEWMAN D J,HETTICH S,BLAKE C L,et al.UCI re- Very Large Database (VLDB'98).New York,USA,1998: pository of machine learing databases[DB/OL].Irvine, 392402. CA:University of Califomia,Department of Information [7]BREUNIG MM,KRIEGEL H P,NG R T,et al.LOF:i- and Computer Science,1998.[2008-09-25 http://www. dentifying density-based local outliers C]//Proceedings of ics.uci.edu/~mlearn/MLRepository.html. the ACM SIGMOD International Conference on Management [15]张继福,蒋义勇,胡立华,等.基于概念格的天体光谱离 of Data.Dallas:ACM Press,2000:93-104. 群数据识别方法[J].自动化学报,2007,34(9):1060- [8]熊家军,李庆华.信息嫡理论与入侵检测聚类问题研究 1066. [J].小型微型计算机系统,2005,26(7):1163-1166. ZHANG Jifu,JIANG Yiyong,HU Lihua,et al.A concept XIONG Jiajun,LI Qinghua.Study on clustering problem for lattice based recognition method of celestial spectra outliers intrusion detection with information entropy[J].Mini-micro [J].Acta Automatica Sinica,2007,34(9):1060-1066. Systems,2005,26(7):1163-1166. 作者简介: [9]薛萍,金鸿章,王双.应用最大熵原理分析通信系统 张贺,女,1981年生,硕士研究 脆性风险[J].电机与控制学报,2007,11(2):74-78. 生。主要研究方向为数据挖掘。 XUE Ping,JIN Hongzhang,WANG Shuang.Application of the maximum entropy principle to brittleness risk analysis on communication system[J].Electric Machines and Control, 2007,11(2):74-78. [10 HE Zengyou,XU Xiaofei,DENG Shengchun.A fast greedy algorithm for outlier mining[C]//Proceedings of 蔡江辉,男,1978年生.讲师,主要 PAKDD'2006 (LNAI3918).Berlin:Springer-Verlag, 研究方向为离群数据挖掘. 2006:567-576. [11]倪巍伟,陈耿,陆介平,等.基于局部信息熵的加权子 空间离群点检测算法[J].计算机研究与发展,2008,45 (7):1189-1192. NI Weiwei,CHEN Geng,LU Jieping.Local entropy based weighted subspace outlier mining algorithm []Joumal of 张继福,男,1963年生,教授,博士. Computer Research and Development,2008,45 (7): 主要研究方向为数据挖掘、模式识别与 1189-1192 智能信息系统.已主持完成国家自然 [12]于绍越,商琳.ENBROD:基于信息熵的相对离群点 科学基金、国家“863”计划子课题等省 的检测方法[J].南京大学学报:自然科学版,2008,44 部级以上科研项目10余项,发表学术 (2):1189-1194 论文100余篇,其中被SC1、EI30余篇