基于支持向量机挖掘不一致事例隐含的异常信息

基于支持向量机,提出一种挖掘粗集信息表中不一致事例背后隐藏某种有价值信息的算法,即不一致是由于错误引起,还是由于误差引起,抑或是由于缺少属性引起,并提出一些排除不一致的方案和算法.

团购合买资源类别：文库，文档格式：PDF，文档页数：5，文件大小：621.72KB

D0I:10.13374/i.is8nm1001053x.2001.05.027 第26卷第5期北京科技大学学报 VoL.26 No.5 2004年10月 Journal of University of Science and Technology Beijing 0ct.2004 基于支持向量机挖掘不一致事例隐含的异常信息张德政阿孜古丽冯洪海杨炳儒北京科技大学信息工程学院，北京100083 摘要基于支持向量机，提出一种挖掘粗集信息表中不一致事例背后隐藏某种有价值信息的算法，即不一致是由于错误引起，还是由于误差引起，抑或是由于缺少属性引起，并提出一些排除不一致的方案和算法。关键词知识发现：粗糙集：支持向量机：不一致分类号TP18 在利用粗集对信息表进行处理以挖掘规则定的由缺少条件属性引起的不一致，也不用花力时，经常存在着不一致事例，以往不一致推理策量去减少误差，提高精度. 略对信息表中的不一致事例并不予以分析、处本文通过支持向量机提出辨别不一致事例理，或是将这些不一致事例删除，或是在保留这是否隐含有价值信息的算法，即不一致是由于错些不一致事例的基础上，通过其他方法挖掘带有误引起，还是由于误差引起，拟或是由于缺少属一定可信度的规则然而正是这些矛盾的地性引起，并提出一些排除不一致的方案和算法. 方，会隐含着某些使人感兴趣、有价值的信息.在为对不一致事例进行进一步处理，找寻有价值、数据挖掘中，挖掘出的知识常常是显而易见的知感兴趣的信息提供前提. 识，如何挖掘出决策者、研究者感兴趣的知识，是数据挖掘、知识发现领域的重大课题.事物间的 1信息表与不一致信息表倒矛盾和不一致蕴含着其本质上的原因.因而事物 11信息系统的表示（信息表）间矛盾、不一致背后的原因肯定是人们感兴趣的在粗糙集中，一个信息系统S是一个四元知识.关注问题，关注矛盾，有利于发现非同寻组：常、有意义的知识. S=. 不一致信息一般由错误、误差或缺少属性引其中，U是对象（或事例）的有限集合，即论域：起.特别地，当样本数据处于两类边界时，样本对 A=CUD是属性的集合，C表示条件属性集，D 误差比较敏感，由于误差可能产生大量不一致样表示决策属性集：V是属性的值域集，=UV,V。例，或不能确定类属的样例.此时区分哪些样例在什么条件下产生什么样的误差，就有一定意是属性a∈A的值域：f是信息函数，f:UxA一V,即义，因为这可指导以后取得数据时尽量避免误 fx,a)e'.,它指定U中每一对象的属性值.信息系统可以方便地用数据表格形式来表示.在信息差.一般地，检查误差、提高精度比增加条件属性系统数据表中，列表示属性，行表示对象（如状容易，因为增加条件属性可能是个比较长的过态、过程等)，并且每一行表示该对象的一一条信程，如果不一致由误差引起，便没有必要花大量息.因此，信息系统也称为信息表或决策表.论域时间精力去寻找需增加的条件属性，而对那些确中的对象根据条件属性的不同，被划分到具有不收稿日期2003-12-26张德政男，40岁，副教授，博士同决策属性的决策类.或者说，信息表中的一个 ★科技部推广应用项目No,EC1O0OOO)及校科研启动基金资助属性对应一个等价关系，一个信息表可以看作是

第 ‘ 卷第期年月北京科技大学学报】一基于支持向量机挖掘不一致事例隐含的异常信息张德政阿孜古丽冯洪海杨炳儒北京科技大学信息工程学院，北京摘要基于支持向量机，提出一种挖掘粗集信息表中不一致事例背后隐藏某种有价值信息的算法，即不一致是由于错误引起，还是由于误差引起，抑或是由于缺少属性引起，并提出一些排除不一致的方案和算法关键词知识发现粗糙集支持向量机不一致分类号仰在利用粗集对信息表进行处理以挖掘规则时，经常存在着不一致事例以往不一致推理策略对信息表中的不一致事例并不予以分析、处理，或是将这些不一致事例删除，或是在保留这些不一致事例的基础上，通过其他方法挖掘带有一定可信度的规则 ‘ 刀然而正是这些矛盾的地方，会隐含着某些使人感兴趣、有价值的信息在数据挖掘中，挖掘出的知识常常是显而易见的知识，如何挖掘出决策者、研究者感兴趣的知识，是数据挖掘、知识发现领域的重大课题事物间的矛盾和不一致蕴含着其本质上的原因因而事物间矛盾、不一致背后的原因肯定是人们感兴趣的知识关注问题，关注矛盾，有利于发现非同寻常、有意义的知识不一致信息一般由错误、误差或缺少属性引起特别地，当样本数据处于两类边界时，样本对误差比较敏感，由于误差可能产生大量不一致样例，或不能确定类属的样例此时区分哪些样例在什么条件下产生什么样的误差，就有一定意义，因为这可指导以后取得数据时尽量避免误差一般地，检查误差、提高精度比增加条件属性容易，因为增加条件属性可能是个比较长的过程，如果不一致由误差引起，便没有必要花大量时间精力去寻找需增加的条件属性而对那些确定的由缺少条件属性引起的不一致，也不用花力量去减少误差，提高精度本文通过支持向量机提出辨别不一致事例是否隐含有价值信息的算法，即不一致是由于错误引起，还是由于误差引起，拟或是由于缺少属性引起，并提出一些排除不一致的方案和算法为对不一致事例进行进一步处理，找寻有价值、感兴趣的信息提供前提信息表与不一致信息表 ‘ 信息系统的表示信息表在粗糙集中，一个信息系统是一个四元组，，，介 · 收稿日期一一张德政男，岁，副教授，博士科技部推广应用项目及校科研启动基金资助其中，是对象或事例的有限集合，即论域二是属性的集合，表示条件属性集，表示决策属性集是属性的值域集，魁代，代是属性的值域是信息函数，一，即刀尤，任，它指定中每一对象的属性值信息系统可以方便地用数据表格形式来表示在信息系统数据表中，列表示属性，行表示对象如状态、过程等，并且每一行表示该对象的一条信息因此，信息系统也称为信息表或决策表论域中的对象根据条件属性的不同，被划分到具有不同决策属性的决策类或者说，信息表中的一个属性对应一个等价关系，一个信息表可以看作是 DOI ：10．13374／j ．issn1001－053x．2004．05．027

Vol.26 No.5 张德政等：基于支持向量机挖据不一致事例隐含的异常信息 ·565. 定义的一族等价关系，则间隔为2wl,因此使间隔最大等价于使w最 1.2不一致信息表小，面对训练样本集(xy),i=1,2,…,n,x∈R,yE 一般在决策表中可能存在以下三种不一致 {1,-1,分类线应满足信息： y(wx+b)-1≥0. (1)决策表中包含冲突（矛盾）样本，即两个样满足上述条件的分类线为最优分类线.经过一系本的条件属性取值完全相同，而决策（分类）属性列优化方法推导后，上述求最优分类面的问题转的取值不同.这种不一致的产生，主要有三种可化为下列问题：能性：(a)条件属性不充分.根据所采用的条件属 ya=0,a=0,i=1,2,,n. 性不能对样本进行正确分类，必须增加额外的条对a,求解下列函数的最大值：件属性才能够正确区分样本.()样本属性值的测量和记录有误差或错误.（©）在产生决策表的预处 ayx:) 理过程中产生了冲突，如在离散化过程中，可能这是一个在不等式约束下的二次函数寻优问题，把本来可以区分的样本变得不可区分. 存在惟一解，可以证明，以上优化问题的解中将 (2)决策表中无冲突情况，在决策表化简过程只有一部分（通常是很少部分）的a不为零，非0 中产生的不一致.对于本身一致或不一致的决策的a所对应的样本仅由最靠近超平面的样本组表，有的化简算法将导致一些新的不一致性信成，这些样本完全确定了超平面，因此称为支持息，比如Skowron的缺省规则获取方法. 向量.解上述问题后得到的最优分类函数是： (3)决策表只包含了所有可能样本（或者样本 f)=sgn(（ox+b)=sg(②ayc:xHb). 全集.问题空间)中的一部分，没有包括所有可能这就是支持向量机.从支持向量机算法不难得出现的样本情况，即待识样本和决策表中的样本出：判别函数x)由支持向量惟一决定且支持向有冲突，量是训练集中的基本元素，它们离决策边界最第三种不一致是在规则知识的获取过程中近，若任何非支持向量被移去，重复训练，分离超所不能预料的，在发现不一致情况之前，不能肯平面不会改变，而移去一个支持向量，则决策平定系统是否包含不一致性.而前两种不一致情况面往往改变，即支持向量是两类边界上的点，通是从待处理的决策表中就可以直接发现的，过求支特向量可求出两类数据集中边界上的点， 2支持向量机与支持向量支持向量机(Support Vector Machine,SVM)方法是从线性可分情况下的最优分类面提出的.所 H 谓最优分类面，就是这样的分类超平面，它不但 H 能够将所有训练样本正确分类，而且使训练样本 ● 中离分类面最近的点到分类面的距离（定义为间隔)最大，通过使间隔最大化来控制分类器的复图1支持向量机线性最优分类线 Fig.1 Optimum classifying line of SVM 杂度，进而实现较好的推广能力.在线性不可分的情况下，有广义最优分类面问题，即在追求最 3不一致事例所隐含的信息挖掘大化分类间隔的同时最小化错分样本的数目，如图1所示，在二维情况下，实心点和空心点 31不一致事例的类型分别代表两类，H为两类的分类线，H,H分别为对于信息表中的数据，如果采用不产生不一过各类样本中离分类线最近且平行于分类线的致事例的离散化方法，那么就排除了离散化造成直线，它们之间的距离叫做间隔(margin),记为b. 不一致事例的原因. 最优分类线就是要求分类线不但能将两类正确这样，除了个别数量很少的不一致事例是由分开，而且要使两类的间隔最大.可以证明，如果于各种错误（如记录错误）造成以外，一定数量分类线为 (多次重复出现)的不一致事例出现的原因就剩 xw+b)-1=0, 下两种：一种是不一致事例在两类的边界上，如

一一张德政等基于支持向量机挖掘不一致事例隐含的异常信息定义的一族等价关系不一致信息表一般在决策表中可能存在以下三种不一致信息决策表中包含冲突矛盾样本，即两个样本的条件属性取值完全相同，而决策分类属性的取值不同这种不一致的产生，主要有三种可能性条件属性不充分根据所采用的条件属性不能对样本进行正确分类，必须增加额外的条件属性才能够正确区分样本伪样本属性值的测量和记录有误差或错误在产生决策表的预处理过程中产生了冲突如在离散化过程中，可能把本来可以区分的样本变得不可区分决策表中无冲突情况，在决策表化简过程中产生的不一致对于本身一致或不一致的决策表，有的化简算法将导致一些新的不一致性信息，比如的缺省规则获取方法决策表只包含了所有可能样本或者样本全集问题空间中的一部分，没有包括所有可能出现的样本情况，即待识样本和决策表中的样本有冲突第三种不一致是在规则知识的获取过程中所不能预料的，在发现不一致情况之前，不能肯定系统是否包含不一致性而前两种不一致情况是从待处理的决策表中就可以直接发现的则间隔为】，因此使间隔最大等价于使最小，面对训练样本集，，川，，， … ，。，任气任，一，分类线应满足笋 · 一之满足上述条件的分类线为最优分类线经过一系列优化方法推导后，上述求最优分类面的问题转化为下列问题艺夕召，， ‘ ，，， … ，对 ‘求解下列函数的最大值卜久一操乃、， · ，这是一个在不等式约束下的二次函数寻优问题，存在惟一解可以证明，以上优化问题的解中将只有一部分通常是很少部分的氏不为零，非的 ‘ 所对应的样本仅由最靠近超平面的样本组成，这些样本完全确定了超平面，因此称为支持向量解上述问题后得到的最优分类函数是。 · 艺 ‘必 ‘ · 这就是支持向量机从支持向量机算法不难得出判别函数刀大由支持向量惟一决定且支持向量是训练集中的基本元素，它们离决策边界最近，若任何非支持向量被移去，重复训练，分离超平面不会改变，而移去一个支持向量，则决策平面往往改变，即支持向量是两类边界上的点通过求支持向量可求出两类数据集中边界上的点支持向量机与支持向量 ‘ 支持向量机，方法是从线性可分情况下的最优分类面提出的所谓最优分类面，就是这样的分类超平面，它不但能够将所有训练样本正确分类，而且使训练样本中离分类面最近的点到分类面的距离定义为间隔最大通过使间隔最大化来控制分类器的复杂度，进而实现较好的推广能力在线性不可分的情况下，有广义最优分类面问题，即在追求最大化分类间隔的同时最小化错分样本的数目如图所示，在二维情况下，实心点和空心点分别代表两类，为两类的分类线，私，从分别为过各类样本中离分类线最近且平行于分类线的直线，它们之间的距离叫做间隔，记为最优分类线就是要求分类线不但能将两类正确分开，而且要使两类的间隔最大可以证明，如果分类线为少 · 一，图支持向量机线性最优分类线 · 介五度不一致事例所隐含的信息挖掘不一致事例的类型对于信息表中的数据，如果采用不产生不一致事例的离散化方法，那么就排除了离散化造成不一致事例的原因这样，除了个别数量很少的不一致事例是由于各种错误如记录错误造成以外，一定数量多次重复出现的不一致事例出现的原因就剩下两种一种是不一致事例在两类的边界上，如

·566· 北京科技大学学报 2004年第5期图2中的A:和B,由于人们认识上的差距，即模糊通过增加新的条件属性，使得不相容的决策化概念上的错误，以及观察、测量上的误差，使得问题变得相容、一致，使获得数据中隐含的新的这些不一致样例的条件属性取值全相同.还有一信息、知识.但是，那些不一致病例有可能通过增种就是不一致样例不在两类的边界（如图2中的加临床症状观察范围即增加条件属性来排除不 A2点和B:点)，或所在的两类根本不是相邻类（如一致情况：而那些又不是由于缺少条件属性引起图2中的C,和B),.这些不一致样例由于不相邻，的不一致现象，又怎样通过提高观察精度来消除所以不可能由于误差引起不一致，只可能是由于不一致现象呢？缺少一个或几个条件属性引起不一致，而这些条 3.3用支持向量机判别不一致事例所在类别的件属性值肯定不同，这些属性就成了区分不一致位置事例的依据. 判断不一致样例距离某一类的中心远近并不能说明其属于或不属哪那一类，而应该看这个数据在某一类的中心上还是边界上，因为支持向量在两类数据的边界上，可以通过支持向量机判定样例是否远离支持向量机决策平面来决定样例是否在两类边界上，利用支持向量机训练时，不让不一致样例参 ●C, 加训练，因为一般它们占的比例很小，并且还要图2不一致样例可能的相互关系将它们用来测试，以确定它们的类别.即信息表 Fig.2 Relationship in inconsistent case 中给出不一致样例两个或多个类别，无从根据现 3.2判别不一致事例类型的意义有数据集认定它应该属于哪一类，因此需要用分对于重复很少的不一致现象，因为没有统计类手段去判别它在现有数据集的条件下属于哪学上的意义，以及多属偶然现象，而且多属于人一类，分类时看这些样例处在哪一类的什么位为错误造成，因此不予分析处理，即不一致事例置，也就是让不一致样例作为待测样本，如果不大于某数量时才进行分析.这样可以节省的精一致样本通过分类发现在某类的边界上，则样本力，并提高分析问题的准确性. 因为不属于另一类，所以也处于另一类的边界不论是决策表中的样本互相有冲突还是待上.由条件属性值或结论属性值的微小误差引起识样本和决策表中的样本有冲突，不外乎上述提的不一致造成的矛盾或不相容并不严重，是一种到的前两种情况，即条件属性不充分，或人为误正常的测量观察误差引起的.可以寻找哪些属性差导致的不精确或错误，如果能区分出这两种情值有误差，通过提高精确度来排除不一致现象，况，对进一步对信息表进行预处理很有帮助.如如果将不一致样例作为待识样本，通过分果是条件属性不充分，就着眼于增加条件属性；类，发现它是远离某一类边界的点，即远离分类如果是测量和观察的不精确，就着眼于如何提高面一定阈值的点.则这将引起较大的误差、矛盾，属性值的精度，肯定是由于缺少属性引起的. 比如，在非典型性肺炎的诊断中，具有相同样例处在两类边界但属于不同的类，有可能症状的病人，可能最后的诊断结果截然相反：一出现在诸如疾病的早期诊断等情形中，由于指标个是非典病人，一个被排除.这就是一种不一致数值都小，如低烧，咳嗦症状轻，肺部阴影少等，现象.如果有一定重复，那么，这种不一致现象的给诊断是否得病或分成不同的类造成困难.但找解决将对临床有重大意义.这可启发医务人员和到导致不同疾病的病因对于人类重大疾病的早研究人员去探究到底缺少哪些诊断因素（条件属期诊断有重大意义. 性)，而这些因素（条件属性）决定了非典型性肺 3.4不一致样例所含信息类型判别算法炎的确诊.也就是说，缺少的属性是结论的充分输入：一决策表S=(U,C,D,V,),其中U是论性属性.或者增加哪些措施，可以使得检验更加域：C,D分别为条件和决策属性集：V=UV。,其准确，以体现出样例之间的区别，而不至于混淆，中，'。是属性a∈A的值域：A=CUD是属性的集造成不一致样例. 合；∫是信息函数

· 北京科技大学学报年第期图中的和，由于人们认识上的差距，即模糊化概念上的错误，以及观察、测量上的误差，使得这些不一致样例的条件属性取值全相同还有一种就是不一致样例不在两类的边界如图中的点和点，或所在的两类根本不是相邻类如图中的和及，这些不一致样例由于不相邻，所以不可能由于误差引起不一致，只可能是由于缺少一个或几个条件属性引起不一致，而这些条件属性值肯定不同，这些属性就成了区分不一致事例的依据图不一致样例可能的相互关系恤犯判别不一致事例类型的意义对于重复很少的不一致现象，因为没有统计学上的意义，以及多属偶然现象，而且多属于人为错误造成，因此不予分析处理，即不一致事例大于某数量时才进行分析，这样可以节省的精力，并提高分析问题的准确性不论是决策表中的样本互相有冲突还是待识样本和决策表中的样本有冲突，不外乎上述提到的前两种情况，即条件属性不充分，或人为误差导致的不精确或错误如果能区分出这两种情况，对进一步对信息表进行预处理很有帮助如果是条件属性不充分，就着眼于增加条件属性如果是测量和观察的不精确，就着眼于如何提高属性值的精度比如，在非典型性肺炎的诊断中，具有相同症状的病人，可能最后的诊断结果截然相反一个是非典病人，一个被排除这就是一种不一致现象如果有一定重复，那么，这种不一致现象的解决将对临床有重大意义这可启发医务人员和研究人员去探究到底缺少哪些诊断因素条件属性，而这些因素条件属性决定了非典型性肺炎的确诊也就是说，缺少的属性是结论的充分性属性或者增加哪些措施，可以使得检验更加准确，以体现出样例之间的区别，而不至于混淆，造成不一致样例通过增加新的条件属性，使得不相容的决策问题变得相容、一致，使获得数据中隐含的新的信息、知识但是，那些不一致病例有可能通过增加临床症状观察范围即增加条件属性来排除不一致情况而那些又不是由于缺少条件属性引起的不一致现象，又怎样通过提高观察精度来消除不一致现象呢用支持向量机判别不一致事例所在类别的位里判断不一致样例距离某一类的中心远近并不能说明其属于或不属哪那一类，而应该看这个数据在某一类的中心上还是边界上，因为支持向量在两类数据的边界上，可以通过支持向量机判定样例是否远离支持向量机决策平面来决定样例是否在两类边界上利用支持向量机训练时，不让不一致样例参加训练，因为一般它们占的比例很小，并且还要将它们用来测试，以确定它们的类别即信息表中给出不一致样例两个或多个类别，无从根据现有数据集认定它应该属于哪一类，因此需要用分类手段去判别它在现有数据集的条件下属于哪一类分类时看这些样例处在哪一类的什么位置，也就是让不一致样例作为待测样本如果不一致样本通过分类发现在某类的边界上，则样本因为不属于另一类，所以也处于另一类的边界上由条件属性值或结论属性值的微小误差引起的不一致造成的矛盾或不相容并不严重，是一种正常的测量观察误差引起的可以寻找哪些属性值有误差，通过提高精确度来排除不一致现象如果将不一致样例作为待识样本，通过分类，发现它是远离某一类边界的点，即远离分类面一定阐值的点则这将引起较大的误差、矛盾，肯定是由于缺少属性引起的样例处在两类边界但属于不同的类，有可能出现在诸如疾病的早期诊断等情形中，由于指标数值都小，如低烧，咳嗦症状轻，肺部阴影少等，给诊断是否得病或分成不同的类造成困难但找到导致不同疾病的病因对于人类重大疾病的早期诊断有重大意义不一致样例所含信息类型判别算法输入一决策表，，，，力，其中是论域，分别为条件和决策属性集 “ 代，其中，是属性任的值域是属性的集合厂是信息函数

VoL.26 No.5 张德政等：基于支持向量机挖据不一致事例隐含的异常信息 ·567· 输出：不一致样例是由于缺少条件属性引试.发现，2，，山为支持向量，有可能由误差引起，因而需添加条件属性：如是由于在边界区由起，可以先进行误差分析.而，6，，4远离两类误差引起，因而需提高精度，边界，因此，不一致有可能因缺少属性引起，不用 3.5举例进行误差分析给定初始信息表1，其中包含，2：，44：，对一致信息表中的20个点用SVM分类，支 6;,为四对不一致样本点.先将一致信息进行持向量为9个，见表2、图3和图4.表中框内点以支持向量机分类，然后再对不-一致样例进行测及图中两条虚线之内的点为支持向量. 表1初始信息表（包含，：，4：功，4：4，四对不一致样本点) Table 1 Initial values(Four inconsistent information samples includied) U 1 3 45 6 7 910 U U U U X 0.30.60.80.9 0.80.60.80.9 0.90.8 0.40.4 0.3 0.3 0.9 0.6 0.4 0.5 0.60.90.80.70.8 0.9 0.7 0.7 0.8 0.8 D 1 1 1 1 1 1 I 1 -1 1 -1 U 11 12 13 14 151617 18 1920 UU U U X 0.20.4④0.5☐0.40.30.20.10.10.2 0.10.1 0.10.90.9 人 0.7 0.5 0.10.10.20.30.40.20.2 0.1 0.3 0.3 0.9 0.9 -1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 -1 表2一致信息表样本点及其SVM子集 Table 2 Consistent information samples and its SVM subset U 2 3 4 5 6 7 8 9 10 X 0.30.6 0.8 0.90.8 0.60.8 0.9 0.9 0.8 Y 0.9 0.6 0.4 0.5 0.6 0.9 0.8 0.7 0.8 0.9 D 1 1 1 1 1 1 1 U 11 12 1314 15 1617 18 19 20 0.20.40.50.40.3 0.2 0.1 0.1 0.2 0.1 0.7 0.5 0.1 0.1 0.2 0.3 0.4 0.2 0.2 0.1 D -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1.0 0.8 0.6 l 毫04 0.2 Lo 0 0 0.2 0.4 0.6 0.8 1.0 样本区间图320个点SVM训练结果(9个支持向量) 图420个样本点的位置 Fig.3 SVM training result of twenty samples Fig.4 Scatter of twenty samples 3.6解决不一致现象可以增加的属性症时间或长短、发病时刻等 (1)某条件属性的原因或条件.如高烧作为诊 (2)某属性导致的结果.如某项病毒指标会导断非典型性肺炎的一个条件属性，但它和其他条致什么后果，如果这些后果不同，也是区分二不件属性结合并不能确定非典的诊断，那么就增加一致样例的原因. 条件属性的形成条件或原因作为新的条件属性， (3)那些与约简后主要属性性质较远或相反例如高烧的起始时间、已发烧的时间、肺部阴影的属性可能是造成二事例不一致的原因，如二学的起症时间或肺部阴影的已发生时间、咳嗦的起生在数理化方面成绩一样，而结论属性一个为

张德政等基于支持向量机挖掘不一致事例隐含的异常信息输出不一致样例是由于缺少条件属性引起，因而需添加条件属性如是由于在边界区由误差引起，因而需提高精度举例给定初始信息表，其中包含，，，，姚铸，为四对不一致样本点先将一致信息进行支持向量机分类，然后再对不一致样例进行测试发现，，，为支持向量，有可能由误差引起，可以先进行误差分析而 “ ，，，，，远离两类边界，因此，不一致有可能因缺少属性引起，不用进行误差分析对一致信息表中的个点用分类，支持向量为个，见表、图和图表中框内点以及图中两条虚线之内的点为支持向量表初始信息表包含，，，，一，，，，价四对不一致样本点川伊加，， “ 场，一，，岭，，酥队认认区亘口匡亘口画国 · 一一认认匡亘匡〕匡困匡到 · · · · · · · · 一一一一一一一一一一一一表一致信息表样本点及其子集洛带带举卜图个点训练结果个支持向且 · 恤幻泞样本区间图个样本点的位 · 幻即解决不一致现象可以增加的属性某条件属性的原因或条件如高烧作为诊断非典型性肺炎的一个条件属性，但它和其他条件属性结合并不能确定非典的诊断，那么就增加条件属性的形成条件或原因作为新的条件属性，例如高烧的起始时间、己发烧的时间、肺部阴影的起症时间或肺部阴影的已发生时间、咳嗦的起症时间或长短、发病时刻等某属性导致的结果如某项病毒指标会导致什么后果，如果这些后果不同，也是区分二不一致样例的原因那些与约简后主要属性性质较远或相反的属性可能是造成二事例不一致的原因如二学生在数理化方面成绩一样，而结论属性一个为

·568 北京科技大学学报 2004年第5期 “优”，一个为“良”，可能是由于文科性质的科目上的点的误差引起的不一致要占一定数量，对于差距大，拉开了距离.也就是说，属性之间具有相这种情况，用提高精度的方法排除不一致有一定关性.不一致事例之间的区别属性一般是那些与的合理性。己有属性相关性小的属性.因此，计算与主要属 (3)结论属性中的相邻概念是针对结论属性性距离大的属性，这些属性可能造成了二不一致是由一系列递进的概念组成而言的，诸如病情的事例的结论不一致， “减轻”和“好转”，而此时病情的“好转”和“加 (4)如样本本身固有的性质能够和某些条件重”是不相邻概念，是对立概念.当结论属性只有属性共同作用，则可将这些固有的性质作为可添两个概念时，如“癌细胞”和“正常细胞”，对立概加的条件属性.如相同的药物组合对不同的病人念也成为相邻概念，的效果不一样，可能与病人本身的身体条件有 (4)不相邻概念之间的样例产生不一致或不关，如性别、年龄、身体健康状况、既往病史等等. 在一个边界上的样例产生的不一致如果有一定 (5)那些与结论属性依赖度大的属性相关度数量重复，则肯定是由于缺少属性引起，大的属性，因为依赖度大，说明导出结论的充分参考文献性大， 1 Wang G Y,Wu Y,Liu F.Generating rules and reasoning 4讨论与结论 under inconsistencies [A].IEEE International Conference on Industrial Electronics,Control and Instrumentation (1)依据误差理论，由错误引起的误差（粗差） IC1.Nagoya,2000,2536 在重复实验中最多也不超过0.3%，而在非重复实 2 Wang G Y,Liu F.The inconsistency in rough set based rule generation [A].The Second International Conference 验中这种情况的发生要远远低于这个比例，由系 on Rough Sets and Current Trends in Computing [C].Ja- 统误差、偶然误差引起的不一致也只发生在两类 pan,2000.332 边界.由于支持向量数目本身一般很小，再加上 3 Pawlak Z.Rough Sets:Theoretical Aspects of Reasoning 由于误差引起的不一致可能性很小，所以由误差 about Data [M].Amsterdam:Kluwer Academic Publish. 导致的不一致的可能性不大.因此，不一致样例 ers,1991 被分析处理的阈值可取为34. 4 Vapnik V N.The Nature of Statistical Learning Theory (2)支持向量的数目少则可占整个样本量的 [M].NY:Springer-Verlag,1995 4%~5%,.多则可能占整个样本量的40%~50%， 5 Zhang DZ,Yang B R.A new knowledge discovery meth- 因此，当支持向量数目比较大时，有可能由边界 od for saentific and techndogic [J].JUniv Sci Technol Be- jing,2002,9(13):237 Mining Uncommon Information from Inconsistent Samples Based on Support Ve- ctor Machine ZHANG Dezheng,AZIGULI,FENG Honghai,YANG Bingru Information Engineering School,University of Science and Technolgy Beijing,Beijing 100083,China ABSTRACT In current researches of knowledge discovery,inconsistent examples in a decision table are not be analyzed.It is just the place that contradictions would hide interesting and valuable information.A support vector machine based algorithm is proposed to mine kinds of information which hide in inconsistent examples,i.e.,to de- cide whether inconsistency is caused by mistake,the error between a computed or measured value and a true or the- oretically correct value,or missing attributes.Some methods and algorithms which eliminate the inconsistency are presented. KEY WORDS data mining;rough set;support vector machine;inconsistency

北京科技大学学报年第期 “ 优 ” ，一个为 “ 良 ” ，可能是由于文科性质的科目差距大，拉开了距离也就是说，属性之间具有相关性不一致事例之间的区别属性一般是那些与己有属性相关性小的属性因此，计算与主要属性距离大的属性，这些属性可能造成了二不一致事例的结论不一致如样本本身固有的性质能够和某些条件属性共同作用，则可将这些固有的性质作为可添加的条件属性如相同的药物组合对不同的病人的效果不一样，可能与病人本身的身体条件有关，如性别、年龄、身体健康状况、既往病史等等那些与结论属性依赖度大的属性相关度大的属性因为依赖度大，说明导出结论的充分性大讨论与结论依据误差理论，由错误引起的误差粗差在重复实验中最多也不超过，而在非重复实验中这种情况的发生要远远低于这个比例由系统误差、偶然误差引起的不一致也只发生在两类边界由于支持向量数目本身一般很小，再加上由于误差引起的不一致可能性很小，所以由误差导致的不一致的可能性不大因此，不一致样例被分析处理的闽值可取为支持向量的数目少则可占整个样本量的一 ‘叼多则可能占整个样本量的一，因此，当支持向量数目比较大时，有可能由边界上的点的误差引起的不一致要占一定数量，对于这种情况，用提高精度的方法排除不一致有一定的合理性结论属性中的相邻概念是针对结论属性是由一系列递进的概念组成而言的，诸如病情的 “ 减轻 ” 和 “ 好转 ” ，而此时病情的 “ 好转 ” 和 “ 加重 ” 是不相邻概念，是对立概念当结论属性只有两个概念时，如 “ 癌细胞 ” 和 “ 正常细胞 ” ，对立概念也成为相邻概念不相邻概念之间的样例产生不一致或不在一个边界上的样例产生的不一致如果有一定数量重复，则肯定是由于缺少属性引起参考文献从，，吧， ” 【，，，，，吧，，白，，叮乙鱿咬，乙凭式尸四，尹“ 犯，， ℃ 以田，，，，知加

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录