北京科技大学学报年第期 “ 优 ” ，一个为 “

正在加载图片...

·568 北京科技大学学报 2004年第5期 “优”，一个为“良”，可能是由于文科性质的科目上的点的误差引起的不一致要占一定数量，对于差距大，拉开了距离.也就是说，属性之间具有相这种情况，用提高精度的方法排除不一致有一定关性.不一致事例之间的区别属性一般是那些与的合理性。己有属性相关性小的属性.因此，计算与主要属 (3)结论属性中的相邻概念是针对结论属性性距离大的属性，这些属性可能造成了二不一致是由一系列递进的概念组成而言的，诸如病情的事例的结论不一致， “减轻”和“好转”，而此时病情的“好转”和“加 (4)如样本本身固有的性质能够和某些条件重”是不相邻概念，是对立概念.当结论属性只有属性共同作用，则可将这些固有的性质作为可添两个概念时，如“癌细胞”和“正常细胞”，对立概加的条件属性.如相同的药物组合对不同的病人念也成为相邻概念，的效果不一样，可能与病人本身的身体条件有 (4)不相邻概念之间的样例产生不一致或不关，如性别、年龄、身体健康状况、既往病史等等. 在一个边界上的样例产生的不一致如果有一定 (5)那些与结论属性依赖度大的属性相关度数量重复，则肯定是由于缺少属性引起，大的属性，因为依赖度大，说明导出结论的充分参考文献性大， 1 Wang G Y,Wu Y,Liu F.Generating rules and reasoning 4讨论与结论 under inconsistencies [A].IEEE International Conference on Industrial Electronics,Control and Instrumentation (1)依据误差理论，由错误引起的误差（粗差） IC1.Nagoya,2000,2536 在重复实验中最多也不超过0.3%，而在非重复实 2 Wang G Y,Liu F.The inconsistency in rough set based rule generation [A].The Second International Conference 验中这种情况的发生要远远低于这个比例，由系 on Rough Sets and Current Trends in Computing [C].Ja- 统误差、偶然误差引起的不一致也只发生在两类 pan,2000.332 边界.由于支持向量数目本身一般很小，再加上 3 Pawlak Z.Rough Sets:Theoretical Aspects of Reasoning 由于误差引起的不一致可能性很小，所以由误差 about Data [M].Amsterdam:Kluwer Academic Publish. 导致的不一致的可能性不大.因此，不一致样例 ers,1991 被分析处理的阈值可取为34. 4 Vapnik V N.The Nature of Statistical Learning Theory (2)支持向量的数目少则可占整个样本量的 [M].NY:Springer-Verlag,1995 4%~5%,.多则可能占整个样本量的40%~50%， 5 Zhang DZ,Yang B R.A new knowledge discovery meth- 因此，当支持向量数目比较大时，有可能由边界 od for saentific and techndogic [J].JUniv Sci Technol Be- jing,2002,9(13):237 Mining Uncommon Information from Inconsistent Samples Based on Support Ve- ctor Machine ZHANG Dezheng,AZIGULI,FENG Honghai,YANG Bingru Information Engineering School,University of Science and Technolgy Beijing,Beijing 100083,China ABSTRACT In current researches of knowledge discovery,inconsistent examples in a decision table are not be analyzed.It is just the place that contradictions would hide interesting and valuable information.A support vector machine based algorithm is proposed to mine kinds of information which hide in inconsistent examples,i.e.,to de- cide whether inconsistency is caused by mistake,the error between a computed or measured value and a true or the- oretically correct value,or missing attributes.Some methods and algorithms which eliminate the inconsistency are presented. KEY WORDS data mining;rough set;support vector machine;inconsistency北京科技大学学报年第期 “ 优 ” ，一个为 “ 良 ” ，可能是由于文科性质的科目差距大，拉开了距离也就是说，属性之间具有相关性不一致事例之间的区别属性一般是那些与己有属性相关性小的属性因此，计算与主要属性距离大的属性，这些属性可能造成了二不一致事例的结论不一致如样本本身固有的性质能够和某些条件属性共同作用，则可将这些固有的性质作为可添加的条件属性如相同的药物组合对不同的病人的效果不一样，可能与病人本身的身体条件有关，如性别、年龄、身体健康状况、既往病史等等那些与结论属性依赖度大的属性相关度大的属性因为依赖度大，说明导出结论的充分性大讨论与结论依据误差理论，由错误引起的误差粗差在重复实验中最多也不超过，而在非重复实验中这种情况的发生要远远低于这个比例由系统误差、偶然误差引起的不一致也只发生在两类边界由于支持向量数目本身一般很小，再加上由于误差引起的不一致可能性很小，所以由误差导致的不一致的可能性不大因此，不一致样例被分析处理的闽值可取为支持向量的数目少则可占整个样本量的一 ‘叼多则可能占整个样本量的一，因此，当支持向量数目比较大时，有可能由边界上的点的误差引起的不一致要占一定数量，对于这种情况，用提高精度的方法排除不一致有一定的合理性结论属性中的相邻概念是针对结论属性是由一系列递进的概念组成而言的，诸如病情的 “ 减轻 ” 和 “ 好转 ” ，而此时病情的 “ 好转 ” 和 “ 加重 ” 是不相邻概念，是对立概念当结论属性只有两个概念时，如 “ 癌细胞 ” 和 “ 正常细胞 ” ，对立概念也成为相邻概念不相邻概念之间的样例产生不一致或不在一个边界上的样例产生的不一致如果有一定数量重复，则肯定是由于缺少属性引起参考文献从，，吧， ” 【，，，，，吧，，白，，叮乙鱿咬，乙凭式尸四，尹“ 犯，， ℃ 以田，，，，知加

<<向上翻页

点击下载：基于支持向量机挖掘不一致事例隐含的异常信息