正在加载图片...
366· 北京科技大学学报 2005年第3期 所以,属性a的重要性为r(D)-rc(DFl-0.375= 试验.s数据库只包含有连续属性的数据,每个 0.625,属性b的重要性为r(D)-rc(D=1-0.625= 实体包含有petal--length,petal--width,sepal--length,se 0.375属性c的重要性为r(D)-rce(D)=1-1=0,c pal-width共4个连续型属性:该数据库中共有150 为冗余属性, 个实体,分为Iris-setosa,Iris-versicolor,Iris-virginica 由表1原始表经过本算法,得到中间表和最 共3个类别.实验中随意选取遗失数据的个数为 终表.为了进一步验证该算法,本文从UC1机器10,15,30,40时,经本算法填补后的数据归属其原 学习数据库中选取了著名的is分类数据库进行 类别的正确填补个数分别为8,12,23,32 表1原始表,中间表及最终表 Table 1 Initial table,middle table and final table 原始表 中间表 最终表 U a b d C a d b 0.9 2 0.9 3 1 0.9 3 2 11 0.8 0 1.4 1.4 1 1.3 3 2 0 6 1.2 6 1.2 1 1 1.4 1.8 3 3 1 7 1.8 3 3 1.4 2 1 4 3 1 8 4 3 6 1.2 1 9 3 2 9 4 3 2 1.8 3 1.1 1 0 2 1.1 0 4 3 1.3 3 0 1.3 3 3 0 9 3 1.4 3 0 1.4 3 0 10 1.3 10 L.3 0 10 1.3 0 11 2 0 11 2 0 11 2 0 4结论 北京科技大学学报,2004,262:206 [4]武森,高学东.一种高位稀疏数据聚类的类特征表示法.北 一般的求均值法填补数据时容易引起信息 京科技大学学报,2003,25(2):131 表内容的冲突,本算法是基于求信息表断点基础 [5]Krysikiewicz M.Rough set approach to incomplete information system.Inf Sei,1998,112:399 上进行不完备数据填补的,即避免了信息表的冲 [6]Kohavi R,Frasca B.Useful feature subsets and rough set reducts. 突,又能很好地反映信息表所蕴含的决策规则. In:3th International Workshop on Rough Sets and Soft Comput- ing.New York,1994 参考文献 [刀王国胤.Rough集理论与知识获取西安:西安交通大学出 [I]Pawlak Z.Rough set.Int J Comput Inf Sei,1982 (1):341 版社,2003 2]武森,高学东,Bastian M.数据仓库与数据挖掘.北京:治 8]张文修,吴伟志,梁吉业.等.粗糙集理论」方法北京:科 金工业出版社,2003 学出版社,2001 [3引尹阿东,宫雨,吴胜利,等,增量决策树算法及复杂度分析 A New method of packing the missing data E Xu2,GAO Xuedong",WU Sen.ZHANG Qiuyue 1)Management School,University of Science and Technology Beijing,Beijing 100083,China 2)Department of Computer Science,Liaoning Institute of Technology.Jinzhou 121001.China 3)Guanzhuang Campus,University of Science and Technology Beijing.Beijing 100024,China ABSTRACT A new algorithm for filling up in complete data was presented according to rough sets.In this meth- od,the main purpose was emphasizing the decision rules,the main means was selecting the important breaking poin- ts,and the iterative constraint was the quality of classification.Numerical illustration and database experiments show that the algorithm did not generate conflict rules,but highlighted them. KEY WORDS rough sets;correlation;equivalent class;breaking point一 3 6 6 - 北 京 科 技 大 学 学 报 2 0 0 5 年 第 3 期 所 以 , 属性 a 的重要 性 为r c (D ) 一 。 。 { 。 、 (D ) = 一 0 . 37 5 二 住 62 5 , 属性 b 的重要 性 为r 仄D ) 一 肠枷(D )月 一 0 . 62 5 = .0 3 75 属 性 c 的重 要 性 为cr (D ) 一份 c{} (D )封 一 1 二 O , c 为冗 余属 性 . 由表 1 原 始表 经过 本算 法 , 得 到 中间表 和 最 终表 . 为 了进一 步验 证 该算法 , 本文 从 U CI 机器 学 习 数据 库 中选 取 了著名 的 Iir s 分类 数据 库进 行 试 验 . ilr s 数 据库 只 包 含有 连续 属性 的数 据 , 每 个 实体包 含有 p et a l 一 len gt h , p et a l 一 iw dht , s e p a l 一 l e 雌ht , s e - p al 一 w i dt h 共 4 个连 续型 属性 ; 该数 据库 中共有 150 个 实体 , 分 为 Iir s 一 s e ot s a , Iir s 一 v e r s i e o l o r , nI s 一v i飞i n i e a 共 3 个类 别 . 实验 中随意选 取遗 失 数据 的个 数 为 10 , 15 , 3 0 , 4 0 时 , 经 本算 法填补 后 的数 据 归属其 原 类 别 的 正 确填 补个 数分 别 为 8 , 1 2 , 23 , 犯 . 表 1 原始 表 。 中间表 及 最终表 aT b l e 1 I n iU a l t a b l e , m id d l e t a b l e a . d if n a l 加 b l e 原始 表 中间表 最终表 U a b e d U a b e d 142比州413曰13 0名 1 . 4 1 . 8 , 尹nQ l 4 名3421 * 3 l 0 l 0 l 0 1 1 2 1 * 0 11 2 1 * 0 1 1 2 1 1 0 4 结 论 一 般 的求 均值 法填 补 数 据 时容 易 引 起信 息 表 内容 的冲突 , 本 算法 是基 于求信 息表 断点基础 上进 行不 完备 数据填 补 的 , 即 避 免 了信 息表 的冲 突 , 又 能很 好地 反 映信 息 表所 蕴含 的决 策规 则 . 参 考 文 献 【l ] P aw lak Z , R o u gh s e t . I n t J C o m P u t I n f s e i , 19 8 2 ( l ) : 3 4 1 肆] 武森 , 高学东 , B ast ian M . 数据仓 库与 数据 挖掘 . 北京 : 冶 金 工 业 出版 社 , 2 0 0 3 【31 尹 阿 东 , 宫雨 , 吴胜 利 , 等 , 增量 决 策树算 法及复 杂度 分析 . 北 京科技 大学学报 , 2 0 0 4 , 2 6 (2 ) 2 0 6 砰l 武 森 , 高学 东一 种高 位稀疏数据 聚类 的类 特征表 示法 . 北 京科技大 学学报 , 2 00 3 , 2 5 (2 ) : 一3 1 15 】 K 巧 s ik i e w i e z M . R o u g h s e t a P p or ac h t o in e o m p l e t e i n of rm at i o n s y s t e m . I n f s e i , 19 9 8 , 1 12 : 3 9 9 16 】 K o h a 、 l i R , F r as e a B . U s e fu l fe at ure s u b s e t s an d r o u hg s e t r e d u e ts . I n 二3 t h I n t e m at i o n a l 节(/ 〕 rks h o P o n R o u hg S e t s a n d S o ft C o m P u -t in g . N 洲 OY r k , 1 99 4 〔7] 王 国J敞 . R o u hg 集理 论与 知识获取 西 安 西 安 交通大 学出 版社 , 20 0 3 〔8] 张文 修 , 吴伟 志 , 梁 吉业 , 等 . 粗糙 集理 论 ` J 方法 . 北京 科 学 出版 社 , 2 0 0 1 A N e w m e t h o d o f P a e k i n g ht e m i s s i n g d a t a E xu , , , , GA o Xu e do 馆 , ’ , 环 尸 U S e 刀 l , , 乙队J N G Qi妙 u e , , l ) M an ag e m e n t S e h o o l , nU i v e r s ity o f s e i e n c e an d eT e hn o l o gy B e ij in ` B e ij in g l0 0 0 8 3 , C hi n a 2 ) D e P a rt l n e nt o f C o m P u t e r s e i e ne e , 1 1的n i鸣 I n st i t u t e o f eT e hn o l o gy, Ji n hz o u 12 10 0 l , C h i n a 3 ) G u an hz u an g C a m P u s , U n 里v e r s ity o f s e i e n e e an d eT e hn o l o g y B e ij i n g , B e ij i n g l 0 0 0 24 , C h i n a A B S T R A C T A n e w a lgo ir t hm of r if l li n g uP i n e o m P l et d at a w a s rP e s e nt e d a o e or d in g t o r o u g h s e t s . I n ht i s m e th - o d , ht e m a i n P u pr o s e w a s e m P h a s i z i n g th e d e e i s i o n ur l e s , t h e m a i n m e ans w a s s e l e c t in g het im P o rt ant b r e iak n g P o i n - t s , an d ht e it e r at i v e e o n s t r a iin w a s ht e q u a liyt o f e l a s s iif e at i o n . N u l刀 e ir e a l ill u s tr at i o n an d d a t a b as e e x P e ir m e nt s s ho w ht at het a l g ior t h m id d n o t g en er at e c o n fl i e t ur l e s , b ut h igh ligh t e d ht e m . K E Y W O R D S r o u gh s et s : e o er l iat on : e qiu v a l ent e l as s ; br e ak i n g P o i n t
<<向上翻页
©2008-现在 cucdc.com 高等教育资讯网 版权所有