正在加载图片...
D0I:10.13374/1.issnl00I53.2006.09.021 第28卷第9期 北京科技大学学报 Vol.28 No.9 2006年9月 Journal of University of Science and Technology Beijing Sep·2006 一种不完备信息表的预处理方法 鄂旭②)高学东)邵良杉) 叶柏青) 1)辽宁工学院计算机系,锦州1210012)北京科技大学管理学院,北京100083 3)辽宁工程技术大学管理学院,阜新123000 摘要针对不完备信息表预处理问题中的不完备数据的填补问题、冗余属性的约简问题和连续 属性的离散化问题进行了研究·应用粗糙集理论,由相容信息表中条件属性与决策属性间的一致 性对应关系,定义了划分区间的加法运算,解决了不完备数据填补问题:根据类别概念,定义了差 别向量,利用差别向量加法运算删除了冗余属性:根据条件属性与决策属性之间的依赖关系及相 对信息熵概念,实现了连续属性的离散化.数值示例和实验结果显示此方法是有效可行的 关键词不完备信息表:粗糙集:信息熵:属性约简:离散化 分类号TP301.6 由于市场竞争日趋激烈,各行各业在其经营 理论相结合的方法门等,但这些方法或由于没有 活动中都引入了电子、通信、计算机等先进技术, 考虑条件属性与决策属性之间的相互关系,而在 因此都沉积了大量的历史数据,这些数据千差万 信息表中产生大量冲突事件,或由于在离散过程 别,因此在分析这些数据前一般都要进行数据预 中缺乏启发搜索信息,而导致计算复杂度很高· 处理,以得到满足一定算法要求的格式化数据. 本文针对上述问题,在保持原有信息表分类 粗糙集中是进行数据预处理的有力工具,能够实 能力不变的情况下,提出了一种不完备信息表的 现不完备数据的填补、冗余属性的约简及连续属 预处理方法, 性的离散化, 目前,填补不完备数据的方法有均值法、最大 1相关定义及定理 频率法[2]等.在这些方法中,以信息表中所有断 1.1相关定义 点的平均值或各个断点出现的频率来代替不完备 粗糙集中各基本概念见文献[3],与本算法相 的数据,这些方法虽然简单,但由于没有考虑原 关的重要概念及定义如下, 有信息表的分类信息,因此填补数据后很容易产 设信息系统为s=(U,A,V,),其中U是 生冲突事件 一个非空有限对象集合,U={x1,x2,…,xn}, 信息表中常常含有对分析主题无用的属性, 式子中的x:为对象:A是对象的属性集合,分为 需要删除掉,目前,国内外学者己经提出了许多 两个不相交的子集,即条件属性集C和决策属性 属性约简的方法,如基于分辨矩阵的属性约简方 集D,A=CUD:V是属性值的集合,V= 法]:基于信息嫡概念的属性约简算法6]等。但 U(Va),a∈A,Va是属性a的值域:f是一个函 普遍存在求解核属性过程复杂等缺点 数,即UXA→V是一个映射函数,它为每个对 由于粗糙集只能处理离散型数据,因此在应 象的每个属性赋予一个属性值,即Ha∈A,x:∈ 用粗糙集理论进行数据挖掘时,必须要先对连续 U,f(xia)∈Va 型数据进行离散化·目前离散方法有等距离划 定义1设HB三C,c∈C,U'=U- 分、等频率划分、Naive Scaler、布尔逻辑和粗糙集 POSB(D)是粗糙边界,则可以定义属性c的重要 收稿日期:2005-04-18修回日期:2005-09-13 性公式: 基金项目:国家自然科学基金资助项目(No-70271068),博士后 sig(c)=IPOSUe(D)I/IPOS (D)I (1) 科学基金资助项目(2005038319),教有部春晖项目(Z-1一 定义2设决策种类的个数为r(d),属性a 15007),教育部博士点科研基金资助项目(20040147006)和科技 的值域V。上的一个断点记为(a,c),其中,a∈ 攻关项目(2005219005) 作者简介:鄂旭(1971一)男,教授,博士 A,c为实数值,在值域V.=[la,ra]上的任意一一种不完备信息表的预处理方法 鄂 旭1‚2) 高学东2) 邵良杉3) 叶柏青3) 1) 辽宁工学院计算机系‚锦州121001 2) 北京科技大学管理学院‚北京100083 3) 辽宁工程技术大学管理学院‚阜新123000 摘 要 针对不完备信息表预处理问题中的不完备数据的填补问题、冗余属性的约简问题和连续 属性的离散化问题进行了研究.应用粗糙集理论‚由相容信息表中条件属性与决策属性间的一致 性对应关系‚定义了划分区间的加法运算‚解决了不完备数据填补问题;根据类别概念‚定义了差 别向量‚利用差别向量加法运算删除了冗余属性;根据条件属性与决策属性之间的依赖关系及相 对信息熵概念‚实现了连续属性的离散化.数值示例和实验结果显示此方法是有效可行的. 关键词 不完备信息表;粗糙集;信息熵;属性约简;离散化 分类号 TP301∙6 收稿日期:20050418 修回日期:20050913 基金项目:国家自然科学基金资助项目(No.70271068)‚博士后 科学 基 金 资 助 项 目 (2005038319)‚教 育 部 春 晖 项 目 (Z-1- 15007)‚教育部博士点科研基金资助项目(20040147006)和科技 攻关项目(2005219005) 作者简介:鄂 旭(1971-)‚男‚教授‚博士 由于市场竞争日趋激烈‚各行各业在其经营 活动中都引入了电子、通信、计算机等先进技术‚ 因此都沉积了大量的历史数据.这些数据千差万 别‚因此在分析这些数据前一般都要进行数据预 处理‚以得到满足一定算法要求的格式化数据. 粗糙集[1]是进行数据预处理的有力工具‚能够实 现不完备数据的填补、冗余属性的约简及连续属 性的离散化. 目前‚填补不完备数据的方法有均值法、最大 频率法[24]等.在这些方法中‚以信息表中所有断 点的平均值或各个断点出现的频率来代替不完备 的数据.这些方法虽然简单‚但由于没有考虑原 有信息表的分类信息‚因此填补数据后很容易产 生冲突事件. 信息表中常常含有对分析主题无用的属性‚ 需要删除掉.目前‚国内外学者已经提出了许多 属性约简的方法‚如基于分辨矩阵的属性约简方 法[5];基于信息熵概念的属性约简算法[6]等.但 普遍存在求解核属性过程复杂等缺点. 由于粗糙集只能处理离散型数据‚因此在应 用粗糙集理论进行数据挖掘时‚必须要先对连续 型数据进行离散化.目前离散方法有等距离划 分、等频率划分、Naïve Scaler、布尔逻辑和粗糙集 理论相结合的方法[7]等.但这些方法或由于没有 考虑条件属性与决策属性之间的相互关系‚而在 信息表中产生大量冲突事件‚或由于在离散过程 中缺乏启发搜索信息‚而导致计算复杂度很高. 本文针对上述问题‚在保持原有信息表分类 能力不变的情况下‚提出了一种不完备信息表的 预处理方法. 1 相关定义及定理 1∙1 相关定义 粗糙集中各基本概念见文献[3]‚与本算法相 关的重要概念及定义如下. 设信息系统为 s=〈U‚A‚V ‚f〉‚其中 U 是 一个非空有限对象集合‚U ={x1‚x2‚…‚x n}‚ 式子中的 xi 为对象;A 是对象的属性集合‚分为 两个不相交的子集‚即条件属性集 C 和决策属性 集 D‚ A = C ∪ D;V 是属性值的集合‚V = ∪( V a)‚a∈ A‚V a 是属性 a 的值域;f 是一个函 数‚即 U × A → V 是一个映射函数‚它为每个对 象的每个属性赋予一个属性值‚即∀ a∈ A‚xi∈ U‚f ( xi‚a)∈ V a. 定义 1 设 ∀B ⊆ C‚c ∈ C‚U′= U - POS U B ( D)是粗糙边界‚则可以定义属性 c 的重要 性公式: sig( c)=|POS U′ B∪{c}( D)|/|POS U B ( D)| (1) 定义2 设决策种类的个数为 r( d)‚属性 a 的值域 V a 上的一个断点记为( a‚c)‚其中‚a∈ A‚c 为实数值.在值域 V a=[ la‚ra ]上的任意一 第28卷 第9期 2006年 9月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.28No.9 Sep.2006 DOI:10.13374/j.issn1001-053x.2006.09.021
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有