第4卷第3期 智能系统学报 Vol.4 No.3 2009年6月 CAAI Transactions on Intelligent Systems Jn.2009 doi:10.3969/j.issn.16734785.2009.03.007 评价信息元及其原信息元的获取方法 蔡文,杨春燕 (广东工业大学可拓工程研究所,广东广州510090) 摘要:首先介绍评价对象与原对象、评价特征与原特征、评价量值与原量值的概念及其确定方法,进而给出评价信 息元及综合关联度的构造,探讨从数据库中获取评价信息元的原信息元的方法,并给出相应的规侧.该研究是基于 可拓变换的可拓数据挖掘的基础. 关键词:评价信息元;原信息元;综合关联度:可拓数据挖掘 中图分类号:TP18文献标识码:A文章编号:16734785(2009)030234-05 A method for evaluation of information-elements and acquirement of the original information element CAI Wen,YANG Chun-yan (Research Institute of Extension Engineering,Guangdong University of Technology,Guangzhou 510090,China) Abstract:This paper begins with an examination of the concepts of evaluated objects versus original objects;evalu- ated characteristics versus original characteristics;evaluated values versus original values.On this basis,a method to determine these parameters was developed.A construction method for evaluating information-elements and inte- grated dependent degrees was then proposed.Finally,methods for obtaining the original information-element of e- valuated information-elements from a database were studied and the corresponding rules explored.This research provides a basic foundation for extension data mining based on extension transformation. Keywords:evaluating information-element;original information-element;integrated dependent degree;extension data mining 数据挖掘是对数据库或数据仓库操作的方 法12.以关系数据库为例,其中的数据表可以与可 1基本概念 拓学3中的基元集合5对应,把按基元形式组织 首先界定评价对象与原对象、评价特征与原特 的关系数据库中的三元数据(对象,特征或属性,量 征、评价量值与原量值的概念,并介绍其确定方法, 值)称为信息元 1.1评价对象与原对象 人们处理问题时,对所涉及对象的评价需要使 对具体的问题,必须确定需要评价的对象.评价 用某些特征,这些特征如何确定、如何获得相应的信 对象可以是数据表中的对象,也可以是它们的组合 息元、从数据库中找到确定这些信息元需要的特征 或与表中对象相关的对象.评价对象确定以后,原始 和信息元,是必须研究的基本问题.而目前已有的数 数据库中一切对它有影响的对象都称为该评价对象 据挖掘还缺乏对这些基本问题的研究.因此,本文建 的原对象.例如,把上衣专柜作为评价对象,数据表 立了评价所涉及的概念,讨论从数据库中获取评价 的对象有各种款色的上衣,包括男上衣、女上衣、童 信息元及其原信息元的规则和方法.这是基于可拓 装(上衣)等,它们叫做上衣专柜的原对象, 变换的可拓数据挖掘?)的基础。 1.2评价特征与原特征 收稿日期:200804-25. 一个事物有无数特征,在数据库中,储存着关于 基金项目:国家自然科学基金资助项目(70671031):广东省普通高校 对象的很多特征及相应的量值.但在处理问题时,确 人文社会科学研究重点资助项目(06ZD63008):广东省自 然科学基金资助项目(05001832) 定一个对象是否符合要求或是否具有某些性质的程 通信作者:紫文.Email:wcai@ghut.el.cm. 度却不一定是已有的特征.例如,要修理天花板上的
第3期 蔡文,等:评价信息元及其原信息元的获取方法 235. 日光灯时,需要的不是你的高度,而是“摸高”;考虑 0(i=1,2,…,n),评价特征为d(1=1,2,…,t), 电梯需要多功率的电机时,需要的数据不是所载 在数据表中的原特征为c=1,2,…,m),评价对 货物和人的总重量,而是考虑了电梯“自重”后的曳 象N关于评价特征d,的量值,由量值c(O:)确定, 引力;百货公司的商品中,电视机价格很高,日用品 它们称为评价量值山,的原量值.如各类上衣的销售 价格较低,因此,不能都用营亚额作为营业员亚绩的 量就是上衣专柜的销售量的原量值: 评价. 1.4评价信息元与原信息元 由此可见,在不同的目标下,评价某对象是否符 在确定了评价对象0、评价特征d,(1=1,2,…, 合要求,是否具有某种性质,或者是否属于某种类型 9)和评价量值(1=1,2,…,9)以后,信息元 等,都有其特有的特征,这些特征称为评价特征.数 TN. d2, 据库中储存的特征可以是评价特征,也可能不是评 价特征;可能与评价特征有关,也可能与评价特征毫 d2, 2 △(0,D,U) 无关系.不同的问题采用不同的评价特征,评价特征 的确定者在不同的实际问题中也有所不同.下面介 do, 绍若干种类型: 称为评价信息元.在数据库中的信息元集 1)由问题的决策者确定评价特征. 0i, C1, ta 一个新产品是否投入生产是由企亚的决策者决 C2 1,2,…,m 定的,因此,他(或他们)会规定一些评价标准,如投 资总额、生产周期和年利润值等.公司录用职工时, 人事部会规定一些评价指标,如年龄、性别、文化程 称为评价信息元I的原信息元集或原信息元(i=1 度、学历等 时) 2)根据专业规范确定评价特征。 在数据库的变量中,有的没有评价特征对应的 选择建筑材料时要依据建筑业的规范所规定的 信息元.因此,在可拓数据挖掘中,常常通过“原特 特征.评价某人患何种疾病时要按照医学知识规定的 征”来确定.例如,要考虑哪些用户半年来没有使用 评价特征.评价各种事故时,也有专门规定的指标. 电话,数据库中没有这样的信息元;但是可以用市话 3)根据公用规范确定评价特征, 费与长途电话费之和(为0)或者市话通话时间与长 高考时确定能否录取的评价特征是总分数,对 途电话通话时间之和(为0)这样2个变量来获得. 特殊专业有特殊的评价特征.对一个地区环境的评 市话费与长途电话费、市话通话时间与长途电话通 价有联合国规定的评价特征, 话时间对应的信息元就是原信息元. 4)利用常识确定评价特征, 在可拓数据挖掘中,可以从评价特征和评价信 出门穿衣的多少,一般使用“室外气温”作为评 息元出发,利用可拓学的方法,从数据库提供的原始 价特征.走路抄近路,那是以“距离”或“所用时间” 信息元中,获取原信息元和原特征, 为评价特征;但也有的司机不是以“距离”作为挑选 例如,对某销售服装的商场而言,若设评价对象 走哪条路的评价特征,而是以“路况”作为评价特 为“上衣专柜”,评价特征为“利润值”和“销售量”, 征,在需要收费的路段,也有用“费用”作为评价特 则评价信息元为 征的. 上衣专柜, 利润值, 5)根据特殊爱好确定评价特征, I= 2 不同的人购买房子,有不同的评价标准,如有人 销售量, 用交通方便的程度,有人用环境噪音的程度,有人用 原信息元集为{1}={I,12,13,…},其中: 楼层高低,有人用座向等等作为评价特征。 长袖上衣, 价格, I1= 根据上述类型,可以对评价对象规定一定的评 销售量,2J 价特征,如百货公司把销售量和利润作为对销售业 ·短袖上衣, L2= 价格,21] 绩的评价特征.确定了评价特征d,d2,…,d。以后, 销售量,22J 原始数据库中对这些特征有影响的特征称为该评价 羊毛上衣, 价格, 31 特征的原特征, 销售量,2」 1.3评价量值与原量值 如果评价对象V在数据表中的原始对象为
236 智能系统学报 第4卷 2综合关联度 要求;若K(I)0,则认为信息元I符合 则I=(0,c',c(0))或
第3期 蔡文,等:评价信息元及其原信息元的获取方法 .237· 0. Ct, c(0)1 C,1☒2⑧…☒n) , c3(0) 例如,某企业的电费这一评价特征对应的评价 : 信息元可以用各部门用电量之和与电价之积来计 c,c(0) 算.因而,各部门和它们用电量组成的信息元就是该 是评价信息元D=(I,d,d(I))的原信息元. 企业和电费组成的信息元的原信息元, 若评价特征d的相关特征为d',d又与C中的 3.1.3用信息元的蕴含性确定原信息元 特征c'相关,由相关性的传递性,d与c'相关,因此, 有的评价信息元在已有的数据库中无法得到, c'可以是d的原特征.进而,若d的相关特征集为 但利用信息元的蕴含性,可以从数据库中找到相应 {d'},数据库中的特征集为{c},则{d'}∩{c}= 的原信息元.根据信息元的蕴含性,有如下规则: {c(d')}中的特征也是d的原特征.由此可见,要找 规则4给定信息元集 到数据库中d的原特征,可以先求出d的相关特征 {I}={L1I=(0,C,V),i=1,2,…,n}, 集,再找它与{c}的交集, 若 3.1.2用信息元的可扩性确定原信息元 D=(0,d,)=(O,c',)=, 利用信息元的可结合性和可分解性,可以从数 则是D的原信息元,c'是d的原特征. 据库得到评价信息元的原信息元.例如,对移动电话 3.1.4用信息元的发散性确定原信息元 的通讯数据而言,可以按以下几类消费者进行分类: 利用信息元的发散性,也可以获得评价信息元 1)稳定型消费者,他们使用移动电话不随时间 的原信息元,有如下规则: 的变化而变化; 规则5给定信息元集 2)增长型消费者,他们使用移动电话的时间不 {L}={L1L=(0,C,y),i=1,2,…,n}, 断增加; 和评价信息元 3)接受型消费者,他们大多只接收电话: D=(I,d,a)=[(0,c,),d,a], 4)发送型消费者,他们大多数情况下向外打电话. 若 那么,如何确定这4类消费者呢?可以用“使 I=(0,c,)一1=(0。,c,) 用电话稳定度”和“使用时间增长度”这2个评价特 一l=(0。,C,Vo)e{I}, 征.但数据库中并没有这2个特征,却有“通话次 其中ioe{i=1,2,…,n},则"是D的原信息元 数”和“通话时间”2个特征,利用后两个特征的信息 3.2寻找原信息元的注意事项 元按月份进行分解,再汇总,可以得到所需要的2个 寻找原信息元要依靠人们和计算机的知识库中 评价特征的原信息元。 的知识,包括:常识、公式、领域知识等.在可拓数据 与相关特征类似,对于评价特征d,可以先求出 挖掘工作中,不断积累这些原特征和原信息元,可以 d的可扩特征集{d,},那么,{c(d,)}={d,}n{c} 为下一次挖掘工作服务. 中的特征可以作为d的原特征,再计算出相应的原 寻找原信息元是为了挖掘有用的知识因此,对 信息元和评价特征元, 所得到的原信息元必须进行评价,选择优者,淘汰劣 以下规则中的符号,如无特别说明,均与规则1 者.这种评价可以利用已有的知识、历史资料和数据 相同,此处不再赘述 挖掘得到的专业知识以及优度评价法综合处理.有 根据信息元的可扩性,有如下规则: 时,若干原信息元可以表示同一件事情,则择其优者 规则2给定信息元集 而用之 {I}={Ill=(0,C,),i=1,2,…,n}, 4结束语 若c·a=d,即和ca是d的原特征,则(0,S, ,)和(0,C2,2)是(0,d,u)的原信息元,且 本文研究了评价信息元及其相应的原信息元的 获取方法与规则,这是可拓数据挖掘的基础工作,为 (1,d,a)=(0,G·c五,·"影) 从数据库中获取可拓分类知识提供了理论基础。 规则3给定信息元集 {L}={Il1=(0,C,),i=,1,2,…,n}, 参考文献: 9是d的原特征,且01⑧02⑧…⑧0,=0,则(0,9, [1]陈安,陈宁,周龙骧,等.数据挖掘技术及应用[M] 1⑧m2⑧…⑧,)是(I,d,u)的原信息元,且 北京:科学出版社,2006 (1,d,)=(01☒02☒…☒0, [2]陈文伟.数据仓库与数据挖掘教程[M].北京:清华大
238. 智能系统学报 第4卷 学出版社,2006. [9]杨春燕.多评价特征基元可拓集研究[J].数学的实践 [3]CAI Wen.Extension theory and its application[J].Chinese 与认识,2005,35(9):203-208. Science Bulletin,1999,44(17):1538-1548 YANG Chunyan.Study on the basic-clement extension sct of [4]蔡文,杨春燕,何斌.可拓逻辑初步[M].北京:科 multi evaluating characteristics[J].Mathematics in Practice 学出版社,2003. and Theory,2005,35(9):203-208. [S]杨春燕,蔡文.可拓工程[M].北京:科学出版社, 作者筒介: 2007. 蔡文,男,1942年生,研究员,国 [6]李立希,杨春燕,李铧汶.可拓策略生成系统[M].北 家级有突出贡献的专家,可拓学的创立 京:科学出板社,2006. 者,中国人工智能学会常务理事,中国 [7]蔡文.变化的知识与可拓数据挖掘[C]/中国人工智 人工智能学会可拓工程专业委员会主 能进展(2007).北京:北京邮电大学出版社,2007,12: 任.主要研究方向为可拓学、人工智能、 951-955. 决策科学,主持国家基金项目5项,参 CAI Wen.Study on changing knowledge and extension data 加多项国家基金项目.发表学术论文多篇,出版专著7部. mining [C]//Proceedings of 2007 National Conference on 杨春燕,女,1964年生,研究员,中 Artificial Intelligence.Beijing:Beijing University of Posts 国人工智能学会理事,中国人工智能学 and Telecommunications(BUPT)Publishing House,200)7, 会可拓工程专业委员会常务副主任.主 12:951-955 要研究方向为可拓学、人工智能、决策 [8]YANG Chunyan.Extension classification method and its ap- 科学,主持国家基金项目2项,广东省 plication based on extensible set[C]//Proceedings of 2007 自然科学基金项目2项,参加多项国家 International Conference on Wavelet Analysis and Pattern 基金项目.发表学术论文40余篇,出版专著7部. Recognition.Beijing,2007,11:819-824. The Tenth IASTED International Conference on Artificial Intelligence and Applications 第10届IASTED人工智能及应用国际学术会议 February15-17,2010 Innsbruck,Austria The Tenth IASTED International Conference on Artificial Intelligence and Applications (AIA 2010)will focus on bringing together researchers and practitioners working in the field of theory and practice of computer learning,pattern recognition, inductive and transductive inference,graphical models,neural networks,and neuroscience.These topics are now central in Artificial Intelligence,and communication between different groups of people involved in natural and computer learning has become crucial for further progress in Al. The proceedings will be sent for indexing in Cambridge Scientific Abstracts,Conference Proceedings Citation Index,EI Compendex,FIZ Karlsruhe,INSPEC. Important deadlines: Submissions due:September 15,2009 Notification of acceptance:November 1,2009 Final manuscripts due:November 15,2009 Registration deadline:December 1,2009 Contact us For more information,or to be placed on our mailing list,please contact: IASTED Secretariat-AIA 2010 B6,Suite 101,Dieppe Avenue SW Calgary,AB,Canada T3E 7J9 Tel:403-288-1195 Fax:403-247-6851 E-mail:calgary@iasted.org Website:www.iasted.org