【人工智能基础】因素空间中属性约简的区分函数

团购合买资源类别：文库，文档格式：PDF，文档页数：5，文件大小：1.64MB

第12卷第6期智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201609014 因素空间中属性约简的区分函数曲国华，李春华，张强 (1.山西财经大学管理科学与工程学院，山西太原030006：2.北京理工大学管理与经济学院，北京100081) 摘要：粗糙集用属性所构建的信息系统来描写事物，用各种细化的嫡指标来实现信息的标度，为挖掘知识的关系数据库提供了数学基础，当前人们最关注的是她在属性约简中所能发挥的作用。但是它用以约简的区分函数定义不清楚，当没有属性能区分两个对象时，相应的属性变量为什么不取0而是取1？这一问题成为粗糙集应用的一个瓶颈。本文的目的是要为区分函数寻找更合理的解释和运用。所采用的方法是，首先要对属性名之间的运算要下定义，属性名与属性值不同，如果用属性值的运算来代替属性名的运算，就会在理解上出现混乱。为此，我们用因素空间的理论，将属性名视为因素，用因素之间的运算来定义属性名的运算，使区分函数有了明确的定义，同时也清楚解释了属性变量在特殊情况下为何取1的问题。这一结果说明因素空间可以加深粗糙集的理论基础，提高其解决问题的能力。关键词：因素空间：粗糙集；因素约简：区分函数：因果分析法中图分类号：TP181文献标志码：A文章编号：1673-4785(2017)06-0889-05 中文引用格式：曲国华，李春华，张强.因素空间中属性约简的区分函数.智能系统学报，2017,12(6)：889-893. 英文引用格式：QU Guohua,.LI Chunhua,ZHANG Qiang.Attribute reduction and discernibility function in factor spaceJ].CAAI transactions on intelligent systems,2017,12(6):889-893. Attribute reduction and discernibility function in factor space QU Guohua',LI Chunhua',ZHANG Qiang (1.School of Management Science and Engineering,Shanxi University of Finance and Economics,Taiyuan 030006,China;2.School of Management and Economics,Beijing Institute of Technology,Beijing 100081,China) Abstract:To enable description,Rough Set theory uses an information system constructed by attributes,and various de- tailed entropy indexes are employed to achieve the scale of information;this provides a mathematical basis for know- ledge mining of relational databases.Current research is focused on the role that Rough Set plays in attribute reduction; however.definition of the discernibility function used for attribute reduction is unclear.For example.when there is no attribute to distinguish between two objects,it is unclear why 1 is used instead of 0 for the corresponding attribute vari- able.As such,this problem causes a bottleneck when applied in Rough Set.The aim of this paper is to find a more reas- onable explanation and application for discernibility functions.The method firstly defines the operation between attrib- ute names,which is different from the operation between attribute values,and the attribute name is different from the at- tribute value.If operation of the attribute value is confused with that of the attribute name,the meaning will sub- sequently be unclear.To avoid such confusion,Factor Space theory is employed,as it treats attribute names as factors. The theory uses the operation between factors to define the operation of the attribute name,enabling clear definition of the discernibility function,and explains why the attribute variable takes the value of 1 under special circumstances.Res- ults indicate that Factor Space theory can deepen the theoretical basis of Rough Set and improve its ability to solve prob- lems. Keywords:factor space;rough set;factor reduction;discernibility function;factorial causality analysis 粗糙集)、形式概念分析和因素空间1是在收稿日期：2016-09-12. 基金项目：国家自然科学基金项目(71371030：山西省重点学科建 1982年同时诞生的3个数学流派。3种理论都明确设项目编号：山西财经大学青年科研基金项目(QN- 2017007):山西省高等学校哲学社会科学研究项目地把知识与思维过程作为数学描述的对象，可被视 (2017326). 通信作者：曲国华.E-mail:xz_qgh@163.com 为智能数学的代表。其中，在数据库中最早付诸实

DOI: 10.11992/tis.201609014 因素空间中属性约简的区分函数曲国华1 ，李春华1 ，张强2 （1. 山西财经大学管理科学与工程学院，山西太原 030006; 2. 北京理工大学管理与经济学院，北京 100081）摘要：粗糙集用属性所构建的信息系统来描写事物，用各种细化的熵指标来实现信息的标度，为挖掘知识的关系数据库提供了数学基础，当前人们最关注的是她在属性约简中所能发挥的作用。但是它用以约简的区分函数定义不清楚，当没有属性能区分两个对象时，相应的属性变量为什么不取 0 而是取 1？这一问题成为粗糙集应用的一个瓶颈。本文的目的是要为区分函数寻找更合理的解释和运用。所采用的方法是，首先要对属性名之间的运算要下定义，属性名与属性值不同，如果用属性值的运算来代替属性名的运算，就会在理解上出现混乱。为此，我们用因素空间的理论，将属性名视为因素，用因素之间的运算来定义属性名的运算，使区分函数有了明确的定义，同时也清楚解释了属性变量在特殊情况下为何取 1 的问题。这一结果说明因素空间可以加深粗糙集的理论基础，提高其解决问题的能力。关键词：因素空间；粗糙集；因素约简；区分函数；因果分析法中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2017)06−0889−05 中文引用格式：曲国华, 李春华, 张强. 因素空间中属性约简的区分函数[J]. 智能系统学报, 2017, 12(6): 889–893. 英文引用格式：QU Guohua, LI Chunhua, ZHANG Qiang. Attribute reduction and discernibility function in factor space[J]. CAAI transactions on intelligent systems, 2017, 12(6): 889–893. Attribute reduction and discernibility function in factor space QU Guohua1 ，LI Chunhua1 ，ZHANG Qiang2 (1. School of Management Science and Engineering, Shanxi University of Finance and Economics, Taiyuan 030006, China; 2. School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China) Abstract: To enable description, Rough Set theory uses an information system constructed by attributes, and various detailed entropy indexes are employed to achieve the scale of information; this provides a mathematical basis for knowledge mining of relational databases. Current research is focused on the role that Rough Set plays in attribute reduction; however, definition of the discernibility function used for attribute reduction is unclear. For example, when there is no attribute to distinguish between two objects, it is unclear why 1 is used instead of 0 for the corresponding attribute variable. As such, this problem causes a bottleneck when applied in Rough Set. The aim of this paper is to find a more reasonable explanation and application for discernibility functions. The method firstly defines the operation between attribute names, which is different from the operation between attribute values, and the attribute name is different from the attribute value. If operation of the attribute value is confused with that of the attribute name, the meaning will subsequently be unclear. To avoid such confusion, Factor Space theory is employed, as it treats attribute names as factors. The theory uses the operation between factors to define the operation of the attribute name, enabling clear definition of the discernibility function, and explains why the attribute variable takes the value of 1 under special circumstances. Results indicate that Factor Space theory can deepen the theoretical basis of Rough Set and improve its ability to solve problems. Keywords: factor space; rough set; factor reduction; discernibility function; factorial causality analysis 粗糙集[1] 、形式概念分析[2]和因素空间[3]是在 1982 年同时诞生的 3 个数学流派。3 种理论都明确地把知识与思维过程作为数学描述的对象，可被视为智能数学的代表。其中，在数据库中最早付诸实收稿日期：2016−09−12. 基金项目：国家自然科学基金项目 (71371030)；山西省重点学科建设项目编号；山西财经大学青年科研基金项目（QN- 2017007）；山西省高等学校哲学社会科学研究项目（2017326）. 通信作者：曲国华. E-mail: xz_qgh@163.com. 第 12 卷第 6 期智能系统学报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017

·890· 智能系统学报第12卷践的是粗糙集。其领军人物Polkowski和Skowron 仍然是人工智能的瓶颈，特征要靠专家的经验来提在1989发表的《粗糙集与知识发现》一文引领了取，这就必须限定识别空间的维数。在高维度数据第十届国际人工智能大会上所提出的KDD(数据库面前，如何降低维度是最大的关键。于是，粗糙集知识发现)的新潮流。粗糙集用属性所构建的信息的属性约简方法被人们视为新的希望。出现了大量系统来描写事物，用各种细化的熵指标来实现信息应用属性约简来提取特征的研究。尤其是支持的标度，为数据知识挖掘提供了理论基础。相比之向量机与属性约简相结合，更使人注目。遗憾的下，Wlle的形式概念分析就没有那么明确的实际背是，这个时期不太长久，属性约简目前已经减弱景。他的理论是在被埋没了12年之后，才被人们发了。因为属性约简要用到一个概念工具，叫做区分现的。他的《形式概念分析》一书围绕概念格提取矩阵（或差异矩阵）。正是由于这个概念的奇特性这一主题而展开，数学严谨。集合论向世人强调了影响了事态发展。为了说明这件事情，需要回顾一任何概念的外延都是一个集合。但若反过来问：任下有关定义。何集合都一定是概念的外延吗？就不好回答了。 Wille明确地回答：No!他第一次明确地从数学上提 1粗糙集信息系统出了内涵与外延之间的对合性条件，只有满足对合在粗糙集中，一个信息系统（或称知识表达系性的集合和属性对才能形成概念。这是他的重要贡统)被描述成一个四元组S=-(U,A,V,,其中U是对献。在这一点上粗糙集的用词就显得太粗糙了。它象的非空集合，A是属性名的集合，V是属性值的集把由任一映射所形成的划分都叫做知识，那么，任合，∫是从对象x就着属性A向∥所作的映射。为一集合都可以由其特征函数形成一个划分。由此可了便于理解，我们对以下所引用的定义符号都略有推得：任一集合必是某概念的外延，这就与Wille的改变。理论产生了矛盾。人工智能要运用概念进行识别与定义1)矩阵D={a(x,y(x,y∈U叫做S上搜索，内涵是我们识别事物的依据，外延是我们实的一个区分矩阵(discernibility matrix),其中现搜寻的结果，如果内涵与外延不相一致，那么人 a(x,y)={a∈Alf(x,a≠fy,a) (1) 工智能就不具备实践的前提。这不能不说是粗糙集这个定义的奇特之处在于矩阵中的元素在用词上的一个疏忽。 (x,y)不是实数，不是区间，不是向量，而是属性名在对属性的称呼上也存在着矛盾。例如，颜色的集合。由D还派生出另外一个概念，叫做区分函有红、黄、蓝…之分，是把颜色叫做一个属性，还数。对每一个属性名α指定一个布尔变量，仍记作是把红、黄、蓝等都叫做属性？属性的英文是At a,若存在属性名将对象x与y分开，则对a(y)指定 tribute。Wille曾以科教片《生物与水》为例来区一个布尔变量，用Va(x,y)=V{a∈Alfx,a)≠fGy,a)川分说：鱼和水草都是“在水中生活”而狗和豆却是“在来表示，记作∑a(x,y),若不存在将对象x与y分开陆地上生活”。他把“在水中生活”与“在陆地上生的属性名，则对α(x,y)指定布尔变量“1”（对A与Π的活”这两个词视为两个不同的attribute。可见，At 叙述亦类似)。 tribute是指属性的状态，而不是指生物栖性”这一定义2四区分函数△的定义为属性名称。但是，粗糙集则把汽车按颜色、车长、车重、马力、里程等属性来分类，在那里，Attribute指 a=几lwn(Lax) (2) 的是颜色、车长、车重，它们都是属性的名称而不是在这里设A仁{a1,a2,,am},这里便设置了m个属性值。这两种不同的用法一直被国人懵懂地引布尔变量。于是a(x,y)={a:∈Af(x,a)≠fGy,a)} 用着。细心的学者把Wile的Attribute译成属性值便被指定成括号中所包含的布尔变量的析取，设那而把粗糙集中的Attribute译成属性名，这是十分明几个变量是a,a2,·,aw,所指定的这个布尔变量智的。便具有布尔表达式auVa2…Vaw=V{au,a2,…,ae, 以上矛盾并没有影响粗糙集与形式概念的融记作∑a(x,y)=V{au,a2,…,a}。由于这个布尔表合，二者求同存异，彼此互补，都得到了良好的发达式中只含析取运算，叫做析取式。而在式(2)中，展s-6。Wile的形式背景表以属性值来分列，而粗由于△是由布尔变量先组成析取式而后再进行合糙集的信息系统表以属性名来分列，前者的应用效取，这种表达形式叫做合取范式。布尔代数中有方率是比不上后者的。所以，粗糙集在应用邻域一直法把△从合取范式改写为析取范式，意思是把析取先行。在跨世纪的年代里，粗糙集在属性约简方面与合取的运算次序颠倒一下。△=∑Πetx(a(x,》度在机器学习的应用邻域走红，当时，特征提取就叫做析取范式。再把析取的这些析取式一一甄

践的是粗糙集。其领军人物 Polkowski 和 Skowron[4] 在 1989 发表的《粗糙集与知识发现》一文引领了第十届国际人工智能大会上所提出的 KDD(数据库知识发现) 的新潮流。粗糙集用属性所构建的信息系统来描写事物，用各种细化的熵指标来实现信息的标度，为数据知识挖掘提供了理论基础。相比之下，Wille 的形式概念分析就没有那么明确的实际背景。他的理论是在被埋没了 12 年之后，才被人们发现的。他的《形式概念分析》一书围绕概念格提取这一主题而展开，数学严谨。集合论向世人强调了任何概念的外延都是一个集合。但若反过来问：任何集合都一定是概念的外延吗？就不好回答了。 Wille 明确地回答：No！他第一次明确地从数学上提出了内涵与外延之间的对合性条件，只有满足对合性的集合和属性对才能形成概念。这是他的重要贡献。在这一点上粗糙集的用词就显得太粗糙了。它把由任一映射所形成的划分都叫做知识，那么，任一集合都可以由其特征函数形成一个划分。由此可推得：任一集合必是某概念的外延，这就与 Wille 的理论产生了矛盾。人工智能要运用概念进行识别与搜索，内涵是我们识别事物的依据，外延是我们实现搜寻的结果，如果内涵与外延不相一致，那么人工智能就不具备实践的前提。这不能不说是粗糙集在用词上的一个疏忽。 ······ 在对属性的称呼上也存在着矛盾。例如，颜色有红、黄、蓝之分，是把颜色叫做一个属性，还是把红、黄、蓝等都叫做属性？属性的英文是 Attribute。Wille 曾以科教片《生物与水》为例来区分说：鱼和水草都是“在水中生活”而狗和豆却是“在陆地上生活”。他把“在水中生活”与“在陆地上生活”这两个词视为两个不同的 attribute[16]。可见，Attribute 是指属性的状态，而不是指“生物栖性”这一属性名称。但是，粗糙集则把汽车按颜色、车长、车重、马力、里程等属性来分类，在那里，Attribute 指的是颜色、车长、车重，它们都是属性的名称而不是属性值[15]。这两种不同的用法一直被国人懵懂地引用着。细心的学者把 Wille 的 Attribute 译成属性值而把粗糙集中的 Attribute 译成属性名，这是十分明智的。以上矛盾并没有影响粗糙集与形式概念的融合，二者求同存异，彼此互补，都得到了良好的发展 [5-6]。Wille 的形式背景表以属性值来分列，而粗糙集的信息系统表以属性名来分列，前者的应用效率是比不上后者的。所以，粗糙集在应用邻域一直先行。在跨世纪的年代里，粗糙集在属性约简方面一度在机器学习的应用邻域走红，当时，特征提取仍然是人工智能的瓶颈，特征要靠专家的经验来提取，这就必须限定识别空间的维数。在高维度数据面前，如何降低维度是最大的关键。于是，粗糙集的属性约简方法被人们视为新的希望。出现了大量应用属性约简来提取特征的研究[7-9]。尤其是支持向量机与属性约简相结合[10] ，更使人注目。遗憾的是，这个时期不太长久，属性约简目前已经减弱了。因为属性约简要用到一个概念工具，叫做区分矩阵（或差异矩阵）。正是由于这个概念的奇特性影响了事态发展。为了说明这件事情，需要回顾一下有关定义。 1 粗糙集信息系统在粗糙集中，一个信息系统（或称知识表达系统）被描述成一个四元组 S=(U, A, V, f)，其中 U 是对象的非空集合，A 是属性名的集合，V 是属性值的集合，f 是从对象 x 就着属性 A 向 V 所作的映射。为了便于理解，我们对以下所引用的定义符号都略有改变。定义 1 D = {α(x, y)}(x, y ∈ U) [11] 矩阵叫做 S 上的一个区分矩阵（discernibility matrix），其中 α(x, y) = {a ∈ A| f(x,a) , f(y,a)} (1) α(x, y) α(x, y) ∨α(x, y) = ∨{a ∈ A| f(x,a) , f(y,a)} ∑ α(x, y) α(x, y) 这个定义的奇特之处在于矩阵中的元素不是实数，不是区间，不是向量，而是属性名的集合。由 D 还派生出另外一个概念，叫做区分函数。对每一个属性名 a 指定一个布尔变量，仍记作 a，若存在属性名将对象 x 与 y 分开，则对指定一个布尔变量，用来表示，记作，若不存在将对象 x 与 y 分开的属性名，则对指定布尔变量“1”(对∧与∏的叙述亦类似) [12]。定义 2 [11] 区分函数∆的定义为 ∆ =∏ (x,y∈U×U) (∑ α(x, y) ) (2) ··· α(x, y) = {ai ∈ A| f(x,ai) , f(y,ai)} a(1) ,a(2) ,··· ,a(k) a(1) ∨a(2) ··· ∨a(k) = ∨ { a(1) ,a(2) ,··· ,a(k) } ∑ α(x, y) = ∨ { a(1) ,a(2) ,··· ,a(k) } ∆ = ∑∏ (x,y∈U×U) (α(x, y)) 在这里设 A={a1 , a2 , , am}，这里便设置了 m 个布尔变量。于是便被指定成括号中所包含的布尔变量的析取，设那几个变量是 , 所指定的这个布尔变量便具有布尔表达式，记作。由于这个布尔表达式中只含析取运算，叫做析取式。而在式（2）中，由于∆是由布尔变量先组成析取式而后再进行合取，这种表达形式叫做合取范式。布尔代数中有方法把∆从合取范式改写为析取范式，意思是把析取与合取的运算次序颠倒一下。就叫做析取范式。再把析取的这些析取式一一甄 ·890· 智能系统学报第 12 卷

第6期曲国华，等：因素空间中属性约简的区分函数 ·891· 别，去掉被蕴含的项，剩下的表达式就叫做极小析知过程提供一个普适的坐标架。因素空间中的因素取范式。文献[12]的核心论断是：区分函数的极小就是粗糙集中所说的属性名。因素空间中所说的属析取范式中的每一个合取项就是S的一个属性约性，就是粗糙集中的属性值。简，反之亦然。以上就是粗糙集关于属性约简的基定义3o称集合族平=(x(Ien为U上的一个本论述。因素空间，如果满足公理：对于上述内容，应用工作者多看不懂，数学工 1)指标集F=(V,Λ，，1,0)是一个完全的布尔代数；作者则想不明。有一连串问题：对于属性α为什么 2)X0={0: 要指定一个布尔变量，指定后的运算意义和根据是 3)对任意TSF,若什么不太明确。布尔变量的析取(V或∑)合取 s,t∈T)(s+t→sAt=0) (八或)对于属性来说究竞是什么意思？若不存在则X(vff∈T)=ΠferX(): 将对象x与y分开的属性名，为什么对a(x,y)指定 4)Yf∈F,都有一个映射布尔变量1而不是0？为什么区分函数的极小析取 f:Df)→X(f)(Df)≤U) 范式中的所有合取项就是S的全部属性约简粗糙 F叫做因素集，其最大、最小元1和0分别叫做集？如此等等都阻碍了人们的理解和应用。全因素和零因素，X)叫做性态空间。最关键的问题是，粗糙集从未定义过属性名之所谓一个因素空间就是以因素为指标集的一族间的运算，而区分矩阵这一工具所要操作的就是属属性状态空间，而这些因素之间有运算，构成一个性名运算。这就形成一种理解障碍。人们曾想通过布尔代数F=(F,V,∧，)。运算符∧、V分别表示实际经验来越过障碍，但是，粗糙集中的属性指的因素的分解与综合，其中难以理解的是分解。这要是属性名而不是属性值。我们都有属性值之间的运通过因素在粗细上所形成的序关系来说明。因素的算经验，要把“头发金黄”与“身材高大”这两个属性考量维度有多寡之分。考虑的维度少，对象就朦胧值进行“且”的运算，我们能理解这种运算结果就是难分，考虑的维度多，对象才能彼此分离。越大越属性值“头发金黄而且身材高大”。可是，要把“身细，越小越抽。如果因素∫所作的划分比因素g的材”与“发色”这两个属性名来加以或、且、非的运划分更细的话，我们就称∫比g大，记作>g。f比算，我们便无从想象了。 g大当且仅当对任意山，v∈U,若u)片v)则g(u)尸其实，这里只差一步，就是应当对属性名称定 gv)(或者，若gu)≠g(v)则w)v)0 义运算，给这些运算以合理解释，这个理解障碍就不难证明，(F,≥)是一个偏序集。而且布尔代能克服。属性约简的方法就能继续向前发展，降温数的运算就是依托这个序关系而建立起来的：的应用领域就能重新热起来。而这方面的工作，因 Vg=supf,g):fMg=inf(,g)。若把序关系形象地说素空间早就做了。因素就是粗糙集中所说的属性成是上下级关系，Vg就是∫与g的最小公共上司，名。因素空间特地定义了因素之间的运算。本文就 ∫八g就是∫与g的最大公共下级。所以，我们把因素的(V,∧)运算不做析取-合取运算，而是反过来是要用因素空间的理论来解释区分矩阵。并给属性叫做综合-分解运算。因素是分析与综合的工具。约简提供新的发展思路。分解∧是将因素由大变小（由粗变细）的过程，而综 2因素空间中分辨过程的因素约简合V是使因素由小变大（由细变粗）的反过程。 F=(F,V,A,9形成一个布尔代数，因素是其中的布因素空间是汪培庄2在1982年提出的以智能尔变量。最大、最小元1和0分别叫做全因素与零描述为主题的数学理论，曾在知识表示和人工智能因素。一个因素不能分解成除自己与零因素之外的领域发挥过重要作用，近年来，又以数据科学为重下级因素（简称因子）叫做质因素或原子因素。对点，为大数据处理提供坚实的数学基础9。于区分事物来说，因素合得越大，区分的能力就越因素∫是串领属性的关键词。红，黄，蓝，百，黑强，这是一条最基本的原则。是一串属性值，由颜色二字来串领，颜色∫就叫因因素空间中的因素就是粗糙集中所说的属性素，它所串出的属性值的集合叫做∫的（属性）状态名。因素空间中所说的属性，就是粗糙集中的属性空间，记作X={红，黄，蓝，百，黑，…，它形成一个值。因素空间对区分矩阵的诠释，是从对事物的分维度，一种广义的坐标轴，因素是抽象坐标的维度辨开始的。名称。因素是分析，把对象映射称为定性值，分析定义4给定因素空间，称因素f(∈F)能分辨以后再综合，就形成一个广义的坐标架，事物就被 A(仁U,如果对任意，v∈A都有f(四≠f(w。描述成为其中的点。因素空间企图为事物描述及认粗糙集的区分矩阵是对对象两两分辨的因素集

别，去掉被蕴含的项，剩下的表达式就叫做极小析取范式。文献[12]的核心论断是：区分函数的极小析取范式中的每一个合取项就是 S 的一个属性约简，反之亦然。以上就是粗糙集关于属性约简的基本论述。对于上述内容，应用工作者多看不懂，数学工作者则想不明。有一连串问题：对于属性 a 为什么要指定一个布尔变量，指定后的运算意义和根据是什么不太明确。布尔变量的析取（∨或∑）合取（∧或∏）对于属性来说究竟是什么意思？若不存在将对象 x 与 y 分开的属性名，为什么对 a(x, y) 指定布尔变量 1 而不是 0？为什么区分函数的极小析取范式中的所有合取项就是 S 的全部属性约简粗糙集？如此等等都阻碍了人们的理解和应用。最关键的问题是，粗糙集从未定义过属性名之间的运算，而区分矩阵这一工具所要操作的就是属性名运算。这就形成一种理解障碍。人们曾想通过实际经验来越过障碍，但是，粗糙集中的属性指的是属性名而不是属性值。我们都有属性值之间的运算经验，要把“头发金黄”与“身材高大”这两个属性值进行“且”的运算，我们能理解这种运算结果就是属性值“头发金黄而且身材高大”。可是，要把“身材”与“发色”这两个属性名来加以或、且、非的运算，我们便无从想象了。其实，这里只差一步，就是应当对属性名称定义运算，给这些运算以合理解释，这个理解障碍就能克服。属性约简的方法就能继续向前发展，降温的应用领域就能重新热起来。而这方面的工作，因素空间早就做了。因素就是粗糙集中所说的属性名。因素空间特地定义了因素之间的运算。本文就是要用因素空间的理论来解释区分矩阵。并给属性约简提供新的发展思路。 2 因素空间中分辨过程的因素约简因素空间是汪培庄[12]在 1982 年提出的以智能描述为主题的数学理论，曾在知识表示和人工智能领域发挥过重要作用，近年来，又以数据科学为重点，为大数据处理提供坚实的数学基础[13-15]。 ······ ··· 因素f是串领属性的关键词。红，黄，蓝，百，黑，是一串属性值，由颜色二字来串领，颜色 f 就叫因素，它所串出的属性值的集合叫做 f 的（属性）状态空间，记作 X(f)={红，黄，蓝，百，黑， }，它形成一个维度，一种广义的坐标轴，因素是抽象坐标的维度名称。因素是分析，把对象映射称为定性值，分析以后再综合，就形成一个广义的坐标架，事物就被描述成为其中的点。因素空间企图为事物描述及认知过程提供一个普适的坐标架。因素空间中的因素就是粗糙集中所说的属性名。因素空间中所说的属性，就是粗糙集中的属性值。定义 3 Ψ = {X(f)}(f ∈F) [10] 称集合族为 U 上的一个因素空间，如果满足公理： F = (∨,∧, c 1) 指标集 ,1,0) 是一个完全的布尔代数； 2) X(0)={}； 3) 对任意 T ⊆ F ，若 (∀s,t ∈ T)(s , t ⇒ s∧t = 0) X(∨{f | f ∈ T}) = ∏ 则 f ∈TX(f) ； 4) ∀ f ∈ F ，都有一个映射 f : D(f) → X(f) (D(f) ⊆ U) F 叫做因素集，其最大、最小元 1 和 0 分别叫做全因素和零因素，X(f) 叫做 f-性态空间。所谓一个因素空间就是以因素为指标集的一族属性状态空间，而这些因素之间有运算，构成一个布尔代数 F=(F, ∨, ∧, c )。运算符∧、∨分别表示因素的分解与综合，其中难以理解的是分解。这要通过因素在粗细上所形成的序关系来说明。因素的考量维度有多寡之分。考虑的维度少，对象就朦胧难分，考虑的维度多，对象才能彼此分离。越大越细，越小越抽。如果因素 f 所作的划分比因素 g 的划分更细的话，我们就称 f 比 g 大，记作 f≥g。f 比 g 大当且仅当对任意 u, v∈U, 若 f(u)=f(v) 则 g(u)= g(v)(或者，若 g(u)≠g(v) 则 f(u)≠f(v))。不难证明，（F, ≥）是一个偏序集。而且布尔代数的运算就是依托这个序关系而建立起来的： f∨g=sup(f, g)；f∧g=inf(f, g)。若把序关系形象地说成是上下级关系，f∨g 就是 f 与 g 的最小公共上司， f∧g 就是 f 与 g 的最大公共下级。所以，我们把因素的（∨，∧）运算不做析取–合取运算，而是反过来叫做综合–分解运算。因素是分析与综合的工具。分解∧是将因素由大变小（由粗变细）的过程，而综合∨是使因素由小变大（由细变粗）的反过程。 F=(F, ∨, ∧, c ) 形成一个布尔代数，因素是其中的布尔变量。最大、最小元 1 和 0 分别叫做全因素与零因素。一个因素不能分解成除自己与零因素之外的下级因素（简称因子）叫做质因素或原子因素。对于区分事物来说，因素合得越大，区分的能力就越强，这是一条最基本的原则。因素空间中的因素就是粗糙集中所说的属性名。因素空间中所说的属性，就是粗糙集中的属性值。因素空间对区分矩阵的诠释，是从对事物的分辨开始的。 f (∈ F) A(⊆ U) u, v ∈ A f(u) , f(v) 定义 4 给定因素空间，称因素能分辨，如果对任意都有。粗糙集的区分矩阵是对对象两两分辨的因素集第 6 期曲国华，等：因素空间中属性约简的区分函数 ·891·

·892· 智能系统学报第12卷为元素的矩阵。由于因素本身就是布尔变量，就无证毕。需再作什么指定。因素之间早就定义了综合与分解注意，粗糙集用区分矩阵提取的是极小属性约的运算，并且约定，一组相对简单的因素f,五，…，简，本文提出的是最小因素。这看起来是一大进可以通过综合而形成一个复杂因素f=V五V…Vf。步，但是，命题4中要求区分矩阵不出现0分解，这所以，区分矩阵更可以理解成是以两两分辨因素为是一个太强的约束，现实意义不大。元素的矩阵。矩阵中的元素是一个复杂因素（用一定义8设因素∫、g都能分辨A,且Kg,则称个复杂因素去取代因素的集合)。在分辨A上∫是对g的约简因素，从∫到g,叫做是命题1若f能分辨A,且g>≥f,则g能分辨A。一次因素约简。固定A=U,g=全因素1,1的约简因证明f能分辨A的意思是，对任意u,v∈A都有素就叫约简因素。因素约简问题就是要找出约简因 fw≠fw)。而g≥f意味着若fw≠fv)则g(W≠g(v)。素，越小越好。因素空间对此提供了另一种现实的故对任意4，v∈A都有g)≠g(v。故g能分辨A。证毕。因素约简的途径，一是概念划分中以分辨度来实现命题2若∫能分辨A,且BA,则f能分辨B。的因素约简算法，一是决策表以决定度来实现的因证明显然成立。素约简算法，其复杂度为O(mn),这里m、n分别表定义5称因素空间是正则的，如果能保证：示对象和因素的个数。 f八g能分辨A,只要∫与g都能分辨A。 3结束语虽不能证明所有因素空间都是正则的，但正则性却是普遍地近似的存在着。因素空间中所说的因素是事物生成与思维描述命题3在正则因素空间里，若f能分辨A,4,；的第一要素。它与粗糙集的属性名相通，但却有更能分辨Anm则f=fAA…Af能分辨A1nA2n…nAn。深刻的涵义，它是事物的质根，是广义的基因，它不证明由命题2知，对任意=1,2，n,f能分辨是被动地描述事物，而是引领着人们的思考，出点 A,nA2…nAm。由于正则性知本命题真。证毕。子，想办法，都指的是因素，抓注意矛盾，也抓的是定义6给定AU,由f(u,v)=A{ff∈F,f(m≠ 因素。运用因素之间的运算，除了能说清楚什么是 fw}为元素构成的矩阵，叫做区分矩阵。当没有因区分矩阵以外，还能在属性约简的实际算法上作贡素f能区分对象u与v时，令u,=1(全因素)。献。用区分函数来约简属性是一种理想的方式，其 uv)是能区分u与v的因素的最大下级公共算法很难实现，粗糙集用区分矩阵求极小属性存在因素。这样的因素越少，公共下级因素就越大，当着N-hard困境，有的文献要用到整值规划，后者的没有这样的因素时，公共下级因素就取最大。全因复杂性已被证明是指数型的，不存在多项式算法。素应当能区分所有的对象。对角线上的元素全是因素空间可以提供简捷的算法。 1。这也解释了定义中的约定为什么是合理的。参考文献：定义7对任意AU记 d(A)=Vf(,v)l,v∈A}=V{ff(④≠f(w)lu,v∈A} [1]PAWLAK Z.Rough sets[J].International journal of com- 叫做A的因素区分函数。 puter and information sciences,1982,11(5):341-356 注意，这里的区分函数就是定义2中所说的区 [2]WILLE R.Restructuring lattice theory:an approach based 分函数，只不过把析取与合取的符号互相颠倒罢了。 on hierarchies of concepts[M].Ordered sets.Springer.1982: 命题4在正则的因素空间中，若区分矩阵中 445-470. 不出现最小元0，A的因素区分函数就是能分辨 [3)汪培庄，SUGENO M.因素场与模糊集的背景结构[).模 A的最小因素。糊数学，1992(2：45-54 证明在正则的因素空间中，由命题2.3知4， WANG Peizhuang,SUGENO M.The factors field and v)能分辨u与v。因d(A)=V{f(u,v)4,veA}≥f(u,), background structure for fuzzy subsets[J].Fuzzy mathemat- ics.1992(2:45-54 所以根据命题2.1，对任意u,v∈A,dA)都能分辨 [4]POLKOWSKI S L,SKOWRON S A.Rough sets in know- u与v,亦即d(A)(w≠d(A)(w)。这就说明d(A)能分 ledge discovery 2 [M].Physica-Verlag HD,1989. 辨A。 [⑤)]叶东毅，陈昭炯.一个新的差别矩阵及其求核方法).电设g能分辨A,则对任意山，v∈A,≠v,都有子学报，2002,30(7)：1086-1088 g(u)≠g(v)。于是，g∈{ff(w)≠f(v川。所以fu,v)≤ YE Dongyi,CHEN Zhaojiong.A new discernibiligy maat- g。由于这个不等式对任意u,veA(y)都成立，便 rix and the computation of a core[J].Acta electornica sinica, 有d4)≤g,故d(4)是能分辨A的最小因素。 2002,30(7):1086-1088

f1, f2,··· , fk f = f1 ∨ f2 ∨ ··· ∨ fk 为元素的矩阵。由于因素本身就是布尔变量，就无需再作什么指定。因素之间早就定义了综合与分解的运算，并且约定，一组相对简单的因素可以通过综合而形成一个复杂因素。所以，区分矩阵更可以理解成是以两两分辨因素为元素的矩阵。矩阵中的元素是一个复杂因素 (用一个复杂因素去取代因素的集合)。命题 1 若 f 能分辨 A，且 g ⩾ f ，则 g 能分辨 A。 u, v ∈ A f(u) , f(v) g ⩾ f f(u) , f(v) g(u) , g(v) u, v ∈ A g(u) , g(v) 证明 f 能分辨 A 的意思是，对任意都有。而意味着若则。故对任意都有。故 g 能分辨 A。证毕。命题 2 若 f 能分辨 A，且 BA，则 f 能分辨 B。证明显然成立。定义 5 称因素空间是正则的，如果能保证： f∧g 能分辨 A，只要 f 与 g 都能分辨 A。虽不能证明所有因素空间都是正则的，但正则性却是普遍地近似的存在着。 ··· f = f1 ∧ f2∧···∧ fn A1∩A2∩···∩An 命题 3 在正则因素空间里，若 f1 能分辨 A1 ,A2 , , fn 能分辨 An , 则能分辨。 ··· A1 ∩ A2 ··· ∩ An 证明由命题 2 知，对任意 j=1, 2, , n, fj 能分辨。由于正则性知本命题真。证毕。 f (u, v) = ∧{f | f ∈ F, f (u) , f (v)} 定义 6 给定 AU，由为元素构成的矩阵，叫做区分矩阵。当没有因素 f 能区分对象 u 与 v 时，令 f(u, v)=1（全因素）。 f(u, v) 是能区分 u 与 v 的因素的最大下级公共因素。这样的因素越少，公共下级因素就越大，当没有这样的因素时，公共下级因素就取最大。全因素应当能区分所有的对象。对角线上的元素全是 1。这也解释了定义中的约定为什么是合理的。定义 7 对任意 AU 记 d (A) = ∨{f (u, v)|u, v ∈ A} = ∨{∧{f | f (u) , f (v)}|u, v ∈ A} 叫做 A 的因素区分函数。注意，这里的区分函数就是定义 2 中所说的区分函数，只不过把析取与合取的符号互相颠倒罢了。命题 4 在正则的因素空间中，若区分矩阵中不出现最小元 0，A 的因素区分函数就是能分辨 A 的最小因素。 d (A) = ∨{f (u, v)|u, v ∈ A} ⩾ f (u, v) d (A) (u) , d (A) (v) 证明在正则的因素空间中，由命题 2.3 知 f(u, v) 能分辨 u 与 v。因，所以根据命题 2.1，对任意 u, v∈A，d(A) 都能分辨 u 与 v，亦即。这就说明 d(A) 能分辨 A。 g ∈ {f | f (u) , f (v)} 设 g 能分辨 A，则对任意 u, v∈A, u≠v, 都有 g(u)≠g(v)。于是，。所以 f(u, v)≤ g。由于这个不等式对任意 u, v∈A（u≠v）都成立，便有 d(A)≤g，故 d(A) 是能分辨 A 的最小因素。证毕。注意，粗糙集用区分矩阵提取的是极小属性约简，本文提出的是最小因素。这看起来是一大进步，但是，命题 4 中要求区分矩阵不出现 0 分解，这是一个太强的约束，现实意义不大。定义 8 设因素 f、g 都能分辨 A，且 f<g，则称在分辨 A 上 f 是对 g 的约简因素，从 f 到 g，叫做是一次因素约简。固定 A=U，g=全因素 1，1 的约简因素就叫约简因素。因素约简问题就是要找出约简因素，越小越好。因素空间对此提供了另一种现实的因素约简的途径，一是概念划分中以分辨度来实现的因素约简算法，一是决策表以决定度来实现的因素约简算法，其复杂度为 O(m 2 n)，这里 m、n 分别表示对象和因素的个数。 3 结束语因素空间中所说的因素是事物生成与思维描述的第一要素。它与粗糙集的属性名相通，但却有更深刻的涵义，它是事物的质根，是广义的基因，它不是被动地描述事物，而是引领着人们的思考，出点子，想办法，都指的是因素，抓注意矛盾，也抓的是因素。运用因素之间的运算，除了能说清楚什么是区分矩阵以外，还能在属性约简的实际算法上作贡献。用区分函数来约简属性是一种理想的方式，其算法很难实现，粗糙集用区分矩阵求极小属性存在着 N-hard 困境，有的文献要用到整值规划，后者的复杂性已被证明是指数型的，不存在多项式算法。因素空间可以提供简捷的算法。参考文献： PAWLAK Z. Rough sets[J]. International journal of computer and information sciences, 1982, 11(5): 341–356. [1] WILLE R. Restructuring lattice theory: an approach based on hierarchies of concepts[M]. Ordered sets. Springer. 1982: 445-470. [2] 汪培庄, SUGENO M. 因素场与模糊集的背景结构[J]. 模糊数学, 1992(2): 45–54. WANG Peizhuang, SUGENO M. The factors field and background structure for fuzzy subsets[J]. Fuzzy mathematics, 1992(2): 45–54. [3] POLKOWSKI S L, SKOWRON S A. Rough sets in knowledge discovery 2 [M]. Physica-Verlag HD, 1989. [4] 叶东毅, 陈昭炯. 一个新的差别矩阵及其求核方法[J]. 电子学报, 2002, 30(7): 1086–1088. YE Dongyi, CHEN Zhaojiong. A new discernibiligy maatrix and the computation of a core[J]. Acta electornica sinica, 2002, 30(7): 1086–1088. [5] ·892· 智能系统学报第 12 卷

第6期曲国华，等：因素空间中属性约简的区分函数 ·893· [6]王吴，朱惠，邓三鸿.基于形式概念分析的学科术语层次 Journal of Liaoning technical university:natural science, 关系构建研究.情报学报，2015(6)：616-627 2013.32(10):1-8 WANG Hao,ZHU Hui,DENG Sanhong.Study on con- [14]汪培庄，郭嗣踪，包研科，等.因素空间中的因素分析法 struction of hierarchy relationship of subject terms based on [J].辽宁工程技术大学学报：自然科学版，2014,33(7)： formal concept analysis[J].Journal of the China society for 865-870. scientific andtechnical information,2015(6):616-627. WANG Peizhuang,GUO Sicong,BAO Yanke,et al. [)李元诚，方廷健.一种基于粗糙集理论的SVM短期负荷 Factorial analysis in factor space[J].Journal of Liaoning 预测方法J.系统工程与电子技术，2004,26(2)：187-190. technical university:natural science,2014,33(7):865-870. LI Yuanchen,FANG Tingjian.Approach to forecast short- [15]刘海涛，郭嗣琮.因素分析法的推理模型[).辽宁工程技 term load of SVM based on rough sets[J].Systems engineer- 术大学学报，2015,34(1)少：124-128. ing and electronics,2004,26(2):187-190. LIU Haitao,GUO Sicong.The reasoning model for factori- [8]张腾飞，肖健梅，王锡淮.粗糙集理论中属性相对约简算 al analysis[J].Journal of Liaoning engineering technical 法[).电子学报，2005,33(11)：2080-2083. university,2015,34(1):124-128. ZHANG Tengfei,XIAO Jianmei.WANG Xihuai,et al.Al- 作者简介： gorithms of attribute relative reduction in rough set theory 曲国华，男，1982年生.讲师，博 [J].Acta electornica sinica,2005,33(11):2080-2083 土，主要研究方向为模糊决策、人工智 [9]戎晓霞，刘家壮，马英红.基于Rough集的决策表属性最能。先后主持山西省哲学社会科学小约简的整数规划算法[J几.计算机工程与应用，2004 1项，山西财经大学校青年基金项目 40(11):24-25 1项，山西财经大学专项基金一项：参 RONG Xiaoxia,LIU Jiazhuang,MA Yinghong.Integer pro- 与国家自然科学基金3项，国家自然科学基金和高等学校博士学科点专项 gramming algorithm for finding minimal reduction in de- 科研基金资助课题1项，北京市哲学社会科学规划项目 cision table based on rough set[J.Computer engineering 1项，广东省软科学项目1项，广东省自然科学基金项目 and application,2004,40(11):24-25. 1项，广东省哲学社科十二五规划项目1项，广东省教育厅 [10]XU Y,WANG L.Fault diagnosis system based on rough 科技创新项目1项，广州市哲学社科十二五规划项目1项。 set theory and support vector machine[Cl/Proceedings of 发表学术论文15余篇。 the Fuzzy Systems and Knowledge Discovery,Second In- 李春华，女，1988年生，硕士研究 ternational Conference.Changsha,China.2005. 生，主要研究方向为模糊决策、环境与 [11]张文修.粗糙集理论与方法[M们.北京：科学出版社资源保护法。近3年参与国家自然科 2001. 学基金1项，国家社会科学基金1项， ZHANG Wenxiu.Theory and method of rough set[M]. 山西省哲学社会科学1项，发表学术论文5篇。 Beijing:Science Press,2001. [12]汪培庄，李洪兴.知识表示的数学理论M.天津：天津科学技术出版社，1994. 张强.1955年生，教授.博士生导 WANG Peizhuang,LI Hongxing.A mathematical theory 师，主要研究方向为管理决策、对策论（博弈论）、模糊集理论与应用、非可 on knowledge representation[M].Tianjin:Tianjin Scientif 加测度论、物流与供应链管理、智能算 ic and Technical Press,1994. 法、城市交通网络平衡分析。先后主 [13]汪培庄.因素空间与因素库.辽宁工程技术大学学报：持与参加科研项目10项，其中国家自自然科学版，2013,32(10：1-8 然科学基金项目6项，发表学术论文 WANG Peizhuang.Factor spaces and factor data-bases[J]. 400余篇，其中80篇被SCI检索，40篇被EI检索

王昊, 朱惠, 邓三鸿. 基于形式概念分析的学科术语层次关系构建研究[J]. 情报学报, 2015(6): 616–627. WANG Hao, ZHU Hui, DENG Sanhong. Study on construction of hierarchy relationship of subject terms based on formal concept analysis[J]. Journal of the China society for scientific andtechnical information, 2015(6): 616–627. [6] 李元诚, 方廷健. 一种基于粗糙集理论的 SVM 短期负荷预测方法[J]. 系统工程与电子技术, 2004, 26(2): 187–190. LI Yuanchen, FANG Tingjian. Approach to forecast shortterm load of SVM based on rough sets[J]. Systems engineering and electronics, 2004, 26(2): 187–190. [7] 张腾飞, 肖健梅, 王锡淮. 粗糙集理论中属性相对约简算法[J]. 电子学报, 2005, 33(11): 2080–2083. ZHANG Tengfei, XIAO Jianmei, WANG Xihuai, et al. Algorithms of attribute relative reduction in rough set theory [J]. Acta electornica sinica, 2005, 33(11): 2080–2083. [8] 戎晓霞, 刘家壮, 马英红. 基于 Rough 集的决策表属性最小约简的整数规划算法[J]. 计算机工程与应用, 2004, 40(11): 24–25. RONG Xiaoxia, LIU Jiazhuang, MA Yinghong. Integer programming algorithm for finding minimal reduction in decision table based on rough set[J]. Computer engineering and application, 2004, 40(11): 24–25. [9] XU Y, WANG L. Fault diagnosis system based on rough set theory and support vector machine[C]//Proceedings of the Fuzzy Systems and Knowledge Discovery, Second International Conference. Changsha, China.2005. [10] 张文修. 粗糙集理论与方法 [M]. 北京：科学出版社, 2001. ZHANG Wenxiu. Theory and method of rough set[M]. Beijing: Science Press, 2001. [11] 汪培庄, 李洪兴. 知识表示的数学理论 [M]. 天津:天津科学技术出版社, 1994. WANG Peizhuang, LI Hongxing. A mathematical theory on knowledge representation[M]. Tianjin: Tianjin Scientific and Technical Press, 1994. [12] 汪培庄. 因素空间与因素库[J]. 辽宁工程技术大学学报: 自然科学版, 2013, 32(10): 1–8. WANG Peizhuang. Factor spaces and factor data-bases[J]. [13] Journal of Liaoning technical university: natural science, 2013, 32(10): 1–8. 汪培庄, 郭嗣琮, 包研科, 等. 因素空间中的因素分析法 [J]. 辽宁工程技术大学学报: 自然科学版, 2014, 33(7): 865–870. WANG Peizhuang, GUO Sicong, BAO Yanke, et al. Factorial analysis in factor space[J]. Journal of Liaoning technical university: natural science, 2014, 33(7): 865–870. [14] 刘海涛, 郭嗣琮. 因素分析法的推理模型[J]. 辽宁工程技术大学学报, 2015, 34(1): 124–128. LIU Haitao, GUO Sicong. The reasoning model for factorial analysis[J]. Journal of Liaoning engineering technical university, 2015, 34(1): 124–128. [15] 作者简介：曲国华，男，1982 年生，讲师，博士，主要研究方向为模糊决策、人工智能。先后主持山西省哲学社会科学 1 项，山西财经大学校青年基金项目 1 项，山西财经大学专项基金一项；参与国家自然科学基金 3 项，国家自然科学基金和高等学校博士学科点专项科研基金资助课题 1 项，北京市哲学社会科学规划项目 1 项，广东省软科学项目 1 项，广东省自然科学基金项目 1 项，广东省哲学社科十二五规划项目 1 项，广东省教育厅科技创新项目 1 项，广州市哲学社科十二五规划项目 1 项。发表学术论文 15 余篇。李春华，女，1988 年生，硕士研究生，主要研究方向为模糊决策、环境与资源保护法。近 3 年参与国家自然科学基金 1 项，国家社会科学基金 1 项，山西省哲学社会科学 1 项，发表学术论文 5 篇。张强，1955 年生，教授，博士生导师，主要研究方向为管理决策、对策论 (博弈论)、模糊集理论与应用、非可加测度论、物流与供应链管理、智能算法、城市交通网络平衡分析。先后主持与参加科研项目 10 项，其中国家自然科学基金项目 6 项，发表学术论文 400 余篇，其中 80 篇被 SCI 检索，40 篇被 EI 检索。第 6 期曲国华，等：因素空间中属性约简的区分函数 ·893·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录