第12卷第6期 智能系统学报 Vol.12 No.6 2017年12月 CAAI Transactions on Intelligent Systems Dec.2017 D0:10.11992/tis.201609014 因素空间中属性约简的区分函数 曲国华,李春华,张强 (1.山西财经大学管理科学与工程学院,山西太原030006:2.北京理工大学管理与经济学院,北京100081) 摘要:粗糙集用属性所构建的信息系统来描写事物,用各种细化的嫡指标来实现信息的标度,为挖掘知识的关系数 据库提供了数学基础,当前人们最关注的是她在属性约简中所能发挥的作用。但是它用以约简的区分函数定义不清 楚,当没有属性能区分两个对象时,相应的属性变量为什么不取0而是取1?这一问题成为粗糙集应用的一个瓶颈。 本文的目的是要为区分函数寻找更合理的解释和运用。所采用的方法是,首先要对属性名之间的运算要下定义,属性 名与属性值不同,如果用属性值的运算来代替属性名的运算,就会在理解上出现混乱。为此,我们用因素空间的理 论,将属性名视为因素,用因素之间的运算来定义属性名的运算,使区分函数有了明确的定义,同时也清楚解释了属 性变量在特殊情况下为何取1的问题。这一结果说明因素空间可以加深粗糙集的理论基础,提高其解决问题的能力。 关键词:因素空间:粗糙集;因素约简:区分函数:因果分析法 中图分类号:TP181文献标志码:A文章编号:1673-4785(2017)06-0889-05 中文引用格式:曲国华,李春华,张强.因素空间中属性约简的区分函数.智能系统学报,2017,12(6):889-893. 英文引用格式:QU Guohua,.LI Chunhua,ZHANG Qiang.Attribute reduction and discernibility function in factor spaceJ].CAAI transactions on intelligent systems,2017,12(6):889-893. Attribute reduction and discernibility function in factor space QU Guohua',LI Chunhua',ZHANG Qiang (1.School of Management Science and Engineering,Shanxi University of Finance and Economics,Taiyuan 030006,China;2.School of Management and Economics,Beijing Institute of Technology,Beijing 100081,China) Abstract:To enable description,Rough Set theory uses an information system constructed by attributes,and various de- tailed entropy indexes are employed to achieve the scale of information;this provides a mathematical basis for know- ledge mining of relational databases.Current research is focused on the role that Rough Set plays in attribute reduction; however.definition of the discernibility function used for attribute reduction is unclear.For example.when there is no attribute to distinguish between two objects,it is unclear why 1 is used instead of 0 for the corresponding attribute vari- able.As such,this problem causes a bottleneck when applied in Rough Set.The aim of this paper is to find a more reas- onable explanation and application for discernibility functions.The method firstly defines the operation between attrib- ute names,which is different from the operation between attribute values,and the attribute name is different from the at- tribute value.If operation of the attribute value is confused with that of the attribute name,the meaning will sub- sequently be unclear.To avoid such confusion,Factor Space theory is employed,as it treats attribute names as factors. The theory uses the operation between factors to define the operation of the attribute name,enabling clear definition of the discernibility function,and explains why the attribute variable takes the value of 1 under special circumstances.Res- ults indicate that Factor Space theory can deepen the theoretical basis of Rough Set and improve its ability to solve prob- lems. Keywords:factor space;rough set;factor reduction;discernibility function;factorial causality analysis 粗糙集)、形式概念分析和因素空间1是在 收稿日期:2016-09-12. 基金项目:国家自然科学基金项目(71371030:山西省重点学科建 1982年同时诞生的3个数学流派。3种理论都明确 设项目编号:山西财经大学青年科研基金项目(QN- 2017007):山西省高等学校哲学社会科学研究项目 地把知识与思维过程作为数学描述的对象,可被视 (2017326). 通信作者:曲国华.E-mail:xz_qgh@163.com 为智能数学的代表。其中,在数据库中最早付诸实
DOI: 10.11992/tis.201609014 因素空间中属性约简的区分函数 曲国华1 ,李春华1 ,张强2 (1. 山西财经大学 管理科学与工程学院,山西 太原 030006; 2. 北京理工大学 管理与经济学院,北京 100081) 摘 要:粗糙集用属性所构建的信息系统来描写事物,用各种细化的熵指标来实现信息的标度,为挖掘知识的关系数 据库提供了数学基础,当前人们最关注的是她在属性约简中所能发挥的作用。但是它用以约简的区分函数定义不清 楚,当没有属性能区分两个对象时,相应的属性变量为什么不取 0 而是取 1?这一问题成为粗糙集应用的一个瓶颈。 本文的目的是要为区分函数寻找更合理的解释和运用。所采用的方法是,首先要对属性名之间的运算要下定义,属性 名与属性值不同,如果用属性值的运算来代替属性名的运算,就会在理解上出现混乱。为此,我们用因素空间的理 论,将属性名视为因素,用因素之间的运算来定义属性名的运算,使区分函数有了明确的定义,同时也清楚解释了属 性变量在特殊情况下为何取 1 的问题。这一结果说明因素空间可以加深粗糙集的理论基础,提高其解决问题的能力。 关键词:因素空间;粗糙集;因素约简;区分函数;因果分析法 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2017)06−0889−05 中文引用格式:曲国华, 李春华, 张强. 因素空间中属性约简的区分函数[J]. 智能系统学报, 2017, 12(6): 889–893. 英文引用格式:QU Guohua, LI Chunhua, ZHANG Qiang. Attribute reduction and discernibility function in factor space[J]. CAAI transactions on intelligent systems, 2017, 12(6): 889–893. Attribute reduction and discernibility function in factor space QU Guohua1 ,LI Chunhua1 ,ZHANG Qiang2 (1. School of Management Science and Engineering, Shanxi University of Finance and Economics, Taiyuan 030006, China; 2. School of Management and Economics, Beijing Institute of Technology, Beijing 100081, China) Abstract: To enable description, Rough Set theory uses an information system constructed by attributes, and various detailed entropy indexes are employed to achieve the scale of information; this provides a mathematical basis for knowledge mining of relational databases. Current research is focused on the role that Rough Set plays in attribute reduction; however, definition of the discernibility function used for attribute reduction is unclear. For example, when there is no attribute to distinguish between two objects, it is unclear why 1 is used instead of 0 for the corresponding attribute variable. As such, this problem causes a bottleneck when applied in Rough Set. The aim of this paper is to find a more reasonable explanation and application for discernibility functions. The method firstly defines the operation between attribute names, which is different from the operation between attribute values, and the attribute name is different from the attribute value. If operation of the attribute value is confused with that of the attribute name, the meaning will subsequently be unclear. To avoid such confusion, Factor Space theory is employed, as it treats attribute names as factors. The theory uses the operation between factors to define the operation of the attribute name, enabling clear definition of the discernibility function, and explains why the attribute variable takes the value of 1 under special circumstances. Results indicate that Factor Space theory can deepen the theoretical basis of Rough Set and improve its ability to solve problems. Keywords: factor space; rough set; factor reduction; discernibility function; factorial causality analysis 粗糙集[1] 、形式概念分析[2]和因素空间[3]是在 1982 年同时诞生的 3 个数学流派。3 种理论都明确 地把知识与思维过程作为数学描述的对象,可被视 为智能数学的代表。其中,在数据库中最早付诸实 收稿日期:2016−09−12. 基金项目:国家自然科学基金项目 (71371030);山西省重点学科建 设项目编号;山西财经大学青年科研基金项目(QN- 2017007);山西省高等学校哲学社会科学研究项目 (2017326). 通信作者:曲国华. E-mail: xz_qgh@163.com. 第 12 卷第 6 期 智 能 系 统 学 报 Vol.12 No.6 2017 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2017
·890· 智能系统学报 第12卷 践的是粗糙集。其领军人物Polkowski和Skowron 仍然是人工智能的瓶颈,特征要靠专家的经验来提 在1989发表的《粗糙集与知识发现》一文引领了 取,这就必须限定识别空间的维数。在高维度数据 第十届国际人工智能大会上所提出的KDD(数据库 面前,如何降低维度是最大的关键。于是,粗糙集 知识发现)的新潮流。粗糙集用属性所构建的信息 的属性约简方法被人们视为新的希望。出现了大量 系统来描写事物,用各种细化的熵指标来实现信息 应用属性约简来提取特征的研究。尤其是支持 的标度,为数据知识挖掘提供了理论基础。相比之 向量机与属性约简相结合,更使人注目。遗憾的 下,Wlle的形式概念分析就没有那么明确的实际背 是,这个时期不太长久,属性约简目前已经减弱 景。他的理论是在被埋没了12年之后,才被人们发 了。因为属性约简要用到一个概念工具,叫做区分 现的。他的《形式概念分析》一书围绕概念格提取 矩阵(或差异矩阵)。正是由于这个概念的奇特性 这一主题而展开,数学严谨。集合论向世人强调了 影响了事态发展。为了说明这件事情,需要回顾一 任何概念的外延都是一个集合。但若反过来问:任 下有关定义。 何集合都一定是概念的外延吗?就不好回答了。 Wille明确地回答:No!他第一次明确地从数学上提 1粗糙集信息系统 出了内涵与外延之间的对合性条件,只有满足对合 在粗糙集中,一个信息系统(或称知识表达系 性的集合和属性对才能形成概念。这是他的重要贡 统)被描述成一个四元组S=-(U,A,V,,其中U是对 献。在这一点上粗糙集的用词就显得太粗糙了。它 象的非空集合,A是属性名的集合,V是属性值的集 把由任一映射所形成的划分都叫做知识,那么,任 合,∫是从对象x就着属性A向∥所作的映射。为 一集合都可以由其特征函数形成一个划分。由此可 了便于理解,我们对以下所引用的定义符号都略有 推得:任一集合必是某概念的外延,这就与Wille的 改变。 理论产生了矛盾。人工智能要运用概念进行识别与 定义1)矩阵D={a(x,y(x,y∈U叫做S上 搜索,内涵是我们识别事物的依据,外延是我们实 的一个区分矩阵(discernibility matrix),其中 现搜寻的结果,如果内涵与外延不相一致,那么人 a(x,y)={a∈Alf(x,a≠fy,a) (1) 工智能就不具备实践的前提。这不能不说是粗糙集 这个定义的奇特之处在于矩阵中的元素 在用词上的一个疏忽。 (x,y)不是实数,不是区间,不是向量,而是属性名 在对属性的称呼上也存在着矛盾。例如,颜色 的集合。由D还派生出另外一个概念,叫做区分函 有红、黄、蓝…之分,是把颜色叫做一个属性,还 数。对每一个属性名α指定一个布尔变量,仍记作 是把红、黄、蓝等都叫做属性?属性的英文是At a,若存在属性名将对象x与y分开,则对a(y)指定 tribute。Wille曾以科教片《生物与水》为例来区 一个布尔变量,用Va(x,y)=V{a∈Alfx,a)≠fGy,a)川 分说:鱼和水草都是“在水中生活”而狗和豆却是“在 来表示,记作∑a(x,y),若不存在将对象x与y分开 陆地上生活”。他把“在水中生活”与“在陆地上生 的属性名,则对α(x,y)指定布尔变量“1”(对A与Π的 活”这两个词视为两个不同的attribute。可见,At 叙述亦类似)。 tribute是指属性的状态,而不是指生物栖性”这一 定义2四区分函数△的定义为 属性名称。但是,粗糙集则把汽车按颜色、车长、车 重、马力、里程等属性来分类,在那里,Attribute指 a=几lwn(Lax) (2) 的是颜色、车长、车重,它们都是属性的名称而不是 在这里设A仁{a1,a2,,am},这里便设置了m个 属性值。这两种不同的用法一直被国人懵懂地引 布尔变量。于是a(x,y)={a:∈Af(x,a)≠fGy,a)} 用着。细心的学者把Wile的Attribute译成属性值 便被指定成括号中所包含的布尔变量的析取,设那 而把粗糙集中的Attribute译成属性名,这是十分明 几个变量是a,a2,·,aw,所指定的这个布尔变量 智的。 便具有布尔表达式auVa2…Vaw=V{au,a2,…,ae, 以上矛盾并没有影响粗糙集与形式概念的融 记作∑a(x,y)=V{au,a2,…,a}。由于这个布尔表 合,二者求同存异,彼此互补,都得到了良好的发 达式中只含析取运算,叫做析取式。而在式(2)中, 展s-6。Wile的形式背景表以属性值来分列,而粗 由于△是由布尔变量先组成析取式而后再进行合 糙集的信息系统表以属性名来分列,前者的应用效 取,这种表达形式叫做合取范式。布尔代数中有方 率是比不上后者的。所以,粗糙集在应用邻域一直 法把△从合取范式改写为析取范式,意思是把析取 先行。在跨世纪的年代里,粗糙集在属性约简方面 与合取的运算次序颠倒一下。△=∑Πetx(a(x,》 度在机器学习的应用邻域走红,当时,特征提取 就叫做析取范式。再把析取的这些析取式一一甄
践的是粗糙集。其领军人物 Polkowski 和 Skowron[4] 在 1989 发表的《粗糙集与知识发现》一文引领了 第十届国际人工智能大会上所提出的 KDD(数据库 知识发现) 的新潮流。粗糙集用属性所构建的信息 系统来描写事物,用各种细化的熵指标来实现信息 的标度,为数据知识挖掘提供了理论基础。相比之 下,Wille 的形式概念分析就没有那么明确的实际背 景。他的理论是在被埋没了 12 年之后,才被人们发 现的。他的《形式概念分析》一书围绕概念格提取 这一主题而展开,数学严谨。集合论向世人强调了 任何概念的外延都是一个集合。但若反过来问:任 何集合都一定是概念的外延吗?就不好回答了。 Wille 明确地回答:No!他第一次明确地从数学上提 出了内涵与外延之间的对合性条件,只有满足对合 性的集合和属性对才能形成概念。这是他的重要贡 献。在这一点上粗糙集的用词就显得太粗糙了。它 把由任一映射所形成的划分都叫做知识,那么,任 一集合都可以由其特征函数形成一个划分。由此可 推得:任一集合必是某概念的外延,这就与 Wille 的 理论产生了矛盾。人工智能要运用概念进行识别与 搜索,内涵是我们识别事物的依据,外延是我们实 现搜寻的结果,如果内涵与外延不相一致,那么人 工智能就不具备实践的前提。这不能不说是粗糙集 在用词上的一个疏忽。 ······ 在对属性的称呼上也存在着矛盾。例如,颜色 有红、黄、蓝 之分,是把颜色叫做一个属性,还 是把红、黄、蓝等都叫做属性?属性的英文是 Attribute。Wille 曾以科教片《生物与水》为例来区 分说:鱼和水草都是“在水中生活”而狗和豆却是“在 陆地上生活”。他把“在水中生活”与“在陆地上生 活”这两个词视为两个不同的 attribute[16]。可见,Attribute 是指属性的状态,而不是指“生物栖性”这一 属性名称。但是,粗糙集则把汽车按颜色、车长、车 重、马力、里程等属性来分类,在那里,Attribute 指 的是颜色、车长、车重,它们都是属性的名称而不是 属性值[15]。这两种不同的用法一直被国人懵懂地引 用着。细心的学者把 Wille 的 Attribute 译成属性值 而把粗糙集中的 Attribute 译成属性名,这是十分明 智的。 以上矛盾并没有影响粗糙集与形式概念的融 合,二者求同存异,彼此互补,都得到了良好的发 展 [5-6]。Wille 的形式背景表以属性值来分列,而粗 糙集的信息系统表以属性名来分列,前者的应用效 率是比不上后者的。所以,粗糙集在应用邻域一直 先行。在跨世纪的年代里,粗糙集在属性约简方面 一度在机器学习的应用邻域走红,当时,特征提取 仍然是人工智能的瓶颈,特征要靠专家的经验来提 取,这就必须限定识别空间的维数。在高维度数据 面前,如何降低维度是最大的关键。于是,粗糙集 的属性约简方法被人们视为新的希望。出现了大量 应用属性约简来提取特征的研究[7-9]。尤其是支持 向量机与属性约简相结合[10] ,更使人注目。遗憾的 是,这个时期不太长久,属性约简目前已经减弱 了。因为属性约简要用到一个概念工具,叫做区分 矩阵(或差异矩阵)。正是由于这个概念的奇特性 影响了事态发展。为了说明这件事情,需要回顾一 下有关定义。 1 粗糙集信息系统 在粗糙集中,一个信息系统(或称知识表达系 统)被描述成一个四元组 S=(U, A, V, f),其中 U 是对 象的非空集合,A 是属性名的集合,V 是属性值的集 合,f 是从对象 x 就着属性 A 向 V 所作的映射。为 了便于理解,我们对以下所引用的定义符号都略有 改变。 定义 1 D = {α(x, y)}(x, y ∈ U) [11] 矩阵 叫做 S 上 的一个区分矩阵(discernibility matrix),其中 α(x, y) = {a ∈ A| f(x,a) , f(y,a)} (1) α(x, y) α(x, y) ∨α(x, y) = ∨{a ∈ A| f(x,a) , f(y,a)} ∑ α(x, y) α(x, y) 这个定义的奇特之处在于矩阵中的元素 不是实数,不是区间,不是向量,而是属性名 的集合。由 D 还派生出另外一个概念,叫做区分函 数。对每一个属性名 a 指定一个布尔变量,仍记作 a,若存在属性名将对象 x 与 y 分开,则对 指定 一个布尔变量,用 来表示,记作 ,若不存在将对象 x 与 y 分开 的属性名,则对 指定布尔变量“1”(对∧与∏的 叙述亦类似) [12]。 定义 2 [11] 区分函数∆的定义为 ∆ =∏ (x,y∈U×U) (∑ α(x, y) ) (2) ··· α(x, y) = {ai ∈ A| f(x,ai) , f(y,ai)} a(1) ,a(2) ,··· ,a(k) a(1) ∨a(2) ··· ∨a(k) = ∨ { a(1) ,a(2) ,··· ,a(k) } ∑ α(x, y) = ∨ { a(1) ,a(2) ,··· ,a(k) } ∆ = ∑∏ (x,y∈U×U) (α(x, y)) 在这里设 A={a1 , a2 , , am},这里便设置了 m 个 布尔变量。于是 便被指定成括号中所包含的布尔变量的析取,设那 几个变量是 , 所指定的这个布尔变量 便具有布尔表达式 , 记作 。由于这个布尔表 达式中只含析取运算,叫做析取式。而在式(2)中, 由于∆是由布尔变量先组成析取式而后再进行合 取,这种表达形式叫做合取范式。布尔代数中有方 法把∆从合取范式改写为析取范式,意思是把析取 与合取的运算次序颠倒一下。 就叫做析取范式。再把析取的这些析取式一一甄 ·890· 智 能 系 统 学 报 第 12 卷
第6期 曲国华,等:因素空间中属性约简的区分函数 ·891· 别,去掉被蕴含的项,剩下的表达式就叫做极小析 知过程提供一个普适的坐标架。因素空间中的因素 取范式。文献[12]的核心论断是:区分函数的极小 就是粗糙集中所说的属性名。因素空间中所说的属 析取范式中的每一个合取项就是S的一个属性约 性,就是粗糙集中的属性值。 简,反之亦然。以上就是粗糙集关于属性约简的基 定义3o称集合族平=(x(Ien为U上的一个 本论述。 因素空间,如果满足公理: 对于上述内容,应用工作者多看不懂,数学工 1)指标集F=(V,Λ,,1,0)是一个完全的布尔代数; 作者则想不明。有一连串问题:对于属性α为什么 2)X0={0: 要指定一个布尔变量,指定后的运算意义和根据是 3)对任意TSF,若 什么不太明确。布尔变量的析取(V或∑)合取 s,t∈T)(s+t→sAt=0) (八或)对于属性来说究竞是什么意思?若不存在 则X(vff∈T)=ΠferX(): 将对象x与y分开的属性名,为什么对a(x,y)指定 4)Yf∈F,都有一个映射 布尔变量1而不是0?为什么区分函数的极小析取 f:Df)→X(f)(Df)≤U) 范式中的所有合取项就是S的全部属性约简粗糙 F叫做因素集,其最大、最小元1和0分别叫做 集?如此等等都阻碍了人们的理解和应用。 全因素和零因素,X)叫做性态空间。 最关键的问题是,粗糙集从未定义过属性名之 所谓一个因素空间就是以因素为指标集的一族 间的运算,而区分矩阵这一工具所要操作的就是属 属性状态空间,而这些因素之间有运算,构成一个 性名运算。这就形成一种理解障碍。人们曾想通过 布尔代数F=(F,V,∧,)。运算符∧、V分别表示 实际经验来越过障碍,但是,粗糙集中的属性指的 因素的分解与综合,其中难以理解的是分解。这要 是属性名而不是属性值。我们都有属性值之间的运 通过因素在粗细上所形成的序关系来说明。因素的 算经验,要把“头发金黄”与“身材高大”这两个属性 考量维度有多寡之分。考虑的维度少,对象就朦胧 值进行“且”的运算,我们能理解这种运算结果就是 难分,考虑的维度多,对象才能彼此分离。越大越 属性值“头发金黄而且身材高大”。可是,要把“身 细,越小越抽。如果因素∫所作的划分比因素g的 材”与“发色”这两个属性名来加以或、且、非的运 划分更细的话,我们就称∫比g大,记作>g。f比 算,我们便无从想象了。 g大当且仅当对任意山,v∈U,若u)片v)则g(u)尸 其实,这里只差一步,就是应当对属性名称定 gv)(或者,若gu)≠g(v)则w)v)0 义运算,给这些运算以合理解释,这个理解障碍就 不难证明,(F,≥)是一个偏序集。而且布尔代 能克服。属性约简的方法就能继续向前发展,降温 数的运算就是依托这个序关系而建立起来的: 的应用领域就能重新热起来。而这方面的工作,因 Vg=supf,g):fMg=inf(,g)。若把序关系形象地说 素空间早就做了。因素就是粗糙集中所说的属性 成是上下级关系,Vg就是∫与g的最小公共上司, 名。因素空间特地定义了因素之间的运算。本文就 ∫八g就是∫与g的最大公共下级。所以,我们把因 素的(V,∧)运算不做析取-合取运算,而是反过来 是要用因素空间的理论来解释区分矩阵。并给属性 叫做综合-分解运算。因素是分析与综合的工具。 约简提供新的发展思路。 分解∧是将因素由大变小(由粗变细)的过程,而综 2因素空间中分辨过程的因素约简 合V是使因素由小变大(由细变粗)的反过程。 F=(F,V,A,9形成一个布尔代数,因素是其中的布 因素空间是汪培庄2在1982年提出的以智能 尔变量。最大、最小元1和0分别叫做全因素与零 描述为主题的数学理论,曾在知识表示和人工智能 因素。一个因素不能分解成除自己与零因素之外的 领域发挥过重要作用,近年来,又以数据科学为重 下级因素(简称因子)叫做质因素或原子因素。对 点,为大数据处理提供坚实的数学基础9。 于区分事物来说,因素合得越大,区分的能力就越 因素∫是串领属性的关键词。红,黄,蓝,百,黑 强,这是一条最基本的原则。 是一串属性值,由颜色二字来串领,颜色∫就叫因 因素空间中的因素就是粗糙集中所说的属性 素,它所串出的属性值的集合叫做∫的(属性)状态 名。因素空间中所说的属性,就是粗糙集中的属性 空间,记作X={红,黄,蓝,百,黑,…,它形成一个 值。因素空间对区分矩阵的诠释,是从对事物的分 维度,一种广义的坐标轴,因素是抽象坐标的维度 辨开始的。 名称。因素是分析,把对象映射称为定性值,分析 定义4给定因素空间,称因素f(∈F)能分辨 以后再综合,就形成一个广义的坐标架,事物就被 A(仁U,如果对任意,v∈A都有f(四≠f(w。 描述成为其中的点。因素空间企图为事物描述及认 粗糙集的区分矩阵是对对象两两分辨的因素集
别,去掉被蕴含的项,剩下的表达式就叫做极小析 取范式。文献[12]的核心论断是:区分函数的极小 析取范式中的每一个合取项就是 S 的一个属性约 简,反之亦然。以上就是粗糙集关于属性约简的基 本论述。 对于上述内容,应用工作者多看不懂,数学工 作者则想不明。有一连串问题:对于属性 a 为什么 要指定一个布尔变量,指定后的运算意义和根据是 什么不太明确。布尔变量的析取(∨或∑)合取 (∧或∏)对于属性来说究竟是什么意思?若不存在 将对象 x 与 y 分开的属性名,为什么对 a(x, y) 指定 布尔变量 1 而不是 0?为什么区分函数的极小析取 范式中的所有合取项就是 S 的全部属性约简粗糙 集?如此等等都阻碍了人们的理解和应用。 最关键的问题是,粗糙集从未定义过属性名之 间的运算,而区分矩阵这一工具所要操作的就是属 性名运算。这就形成一种理解障碍。人们曾想通过 实际经验来越过障碍,但是,粗糙集中的属性指的 是属性名而不是属性值。我们都有属性值之间的运 算经验,要把“头发金黄”与“身材高大”这两个属性 值进行“且”的运算,我们能理解这种运算结果就是 属性值“头发金黄而且身材高大”。可是,要把“身 材”与“发色”这两个属性名来加以或、且、非的运 算,我们便无从想象了。 其实,这里只差一步,就是应当对属性名称定 义运算,给这些运算以合理解释,这个理解障碍就 能克服。属性约简的方法就能继续向前发展,降温 的应用领域就能重新热起来。而这方面的工作,因 素空间早就做了。因素就是粗糙集中所说的属性 名。因素空间特地定义了因素之间的运算。本文就 是要用因素空间的理论来解释区分矩阵。并给属性 约简提供新的发展思路。 2 因素空间中分辨过程的因素约简 因素空间是汪培庄[12]在 1982 年提出的以智能 描述为主题的数学理论,曾在知识表示和人工智能 领域发挥过重要作用,近年来,又以数据科学为重 点,为大数据处理提供坚实的数学基础[13-15]。 ······ ··· 因素f是串领属性的关键词。红,黄,蓝,百,黑 , 是一串属性值,由颜色二字来串领,颜色 f 就叫因 素,它所串出的属性值的集合叫做 f 的(属性)状态 空间,记作 X(f)={红,黄,蓝,百,黑, },它形成一个 维度,一种广义的坐标轴,因素是抽象坐标的维度 名称。因素是分析,把对象映射称为定性值,分析 以后再综合,就形成一个广义的坐标架,事物就被 描述成为其中的点。因素空间企图为事物描述及认 知过程提供一个普适的坐标架。因素空间中的因素 就是粗糙集中所说的属性名。因素空间中所说的属 性,就是粗糙集中的属性值。 定义 3 Ψ = {X(f)}(f ∈F) [10] 称集合族 为 U 上的一个 因素空间,如果满足公理: F = (∨,∧, c 1) 指标集 ,1,0) 是一个完全的布尔代数; 2) X(0)={}; 3) 对任意 T ⊆ F ,若 (∀s,t ∈ T)(s , t ⇒ s∧t = 0) X(∨{f | f ∈ T}) = ∏ 则 f ∈TX(f) ; 4) ∀ f ∈ F ,都有一个映射 f : D(f) → X(f) (D(f) ⊆ U) F 叫做因素集,其最大、最小元 1 和 0 分别叫做 全因素和零因素,X(f) 叫做 f-性态空间。 所谓一个因素空间就是以因素为指标集的一族 属性状态空间,而这些因素之间有运算,构成一个 布尔代数 F=(F, ∨, ∧, c )。运算符∧、∨分别表示 因素的分解与综合,其中难以理解的是分解。这要 通过因素在粗细上所形成的序关系来说明。因素的 考量维度有多寡之分。考虑的维度少,对象就朦胧 难分,考虑的维度多,对象才能彼此分离。越大越 细,越小越抽。如果因素 f 所作的划分比因素 g 的 划分更细的话,我们就称 f 比 g 大,记作 f≥g。f 比 g 大当且仅当对任意 u, v∈U, 若 f(u)=f(v) 则 g(u)= g(v)(或者,若 g(u)≠g(v) 则 f(u)≠f(v))。 不难证明,(F, ≥)是一个偏序集。而且布尔代 数的运算就是依托这个序关系而建立起来的: f∨g=sup(f, g);f∧g=inf(f, g)。若把序关系形象地说 成是上下级关系,f∨g 就是 f 与 g 的最小公共上司, f∧g 就是 f 与 g 的最大公共下级。所以,我们把因 素的(∨,∧)运算不做析取–合取运算,而是反过来 叫做综合–分解运算。因素是分析与综合的工具。 分解∧是将因素由大变小(由粗变细)的过程,而综 合∨是使因素由小变大(由细变粗)的反过程。 F=(F, ∨, ∧, c ) 形成一个布尔代数,因素是其中的布 尔变量。最大、最小元 1 和 0 分别叫做全因素与零 因素。一个因素不能分解成除自己与零因素之外的 下级因素(简称因子)叫做质因素或原子因素。对 于区分事物来说,因素合得越大,区分的能力就越 强,这是一条最基本的原则。 因素空间中的因素就是粗糙集中所说的属性 名。因素空间中所说的属性,就是粗糙集中的属性 值。因素空间对区分矩阵的诠释,是从对事物的分 辨开始的。 f (∈ F) A(⊆ U) u, v ∈ A f(u) , f(v) 定义 4 给定因素空间,称因素 能分辨 ,如果对任意 都有 。 粗糙集的区分矩阵是对对象两两分辨的因素集 第 6 期 曲国华,等:因素空间中属性约简的区分函数 ·891·
·892· 智能系统学报 第12卷 为元素的矩阵。由于因素本身就是布尔变量,就无 证毕。 需再作什么指定。因素之间早就定义了综合与分解 注意,粗糙集用区分矩阵提取的是极小属性约 的运算,并且约定,一组相对简单的因素f,五,…, 简,本文提出的是最小因素。这看起来是一大进 可以通过综合而形成一个复杂因素f=V五V…Vf。 步,但是,命题4中要求区分矩阵不出现0分解,这 所以,区分矩阵更可以理解成是以两两分辨因素为 是一个太强的约束,现实意义不大。 元素的矩阵。矩阵中的元素是一个复杂因素(用一 定义8设因素∫、g都能分辨A,且Kg,则称 个复杂因素去取代因素的集合)。 在分辨A上∫是对g的约简因素,从∫到g,叫做是 命题1若f能分辨A,且g>≥f,则g能分辨A。 一次因素约简。固定A=U,g=全因素1,1的约简因 证明f能分辨A的意思是,对任意u,v∈A都有 素就叫约简因素。因素约简问题就是要找出约简因 fw≠fw)。而g≥f意味着若fw≠fv)则g(W≠g(v)。 素,越小越好。因素空间对此提供了另一种现实的 故对任意4,v∈A都有g)≠g(v。故g能分辨A。证毕。 因素约简的途径,一是概念划分中以分辨度来实现 命题2若∫能分辨A,且BA,则f能分辨B。 的因素约简算法,一是决策表以决定度来实现的因 证明显然成立。 素约简算法,其复杂度为O(mn),这里m、n分别表 定义5称因素空间是正则的,如果能保证: 示对象和因素的个数。 f八g能分辨A,只要∫与g都能分辨A。 3结束语 虽不能证明所有因素空间都是正则的,但正则 性却是普遍地近似的存在着。 因素空间中所说的因素是事物生成与思维描述 命题3在正则因素空间里,若f能分辨A,4,; 的第一要素。它与粗糙集的属性名相通,但却有更 能分辨Anm则f=fAA…Af能分辨A1nA2n…nAn。 深刻的涵义,它是事物的质根,是广义的基因,它不 证明由命题2知,对任意=1,2,n,f能分辨 是被动地描述事物,而是引领着人们的思考,出点 A,nA2…nAm。由于正则性知本命题真。证毕。 子,想办法,都指的是因素,抓注意矛盾,也抓的是 定义6给定AU,由f(u,v)=A{ff∈F,f(m≠ 因素。运用因素之间的运算,除了能说清楚什么是 fw}为元素构成的矩阵,叫做区分矩阵。当没有因 区分矩阵以外,还能在属性约简的实际算法上作贡 素f能区分对象u与v时,令u,=1(全因素)。 献。用区分函数来约简属性是一种理想的方式,其 uv)是能区分u与v的因素的最大下级公共 算法很难实现,粗糙集用区分矩阵求极小属性存在 因素。这样的因素越少,公共下级因素就越大,当 着N-hard困境,有的文献要用到整值规划,后者的 没有这样的因素时,公共下级因素就取最大。全因 复杂性已被证明是指数型的,不存在多项式算法。 素应当能区分所有的对象。对角线上的元素全是 因素空间可以提供简捷的算法。 1。这也解释了定义中的约定为什么是合理的。 参考文献: 定义7对任意AU记 d(A)=Vf(,v)l,v∈A}=V{ff(④≠f(w)lu,v∈A} [1]PAWLAK Z.Rough sets[J].International journal of com- 叫做A的因素区分函数。 puter and information sciences,1982,11(5):341-356 注意,这里的区分函数就是定义2中所说的区 [2]WILLE R.Restructuring lattice theory:an approach based 分函数,只不过把析取与合取的符号互相颠倒罢了。 on hierarchies of concepts[M].Ordered sets.Springer.1982: 命题4在正则的因素空间中,若区分矩阵中 445-470. 不出现最小元0,A的因素区分函数就是能分辨 [3)汪培庄,SUGENO M.因素场与模糊集的背景结构[).模 A的最小因素。 糊数学,1992(2:45-54 证明在正则的因素空间中,由命题2.3知4, WANG Peizhuang,SUGENO M.The factors field and v)能分辨u与v。因d(A)=V{f(u,v)4,veA}≥f(u,), background structure for fuzzy subsets[J].Fuzzy mathemat- ics.1992(2:45-54 所以根据命题2.1,对任意u,v∈A,dA)都能分辨 [4]POLKOWSKI S L,SKOWRON S A.Rough sets in know- u与v,亦即d(A)(w≠d(A)(w)。这就说明d(A)能分 ledge discovery 2 [M].Physica-Verlag HD,1989. 辨A。 [⑤)]叶东毅,陈昭炯.一个新的差别矩阵及其求核方法).电 设g能分辨A,则对任意山,v∈A,≠v,都有 子学报,2002,30(7):1086-1088 g(u)≠g(v)。于是,g∈{ff(w)≠f(v川。所以fu,v)≤ YE Dongyi,CHEN Zhaojiong.A new discernibiligy maat- g。由于这个不等式对任意u,veA(y)都成立,便 rix and the computation of a core[J].Acta electornica sinica, 有d4)≤g,故d(4)是能分辨A的最小因素。 2002,30(7):1086-1088
f1, f2,··· , fk f = f1 ∨ f2 ∨ ··· ∨ fk 为元素的矩阵。由于因素本身就是布尔变量,就无 需再作什么指定。因素之间早就定义了综合与分解 的运算,并且约定,一组相对简单的因素 可以通过综合而形成一个复杂因素 。 所以,区分矩阵更可以理解成是以两两分辨因素为 元素的矩阵。矩阵中的元素是一个复杂因素 (用一 个复杂因素去取代因素的集合)。 命题 1 若 f 能分辨 A,且 g ⩾ f ,则 g 能分辨 A。 u, v ∈ A f(u) , f(v) g ⩾ f f(u) , f(v) g(u) , g(v) u, v ∈ A g(u) , g(v) 证明 f 能分辨 A 的意思是,对任意 都有 。而 意味着若 则 。 故对任意 都有 。故 g 能分辨 A。证毕。 命题 2 若 f 能分辨 A,且 BA,则 f 能分辨 B。 证明显然成立。 定义 5 称因素空间是正则的,如果能保证: f∧g 能分辨 A,只要 f 与 g 都能分辨 A。 虽不能证明所有因素空间都是正则的,但正则 性却是普遍地近似的存在着。 ··· f = f1 ∧ f2∧···∧ fn A1∩A2∩···∩An 命题 3 在正则因素空间里,若 f1 能分辨 A1 ,A2 , , fn 能分辨 An , 则 能分辨 。 ··· A1 ∩ A2 ··· ∩ An 证明由命题 2 知,对任意 j=1, 2, , n, fj 能分辨 。由于正则性知本命题真。证毕。 f (u, v) = ∧{f | f ∈ F, f (u) , f (v)} 定义 6 给定 AU,由 为元素构成的矩阵,叫做区分矩阵。当没有因 素 f 能区分对象 u 与 v 时,令 f(u, v)=1(全因素)。 f(u, v) 是能区分 u 与 v 的因素的最大下级公共 因素。这样的因素越少,公共下级因素就越大,当 没有这样的因素时,公共下级因素就取最大。全因 素应当能区分所有的对象。对角线上的元素全是 1。这也解释了定义中的约定为什么是合理的。 定义 7 对任意 AU 记 d (A) = ∨{f (u, v)|u, v ∈ A} = ∨{∧{f | f (u) , f (v)}|u, v ∈ A} 叫做 A 的因素区分函数。 注意,这里的区分函数就是定义 2 中所说的区 分函数,只不过把析取与合取的符号互相颠倒罢了。 命题 4 在正则的因素空间中,若区分矩阵中 不出现最小元 0,A 的因素区分函数就是能分辨 A 的最小因素。 d (A) = ∨{f (u, v)|u, v ∈ A} ⩾ f (u, v) d (A) (u) , d (A) (v) 证明 在正则的因素空间中,由命题 2.3 知 f(u, v) 能分辨 u 与 v。因 , 所以根据命题 2.1,对任意 u, v∈A,d(A) 都能分辨 u 与 v,亦即 。这就说明 d(A) 能分 辨 A。 g ∈ {f | f (u) , f (v)} 设 g 能分辨 A,则对任意 u, v∈A, u≠v, 都有 g(u)≠g(v)。于是, 。所以 f(u, v)≤ g。由于这个不等式对任意 u, v∈A(u≠v)都成立,便 有 d(A)≤g,故 d(A) 是能分辨 A 的最小因素。 证毕。 注意,粗糙集用区分矩阵提取的是极小属性约 简,本文提出的是最小因素。这看起来是一大进 步,但是,命题 4 中要求区分矩阵不出现 0 分解,这 是一个太强的约束,现实意义不大。 定义 8 设因素 f、g 都能分辨 A,且 f<g,则称 在分辨 A 上 f 是对 g 的约简因素,从 f 到 g,叫做是 一次因素约简。固定 A=U,g=全因素 1,1 的约简因 素就叫约简因素。因素约简问题就是要找出约简因 素,越小越好。因素空间对此提供了另一种现实的 因素约简的途径,一是概念划分中以分辨度来实现 的因素约简算法,一是决策表以决定度来实现的因 素约简算法,其复杂度为 O(m 2 n),这里 m、n 分别表 示对象和因素的个数。 3 结束语 因素空间中所说的因素是事物生成与思维描述 的第一要素。它与粗糙集的属性名相通,但却有更 深刻的涵义,它是事物的质根,是广义的基因,它不 是被动地描述事物,而是引领着人们的思考,出点 子,想办法,都指的是因素,抓注意矛盾,也抓的是 因素。运用因素之间的运算,除了能说清楚什么是 区分矩阵以外,还能在属性约简的实际算法上作贡 献。用区分函数来约简属性是一种理想的方式,其 算法很难实现,粗糙集用区分矩阵求极小属性存在 着 N-hard 困境,有的文献要用到整值规划,后者的 复杂性已被证明是指数型的,不存在多项式算法。 因素空间可以提供简捷的算法。 参考文献: PAWLAK Z. Rough sets[J]. International journal of computer and information sciences, 1982, 11(5): 341–356. [1] WILLE R. Restructuring lattice theory: an approach based on hierarchies of concepts[M]. Ordered sets. Springer. 1982: 445-470. [2] 汪培庄, SUGENO M. 因素场与模糊集的背景结构[J]. 模 糊数学, 1992(2): 45–54. WANG Peizhuang, SUGENO M. The factors field and background structure for fuzzy subsets[J]. Fuzzy mathematics, 1992(2): 45–54. [3] POLKOWSKI S L, SKOWRON S A. Rough sets in knowledge discovery 2 [M]. Physica-Verlag HD, 1989. [4] 叶东毅, 陈昭炯. 一个新的差别矩阵及其求核方法[J]. 电 子学报, 2002, 30(7): 1086–1088. YE Dongyi, CHEN Zhaojiong. A new discernibiligy maatrix and the computation of a core[J]. Acta electornica sinica, 2002, 30(7): 1086–1088. [5] ·892· 智 能 系 统 学 报 第 12 卷
第6期 曲国华,等:因素空间中属性约简的区分函数 ·893· [6]王吴,朱惠,邓三鸿.基于形式概念分析的学科术语层次 Journal of Liaoning technical university:natural science, 关系构建研究.情报学报,2015(6):616-627 2013.32(10):1-8 WANG Hao,ZHU Hui,DENG Sanhong.Study on con- [14]汪培庄,郭嗣踪,包研科,等.因素空间中的因素分析法 struction of hierarchy relationship of subject terms based on [J].辽宁工程技术大学学报:自然科学版,2014,33(7): formal concept analysis[J].Journal of the China society for 865-870. scientific andtechnical information,2015(6):616-627. WANG Peizhuang,GUO Sicong,BAO Yanke,et al. [)李元诚,方廷健.一种基于粗糙集理论的SVM短期负荷 Factorial analysis in factor space[J].Journal of Liaoning 预测方法J.系统工程与电子技术,2004,26(2):187-190. technical university:natural science,2014,33(7):865-870. LI Yuanchen,FANG Tingjian.Approach to forecast short- [15]刘海涛,郭嗣琮.因素分析法的推理模型[).辽宁工程技 term load of SVM based on rough sets[J].Systems engineer- 术大学学报,2015,34(1)少:124-128. ing and electronics,2004,26(2):187-190. LIU Haitao,GUO Sicong.The reasoning model for factori- [8]张腾飞,肖健梅,王锡淮.粗糙集理论中属性相对约简算 al analysis[J].Journal of Liaoning engineering technical 法[).电子学报,2005,33(11):2080-2083. university,2015,34(1):124-128. ZHANG Tengfei,XIAO Jianmei.WANG Xihuai,et al.Al- 作者简介: gorithms of attribute relative reduction in rough set theory 曲国华,男,1982年生.讲师,博 [J].Acta electornica sinica,2005,33(11):2080-2083 土,主要研究方向为模糊决策、人工智 [9]戎晓霞,刘家壮,马英红.基于Rough集的决策表属性最 能。先后主持山西省哲学社会科学 小约简的整数规划算法[J几.计算机工程与应用,2004 1项,山西财经大学校青年基金项目 40(11):24-25 1项,山西财经大学专项基金一项:参 RONG Xiaoxia,LIU Jiazhuang,MA Yinghong.Integer pro- 与国家自然科学基金3项,国家自然 科学基金和高等学校博士学科点专项 gramming algorithm for finding minimal reduction in de- 科研基金资助课题1项,北京市哲学社会科学规划项目 cision table based on rough set[J.Computer engineering 1项,广东省软科学项目1项,广东省自然科学基金项目 and application,2004,40(11):24-25. 1项,广东省哲学社科十二五规划项目1项,广东省教育厅 [10]XU Y,WANG L.Fault diagnosis system based on rough 科技创新项目1项,广州市哲学社科十二五规划项目1项。 set theory and support vector machine[Cl/Proceedings of 发表学术论文15余篇。 the Fuzzy Systems and Knowledge Discovery,Second In- 李春华,女,1988年生,硕士研究 ternational Conference.Changsha,China.2005. 生,主要研究方向为模糊决策、环境与 [11]张文修.粗糙集理论与方法[M们.北京:科学出版社 资源保护法。近3年参与国家自然科 2001. 学基金1项,国家社会科学基金1项, ZHANG Wenxiu.Theory and method of rough set[M]. 山西省哲学社会科学1项,发表学术 论文5篇。 Beijing:Science Press,2001. [12]汪培庄,李洪兴.知识表示的数学理论M.天津:天津科 学技术出版社,1994. 张强.1955年生,教授.博士生导 WANG Peizhuang,LI Hongxing.A mathematical theory 师,主要研究方向为管理决策、对策 论(博弈论)、模糊集理论与应用、非可 on knowledge representation[M].Tianjin:Tianjin Scientif 加测度论、物流与供应链管理、智能算 ic and Technical Press,1994. 法、城市交通网络平衡分析。先后主 [13]汪培庄.因素空间与因素库.辽宁工程技术大学学报: 持与参加科研项目10项,其中国家自 自然科学版,2013,32(10:1-8 然科学基金项目6项,发表学术论文 WANG Peizhuang.Factor spaces and factor data-bases[J]. 400余篇,其中80篇被SCI检索,40篇被EI检索
王昊, 朱惠, 邓三鸿. 基于形式概念分析的学科术语层次 关系构建研究[J]. 情报学报, 2015(6): 616–627. WANG Hao, ZHU Hui, DENG Sanhong. Study on construction of hierarchy relationship of subject terms based on formal concept analysis[J]. Journal of the China society for scientific andtechnical information, 2015(6): 616–627. [6] 李元诚, 方廷健. 一种基于粗糙集理论的 SVM 短期负荷 预测方法[J]. 系统工程与电子技术, 2004, 26(2): 187–190. LI Yuanchen, FANG Tingjian. Approach to forecast shortterm load of SVM based on rough sets[J]. Systems engineering and electronics, 2004, 26(2): 187–190. [7] 张腾飞, 肖健梅, 王锡淮. 粗糙集理论中属性相对约简算 法[J]. 电子学报, 2005, 33(11): 2080–2083. ZHANG Tengfei, XIAO Jianmei, WANG Xihuai, et al. Algorithms of attribute relative reduction in rough set theory [J]. Acta electornica sinica, 2005, 33(11): 2080–2083. [8] 戎晓霞, 刘家壮, 马英红. 基于 Rough 集的决策表属性最 小约简的整数规划算法[J]. 计算机工程与应用, 2004, 40(11): 24–25. RONG Xiaoxia, LIU Jiazhuang, MA Yinghong. Integer programming algorithm for finding minimal reduction in decision table based on rough set[J]. Computer engineering and application, 2004, 40(11): 24–25. [9] XU Y, WANG L. Fault diagnosis system based on rough set theory and support vector machine[C]//Proceedings of the Fuzzy Systems and Knowledge Discovery, Second International Conference. Changsha, China.2005. [10] 张文修. 粗糙集理论与方法 [M]. 北京:科学出版社, 2001. ZHANG Wenxiu. Theory and method of rough set[M]. Beijing: Science Press, 2001. [11] 汪培庄, 李洪兴. 知识表示的数学理论 [M]. 天津:天津科 学技术出版社, 1994. WANG Peizhuang, LI Hongxing. A mathematical theory on knowledge representation[M]. Tianjin: Tianjin Scientific and Technical Press, 1994. [12] 汪培庄. 因素空间与因素库[J]. 辽宁工程技术大学学报: 自然科学版, 2013, 32(10): 1–8. WANG Peizhuang. Factor spaces and factor data-bases[J]. [13] Journal of Liaoning technical university: natural science, 2013, 32(10): 1–8. 汪培庄, 郭嗣琮, 包研科, 等. 因素空间中的因素分析法 [J]. 辽宁工程技术大学学报: 自然科学版, 2014, 33(7): 865–870. WANG Peizhuang, GUO Sicong, BAO Yanke, et al. Factorial analysis in factor space[J]. Journal of Liaoning technical university: natural science, 2014, 33(7): 865–870. [14] 刘海涛, 郭嗣琮. 因素分析法的推理模型[J]. 辽宁工程技 术大学学报, 2015, 34(1): 124–128. LIU Haitao, GUO Sicong. The reasoning model for factorial analysis[J]. Journal of Liaoning engineering technical university, 2015, 34(1): 124–128. [15] 作者简介: 曲国华,男,1982 年生,讲师,博 士,主要研究方向为模糊决策、人工智 能。先后主持山西省哲学社会科学 1 项,山西财经大学校青年基金项目 1 项,山西财经大学专项基金一项;参 与国家自然科学基金 3 项,国家自然 科学基金和高等学校博士学科点专项 科研基金资助课题 1 项,北京市哲学社会科学规划项目 1 项,广东省软科学项目 1 项,广东省自然科学基金项目 1 项,广东省哲学社科十二五规划项目 1 项,广东省教育厅 科技创新项目 1 项,广州市哲学社科十二五规划项目 1 项。 发表学术论文 15 余篇。 李春华,女,1988 年生,硕士研究 生,主要研究方向为模糊决策、环境与 资源保护法。近 3 年参与国家自然科 学基金 1 项,国家社会科学基金 1 项, 山西省哲学社会科学 1 项,发表学术 论文 5 篇。 张强,1955 年生,教授,博士生导 师,主要研究方向为管理决策、对策 论 (博弈论)、模糊集理论与应用、非可 加测度论、物流与供应链管理、智能算 法、城市交通网络平衡分析。先后主 持与参加科研项目 10 项,其中国家自 然科学基金项目 6 项,发表学术论文 400 余篇,其中 80 篇被 SCI 检索,40 篇被 EI 检索。 第 6 期 曲国华,等:因素空间中属性约简的区分函数 ·893·