因素空间理论：机制主义人工智能理论的数学基础（辽宁工程技术大学：汪培庄）

团购合买资源类别：文库，文档格式：PDF，文档页数：18，文件大小：1.28MB

第13卷第1期智能系统学报 Vol.13 No.I 2018年2月 CAAI Transactions on Intelligent Systems Feb.2018 D0L:10.11992/tis.201711034 因素空间理论机制主义人工智能理论的数学基础汪培庄 (辽宁工程技术大学智能工程与数学研究院，辽宁阜新，123000) 摘要：机制主义人工智能理论是基于智能的生长机制而把结构主义、功能主义和行为主义这三大人工智能流派有机统一起来并使基础意识、情感、理智成为三位一体的高等人工智能理论。因素空间是机制主义人工智能理论的数学基础，是现有模糊集、粗糙集和形式背景理论的进一步提升，它为信息描述提供了一个普适性的坐标框架，把数据变成可视的样本点，形成母体背景分布，压缩为背景基.由此进行概念自动生成.因果关联分析，以及建立在其上的学习、预测、识别、控制、评价和决策等一系列数学操作活动。本文将着重介绍其中的核心内容，将具体的形式信息（即语法信息)与效用信息（即语用信息）关联起来，提升为抽象的语义信息，为机制主义人工智能的信息转化第一定律提供一个简明的数学架构。本文以“九宫棋”为例，介绍如何用因素思维实现目标因素与场景因素的对接和搜索，为信息转化的第二定律从数学上展开探索性的思考；还结合因素空间及有关学科的历史来进行解说，以便帮助读者对因素空间理论有一个较为全面的认识。关键词：机制主义人工智能理论；因素空间理论：形式概念分析；粗糙集；模糊集；模糊落影理论；背景关系；数据挖掘中图分类号：TP18文献标志码：A文章编号：1673-4785(2018)01-0037-18 中文引用格式：汪培庄.因素空间理论一机制主义人工智能理论的数学基础J.智能系统学报，2018,131)：37-54。英文引用格式：VANG Peizhuang.Factor space-.mathematical basis of mechanism based artificial intelligence theoryJ].CAAl transactions on intelligent systems,2018,13(1):37-54. Factor space-mathematical basis of mechanism based artificial intelligence theory WANG Peizhuang (College of Intelligence Engineering and Mathematics,Liaoning Technical University,Fuxin 123000,China) Abstract:Based on using the intelligent growth mechanism,the mechanism-based artificial intelligence theory organic- ally unifies the structure,function,and behaviorism of three genres to form a trinity of consciousness,emotion,and reas- on.Factor space is the mathematical basis of mechanism-based artificial intelligence theory,which promotes mathemat- ical branches such as formal concept analysis,rough sets,and fuzzy sets,and provides a universal coordinate frame- work for the description and cognition of things.Data can be represented as visual sampling points in the space and then be cultivated to form the population distribution of the background relation.Based on their relationship,concept genera- tion and causality analysis can be performed automatically,and all rational thinking processes,such as prediction,identi- fication,control,evaluation and decision making,can be performed by factorial algorithms.In this article,we focus on ways to describe formal information(i.e.,grammatical information),predict utility information(i.e.,pragmatic informa- tion)from formal information,and correlate them to generate abstract semantic information,which is helpful for math- ematically describing the first established law of information transformation in mechanism-based artificial intelligence theory.We also use factor space theory in chess Tic-Tac-Toe to demonstrate how to dock the target and chess factors, which may provide a clue for how to mathematically describe the second law of information transformation.We also provide a brief history to help readers gain a more comprehensive understanding of the factor space theory. Keywords:mechanism-based artificial intelligence theory;factor space theory;formal concept analysis;rough sets; fuzzy sets;falling shadow theory;background relation;datamining 收稿日期：2017-11-28. 一场重大的科技革命必以一门新学科作为标基金项目：国家自然科学基金委主任基金(61350003)，教育部高校博士学科点专项科研基金资助项目(20102121110002)：志，这门新学科又必须以一支新数学作为支撑。工辽宁省教育厅科学技术研究一般基金资助项目L2014133) 通信作者：汪培庄.E-mail:peizhuangw(@126.com. 业革命以牛顿力学为标志学科，以微积分作为数学

DOI: 10.11992/tis.201711034 因素空间理论——机制主义人工智能理论的数学基础汪培庄（辽宁工程技术大学智能工程与数学研究院，辽宁阜新，123000）摘要：机制主义人工智能理论是基于智能的生长机制而把结构主义、功能主义和行为主义这三大人工智能流派有机统一起来并使基础意识、情感、理智成为三位一体的高等人工智能理论。因素空间是机制主义人工智能理论的数学基础，是现有模糊集、粗糙集和形式背景理论的进一步提升，它为信息描述提供了一个普适性的坐标框架，把数据变成可视的样本点，形成母体背景分布，压缩为背景基，由此进行概念自动生成，因果关联分析，以及建立在其上的学习、预测、识别、控制、评价和决策等一系列数学操作活动。本文将着重介绍其中的核心内容，将具体的形式信息 (即语法信息) 与效用信息 (即语用信息) 关联起来，提升为抽象的语义信息，为机制主义人工智能的信息转化第一定律提供一个简明的数学架构。本文以“九宫棋”为例，介绍如何用因素思维实现目标因素与场景因素的对接和搜索，为信息转化的第二定律从数学上展开探索性的思考；还结合因素空间及有关学科的历史来进行解说，以便帮助读者对因素空间理论有一个较为全面的认识。关键词：机制主义人工智能理论；因素空间理论；形式概念分析；粗糙集；模糊集；模糊落影理论；背景关系；数据挖掘中图分类号：TP18 文献标志码：A 文章编号：1673−4785(2018)01−0037−18 中文引用格式：汪培庄. 因素空间理论——机制主义人工智能理论的数学基础[J]. 智能系统学报, 2018, 13(1): 37–54. 英文引用格式：WANG Peizhuang. Factor space-mathematical basis of mechanism based artificial intelligence theory[J]. CAAI transactions on intelligent systems, 2018, 13(1): 37–54. Factor space-mathematical basis of mechanism based artificial intelligence theory WANG Peizhuang (College of Intelligence Engineering and Mathematics, Liaoning Technical University, Fuxin 123000, China) Abstract: Based on using the intelligent growth mechanism, the mechanism-based artificial intelligence theory organically unifies the structure, function, and behaviorism of three genres to form a trinity of consciousness, emotion, and reason. Factor space is the mathematical basis of mechanism-based artificial intelligence theory, which promotes mathematical branches such as formal concept analysis, rough sets, and fuzzy sets, and provides a universal coordinate framework for the description and cognition of things. Data can be represented as visual sampling points in the space and then be cultivated to form the population distribution of the background relation. Based on their relationship, concept generation and causality analysis can be performed automatically, and all rational thinking processes, such as prediction, identification, control, evaluation and decision making, can be performed by factorial algorithms. In this article, we focus on ways to describe formal information (i.e., grammatical information), predict utility information (i.e., pragmatic information) from formal information, and correlate them to generate abstract semantic information, which is helpful for mathematically describing the first established law of information transformation in mechanism-based artificial intelligence theory. We also use factor space theory in chess Tic-Tac-Toe to demonstrate how to dock the target and chess factors, which may provide a clue for how to mathematically describe the second law of information transformation. We also provide a brief history to help readers gain a more comprehensive understanding of the factor space theory. Keywords: mechanism-based artificial intelligence theory; factor space theory; formal concept analysis; rough sets; fuzzy sets; falling shadow theory; background relation; datamining 一场重大的科技革命必以一门新学科作为标志，这门新学科又必须以一支新数学作为支撑。工业革命以牛顿力学为标志学科，以微积分作为数学收稿日期：2017−11−28. 基金项目：国家自然科学基金委主任基金 (61350003); 教育部高校博士学科点专项科研基金资助项目 (20102121110002); 辽宁省教育厅科学技术研究一般基金资助项目 (L2014133). 通信作者：汪培庄. E-mail：peizhuangw@126.com. 第 13 卷第 1 期智能系统学报 Vol.13 No.1 2018 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2018

·38 智能系统学报第13卷支撑。信息革命以信息科学作为标志，机制主义人量对粮食收成来说是多么重要的一个因素，遇到少工智能理论是把结构主义、功能主义和行为主义雨就要考虑防旱。从原因到因素是人在认识上的一这三大流派有机统一起来的以柔性逻辑包容的通种升华。只有掌握因素才能找到原因，看透原因。用人工智能理论，是信息科学的重要发展。那么，因素是比属性高一个层次的东西，它是属性的统什么是信息科学的数学支撑呢？本文对此问题的领，是属性之名。事物都是质与量的统一，属性是回答是，因素空间是机制主义人工智能理论的数学质表，因素是质根。属性被动描写事物，因素则具基础，它是为迎接人工智能的深刻革命而作的数学有启发的特质，在信息科学和人工智能的数学描述准备。中，因素是一个特别关键的词。只有强调质根，才信息科学与物质科学的根本差别是有没有认识能找到事物和认识的成因。哲学家早已对属性下过主体的参与。客体是离开认识主体的存在，认识主定义，但至今仍忽视质根。属性像是珍珠，质根是体按其目标需求从客体信息提取语义信息，再将语串联珍珠的线头。线头一断，珍珠就洒满遍地，搜义信息转化为知识，提高智能，改造主、客观世界，索起来格外困难。人脑是信息提取的优化结构，人这就是信息科学的主要内容。因素是信息提取的导脑的感觉细胞是按特征（即因素）来组织的：生命科向标，是信息向知识转化的分析与融合器。信息生学中所诞生的基因就是生命的质根。基因最早的英态的机制就是要以因素为导向，首先关注客体的形文名称是Factor,因素就是广义的基因。信息革命式与效用这两个方面。用目标需求从后往前倒逼，需要将打开生命之门的这把钥匙引向信息之门，哲用储备的知识从前往后疏通，这样前后夹逼，所得理指明了因素空间乃是信息科学和人工智能对数学到的语义信息就是形式与效用相统一的全信息。客的期望之所在。体的状态千变万化，必须用因素来进行分析与综 1.1因素与因素空间的数学定义合，例如形状、大小、颜色、质量等，统称为状态因在数学上，因素被定义成映射，更具体一点地素，状态因素使人形成对事物外形的知觉。事物的说，因素是一种性状映射，它把事物映射成它们的内在属性也要用因素来梳理，杯子可以是日常饮具性状。或者是保健食品容器，也可能是供人鉴赏的艺术定义10设U是所要讨论的一类事物的集合，品，不同的目标需求按效用来观察事物的内在属叫作论域。一个定义在论域U上的映射fU→X() 性，属性因素揭示事物的内在效用。状态因素与属叫作U上的一个因素，其中()是映射f所映照出性因素之间的结合衍生出特定的概念；因素之间的来的事物性状的集合，叫作f的性状空间。相互关联决定事物的因果，提供逻辑推理以进行决性状有两种类型，一种是连续的实数值，例如，策。基于因素空间理论所建立的数据库以培植数据因素身高可表示为特定的人群U上的一个映射∫= 的方式来实现数据生态与知识生态之间的同构，用 U→[10,250](cm),它把张三映射成实数185cm,把因素来组织数据，运用知识把传统的搜索技术提到李四映射成175cm这样的性状空间叫作定量的一个新的高度，这些都是机制主义人工智能所需要性状空间，此时的因素就是我们过去所熟悉的变的数学理论和方法。量，变量是一种特殊的因素，因素就是变量的推广。定量性状空间是欧氏空间中的一个超矩形 1因素空间的基本框架 (n=1或n>1),n叫作性状空间的维数。因素身高还可以有另外一种形式的性状空间：X(身高)={高，中，什么是因素？按字面来理解，因字既言本事物低}，它把张三映射成高个子，把李四映射成中等个之所以是，亦言它事物之所以生。前者讲事物构子这是离散的用自然语言描述的性状，这种性状成，后者讲因果关联。因素非因，乃因之素。雨量空间叫作定性的性状空间。性状都是按因素成串地充沛是丰收的一个原因，但它不是因素。因素是降呈现，世界上没有单一的性状，性状的数目m叫作雨量，由它统领“洪涝”、“雨量充沛”、“雨量欠缺”和相数，m必须大于1。单一的特征用来识别时都是二 “干旱”等性状。因素通过变化来显示其影响。如果相，例如，脸上长痣是一种特征，但在识别过程中注降雨量的变化不能改变丰收这一结果的话，那么雨意的焦点不是去描述痣的特性而是要区别“有痣”和量充沛就不是丰收的原因；降雨量之所以对古代农 “无痣”，仍是二相映射。为了方便，我们将特征称为业那么重要，是因为它的变化既可以使大众喜迎丰二相因素，但在这样称呼时必须声明：特征本来指收，也可以使遍地颗粒无收，这才使人们知道降雨的是痣，是一个属性，若把它视为因素，则它就不再

支撑。信息革命以信息科学作为标志，机制主义人工智能理论[1-2]是把结构主义、功能主义和行为主义这三大流派有机统一起来的以柔性逻辑[3]包容的通用人工智能理论，是信息科学的重要发展。那么，什么是信息科学的数学支撑呢？本文对此问题的回答是，因素空间是机制主义人工智能理论的数学基础, 它是为迎接人工智能的深刻革命而作的数学准备。信息科学与物质科学的根本差别是有没有认识主体的参与。客体是离开认识主体的存在，认识主体按其目标需求从客体信息提取语义信息，再将语义信息转化为知识，提高智能，改造主、客观世界，这就是信息科学的主要内容。因素是信息提取的导向标，是信息向知识转化的分析与融合器。信息生态的机制就是要以因素为导向，首先关注客体的形式与效用这两个方面。用目标需求从后往前倒逼，用储备的知识从前往后疏通，这样前后夹逼，所得到的语义信息就是形式与效用相统一的全信息。客体的状态千变万化，必须用因素来进行分析与综合，例如形状、大小、颜色、质量等，统称为状态因素，状态因素使人形成对事物外形的知觉。事物的内在属性也要用因素来梳理，杯子可以是日常饮具或者是保健食品容器，也可能是供人鉴赏的艺术品，不同的目标需求按效用来观察事物的内在属性，属性因素揭示事物的内在效用。状态因素与属性因素之间的结合衍生出特定的概念；因素之间的相互关联决定事物的因果，提供逻辑推理以进行决策。基于因素空间理论所建立的数据库以培植数据的方式来实现数据生态与知识生态之间的同构，用因素来组织数据，运用知识把传统的搜索技术提到一个新的高度，这些都是机制主义人工智能所需要的数学理论和方法。 1 因素空间的基本框架什么是因素？按字面来理解，因字既言本事物之所以是，亦言它事物之所以生。前者讲事物构成，后者讲因果关联。因素非因，乃因之素。雨量充沛是丰收的一个原因，但它不是因素。因素是降雨量，由它统领“洪涝”、“雨量充沛”、“雨量欠缺”和 “干旱”等性状。因素通过变化来显示其影响。如果降雨量的变化不能改变丰收这一结果的话，那么雨量充沛就不是丰收的原因；降雨量之所以对古代农业那么重要，是因为它的变化既可以使大众喜迎丰收，也可以使遍地颗粒无收，这才使人们知道降雨量对粮食收成来说是多么重要的一个因素，遇到少雨就要考虑防旱。从原因到因素是人在认识上的一种升华。只有掌握因素才能找到原因，看透原因。因素是比属性高一个层次的东西，它是属性的统领，是属性之名。事物都是质与量的统一，属性是质表，因素是质根。属性被动描写事物，因素则具有启发的特质，在信息科学和人工智能的数学描述中，因素是一个特别关键的词。只有强调质根，才能找到事物和认识的成因。哲学家早已对属性下过定义，但至今仍忽视质根。属性像是珍珠，质根是串联珍珠的线头。线头一断，珍珠就洒满遍地，搜索起来格外困难。人脑是信息提取的优化结构，人脑的感觉细胞是按特征 (即因素) 来组织的；生命科学中所诞生的基因就是生命的质根。基因最早的英文名称是 Factor，因素就是广义的基因。信息革命需要将打开生命之门的这把钥匙引向信息之门，哲理指明了因素空间乃是信息科学和人工智能对数学的期望之所在。 1.1 因素与因素空间的数学定义在数学上，因素被定义成映射，更具体一点地说，因素是一种性状映射，它把事物映射成它们的性状。定义 1 [4] 设 U 是所要讨论的一类事物的集合，叫作论域。一个定义在论域 U 上的映射 f: U→X(f) 叫作 U 上的一个因素，其中 X(f) 是映射 f 所映照出来的事物性状的集合，叫作 f 的性状空间。 U → [10,250] ··· R n n = 1 n > 1 ··· m 性状有两种类型，一种是连续的实数值，例如，因素身高可表示为特定的人群 U 上的一个映射 f = (cm)，它把张三映射成实数 185 cm，把李四映射成 175 cm 这样的性状空间叫作定量的性状空间，此时的因素就是我们过去所熟悉的变量，变量是一种特殊的因素，因素就是变量的推广。定量性状空间是欧氏空间中的一个超矩形 ( 或 )，n 叫作性状空间的维数。因素身高还可以有另外一种形式的性状空间：X(身高)={高，中，低}，它把张三映射成高个子，把李四映射成中等个子这是离散的用自然语言描述的性状，这种性状空间叫作定性的性状空间。性状都是按因素成串地呈现，世界上没有单一的性状，性状的数目 m 叫作相数，必须大于 1。单一的特征用来识别时都是二相，例如，脸上长痣是一种特征，但在识别过程中注意的焦点不是去描述痣的特性而是要区别“有痣”和 “无痣”，仍是二相映射。为了方便，我们将特征称为二相因素，但在这样称呼时必须声明：特征本来指的是痣，是一个属性，若把它视为因素，则它就不再 ·38· 智能系统学报第 13 卷

第1期汪培庄：因素空间理论一机制主义人工智能理论的数学基础 ·39· 是一个属性而是一个二相映射了。因素与属性是不因素0。一组因素称为两两不可约，如果两两之交同层次的东西，前者统帅后者。当然，同一个词在为0。不难证明P(F)=(P(F):u,n)形成一个因素不同的场合中可以从属性变为因素，也可以从因素格，这个因素格可以由偏序集（℉，）按下述方式形成：变为属性。 FUG=Sup (F,G),FnG=Inf(F,G)(2) 只取定量性状空间的因素叫作定量因素，只取 F=ufu...Uf是在所定义的系统中最大的定性性状空间的因素叫作定性因素。这样称呼仅仅因素，叫作全因素。由此还可以定义余运算。F的是为了叙述的方便。严格来说，定性与定量是一对性状空间是那些不被F所包含的元性状空间的乘普遍矛盾，它们对立统一地寓于事物之中，相互转积。不难证明P(F)=(P(F),U,n,)形成一个因素布化，因素既可以定性，也可以定量，我们对任何因素尔代数。都同时预备着定性与定量两种性状空间，以备相互定义4记Xr=(X(F)hrE,称中=(UX)为转换。在同时出现两种性状空间的时候，我们用 U上的一个因素空间。F*中的因素称为原始因素， XfD来表示定量性状空间。要将X()中的性状转化 P(F)中的其他因素称为合成因素，记X=X(f)× 为X()上的模糊或非模糊子集。这些事情要靠模糊 X()X…×X(f),叫作总性状空间。对于定性性集和直觉模糊集等学科来完成。这种工作涉及坐标状空间而言，任意a=(a1,2,…,an)eX叫作一个性状框架的标定，对于因素空间来说至关重要。颗粒。定性映射决定论域的划分。设f是定义在论域这个定义在以前一直引用的文献[5]的基础上 U上的一个因素，按这个因素的性状在论域U中定做了简化。义了一个等价关系~：对任意u,veU,u~v当且仅当所有笛卡尔空间，例如力学的运动空间、控制论的状态空间、模式识别的特征空间等，都是性状 f(a)=f(w)。一个等价关系决定U中对象的一个分类，记对象u所在的类为[叫={v∈Uf(w)=f(m}。空间。它们都可作为因素空间的特例，因素空间是定义2记Hf,U)={u∈U),我们将它称为笛卡尔空间的推广。如图1所示，任何事物都可以 f对U的划分。像张三这样地被映射成为性状空间中的一个点，因因素有简单与复杂之分，所谓f对U比g对U的素空间为一般事物的描述提供了普适性的数学框划分更细（记作Hf,U1H(g,U)是指：任给一个由架。一群对象被映射成为性状空间中的样本点集。 g所分出的类[叫，必有f所分出的类[y使[vs[四。要对这群对象分类，就必须将它们投射到因素性状定义3设f,g是定义在U上的两个因素，如果空间中来进行分割。 H(f,U)}H(g,U),则称因素f比g复杂，记作f≥g。反年龄之，则称因素f比g简单，记作f≤g。体重不难证明，任给U上的一个因素集F,(F,)形成性一个偏序集。给定U上的一组因素f:U→X(f) (j=1,2,…,,由它们所构成的集合F·={f,五，…，f 称为元因素集。对F的任意子集{f仙，f2,…,f,可以定义一个U上的合成因素F:U→X(F),其状态图1张三被映射为因素空间中的一个点空间是 Fig.1 Mapping Zhang San mapped to a point in the factor X(F)=X(f)xX(f2)×…×X(fe) (1) space 记此因素的合成运算为F=fa ufU...Uf仙。式 1.2背景关系与背景分布 (1)的意思是：合成因素的性状空间被定义成其所含定义5】给定U上的定性因素空间元空间的笛卡尔乘积。对于任意两个合成因素，我中=(U,Xr),对任意a=(a1,a2,…,an)eX,记其在们可以定义它们的二次合成，其性状空间被定义成 U上的原相为两组元的并集中诸元的性状空间的乘积。如此可以 [a]=F-(a)=(uEU F(u)=a) (3) 在F的幂集中定义因素之间的任意多次合成运算 [a可能是空集φ，若[a]≠中，则称a是一个实性 U。类似地，用两组元的交集中诸元性状空间的乘状颗粒，否则称α是一个虚组态。全体实性状的集积可以定义因素之间的另外一种运算，叫作分解合记为运算。分解运算可以直观地理解为提取两因素的最 R=F(U0={a=(a1,a2,…,an)∈X3u∈U; (4) 大子公因素。分解两个不含公共元的因素，可得零 fi(u)=a1,a2,…,fn(4)=an}

是一个属性而是一个二相映射了。因素与属性是不同层次的东西，前者统帅后者。当然，同一个词在不同的场合中可以从属性变为因素，也可以从因素变为属性。 X (f) X (f) X (f) 只取定量性状空间的因素叫作定量因素，只取定性性状空间的因素叫作定性因素。这样称呼仅仅是为了叙述的方便。严格来说，定性与定量是一对普遍矛盾，它们对立统一地寓于事物之中，相互转化，因素既可以定性，也可以定量，我们对任何因素都同时预备着定性与定量两种性状空间，以备相互转换。在同时出现两种性状空间的时候，我们用来表示定量性状空间。要将中的性状转化为上的模糊或非模糊子集。这些事情要靠模糊集和直觉模糊集等学科来完成。这种工作涉及坐标框架的标定，对于因素空间来说至关重要。 f U U u, v ∈ U u ∼ v f (u) = f (v) U [u]f = {v ∈ U | f (v) = f (u)} 定性映射决定论域的划分。设是定义在论域上的一个因素，按这个因素的性状在论域中定义了一个等价关系~：对任意，当且仅当。一个等价关系决定中对象的一个分类，记对象 u 所在的类为。 H (f,U) = {[u]|u ∈ U } f 定义 2 记，我们将它称为对 U 的划分。 f U g U H (f,U)}H (g,U) g [u]g f [ν]f [v]f ⊆ [u]g 因素有简单与复杂之分，所谓对比对的划分更细 (记作 ) 是指：任给一个由所分出的类，必有所分出的类使。 f g U H (f,U)}H (g,U) f g f ⩾ g f g f ⩽ g 定义 3 设，是定义在上的两个因素，如果，则称因素比复杂，记作。反之，则称因素比简单，记作。 U F ∗ ,(F ∗ ,}) fj : U → X ( fj ) (j = 1,2,··· ,n) F ∗ = {f1, f2,··· , fn} { f(1) , f(2) ,··· , f(k) } F : U → X (F) 不难证明，任给上的一个因素集形成一个偏序集。给定 U 上的一组因素，由它们所构成的集合称为元因素集。对 F *的任意子集，可以定义一个 U 上的合成因素，其状态空间是 X (F) = X ( f(1) ) × X ( f(2) ) × ··· × X ( f(k) ) (1) F = f(1) ∪ f(2) ∪ ··· ∪ f(k) F ∗ ∪ ∩ 记此因素的合成运算为。式 (1) 的意思是：合成因素的性状空间被定义成其所含元空间的笛卡尔乘积。对于任意两个合成因素，我们可以定义它们的二次合成，其性状空间被定义成两组元的并集中诸元的性状空间的乘积。如此可以在的幂集中定义因素之间的任意多次合成运算。类似地，用两组元的交集中诸元性状空间的乘积可以定义因素之间的另外一种运算，叫作分解运算。分解运算可以直观地理解为提取两因素的最大子公因素。分解两个不含公共元的因素，可得零 P(F ∗ ) = (P(F ∗ );∪,∩) (F ∗ ,}) 因素 0。一组因素称为两两不可约，如果两两之交为 0。不难证明形成一个因素格，这个因素格可以由偏序集按下述方式形成： F ∪G = Sup{F, G}, F ∩G = Inf{F, G} (2) F ∗ = f1 ∪ f2 ∪ ··· ∪ fn F c P(F ∗ ) = (P(F ∗ ),∪,∩, c ) 是在所定义的系统中最大的因素，叫作全因素。由此还可以定义余运算c。的性状空间是那些不被 F 所包含的元性状空间的乘积。不难证明形成一个因素布尔代数。 XF∗ = {X (F)}F∈P(F∗ ) ϕ = (U, XF∗ ) P(F ∗ ) X = X (f1)× X (f2)× ··· × X (fn) a = (a1,a2,··· ,an) ∈ X 定义 4 记，称为 U 上的一个因素空间。F*中的因素称为原始因素，中的其他因素称为合成因素，记，叫作总性状空间。对于定性性状空间而言，任意叫作一个性状颗粒。这个定义在以前一直引用的文献[5]的基础上做了简化。所有笛卡尔空间，例如力学的运动空间、控制论的状态空间、模式识别的特征空间等，都是性状空间。它们都可作为因素空间的特例，因素空间是笛卡尔空间的推广。如图 1 所示，任何事物都可以像张三这样地被映射成为性状空间中的一个点，因素空间为一般事物的描述提供了普适性的数学框架。一群对象被映射成为性状空间中的样本点集。要对这群对象分类，就必须将它们投射到因素性状空间中来进行分割。 ݗᕓ 䏗倄 Ꭰ咰喋ᑌ̵喌 ⩣ ѿ䛹 1.75 25 66 图 1 张三被映射为因素空间中的一个点 Fig. 1 Mapping Zhang San mapped to a point in the factor space 1.2 背景关系与背景分布 ϕ = (U,XF∗) a = (a1,a2,··· ,an) ∈ X 定义 5 [ 4 ] 给定 U 上的定性因素空间，对任意，记其在 U 上的原相为 [a] = F −1 (a) = {u ∈ U |F (u) = a} (3) [a] 可能是空集 ϕ ，若 [a] , ϕ ，则称 a 是一个实性状颗粒，否则称 a 是一个虚组态。全体实性状的集合记为 R = F (U) = {a = (a1,a2,··· ,an) ∈ X|∃u ∈ U; f1 (u) = a1,a2,··· , fn (u) = an} (4) 第 1 期汪培庄：因素空间理论——机制主义人工智能理论的数学基础 ·39·

·40· 智能系统学报第13卷式中R叫作因素f,五，…，f之间的背景关系，也叫作 p(x)的支撑集R叫作因素元之间的背景集。亦即因素F的背景集。背景集是实际存在的笛卡尔乘 R=n{B∈BJsP(x)dr=1} (6) 积集。 13 因素数据库与背景基显然有，F是从H(U,F)到R的同构映射。数据工作者熟知信息系统和形式背景理论，它定义5多用于定性因素，其中的a是指性状颗们为数据建立了表格，为非数值信息找到了初步的粒。但定义5也可用于连续情形，此时α细化为一符号表示。因素空间理论正是它们的提升，为信息个实数点。系统建立坐标框架，把一张形式系统表可视化地变背景关系是因素空间的核心概念，下面会看到为因素性状空间的一组样本点，背景关系就成为它它既可以决定概念的自动生成，又可决定概念之间们的母体。背景关系是因素空间的形骸，塑造这个的一切推理，由它可以建立知识描述的确定性理论形骸的工具就是背景基。框架。但现实中的背景关系多带有不确定性。原因将按因素空间思想组织起来的数据叫作因素数有二：1)性状粒度往往过大，说一个人的性状容易，据库，主要的库表知叫作因素表，具表头=(x1,x2,…,x% 说一群人的性状就不确定了，存在着抽样的随机若把对象u去掉，以s=(1,2,…,x)为表头，则表中性；2)定性因素相的划分不明确，例如年龄这个因的每一行就是因素空间中的一个点，由于与对象割素，究竞怎样划分青年、中年和老年？存在着模糊断了联系，这个点就不再反映个人的隐私。性。为此，要引入背景分布和模糊背景关系的概定义8周记S={s:=(x,x2,…,x)i=1,2, 念，为了节省篇幅，本文只介绍背景分布。 m},叫作相样本或隐私样本。设论域U=(U,A,p)是一个概率场，中=(U,X.) 因素库中首先考虑样本怎样表现背景关系。很是定义在U上的一个因素空间。又设X=(X,B)是总明显的事实是，当样本逼近母体时，相样本就变成性状空间X上的一个可测结构。若所有F中的元背景关系。 f都是从U到X的可测映射，即对任B∈B,都有设S是相样本，始终有SSR;所有同表头相样本 f(B)={u∈Uf()∈B}∈A,则不难证明，所有因素的并就是背景关系： F∈P(F),包括F,都是从U到X的可测映射。 R=USS是相样本 (7) 定义6设论域U=(U,A,p)是一个概率场，只要表头相同，对相样本不断地求并，就可以中=(U,X)是定义在U上的一个因素空间，X=XB) 是总性状空间上的一个可测结构。若所有F中的元单调递增地逼近目标。同表头的相样本求并就是行的叠加。这个过程是可以并行处理的。因素库的目 f都是可测映射，记p=pr为p经过F在X上所诱导出来的概率，亦即对任意B∈B,都有p(B)=p(F-I(B), 标是要将数据培育成背景关系，形成认知包以产生那么p叫作因素F的背景分布。知识。要使这一思想得以实现，关键在于信息压缩。背景分布是背景关系的随机化。随机化后的因定义9若每个元性状空间Xf)都是有序集，素都可视为广义的随机变量，特别对定性因素而且背景关系R是X中的凸集，记R的所有顶点所成的言，因素可以叫作随机词。为了方便，我们常将因集为B=B(R)={PP是R的顶点}，叫作背景基。将素的记号改为随机变量的记号，甚至约定：F中的元 R换作样本S,记B的所有顶点所成的集为B(⑤)= 因素的替代符号是x(i=1,2,…,m:F={x,,,x, PP是S的顶点}，叫作样本背景基。 X(x)=X:。背景基可以生成背景关系，它是背景关系的无为了简便，我们以后讲可测因素空间就是指定信息损失的压缩，对因素库的实际应用具有重要的义6中所说的带有可测结构的因素空间而且所有元意义。无论数据多大，样本背景基的数量始终保持都是从U到x的随机变量。在低维度上。在网上吞吐数据时，每输人一个新的背景分布p是背景关系R的随机化。对定性因数据，都要判断它是否是样本背景基的内点，若是，素而言，不难证明，背景关系R就是背景分布的支则删除此数据，否则将它纳入样本背景基，此时，要撑，亦即逐一检验原有的基点，它若在新基点中变成内点， R={a∈Xp(a>O} (5) 则淘汰删除之。由此，可以将背景分布的概念推广到定量因素给定整值样本S,怎样判定谁是它的内点？记的情形。 O是S的中心（不一定是整值点），对于任意一点P,从定义7对定量因素而言，背景分布密度函数 P到O引一条射线PO

f1, f2,··· , fn F ∗ 式中 R 叫作因素之间的背景关系，也叫作因素的背景集。背景集是实际存在的笛卡尔乘积集。 F ∗ H (U,F ∗ 显然有，是从 ) 到 R 的同构映射。定义 5 多用于定性因素，其中的 a 是指性状颗粒。但定义 5 也可用于连续情形，此时 a 细化为一个实数点。背景关系是因素空间的核心概念，下面会看到它既可以决定概念的自动生成，又可决定概念之间的一切推理，由它可以建立知识描述的确定性理论框架。但现实中的背景关系多带有不确定性。原因有二：1) 性状粒度往往过大，说一个人的性状容易，说一群人的性状就不确定了，存在着抽样的随机性；2) 定性因素相的划分不明确，例如年龄这个因素，究竟怎样划分青年、中年和老年？存在着模糊性。为此，要引入背景分布和模糊背景关系的概念，为了节省篇幅，本文只介绍背景分布。 U = (U, A, p) ϕ = (U,XF∗) U X = (X,B) X F ∗ fj B ∈ B fj −1 (B) = { u ∈ U| fj(u) ∈ B } ∈ A F ∈ P(F ∗ ) F ∗ 设论域是一个概率场，是定义在上的一个因素空间。又设是总性状空间上的一个可测结构。若所有中的元都是从 U 到 X 的可测映射，即对任，都有，则不难证明，所有因素，包括，都是从 U 到 X 的可测映射。 U = (U, A, p) ϕ = (U,XF∗ ) U X = (X,B) F ∗ fj p = pF∗ p F ∗ X B ∈ B p(B) = p ( F ∗−1 (B) ) p F ∗ 定义 6 设论域是一个概率场，是定义在上的一个因素空间，是总性状空间上的一个可测结构。若所有中的元都是可测映射，记为经过在上所诱导出来的概率，亦即对任意，都有，那么叫作因素的背景分布。 F ∗ xi(i=1,2,···,n) F ∗ ={x1, x2,···, xn} X (xi) = Xi 背景分布是背景关系的随机化。随机化后的因素都可视为广义的随机变量，特别对定性因素而言，因素可以叫作随机词。为了方便，我们常将因素的记号改为随机变量的记号，甚至约定：中的元因素的替代符号是：，。 U X 为了简便，我们以后讲可测因素空间就是指定义 6 中所说的带有可测结构的因素空间而且所有元都是从到的随机变量。 p R R 背景分布是背景关系的随机化。对定性因素而言，不难证明，背景关系就是背景分布的支撑，亦即 R = {a ∈ X|p(a) > 0} (5) 由此，可以将背景分布的概念推广到定量因素的情形。定义 7 对定量因素而言，背景分布密度函数 p(x) 的支撑集 R 叫作因素元之间的背景集。亦即 R = ∩ { B ∈ B ∫ BP(x)dx = 1 } (6) 1.3 因素数据库与背景基数据工作者熟知信息系统和形式背景理论，它们为数据建立了表格，为非数值信息找到了初步的符号表示。因素空间理论正是它们的提升，为信息系统建立坐标框架，把一张形式系统表可视化地变为因素性状空间的一组样本点，背景关系就成为它们的母体。背景关系是因素空间的形骸，塑造这个形骸的工具就是背景基。 t = (u; x1, x2,··· , xk) u s = (x1, x2,··· , xk) 将按因素空间思想组织起来的数据叫作因素数据库，主要的库表叫作因素表，具表头。若把对象去掉，以为表头，则表中的每一行就是因素空间中的一个点，由于与对象割断了联系，这个点就不再反映个人的隐私。 S = {si = (x1i , x2i ,···, xki 定义 8 ; yi)|i = 1,2,···, [4] 记 m}，叫作相样本或隐私样本。因素库中首先考虑样本怎样表现背景关系。很明显的事实是，当样本逼近母体时，相样本就变成背景关系。设 S 是相样本，始终有 S ⊆ R ；所有同表头相样本的并就是背景关系： R = ∪ { S |S是相样本} (7) 只要表头相同，对相样本不断地求并，就可以单调递增地逼近目标。同表头的相样本求并就是行的叠加。这个过程是可以并行处理的。因素库的目标是要将数据培育成背景关系，形成认知包以产生知识。要使这一思想得以实现，关键在于信息压缩。 X ( fj ) R X R B = B(R) = { P|P是R的顶点} R S B B(S ) = { P|P是S的顶点} 定义 9 [4] 若每个元性状空间都是有序集，且背景关系是中的凸集，记的所有顶点所成的集为，叫作背景基。将换作样本，记的所有顶点所成的集为，叫作样本背景基。背景基可以生成背景关系，它是背景关系的无信息损失的压缩，对因素库的实际应用具有重要的意义。无论数据多大，样本背景基的数量始终保持在低维度上。在网上吞吐数据时，每输入一个新的数据，都要判断它是否是样本背景基的内点，若是，则删除此数据，否则将它纳入样本背景基，此时，要逐一检验原有的基点，它若在新基点中变成内点，则淘汰删除之。 S O S P P O PO 给定整值样本，怎样判定谁是它的内点？记是的中心 (不一定是整值点)，对于任意一点，从到引一条射线。 ·40· 智能系统学报第 13 卷

第1期汪培庄：因素空间理论一机制主义人工智能理论的数学基础 ·41· 夹角判别法P是s的一个内点当且仅当在德国数学家R.Wille所提出的形式概念分析(nor- S中存在一点Q,使射线PQ与射线PO形成钝角，亦 mal concept analysis)。在他以前，数学家们认为，即(Q-PO-P)0 O和属性集A,从它们之中分别取出一组对象E和一 (o-d.b-d0=(1.7,-1)(2,1)=2.4>0 (0-d,c-d0=(1.7,-1)3,-1)=6.1>0 组属性I,记f(E)={a∈Avo∈E:o具有属性a,它是都是非负，d不是S的内点。 E中对象共有属性所形成的集。记g()={o∈O (o-e,a-e)=(0.7,1)(-1,-1)=-1.7<0 yae上o具有属性a,它是I中属性共同依附的对象所一旦出现负数就是内点，e是S的内点。形成的集。如果f(E)=I且记g(0=E,则称配对 b=(4,5) a=(L,E)满足对合性，并称a是一个以I为内涵和以 E为外延的概念。他以科教电影《生物与水》的资料制作了1张形式背景表（见表1），其中有8类生物和9种属性： 5,3 a需要水，b在水中生活，c在陆地生活，d有叶绿素 e双子叶，f单子叶，g能运动，h有四肢，i哺乳。表 1以对象为行以属性为列，当且仅当第对象具有第 =(2,1) j属性在第行第j列的格子中出现符号“×”。为了检图2背景基内点的夹角判别法 Fig.2 The angle criterion for inner points of background 验对合性，他让我们先随意选1个对象，蚂蟥，即取 base E=(1,它具有属性a,b和g,即f(E)={a,b,g}=I。然这个判别法虽然是近似的，正有改进研究，但后再从这3个属性所在的列，找他们共同依附的对此方法却有应用价值。计算量很小，复杂度是象有蚂蟥、鱼和蛙，即g(0={1,2,3}=E,因E≠E, O(k)(n是因素个数，k是样本点个数)，能适应大数故E与1不满足对合性。继续往前，看这3个对象所据的需求。共有的属性是a、b和g,即f(E)={a,b,g}=I。于是， 1.4因素藤、因素神经网络与智联网 E与I满足对合性，这样我们便找到了一个对合配因素空间是一个概念划分单元，不同单元联结对，这就是水生动物的样本概念(anbng,{1,2,3)。起来形成因素藤。刘增良提出了因素神经网络，之所以称为样本概念是因为这概念是从表1生成的，表1只是一个样本，所生成的概念是否有效，要使因素空间理论和神经网络方法结合起来，把学习机制引入因素空间。因素藤又与因素神经网络相对看样本是否接近母体。像这样地搜索下去，最后找到了19个概念，按序生成一个概念体系，他称之为应，呈现新的活力。黄崇福提出了智联网，把因素概念格（见图3）。空间作为智联网的数学刻画工具，进一步上升到网络数学，具有比笔者更加广阔的视野和更加宏伟的表1科教电影“生物与水”的背景 Table 1 The background of science and education film 历史使命。 "biology and water" 因素空间是信息系统和形式背景理论的提升，能为客体提供一个可以存放其形式信息和效用信息序号 a b c D e fg h I 的坐标系统，把关系数据库中的数据变成可视的样 1 蚂蟥本点，它们的母体所形成的背景分布，乃是因素空 2 鱼间的形骸，塑造它的工具是背景基。 3 蛙 2形式概念的生成与基本概念半格的 4 杏提取 5 水草 6 芦苇 1982是不平凡的一年，在这一年中同时出现了 7 豆 3个数学分支，公开宣称以知识和智能作为自己的玉米数学研究对象。在这3个分支中，首先要介绍的是

P S S Q PQ PO (Q− P,O− P) 0 (o−d,b−d) = (1.7,−1)(2,1) = 2.4 > 0 (o−d, c−d) = (1.7,−1)(3,−1) = 6.1 > 0 都是非负，d 不是 S 的内点。 (o−e,a−e) = (0.7,1)(−1,−1) = −1.7 < 0 一旦出现负数就是内点，e 是 S 的内点。 b=(4, 5) d c=(5, 3) a=(2, 1) e o 图 2 背景基内点的夹角判别法 Fig. 2 The angle criterion for inner points of background base O(nk) n k 这个判别法虽然是近似的，正有改进研究，但此方法却有应用价值。计算量很小，复杂度是 ( 是因素个数，是样本点个数)，能适应大数据的需求。 1.4 因素藤、因素神经网络与智联网因素空间是一个概念划分单元，不同单元联结起来形成因素藤。刘增良[6]提出了因素神经网络，使因素空间理论和神经网络方法结合起来，把学习机制引入因素空间。因素藤又与因素神经网络相对应，呈现新的活力。黄崇福[7]提出了智联网，把因素空间作为智联网的数学刻画工具，进一步上升到网络数学，具有比笔者更加广阔的视野和更加宏伟的历史使命。因素空间是信息系统和形式背景理论的提升，能为客体提供一个可以存放其形式信息和效用信息的坐标系统，把关系数据库中的数据变成可视的样本点，它们的母体所形成的背景分布，乃是因素空间的形骸，塑造它的工具是背景基。 2 形式概念的生成与基本概念半格的提取 1982 是不平凡的一年，在这一年中同时出现了 3 个数学分支，公开宣称以知识和智能作为自己的数学研究对象。在这 3 个分支中，首先要介绍的是 O A E I f (E) = { a ∈ A|∀o ∈ E;o具有属性a } E g(I) = {o ∈ O| ∀a ∈ I;o具有属性a } I f (E) = I g(I) = E a = (I,E) a I E 德国数学家 R. Wille 所提出的形式概念分析 (normal concept analysis)[8]。在他以前，数学家们认为，任何概念的外延都是集合，而任何集合都是概念的外延。Wille 明确地对后一句话说不。他提出了内涵和外延的对合性准则，认为只有满足对合性，才能把一个集合视为一个概念的外延。给定对象集和属性集，从它们之中分别取出一组对象和一组属性，记 ,它是中对象共有属性所形成的集。记，它是中属性共同依附的对象所形成的集。如果且记，则称配对满足对合性，并称是一个以为内涵和以为外延的概念。 a b c d e f g h i i j i j E = {1} a b g f (E) = {a,b,g} = I g(I) = {1,2,3} = E ′ E ′ , E E I a b g f (E ′ ) = {a,b,g} = I E ′ I (a∧b∧g, {1,2,3}) 他以科教电影《生物与水》的资料制作了 1 张形式背景表 (见表 1)，其中有 8 类生物和 9 种属性：需要水，在水中生活，在陆地生活，有叶绿素，双子叶，单子叶，能运动，有四肢，哺乳。表 1 以对象为行以属性为列，当且仅当第对象具有第属性在第行第列的格子中出现符号“×”。为了检验对合性，他让我们先随意选 1 个对象，蚂蟥，即取，它具有属性，和，即。然后再从这 3 个属性所在的列，找他们共同依附的对象有蚂蟥、鱼和蛙，即，因，故与不满足对合性。继续往前，看这 3 个对象所共有的属性是、和，即。于是，与满足对合性，这样我们便找到了一个对合配对，这就是水生动物的样本概念。之所以称为样本概念是因为这概念是从表 1 生成的，表 1 只是一个样本，所生成的概念是否有效，要看样本是否接近母体。像这样地搜索下去，最后找到了 19 个概念，按序生成一个概念体系，他称之为概念格 (见图 3)。表 1 科教电影“生物与水”的背景 Table 1 The background of science and education film "biology and water" 序号 A a b c D e f g h I 1 蚂蟥 × × × 2 鱼 × × × × 3 蛙 × × × × × 4 狗 × × × × × 5 水草 × × × × 6 芦苇 × × × × × 7 豆 × × × × 8 玉米 × × × × 第 1 期汪培庄：因素空间理论——机制主义人工智能理论的数学基础 ·41·

·42· 智能系统学报第13卷在此，我们要介绍1982年由以Pawlak为代表 5678 的波兰学派所提出的粗糙集(rough sets)9。粗糙集 234 56789 明确地以数据库为研究对象，他们的学派也是 678 h568 KDD(数据知识发现)的倡导者。粗糙集把重点从 123 属性值转为属性名。用属性名列表，避免了Wille 68 23 的列表困难。所列的表叫作信息系统，称为关系数 abcgh 据库的库表。他们用数学描述知识，用内外夹逼的 DC 思想来刻画概念，提出了决策的一般模型。粗糙集是关系数据库的数学基础。图3“生物与水”的概念格图 Fig.3 The concept lattice of"biology and water" 形式概念分析虽然与粗糙集同年提出，但却隐需要强调两点：1)Wlle第一次给概念下了一个藏了十余年，后来才引起粗糙集学者们的广泛重严格的数学定义，强调了内涵与外延的对合性。内视。Wille的严谨性触动了粗糙集作者的粗犷风格，涵是使概念得到统一认识的语义信息，外延是检验曾在粗糙集文献中说过：划分就是知识。按此说信息传递是否符合客观实际的关口。若内涵与外延法，任一集合与其余集就是一个划分，就是知识，就不对合，信息传递就不可能可靠地反映客观现实，有概念，这集合就应当是某个概念的外延，这就直信息科学的根基便会动摇，所有的信息实践活动都接违反了Wille的对合性原则。在这一点上，粗糙将缺乏根据。2)自从他的论文发表以后，计算机就集是有缺点的。然而粗糙集突出了属性名，就是突开始自动生成概念，这是人工智能的一大飞跃。机出了因素，比起形式概念分析，是一个重大的进步，器早就可以证明定理，但机器却从未生成概念。定可惜的是，他们并没有把属性名提到因素的高度。理只能在已有的概念之间兜圈子，人的智能却能从粗糙集在人工智能的应用热点是属性约简，靠的是对比中产生新的概念，为定理制造新的猜想。区分矩阵，每一个矩阵方格中放置的是一组属性 Wile必定明白：我们不可能也不需要使机器像人脑名。由这个矩阵要造就一个区分函数，中间必须涉样真正地感知世界，但只要机器能机械地按他的及属性名的运算，可是，粗糙集没有定义属性名的算法构建概念体系，又能保证这个体系能随时回归运算，把它与属性值的逻辑运算混杂在一起，出现联通到人脑，就能帮助人类大大加速智力建设！因数学描述的漏洞，所提出的算法也过于繁杂，并没为，信息科学虽与脑学科紧密相连，但却有独立于有取得应用的实效。尽管存在着这些问题，粗糙集人脑的特色，其中存在着用数学可以描述的规律。仍取得了重要的发展o-切。概念体系无需全部浸泡在感知的海洋里，它可以有因素空间也在1982年由笔者提出，早期曾用间歇地脱离实际，脱离大脑，就像我们自己的知识于模糊智能的研究，直到2012年才与形式概念分析并非每一步都要亲眼见到或经过大脑（理解）及粗糙集合流。因素空间为概念生成提供了贴切的样。关键是，只有坚持内涵与外延的对合性，机器数学描述。人靠什么分男女？靠的是性别。靠什么自动生成的概念才能向人脑回归和联通。没有回归分中外？靠的是国籍。靠什么分老少？靠的是年联通人脑能力的机器概念体系所具有的功效和价值龄。性别、国籍和年龄都是因素。同一个人群按照为零。不同的因素可以做出不同的划分。它们又可以综合 Wille的工作缺陷在于：I)他的形式背景表以起来形成更细的划分。因素是概念的划分器，要讲属性来分列，制造了列表困难，由此导致他的算法概念，必须从因素讲起。概念产生于比较，比较发复杂。为了寻找对合的概念，从每一行或列开始搜现异同。但是世界上没有绝对的异，也没有绝对的索，再每两行或两列这样的搜索方式本身就是同，所谓异同都是相对于一定因素而言的。因素是指数爆炸的。他一整本书就是为了避免指数爆炸而比较的角度和依据。风马牛不相及的东西不能进行设立各种算法，但仍然无法摆脱N-hard陷阱。2) 比较，因为它们之间没有可比较的基础。因素就是 Wille所说的概念，都是属性的析取，只含“且”字而比较基。若f代表颜色，a和b是有颜色的两个东西，不含“或”字，这不是一般概念而是基本概念。对合我们便可以用“f(@)=f(b)?”来比较a和b在颜色方面性只对基本概念成立，带或字的概念是无法对合的异同。若g代表吸引力，a和b是有吸引力可言的两的。基本概念只能形成半格，所以，他说的概念格个东西，便可以用“g(a)=g(b)?”来比较a和b在吸引应该改为基本概念半格。力方面的异同。总之，比较离不开因素。一个因素

a ab 5678 ad adj 568 abdf abcdf 6 56 68 acdf 678 acd 12 356 123 45678 abc 36 acde abcdef ghi ac 34 678 abg 123 abgh 23 3 abcgh acghi acgh agh ag 1234 234 34 4 7 图 3 “生物与水”的‘概念格’图 Fig. 3 The concept lattice of "biology and water" 需要强调两点：1)Wille 第一次给概念下了一个严格的数学定义，强调了内涵与外延的对合性。内涵是使概念得到统一认识的语义信息，外延是检验信息传递是否符合客观实际的关口。若内涵与外延不对合，信息传递就不可能可靠地反映客观现实，信息科学的根基便会动摇，所有的信息实践活动都将缺乏根据。2) 自从他的论文发表以后，计算机就开始自动生成概念，这是人工智能的一大飞跃。机器早就可以证明定理，但机器却从未生成概念。定理只能在已有的概念之间兜圈子，人的智能却能从对比中产生新的概念，为定理制造新的猜想。 Wille 必定明白：我们不可能也不需要使机器像人脑一样真正地感知世界，但只要机器能机械地按他的算法构建概念体系，又能保证这个体系能随时回归联通到人脑，就能帮助人类大大加速智力建设！因为，信息科学虽与脑学科紧密相连，但却有独立于人脑的特色，其中存在着用数学可以描述的规律。概念体系无需全部浸泡在感知的海洋里，它可以有间歇地脱离实际，脱离大脑，就像我们自己的知识并非每一步都要亲眼见到或经过大脑 (理解) 一样。关键是，只有坚持内涵与外延的对合性，机器自动生成的概念才能向人脑回归和联通。没有回归联通人脑能力的机器概念体系所具有的功效和价值为零。 ······ Wille 的工作缺陷在于：1) 他的形式背景表以属性来分列，制造了列表困难，由此导致他的算法复杂。为了寻找对合的概念，从每一行或列开始搜索，再每两行或两列这样的搜索方式本身就是指数爆炸的。他一整本书就是为了避免指数爆炸而设立各种算法，但仍然无法摆脱 N-hard 陷阱。2) Wille 所说的概念，都是属性的析取，只含“且”字而不含“或”字，这不是一般概念而是基本概念。对合性只对基本概念成立，带或字的概念是无法对合的。基本概念只能形成半格，所以，他说的概念格应该改为基本概念半格。在此，我们要介绍 1982 年由以 Pawlak 为代表的波兰学派所提出的粗糙集 (rough sets)[9]。粗糙集明确地以数据库为研究对象，他们的学派也是 KDD(数据知识发现) 的倡导者。粗糙集把重点从属性值转为属性名。用属性名列表，避免了 Wille 的列表困难。所列的表叫作信息系统，称为关系数据库的库表。他们用数学描述知识，用内外夹逼的思想来刻画概念，提出了决策的一般模型。粗糙集是关系数据库的数学基础。形式概念分析虽然与粗糙集同年提出，但却隐藏了十余年，后来才引起粗糙集学者们的广泛重视。Wille 的严谨性触动了粗糙集作者的粗犷风格，曾在粗糙集文献中说过：划分就是知识。按此说法，任一集合与其余集就是一个划分，就是知识，就有概念，这集合就应当是某个概念的外延，这就直接违反了 Wille 的对合性原则。在这一点上，粗糙集是有缺点的。然而粗糙集突出了属性名，就是突出了因素，比起形式概念分析，是一个重大的进步，可惜的是，他们并没有把属性名提到因素的高度。粗糙集在人工智能的应用热点是属性约简，靠的是区分矩阵，每一个矩阵方格中放置的是一组属性名。由这个矩阵要造就一个区分函数，中间必须涉及属性名的运算，可是，粗糙集没有定义属性名的运算，把它与属性值的逻辑运算混杂在一起，出现数学描述的漏洞，所提出的算法也过于繁杂，并没有取得应用的实效。尽管存在着这些问题，粗糙集仍取得了重要的发展[10-11]。 f a b f (a) = f (b)? a b g a b g(a) = g(b)? a b 因素空间也在 1982 年由笔者提出[12] ，早期曾用于模糊智能的研究，直到 2012 年才与形式概念分析及粗糙集合流。因素空间为概念生成提供了贴切的数学描述。人靠什么分男女？靠的是性别。靠什么分中外？靠的是国籍。靠什么分老少？靠的是年龄。性别、国籍和年龄都是因素。同一个人群按照不同的因素可以做出不同的划分。它们又可以综合起来形成更细的划分。因素是概念的划分器，要讲概念，必须从因素讲起。概念产生于比较，比较发现异同。但是世界上没有绝对的异，也没有绝对的同，所谓异同都是相对于一定因素而言的。因素是比较的角度和依据。风马牛不相及的东西不能进行比较，因为它们之间没有可比较的基础。因素就是比较基。若代表颜色，和是有颜色的两个东西，我们便可以用“ ”来比较和在颜色方面的异同。若代表吸引力，和是有吸引力可言的两个东西，便可以用“ ”来比较和在吸引力方面的异同。总之，比较离不开因素。一个因素 ·42· 智能系统学报第 13 卷

第1期汪培庄：因素空间理论一机制主义人工智能理论的数学基础 ·43· 把事物从一个方面进行划分，多个因素把事物从多原子概念的提取是不需要计算的，只要背景关系知个方面进行划分。因素越多，对事物的划分就越道了，它的每一个性状颗粒就决定一个原子概念。细，概念产生得就越多。知识发展的生态就是概念由原子概念用“且”字连接起来，可以生成其他的不断分割过程。婴儿出世时只有零概念，其内涵的所有概念，形成布尔代数，这在计算机上就可实是零描述而外延是混沌一团的宇宙。生存需求的本现概念的自动生成，理论上极其简单。自动生成的能因素把母亲从万物中区分出来，在外延上进行分概念不是怕少而是怕多，设原子概念的个数是k,则割。人们形象地把外延称为概念的团粒。概念在何生成的概念个数就是2*。我们需要把概念的范围缩时不够用呢？就是目标需求的差异发生在一个概念小，非原子概念不一定满足对合性，其中满足对合团粒的内部，用这个概念无法区分差异，在这个时性的概念是哪些呢？候，认知的需求就要力求打破团粒，使之由粗变细，定义12内涵能表为合取范式的概念叫作基本概念。而相应的内涵便要在原概念（称为上位概念）的内所谓合取范式就是形如(a1Va2V…Va1)A… 涵上再增添新的划分内容。人类的知识大树这就是 A(an1Van2V…V ankiny)这样的式子，其中v与A分别代这样一步一步形成的。每一步都是上位概念的分表“或”与“且”。每个小括号都是析取式，最后都用割，都要靠因素。知识的图谱必须以因素作为导引。且字合起来。它们在因素的相空间中是拟超矩形新因素对上位概念团粒划分的贡献可以用分辨 (联通或不联通的超矩形)。原子概念都是基本概度来刻画，把U中任意两个不同的对象序列叫作一念。所有基本概念的集合对合取运算封闭，形成一个对子。能分辨的对子数目越多，分辨度就越大。个半格，叫作基本概念半格。Wile在图2中所画的定义10设H(U,F)=C-(4,M儿a2- 就是基本概念半格，只不过在最下面加了一个极限 d,=1-[n(1)(n(1)-1)+…+n(K)(n(K-1)]/m(m-1) 概念，它的外延是空集，内涵无限制。 (8) 定义13给定因素空间和背景关系。包含所叫作因素f对U中对象的分辨度。有原子概念的基本概念子半格叫作粒子半格。现在让我们回到前面所说的背景关系R。R是通过粒子半格的建立，能在给定因素下将上位性状空间X中所有原子内涵所成之集，它当然是描概念团粒细化到所有原子概念。在实际运用中，基写内涵的。外延是论域中的事情，但是由于F是从本概念半格中的概念还嫌多。粒子半格中不一定有 H(U,F)到R的同构映射。R又是论域的代表，所以背最小的半格，要找的是到达原子分割步数尽可能少景关系成了内涵与外延的重合体，这就使背景关系的粒子半格。下面是所要求的一种基本算法，其复 R是概念生成的双料调色板。杂度是0(m2n)。定义11给定定性因素空间(U,X(F),设R是基本算法1最短粒子半格算法町因素F={f,fi,…,f的背景关系，则对任意a∈R, 1)给定U,计算每个因素对U中对象的分辨称a=(a,[a)为原子概念，a和[a分别叫作概念a的度；原子内涵和原子外延；对任意ASR记[A]=U[aIa∈A, 2)选对U分辨度最大的因素∫来实现f对 T=y=(A,[A]DASR,称y=(A,[A])分别是以A,A]为 U的分类：置换对象足码即（行足码）使同类对象连内涵和外延的概念；称T=(C,V,A,)是由(U,X(F)所接在一起；生成的概念布尔代数。 3)用所分出的子类U取代U,重复步骤1)和 a和a都是原子，由于F是从H(U,F)到R的同构 2),直到所有的子类都变成粒子为止，总结出粒子映射，它们一定满足Wille的对合性。半格。这个定义告诉我们，对于定性因素空间而言，例2给定表2：表2成员状况因素表 Table 2 Member status factors 因素 1 2 3 4 5 6 78910111213141516171819 20 性别男男男男男男男男男男女女女女女女女女女女身高高高高高高中中中中中中中中中中低低低低低体重重重重常常常常常轻轻重重常常常常轻轻轻轻

把事物从一个方面进行划分，多个因素把事物从多个方面进行划分。因素越多，对事物的划分就越细，概念产生得就越多。知识发展的生态就是概念的不断分割过程。婴儿出世时只有零概念，其内涵是零描述而外延是混沌一团的宇宙。生存需求的本能因素把母亲从万物中区分出来，在外延上进行分割。人们形象地把外延称为概念的团粒。概念在何时不够用呢？就是目标需求的差异发生在一个概念团粒的内部，用这个概念无法区分差异，在这个时候，认知的需求就要力求打破团粒，使之由粗变细，而相应的内涵便要在原概念 (称为上位概念) 的内涵上再增添新的划分内容。人类的知识大树这就是这样一步一步形成的。每一步都是上位概念的分割，都要靠因素。知识的图谱必须以因素作为导引。 U 新因素对上位概念团粒划分的贡献可以用分辨度来刻画，把中任意两个不同的对象序列叫作一个对子。能分辨的对子数目越多，分辨度就越大。 H (U,F)= { Ck= ( uk,1 ,···,uk,n(k) )} 定义 (k=1,2,···,K) 10[4] 设 df = 1−[n(1)(n(1)−1)+···+n(K)(n(K)−1)]/m(m−1) (8) 叫作因素 f 对 U 中对象的分辨度。 R R X F H (U,F) R R R 现在让我们回到前面所说的背景关系。是性状空间中所有原子内涵所成之集，它当然是描写内涵的。外延是论域中的事情，但是由于是从到的同构映射。又是论域的代表，所以背景关系成了内涵与外延的重合体，这就使背景关系是概念生成的双料调色板。 (U,X (F)) R F ∗ = {f1, f2,··· , fn} a ∈ R a = (a, [a]) a [a] α A ⊆ R [A] = ∪{[a]|a ∈ A} Γ = {γ = (A,[A])|A ⊆ R} γ = (A,[A]) A,[A] Γ = (Γ,∨,∧,¬) (U,X (F)) 定义 11[4] 给定定性因素空间，设是因素的背景关系，则对任意，称为原子概念，和分别叫作概念的原子内涵和原子外延；对任意，记， ,称分别是以为内涵和外延的概念；称是由所生成的概念布尔代数。 a 和 [a] 都是原子，由于 F 是从 H (U,F) 到 R 的同构映射，它们一定满足 Wille 的对合性。这个定义告诉我们，对于定性因素空间而言，原子概念的提取是不需要计算的，只要背景关系知道了，它的每一个性状颗粒就决定一个原子概念。 k 2 k 由原子概念用“且”字连接起来，可以生成其他的所有概念，形成布尔代数，这在计算机上就可实现概念的自动生成，理论上极其简单。自动生成的概念不是怕少而是怕多，设原子概念的个数是，则生成的概念个数就是。我们需要把概念的范围缩小，非原子概念不一定满足对合性，其中满足对合性的概念是哪些呢？定义 12 内涵能表为合取范式的概念叫作基本概念。 (a11 ∨a12 ∨ ··· ∨a1k(1))∧ ··· ∧(an1 ∨an2 ∨ ··· ∨ank(n) ) ∨ ∧ 所谓合取范式就是形如这样的式子，其中与分别代表“或”与“且”。每个小括号都是析取式，最后都用且字合起来。它们在因素的相空间中是拟超矩形 (联通或不联通的超矩形)。原子概念都是基本概念。所有基本概念的集合对合取运算封闭，形成一个半格，叫作基本概念半格。Wille 在图 2 中所画的就是基本概念半格，只不过在最下面加了一个极限概念，它的外延是空集，内涵无限制。定义 13 给定因素空间和背景关系。包含所有原子概念的基本概念子半格叫作粒子半格。 O ( m 2n ) 通过粒子半格的建立，能在给定因素下将上位概念团粒细化到所有原子概念。在实际运用中，基本概念半格中的概念还嫌多。粒子半格中不一定有最小的半格，要找的是到达原子分割步数尽可能少的粒子半格。下面是所要求的一种基本算法，其复杂度是。基本算法 1 最短粒子半格算法[13] 1) 给定 U，计算每个因素对 U 中对象的分辨度； 2) 选对 U 分辨度最大的因素 f 来实现 f 对 U 的分类: 置换对象足码即（行足码）使同类对象连接在一起； 3) 用所分出的子类 U′取代 U, 重复步骤 1）和 2），直到所有的子类都变成粒子为止，总结出粒子半格。例 2 给定表 2：表 2 成员状况因素表 Table 2 Member status factors 因素 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 性别男男男男男男男男男男女女女女女女女女女女身高高高高高高中中中中中中中中中中低低低低低体重重重重常常常常常轻轻重重常常常常轻轻轻轻第 1 期汪培庄：因素空间理论——机制主义人工智能理论的数学基础 ·43·

·44 智能系统学报第13卷表2中由20个人组成的论域0={a,b,…,,在中重，{11,12})，6=（女中常，{13,14,15}），a=(女低 U上有3个因素的定性性状空间：常，{16})，g=(女低轻，{17,18,19,20) X(性别)={男，女}，X(身高)={高，中，低}，X《体由这8个原子概念任意取并，可以生成全部概重)={重，常，轻}，现在的问题是要生成概念布尔念。例子说明，从背景关系提取概念代数的方法是代数。直接方法，是自然对合的算法，是无需计算的算法。解将3个因素分别表示为f=性别，=身高，布尔代数中的概念并不都是对合的，例如：体重，则它们的性状空间的笛卡尔乘积为 Va=(男高重，{1,2,3})v(女中重，{11， X=X(f)×X(f)xX()={男高重，男高常，男 12}=(男高重或女中重，{1,2,3,11,12) 高轻，男中重，男中常，男中轻，男低重，男低常，男其内涵与外延不满足对合性，取并以后就不应低轻，女高重，女高常，女高轻，女中重，女中常，女该再谈对合。中轻，女低重，女低常，女低轻} 共有2°-9=247个非空的新概念，太多，需要寻 X被分成18个格子，去掉其中的虚组态，得到找基本概念，这时才需要基本算法1。 U上3个因素所形成的背景关系： 1)计算分辨度：m=14 R={男高重，男高常，男中常，男中轻，女中重， f无=性别，n(1)=10,n(2)=10, 女中常，女低常，女低轻到 c1=1-(10×9+10×9)/(20×19)= 共有8个原子内涵，这8个原子内涵将U分成 1-180/380=1-9/19=10/19 8块： f=身高，n(1)=5,n(2)=10,n(3)=5, [男高重]={1,2,3}，[男高常]={4,5}，[男中 C12=1-(5×4+10×9+5×4)/(20×19)= 1-130/380=25/38 常]={6,7,8)，[男中轻]={9,10}，[女中重]={11,12} 5=体重，n(1)=5,n(2)=9,n(3)=6, [女中常]={13,14,15}，[女低常]={16}，[女低 C3=1-(5×4+9×8+6×5)/(20×19)= 轻]={17,18,19,20} 1-112/380=268/380 于是，对合性地生成8个原子概念：有cf3>Cf2>Cf1o 1=(男高重，{1,2,3})，2=（男高常，{4,5}）， 2)按因（体重）进行足码置换，使对象按重 =(男中常，{6,7,8})，a4=(男中轻，{9,10})，=（女常、轻分类排列（见表3）。表3表2的变换 Table 3 Transformation of table 2 因素 1 2 311124 567813141516910 17181920 体重重重重重重常常常常常常常常常轻轻轻轻轻轻身高高高中高中高高中中中中中中低中中低低低低性别男男女男女男男男男男女女女女男男女女女女此时，对象已经按体重排好，得到分类：概念B1=(重，C),B2=(常，C2),B3=(轻，C3)。 U=C1{1,2,3,11,12+C2{4,5,6,7,8.13,14,15,16+ 3)再就因素（身高）逐类考察，看看该类对象 C3{9,10,17,18.19,201 是否按高、中、低分相排列。在C中，需要对对象各类分别与内涵重、常、轻对合，得到3个基本 k和c的位置进行置换，得到表4。表4表3的转换 Table 4 Transformation of table 3 因素 113 12 4 5 6781314 1516910 17181920 体重重重重重重常常常常常常常常常轻轻轻轻轻轻身高高高高中中高高中中中中中中低中中低低低低性别男男男女女男男男男女女女女男男男女女女女此时，C中的对象已经按身高排好，于是得到分两类分别与内涵“重高”和“重中”对合，得到两个类：C1=C1{1,2,11}+C23,120 基本概念B11=(重高，C),B12=(重中，C2)

U = {a,b,··· ,t} U 表 2 中由 20 个人组成的论域，在上有 3 个因素的定性性状空间： X (性别)={男，女}，X (身高)={高，中，低}，X(体重)={重，常，轻}，现在的问题是要生成概念布尔代数。 f1 f2 f3 解将 3 个因素分别表示为 =性别， =身高， =体重，则它们的性状空间的笛卡尔乘积为 X = X (f1)× X (f2)× X (f3) ={男高重，男高常，男高轻，男中重，男中常，男中轻，男低重，男低常，男低轻，女高重，女高常，女高轻，女中重，女中常，女中轻，女低重，女低常，女低轻} X U 被分成 18 个格子，去掉其中的虚组态，得到上 3 个因素所形成的背景关系： R = {男高重，男高常，男中常，男中轻，女中重，女中常，女低常，女低轻} 共有 8 个原子内涵，这 8 个原子内涵将 U 分成 8 块： [男高重]={1, 2, 3}, [男高常]={4, 5}, [男中常]={6, 7, 8}, [男中轻]={9, 10}, [女中重]={11, 12}, [女中常]={13, 14, 15}, [女低常]={16}, [女低轻]={17, 18, 19, 20} 于是，对合性地生成 8 个原子概念： α1 a2 α3 α4 α5 =(男高重, {1, 2, 3}), =(男高常, {4, 5}), =(男中常, {6, 7, 8}), =(男中轻, {9, 10}), =(女 α6 α7 α8 中重, {11, 12}), =(女中常, {13, 14, 15}), =(女低常, {16}), =(女低轻, {17, 18, 19, 20}) 由这 8 个原子概念任意取并，可以生成全部概念。例子说明，从背景关系提取概念代数的方法是直接方法，是自然对合的算法，是无需计算的算法。布尔代数中的概念并不都是对合的，例如： α1 ∨α5 = (男高重,{1, 2, 3}) ∨ (女中重, {11, 12})=(男高重或女中重, {1, 2, 3, 11, 12}) 其内涵与外延不满足对合性，取并以后就不应该再谈对合。共有 2 8 –9=247 个非空的新概念，太多，需要寻找基本概念，这时才需要基本算法 1。 1) 计算分辨度：m = 14 f1 = 性别, n(1) = 10, n(2) = 10, cf 1 = 1−(10×9+10×9)/ (20×19) = 1−180/380 = 1−9/19 = 10/19 f2 = 身高, n(1) = 5, n(2) = 10, n(3) = 5, cf 2 = 1−(5×4+10×9+5×4)/ (20×19) = 1−130/380 = 25/38 f3 = 体重, n(1) = 5, n(2) = 9, n(3) = 6, cf 3 = 1−(5×4+9×8+6×5)/ (20×19) = 1−112/380 = 268/380 cf 3 > cf 2 > cf 有 1。 2) 按因 f3(体重) 进行足码置换，使对象按重、常、轻分类排列 (见表 3)。表 3 表 2 的变换 Table 3 Transformation of table 2 因素 1 2 3 11 12 4 5 6 7 8 13 14 15 16 9 10 17 18 19 20 体重重重重重重常常常常常常常常常轻轻轻轻轻轻身高高高中高中高高中中中中中中低中中低低低低性别男男女男女男男男男男女女女女男男女女女女此时，对象已经按体重排好，得到分类： U = C1 {1,2,3,11,12}+C2 {4,5,6,7,8,13,14,15,16}+ C3 {9,10,17,18,19,20} 各类分别与内涵重、常、轻对合，得到 3 个基本概念 β1 = (重,C1), β2 = (常,C2), β3 = (轻,C3)。 f2 C1 k c 3) 再就因素 (身高) 逐类考察，看看该类对象是否按高、中、低分相排列。在中，需要对对象和的位置进行置换，得到表 4。表 4 表 3 的转换 Table 4 Transformation of table 3 因素 1 2 11 3 12 4 5 6 7 8 13 14 15 16 9 10 17 18 19 20 体重重重重重重常常常常常常常常常轻轻轻轻轻轻身高高高高中中高高中中中中中中低中中低低低低性别男男男女女男男男男女女女女男男男女女女女 C1 C1 = C11 {1,2,11}+C12 {3,12} 此时，中的对象已经按身高排好，于是得到分类：。 β11 = (重高,C11), β12 = (重中,C12) 两类分别与内涵“重高”和“重中”对合,得到两个基本概念。 ·44· 智能系统学报第 13 卷

第1期汪培庄：因素空间理论一机制主义人工智能理论的数学基础 ·45· 同时，C,中的对象未经置换就已经按身高排好， B2=(常低，C23),B1=(轻中，C31),B2=(轻低，C32), 于是得到分类： B21=(常中男，C21),B2=(常中女，Cm),其中，不能再 C2=C21{4,5+C2{6,7,8,13,14,15}+C23{16 分的有B1、B12、B21、B3、B31、B2、B221、B2等8个，它们 3类分别与内涵常高、常中、常低对合，得到就是前述的8个原子概念。其余5个基本概念，除 3个基本概念B21=(常高，C2),B2=(常中，C2),B= B=(0,U外，6，=（重，1,2,3,11,12），B2=常，4,5,6,7， (常低，C23)。 8,13,14,15,16),B=(轻，9,10,17,1819,20)和同时，C,中的对象未经置换就已经按性别排 B2=(常中，6,7,8,13,14,15)。它们都是我们格外关好，于是得到分类：心的非原子的基本概念。 C3=C3{9,101+C3217,18,19,20 基本概念半格的提取，得到的原子概念是相同各子类分别与内涵轻中、轻低对合，得到两个基的，但中间的基本概念半格不是唯一的，与因素划本概念B31=(轻中，C31),B2=(轻低，C2)。分的先后次序有关。好的排序会加快实现原子分 4)再就因素f(性别)逐类考察，看看该类对象是否男女分相排列.发现性别在所有类中的排列都割，排除冗余的因素最大分辨度原则提供了一种较无需置换，类似可将C2=C216,7}+C21{8,13,14,15) 好的排序。这个算法强调的是对象的足码置换，就得到两个基本概念B21=(常中男，C2i),B22=(常中女，是士兵集合按营、连、排、班站队的方法.具有大数 C2)。所有类都无法再划分。据所要求的快捷性。 5)画出基本概念半格图（见图4）回到Wille的例子，怎样用因素空间理论来处理同样的问题呢？ 1-23 首先，要将以属性值分列的表，改为以因素分 1-3,11,12 列的因素表。它有9个属性，分属于7个因素： A重 4-8,13-16分常 9-10,17-20 轻R f=需水性，具有性状空间X(f)={化，W,f=栖性，具有性状空间X(={水，陆，两栖}，=有无叶绿素，具 1,2,11 3,1 4,5 6-8,13-15 16 Q常中 9,10g7-20 有性状空间X(f)={YW,=单双子叶，具有性状空重高重中常高常低轻轻低 5 间X()={单，双}，=能动性，具有性状空间 X()=(化N,=有无四肢，具有性状空间 X()=(YN),方=是否哺乳，具有性状空间图4成员状况粒子半格 X)={化W。于是可将形式背景表1改写为下面 Fig.4 Member state particle semi-lattice 的表5，在表中出现了符号*，例如问句是单字叶还在此半格中共有13个基本概念，即B=(,U), 是双子叶，这是毫无意义的，不能用No。问蚂蟥有 B1=(重，C),B2=(常，C2),B=(轻，C3),B1=(重高，C11), 四肢吗？回答虽然是No,但问题却是有意义的。 B12=(重中，C12),B21=(常高，C2),B2=(常中，C2), Wile没有区分No和*，都是空白。表5将形式背景表按因素并列 Table 5 Juxtaposition of formal background tables by factors 因素需水？栖性叶绿素？叶数能动性四肢？哺乳？因素四肢？哺乳？栖性能动性叶绿素？叶数 1蚂蟥 Y 水 Y N N 1蚂蟥 N N 水 Y 2鱼 Y 水 Y 2鱼 Y N 水 3蛙 Y 两 3蛙 Y Y 分 Y 4狗 Y 陆 Y Y 4狗 Y Y 陆 Y 5水草 Y 水 5水草水 N 单 6芦苇 Y 单 N 6芦苇两 N Y 单 7豆陆双 N 7豆陆双 8玉米陆 Y N 8玉米陆 N 单蓄水性这个因素对所有对象的呈相都一样，没中删除。同一因素空间中所有因素必须对所有对象有变化的因素失去了存在价值，我们把这一列从表都有意义，因而我们必须分成两个因素空间来处

同时， C2中的对象未经置换就已经按身高排好，于是得到分类： C2 = C21 {4,5}+C22 {6,7,8,13,14,15}+C23 {16} β21 = (常高,C21) β22 = (常中,C22) β23 = (常低,C23) 3 类分别与内涵常高、常中、常低对合，得到 3 个基本概念，，。同时，C3 中的对象未经置换就已经按性别排好，于是得到分类: C3 = C31{9,10}+C32{17,18,19,20} β31 = (轻中,C31), β32 = (轻低,C32) 各子类分别与内涵轻中、轻低对合,得到两个基本概念。 f3 C22 = C221 {6,7}+C221 {8,13,14,15} β221 = (常中男,C221), β222 = (常中女, 4) 再就因素 (性别) 逐类考察，看看该类对象是否男女分相排列. 发现性别在所有类中的排列都无需置换，类似可将得到两个基本概念 C222) 。所有类都无法再划分。 5) 画出基本概念半格图 (见图 4) 1−23 1−3, 11, 12 1, 2, 11 3, 12 4−8, 13−16 6−8, 13−15 4, 5 16 9−10, 17−20 9, 10 17−20 8, 13−15 6, 7 䛹䛹倄䛹͙ ፤倄 ፤͙ ፤ ፤Ѻ 䒧͙ 䒧䒧Ѻ 图 4 成员状况粒子半格 Fig. 4 Member state particle semi-lattice β0 = (ϕ,U) β1 =(重,C1) β2 =(常,C2) β3 =(轻,C3) β11 = (重高,C11) β12 = (重中,C12) β21 = (常高,C21) β22 = (常中,C22) 在此半格中共有 13 个基本概念，即，，，，，，，， β23 = (常低,C23) β31 = (轻中,C31) β32 = (轻低,C32) β221 = (常中男,C221) β32 = (常中女,C222) β11 β12 β21 β23 β31 β32 β221 β222 β0 = (∅,U) β1 β2 β3 β22 ，，，，，其中，不能再分的有、、、、、、、等 8 个，它们就是前述的 8 个原子概念。其余 5 个基本概念，除外， =(重, 1, 2, 3, 11, 12), =(常, 4, 5, 6, 7, 8, 13, 14, 15, 16)， =(轻, 9, 10, 17, 1819, 20) 和 =(常中, 6, 7, 8, 13, 14, 15)。它们都是我们格外关心的非原子的基本概念。基本概念半格的提取，得到的原子概念是相同的，但中间的基本概念半格不是唯一的，与因素划分的先后次序有关。好的排序会加快实现原子分割，排除冗余的因素最大分辨度原则提供了一种较好的排序。这个算法强调的是对象的足码置换，就是士兵集合按营、连、排、班站队的方法. 具有大数据所要求的快捷性。回到 Wille 的例子，怎样用因素空间理论来处理同样的问题呢？ f1 X (f1) = {Y,N} f2 X (f2) f3 X (f3) = {Y,N} f4 X (f4) f5 X (f5) = {Y,N} f6 X (f6) = {Y,N} f7 X (f7) = {Y,N} 首先，要将以属性值分列的表，改为以因素分列的因素表。它有 9 个属性，分属于 7 个因素： =需水性，具有性状空间， =栖性，具有性状空间 ={水，陆，两栖}， =有无叶绿素，具有性状空间， =单双子叶，具有性状空间 = { 单，双 } ， = 能动性，具有性状空间 , = 有无四肢，具有性状空间， = 是否哺乳，具有性状空间。于是可将形式背景表 1 改写为下面的表 5，在表中出现了符号*，例如问句是单字叶还是双子叶，这是毫无意义的，不能用 No。问蚂蟥有四肢吗？回答虽然是 No，但问题却是有意义的。 Wille 没有区分 No 和*，都是空白。表 5 将形式背景表按因素并列 Table 5 Juxtaposition of formal background tables by factors 因素需水？栖性叶绿素？叶数能动性四肢？哺乳？因素四肢？哺乳？栖性能动性叶绿素？叶数 1 蚂蟥 Y 水 * * Y N N 1 蚂蟥 N N 水 Y * * 2 鱼 Y 水 * * Y Y N 2 鱼 Y N 水 Y * * 3 蛙 Y 两 * * Y Y Y 3 蛙 Y Y 两 Y * * 4 狗 Y 陆 * * Y Y Y 4 狗 Y Y 陆 Y * * 5 水草 Y 水 Y 单 N * * 5 水草 * * 水 N Y 单 6 芦苇 Y 两 Y 单 N * * 6 芦苇 * * 两 N Y 单 7 豆 Y 陆 Y 双 N * * 7 豆 * * 陆 N Y 双 8 玉米 Y 陆 Y 单 N * * 8 玉米 * * 陆 N Y 单蓄水性这个因素对所有对象的呈相都一样，没有变化的因素失去了存在价值，我们把这一列从表中删除。同一因素空间中所有因素必须对所有对象都有意义，因而我们必须分成两个因素空间来处第 1 期汪培庄：因素空间理论——机制主义人工智能理论的数学基础 ·45·

·46· 智能系统学报第13卷理，对表5的左列进行适当变换，得到了表5的右各是一个因素空间。可以有交集，如栖性在两个表列，就可以分开了。得到表6，表6的左右两个表，中都有。表6将形式背景表分解成两个因素性状表 Table 6 Form background table is decomposed into two factor traits 因素四肢？哺乳？栖性能动性因素栖性能动性叶绿素？叶数 1蚂蟥在水 Y 5水草水水 Y 单 2鱼 Y 水 6芦苇两 N 上袋 3蛙上西 7豆陆水 Y 双 4狗 Y 陆 8玉米陆 N Y 单我们把不起变化的因素删除得到表7。结果来和它进行直接的比较。但可以看出，概念格表7两个因素性状表的化简中缺少了几个原子概念，这是不符合实际的。其原 Table 7 Simplification of the table of two factors 因是，对合性与同因素的不同属性值之间的对等性因素四肢？哺乳？栖性因素栖性叶数有时会发生冲突。因素空间用性状颗粒来分类的方法可以避免这种冲突。蚂蟥心水水草水单回顾一下本节的内容，Wile从内涵和外延的对鱼 N 水芦苇两单合性出发，给概念下了严格的数学定义，以保障信蛙两豆年双息传递能可靠地反映现实。他大胆地谱写了计算机狗 Y 陆玉米陆单自动生成概念的新篇章，使机械制造的概念能随时向人脑回归与联通，这是人工智能的一大飞跃。他按照因素空间的概念生成理论很容易得到简捷的形式背景表以属性来分列，导致算法复杂，无法的粒子半格（见图5）。经过适当处理，可以得到清摆脱N-hard陷阱。他说的概，念格也不准确，应该改晰的概念体系。动物因素空间生成4个原子概念：为基本概念半格。因素空间继承他的理论，把形式 1)无肢非哺水动物(NN水，蚂蟥)；2)有肢非哺水动背景提升为因素空间的核心理论，用因素统帅属性物(YN水，鱼)：3)哺肢两栖动物(YY水，蛙)：4)哺值，用背景关系来定义原子概念，自然对合，无需计肢陆动物(NN水，蚂蟥)。还生成两个非原子的基算。对于基本概念也有3次幂以下的简捷算法。本概念：1)非哺水动物(N水，{蚂蟥，鱼)；2)哺肢 Wille不知道机制主义的人工智能理论，对形动物(YY,{蛙，狗)。植物因素空间生成4个原子式（语法）信息、效用信息和语义全信息不加区分，概念：1)水单植物（水单，水草）；2)两栖单植物（两他所举的例子都是语法信息。所以，本节可以视为单，芦苇)：3)陆双子叶植物（陆双，豆）：4.陆单子叶形式信息的提取。至于如何用因素空间将形式信息植物（陆单，豆玉米）。还生成两个非原子的基本概与效用信息向语义信息，提升，是我们在下一节要念：1)单子叶植物（单，{水草，；芦苇，玉米}）；2)陆做的事情。植物（陆，{豆，玉米}）。例毕。 3因素之间的关联，语义信息的提升 1,2,4 5,67,8 单双在介绍语义信息提升之前，先介绍因素之间的 3.4 5,6,8 单关联特性。性性两陆定义14给定可测因素空间，因素f,f,…。可以视为一组随机变量，如果这组随机变量是相互独立的，则称因素，，…，n相互独立，。如果图5因素空间对生物与水的形式概念分析图 f,,…,fn的背景关系R满足： Fig.5 Formal concept analysis for biological and water R=X(f)xX(f)x…XX(f) (9) based on factors space 则称因素f,f,…,fn是相对独立的。因为Wile关于科教事物的“概念格”不能直接不难证明，相互独立一定相对独立，反之不尽翻译成为一张因素表，所以我们不能用因素空间的然。不相对独立的一组因素，它们的背景关系不能

理，对表 5 的左列进行适当变换，得到了表 5 的右列，就可以分开了。得到表 6，表 6 的左右两个表，各是一个因素空间。可以有交集，如栖性在两个表中都有。表 6 将形式背景表分解成两个因素性状表 Table 6 Form background table is decomposed into two factor traits 因素四肢？哺乳？栖性能动性因素栖性能动性叶绿素？叶数 1 蚂蟥 N N 水 Y 5 水草水 N Y 单 2 鱼 Y N 水 Y 6 芦苇两 N Y 单 3 蛙 Y Y 两 Y 7 豆陆 N Y 双 4 狗 Y Y 陆 Y 8 玉米陆 N Y 单我们把不起变化的因素删除得到表 7。表 7 两个因素性状表的化简 Table 7 Simplification of the table of two factors 因素四肢？哺乳？栖性因素栖性叶数蚂蟥 N N 水水草水单鱼 Y N 水芦苇两单蛙 Y Y 两豆陆双狗 Y Y 陆玉米陆单按照因素空间的概念生成理论很容易得到简捷的粒子半格 (见图 5)。经过适当处理，可以得到清晰的概念体系。动物因素空间生成 4 个原子概念： 1) 无肢非哺水动物 (NN 水，蚂蟥)；2) 有肢非哺水动物 (YN 水，鱼)；3) 哺肢两栖动物 (YY 水，蛙)；4) 哺肢陆动物 (NN 水，蚂蟥)。还生成两个非原子的基本概念：1) 非哺水动物 (N 水，{蚂蟥，鱼})；2) 哺肢动物 (YY，{蛙，狗})。植物因素空间生成 4 个原子概念：1) 水单植物 (水单，水草)；2) 两栖单植物 (两单，芦苇)；3) 陆双子叶植物 (陆双，豆)；4. 陆单子叶植物 (陆单，豆玉米)。还生成两个非原子的基本概念：1) 单子叶植物 (单，{水草，；芦苇，玉米})； 2) 陆植物 (陆，{豆，玉米})。例毕。 1, 2, 3, 4 1, 2 3, 4 1 2 3 4 5 6 5, 6, 8 5, 6, 7, 8 7, 8 8 7 ਦ Ο 哘 ͐ ᵂ ͐ ᵂ ᵂ ᕓ ᵂ ᕓ 䭲䭲 Ⅰ Y Y N N ఇ 㗎哘 ࢁ ࣸ ࢁ ၼ ढ 哘图 5 因素空间对生物与水的形式概念分析图 Fig. 5 Formal concept analysis for biological and water based on factors space 因为 Wille 关于科教事物的“概念格”不能直接翻译成为一张因素表，所以我们不能用因素空间的结果来和它进行直接的比较。但可以看出，概念格中缺少了几个原子概念，这是不符合实际的。其原因是，对合性与同因素的不同属性值之间的对等性有时会发生冲突。因素空间用性状颗粒来分类的方法可以避免这种冲突。回顾一下本节的内容，Wille 从内涵和外延的对合性出发，给概念下了严格的数学定义，以保障信息传递能可靠地反映现实。他大胆地谱写了计算机自动生成概念的新篇章，使机械制造的概念能随时向人脑回归与联通，这是人工智能的一大飞跃。他的形式背景表以属性来分列，导致算法复杂，无法摆脱 N-hard 陷阱。他说的概念格也不准确，应该改为基本概念半格。因素空间继承他的理论，把形式背景提升为因素空间的核心理论，用因素统帅属性值，用背景关系来定义原子概念，自然对合，无需计算。对于基本概念也有 3 次幂以下的简捷算法。 Wille 不知道机制主义的人工智能理论，对形式 (语法) 信息、效用信息和语义全信息不加区分，他所举的例子都是语法信息。所以，本节可以视为形式信息的提取。至于如何用因素空间将形式信息与效用信息向语义信息，提升，是我们在下一节要做的事情。 3 因素之间的关联，语义信息的提升在介绍语义信息提升之前，先介绍因素之间的关联特性。 f1, f2,··· , f1, f2,··· , fn f1, f2,··· , fn 定义 14 给定可测因素空间，因素 fn 可以视为一组随机变量，如果这组随机变量是相互独立的，则称因素相互独立 , 。如果的背景关系 R 满足: R = X (f1)× X (f2)× ··· × X (fn) (9) 则称因素 f1, f2,··· , fn是相对独立的。不难证明，相互独立一定相对独立，反之不尽然。不相对独立的一组因素，它们的背景关系不能 ·46· 智能系统学报第 13 卷

点击下载完整版文档（PDF格式）

共18页，试读已结束，阅读完整版请下载

点击下载（PDF格式）

浏览记录