机器学习：用于因果分析的混合贝叶斯网络结构学习

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：691.02KB

第2卷第6期智能系统学报 Vol.2 N26 2007年12月 CAAI Transactions on Intelligent Systems Dec.2007 用于因果分析的混合贝叶斯网络结构学习王双成李小琳2，侯彩虹 (1.上海立信会计学院信息科学系，上海201620：2.南京大学软件技术国家重点实验室，江苏南京210093) 摘要：目前主要结合扩展的熵离散化方法和打分搜索方法进行混合贝叶斯网络结构学习，算法效率和可靠性低，而且易于陷入局部最优结构.针对问题建立了一种新的混合贝叶斯网络结构迭代学习方法.在迭代中，基于父结点结构和Gibbs sampling进行混合数据聚类，实现对连续变量的离散化，再结合贝叶斯网络结构优化调整，使贝叶斯网络结构序列逐渐趋于稳定，可避免使用扩展的熵离散化和打分搜索所带来的主要问题关键词：因果分析：混合贝叶斯网络；最大似然树；Gbbs抽样中图分类号：TP18文献标识码：A文章编号：16734785(2007)060082-08 Learning in a hybrid Bayesian net work structure for causal analysis WAN G Shuang-cheng,LI Xiao-lin2,HOU Cai-hong (1.Department of Information Science,Shanghai Lixin University of Commerce,Shanghai 201620,China;2.National Labo- ratory for Novel Software Technology,Nanjing University,Nanjing 210093,China) Abstract:At present,learning in a hybrid Bayesian network structure mainly depends on a combination of the searching scoring method and the expanded entropy discretization algorithm.However,the algo- rithm is prone to fall into local optimal traps and its efficiency and reliability are not good.In this paper,a new iterative method for learning with hybrid Bayesian network structures is presented.In each iteration, mixed data clustering is carried out based on father mode structures and Gibbs sampling,so that continu- ous variables are discretized.Then,through optimization of the Bayesian network structure,the sequence of Bayesian network structures gradually tends to converge,avoiding the main problems encountered with the expanded entropy discretization algorithm. Key words :causal analysis;hybrid Bayesian network;maximum likelihood tree;Gibbs sampling 人类对现实世界中现象的一种强烈渴望就是因义，并建立了贝叶斯网络的基础理论体系川进入果联系，通过因果关系能够揭示事物之间的内在联 90年代以后，以Pearl、Heckerman、Peter Spirtes、系，从而达到认识世界和改造世界的目的，因此，因 Chickering和Henson等2.1为代表相继进行了基果关系是哲学、自然科学和社会科学等的重要研究于贝叶斯网络的因果分析的理论探索和应用研究，内容.贝叶斯网络四是描述随机变量之间依赖关系但这些研究都是基于离散变量的假设.基于贝叶斯的图形模式，具有形象直观的知识表示形式，以及更网络进行混合变量因果分析比较困难，其核心是混接近人思维特征的推理方式，被广泛用于不确定性合贝叶斯网络结构学习.以往对混合贝叶斯网络结知识表示和推理.在一些假设下，贝叶斯网络中边的构学习的研究主要从2个方面展开：一方面是不离方向具有因果语义，因此是变量之间因果分析的有散化连续变量，通过打分搜索方法直接进行混合力工具.20世纪80年代后期，加利福尼亚大学计算贝叶斯网络结构学习，Thiesson和Murphy等人曾机科学系Judea Dearl给出了贝叶斯网络的严格定经给出过一些近似打分函数6·】，但由于运算过于复杂，不具有实用价值，至今还没有实质性的进展；收稿日期：2007-01-04. 基金项目：国家自然科学基金资助项目(60675036)；上海市重点学科另一方面是离散化连续变量，转化为离散变量贝叶基金资助项目(P1601):上海市教委重点基金资助项目斯网络结构学习问题，由于变量之间的因果结构具 (05zz66). 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

第 2 卷第 6 期智能系统学报 Vol. 2 №. 6 2007 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2007 用于因果分析的混合贝叶斯网络结构学习王双成1 ,李小琳2 ,侯彩虹1 (1. 上海立信会计学院信息科学系 ,上海 201620 ;2. 南京大学软件技术国家重点实验室 ,江苏南京 210093) 摘要 :目前主要结合扩展的熵离散化方法和打分 —搜索方法进行混合贝叶斯网络结构学习 ,算法效率和可靠性低 ,而且易于陷入局部最优结构. 针对问题建立了一种新的混合贝叶斯网络结构迭代学习方法. 在迭代中 ,基于父结点结构和 Gibbs sampling 进行混合数据聚类 ,实现对连续变量的离散化 ,再结合贝叶斯网络结构优化调整 ,使贝叶斯网络结构序列逐渐趋于稳定 ,可避免使用扩展的熵离散化和打分 —搜索所带来的主要问题. 关键词 :因果分析 ;混合贝叶斯网络 ;最大似然树 ; Gibbs 抽样中图分类号 : TP18 文献标识码 :A 文章编号 :167324785 (2007) 0620082208 Learning in a hybrid Bayesian network structure for causal analysis WAN G Shuang2cheng 1 , L I Xiao2lin 2 , HOU Cai2hong 1 (1. Department of Information Science , Shanghai Lixin University of Commerce , Shanghai 201620 , China ; 2. National Labo2 ratory for Novel Software Technology , Nanjing University , Nanjing 210093 , China) Abstract :At p resent , learning in a hybrid Bayesian network struct ure mainly depends on a combination of t he searching & scoring met hod and t he expanded entropy discretization algorit hm. However , t he algo2 rit hm is prone to fall into local optimal trap s and its efficiency and reliability are not good. In t his paper , a new iterative met hod for learning wit h hybrid Bayesian network struct ures is p resented. In each iteration , mixed data clustering is carried out based on fat her mode structures and Gibbs sampling , so that continu2 ous variables are discretized. Then , t hrough optimization of the Bayesian network struct ure , t he sequence of Bayesian network struct ures gradually tends to converge , avoiding t he main problems encountered wit h t he expanded entropy discretization algorit hm. Keywords :causal analysis ; hybrid Bayesian network ; maximum likelihood tree ; Gibbs sampling 收稿日期 :2007201204. 基金项目 :国家自然科学基金资助项目(60675036) ;上海市重点学科基金资助项目 ( P1601) ;上海市教委重点基金资助项目 (05zz66) . 人类对现实世界中现象的一种强烈渴望就是因果联系 ,通过因果关系能够揭示事物之间的内在联系 ,从而达到认识世界和改造世界的目的 ,因此 ,因果关系是哲学、自然科学和社会科学等的重要研究内容. 贝叶斯网络[1 ] 是描述随机变量之间依赖关系的图形模式 ,具有形象直观的知识表示形式 ,以及更接近人思维特征的推理方式 ,被广泛用于不确定性知识表示和推理. 在一些假设下 ,贝叶斯网络中边的方向具有因果语义 ,因此是变量之间因果分析的有力工具. 20 世纪 80 年代后期 ,加利福尼亚大学计算机科学系 J udea Dearl 给出了贝叶斯网络的严格定义 ,并建立了贝叶斯网络的基础理论体系[1 ] . 进入 90 年代以后 ,以 Pearl、Heckerman 、Peter Spirtes 、 Chickering 和 Henson 等[2 - 6 ] 为代表相继进行了基于贝叶斯网络的因果分析的理论探索和应用研究 , 但这些研究都是基于离散变量的假设. 基于贝叶斯网络进行混合变量因果分析比较困难 ,其核心是混合贝叶斯网络结构学习. 以往对混合贝叶斯网络结构学习的研究主要从 2 个方面展开 :一方面是不离散化连续变量 ,通过打分 —搜索方法直接进行混合贝叶斯网络结构学习 , Thiesson 和 Murp hy 等人曾经给出过一些近似打分函数[6 - 8 ] ,但由于运算过于复杂 ,不具有实用价值 ,至今还没有实质性的进展 ; 另一方面是离散化连续变量 ,转化为离散变量贝叶斯网络结构学习问题 ,由于变量之间的因果结构具

第6期王双成，等：用于因果分析的混合贝叶斯网络结构学习 ·83· 有相对稳定性，在发现因果结构时允许忽略一些细涵的变量之间的依赖关系可能比较混乱，这将导致节信息，因此，基于离散化的方法是混合贝叶斯网络直接进行贝叶斯网络学习不够可靠，影响随后的迭结构学习更为有效、实用的方法代收敛速度.最大似然树是与贝叶斯网络具有最好目前，在混合贝叶斯网络结构学习中连续变量拟合的属性结构，在树中蕴含的依赖关系往往是贝的离散化主要采用扩展的熵离散化方法(Fayyad和叶斯网络中的重要依赖关系，而且最大似然树的结 rani9提出的基于熵离散化方法的推广，早期用于构相对稳定，学习效率高，因此，采用为最大似然树分类器学习中连续变量的离散化).这种方法的实现边因果定向的有向无环图作为初始贝叶斯网络.首是一个迭代过程，在迭代过程中，以父结点为条件的先依据Chow和Liu的方法建立最大似然树，经条件熵作为打分函数，对分点进行贪婪(greedy)或过简单的碰撞识别定向后得到Polytree)(这时大部随机打分搜索，使用MDL)(minimal descrip 分边己经确定了方向，并且方向具有因果语义)，然后 tion length)标准（或条件熵）确定分点数，并在新数基于链图和MDL标准为其他没有定向的边定向. 据集的基础上使用打分搜索方法重新进行结构学从数据集D中建立最大似然树T,并对T中习.由于分点空间的大小随数据量的增加指数增长，的边进行碰撞识别定向得到Polytree方.h是一无论采用哪种打分搜索方法，当数据量大时都很个链图1s1(chain graph),设链图中没有确定方向的难实现，而且得到的一般是局部最优划分.在打分一边为ea,e,用G和C分别表示边e1,e.i 搜索结构学习中，由于打分函数的计算复杂性和结己定向、而边e+1,…e还没定向、由边e方向所确构搜索空间的大小也都随变量增加指数增长，因此定的不同链图.按照Buntinelis)给出的基于链图分一般要求结点有顺序，并根据打分函数的可分解性解联合概率的方法，便能计算一个链图的MDL打进行局部确定或随机搜索（完全搜索是NP困难问分.根据MDL(G|D和MDL(GID的大小确定题山)，这样重新结构学习效率低，易于陷入局部最边。的方向，直到确定所有未定向边的方向.把最优结构.此外，基于扩展的熵离散化方法强调的是属后得到有向无环图记为G,并作为初始贝叶斯网性变量对类变量的分类贡献，不具有因果语义，这样络结构，由G所确定的结点顺序记为，易于导致因果信息的丢失和冗余， X.将数据集pima_indians_diabete中的连续数据本文结合父结点结构（因果结构）和Gibbs 进行二分离散化，从中学习得到的最大似然树和初 sampling!2.进行混合数据聚类，通过聚类实现连始贝叶斯网络结构如图1所示续变量的离散化，进行混合贝叶斯网络结构迭代学习，每一次离散化后进行贝叶斯网络因果关系优化调整，直到迭代收敛.按照父结点结构分解联合概率，解决了标准Gibbs sampling的指数复杂性问题21，因此能够显著提高离散化效率，Gibbs sam~ pling过程收敛到全局平稳分布2.B】,这样可避免使用扩展的熵离散化方法的局部最优化分问题.贝叶斯网络因果关系优化调整将使变量之间的依赖关 (a)最大似然树系逐渐趋于因果关系，实验结果显示，这种方法能够有效地进行混合贝叶斯网络结构学习用X,…,Xm表示连续和离散混合随机变量， x1,xm表示变量的取值.D表示具有N个例子的混合数据集，数据随机产生于联合分布P. 初始化混合贝叶斯网络学习 (b)定向后的有向无环图初始混合贝叶斯网络学习包括连续变量的初始离散化和贝叶斯网络的初始化2部分.采用二分法图1初始pima indians_diabetes贝叶斯网络结构对连续变量进行初始离散化（以均值作为离散化的 Fig.I Initial Bayesian network structure of 分界点，进行二值离散化)，把离散化后的数据集作 pima indians diabetes dataset 为初始数据集，用D表示.由于数据集D中所蕴 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

有相对稳定性 ,在发现因果结构时允许忽略一些细节信息 ,因此 ,基于离散化的方法是混合贝叶斯网络结构学习更为有效、实用的方法. 目前 ,在混合贝叶斯网络结构学习中连续变量的离散化主要采用扩展的熵离散化方法(Fayyad 和 Irani [ 9 ]提出的基于熵离散化方法的推广 ,早期用于分类器学习中连续变量的离散化) . 这种方法的实现是一个迭代过程 ,在迭代过程中 ,以父结点为条件的条件熵作为打分函数 ,对分点进行贪婪 ( greedy) 或随机打分 —搜索 ,使用 MDL [10 ] ( minimal descrip2 tion length) 标准(或条件熵) 确定分点数 ,并在新数据集的基础上使用打分 —搜索方法重新进行结构学习. 由于分点空间的大小随数据量的增加指数增长 , 无论采用哪种打分 —搜索方法 ,当数据量大时都很难实现 ,而且得到的一般是局部最优划分. 在打分 — 搜索结构学习中 ,由于打分函数的计算复杂性和结构搜索空间的大小也都随变量增加指数增长 ,因此一般要求结点有顺序 ,并根据打分函数的可分解性进行局部确定或随机搜索(完全搜索是 N2P 困难问题[11 ] ) ,这样重新结构学习效率低 ,易于陷入局部最优结构. 此外 ,基于扩展的熵离散化方法强调的是属性变量对类变量的分类贡献 ,不具有因果语义 ,这样易于导致因果信息的丢失和冗余. 本文结合父结点结构 (因果结构) 和 Gibbs sampling [12 - 13 ]进行混合数据聚类 ,通过聚类实现连续变量的离散化 ,进行混合贝叶斯网络结构迭代学习 ,每一次离散化后进行贝叶斯网络因果关系优化调整 ,直到迭代收敛. 按照父结点结构分解联合概率 ,解决了标准 Gibbs sampling 的指数复杂性问题[12 ] ,因此能够显著提高离散化效率 , Gibbs sam2 pling 过程收敛到全局平稳分布[12 - 13 ] ,这样可避免使用扩展的熵离散化方法的局部最优化分问题. 贝叶斯网络因果关系优化调整将使变量之间的依赖关系逐渐趋于因果关系 ,实验结果显示 ,这种方法能够有效地进行混合贝叶斯网络结构学习. 用 X1 , …, Xn 表示连续和离散混合随机变量 , x1 , …, x n 表示变量的取值. D 表示具有 N 个例子的混合数据集 ,数据随机产生于联合分布 P. 1 初始化混合贝叶斯网络学习初始混合贝叶斯网络学习包括连续变量的初始离散化和贝叶斯网络的初始化 2 部分. 采用二分法对连续变量进行初始离散化 (以均值作为离散化的分界点 ,进行二值离散化) ,把离散化后的数据集作为初始数据集 ,用 D (0) 表示. 由于数据集 D (0) 中所蕴涵的变量之间的依赖关系可能比较混乱 ,这将导致直接进行贝叶斯网络学习不够可靠 ,影响随后的迭代收敛速度. 最大似然树是与贝叶斯网络具有最好拟合的属性结构 ,在树中蕴含的依赖关系往往是贝叶斯网络中的重要依赖关系 ,而且最大似然树的结构相对稳定 ,学习效率高 ,因此 ,采用为最大似然树边因果定向的有向无环图作为初始贝叶斯网络. 首先依据 Chow 和 Liu [14 ] 的方法建立最大似然树 ,经过简单的碰撞识别定向后得到 Polytree [1 ] (这时大部分边已经确定了方向 ,并且方向具有因果语义) ,然后基于链图和 MDL 标准为其他没有定向的边定向. 从数据集 D (0) 中建立最大似然树 T ,并对 T 中的边进行碰撞识别定向得到 Polytree T1 . T1 是一个链图[ 15 ] (chain grap h) ,设链图中没有确定方向的边为 e1 , …, es ,用 G i + C 和 C i - C 分别表示边 e1 , …, ei - 1 已定向、而边 ei + 1 , …, es 还没定向、由边 ei 方向所确定的不同链图. 按照 Buntine [15 ] 给出的基于链图分解联合概率的方法 ,便能计算一个链图的 MDL 打分. 根据 MDL ( G i + C | D 和 MDL ( G i - C | D) 的大小确定边 ei 的方向 ,直到确定所有未定向边的方向. 把最后得到有向无环图记为 G (0) ,并作为初始贝叶斯网络结构 , 由 G (0) 所确定的结点顺序记为 X (0) 1 , …, X (0) n . 将数据集 pima_indians_diabete 中的连续数据进行二分离散化 ,从中学习得到的最大似然树和初始贝叶斯网络结构如图 1 所示. 图 1 初始 pima_indians_diabetes 贝叶斯网络结构 Fig. 1 Initial Bayesian network structure of pima_indians_diabetes dataset 第 6 期王双成 ,等 :用于因果分析的混合贝叶斯网络结构学习 ·83 ·

·84 智能系统学报第2卷变量的重新离散化得到D+”.在式1)中，对连续 2混合贝叶斯网络迭代学习变量采用条件正态密度函数，也可采用其他密度函混合贝叶斯网络迭代学习包括2个迭代过程，数（核密度或多项式密度函数等）.在聚类迭代过程一个是在确定结构下的连续变量离散化内层迭代，中，结合G"和Gibbs sampling依次确定数据库中另一个是结构外层迭代.迭代产生2个序列，它们是每一个记录中的X的值，确定了数据库中所有记离散数据集序列{D®}和贝叶斯网络结构序列录中的X的值便实现一次迭代，直到满足终止条 1G}.每一次外层迭代又包括2个部分，一部分是件结束迭代.下面给出在一个记录中确定X值的基于上一次迭代得到的贝叶斯网络结构G重新离方法：散化连续变量得到新的离散数据集D;另一部分 p(x xG)= 是在D的基础上，优化调整贝叶斯网络结构得到 g(x;x):x)G)= G+”,直到满足结构迭代终止条件结束迭代 “四w) 2.1基于混合数据聚类的连续变量离散化 e2 (2) 对每一个连续变量的离散化是一个子迭代过 N2raπw,x) 程，按照贝叶斯网络结构G所确定的变量顺序依式中：4（πw,x)和g(W,x")分别表示变量次对连续变量进行重新离散化，下一个连续变量的 X,条件均值和条件标准差离散化在上一个离散化结果的基础上进行，直到离如果p(x|刀，G)=0,对p,(x|乃四散化完所有的连续变量.为有效地继承因果信息，结 G)进行拉普拉斯修正(Laplace-corrected)ol: 合贝叶斯网络中的因果局部结构（父结点结构）和 p(x|乃w,G")= Gibbs sampling进行混合数据聚类，通过聚类实现 1/N)(N(w)+N(x)1/N)) 连续变量的离散化.在对一个连续变量的离散化过式中：N(w)为X的父结点集W具有配置程中，包括确定对应的离散变量取值（类值）和维数 πw的例子数量，N(x)为X=x的例子数量 (类数)2部分内容对选择的维数1,2≤，≤M),首先随机初始在依次对连续变量重新离散化的过程中，贝叶化xW的值，然后通过抽样对D中变量x的斯网络结构保持不变，但数据集在不断的变化，这样值进行修正，直到收敛产生一个离散数据集子序列D=D,D, 设需要离散化的变量X,离散化后对应的离散 D=D+”,其中D是在D,中用连续变量X 变量最大可能的维数为M(一般取5或6)，按照的最新离散化数据代替原有离散化数据而得到的数数据库中记录的顺序依次对x”的值进行修正. 据集，设X在第m个记录的待修正值为x,黑 2.1.1确定连续变量对应的离散变量取值表示修正后的值，变量X的可能取值为x, 设由G所确定的变量顺序为，X x是.对抽样式子进行归一化处理，记w(h)= 为方便把离散化后的变量排在前部，在每一部分内部保持原来的顺序，得到新的变量序列为X, p()p(. X,X+1,Xm.用X,替换X,通过混合数据聚 ,2Px元，，G")p(,G") 类得到X,离散化后的离散变量类变量)，仍用X 对生成的随机数入，离散变量和的取值为表示。 Xi. 0<入≤w(j), 由贝叶斯和乘法公式可得 p(xxxxG)= ap(xx)= Bp(xxG)p(x).(1) 式中亚w是GW中X父结点集的配置，a和B是与xW无关的量基于G和Gibbs sampling进行混合数据聚 (3) 类，从而实现对变量X,的重新离散化，用新的离散 2.1.2确定最优的离散化方案化变量的值代替D中X的值，并在D的基根据最优维数确定的离散化方案便是最优的离础上重新离散化X+得到D,直到完成所有连续散化方案，因此确定最优的离散化方案的核心是确 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

2 混合贝叶斯网络迭代学习混合贝叶斯网络迭代学习包括 2 个迭代过程 , 一个是在确定结构下的连续变量离散化内层迭代 , 另一个是结构外层迭代. 迭代产生 2 个序列 ,它们是离散数据集序列 { D ( k) } 和贝叶斯网络结构序列 { G ( k) } . 每一次外层迭代又包括 2 个部分 ,一部分是基于上一次迭代得到的贝叶斯网络结构 G ( k) 重新离散化连续变量得到新的离散数据集 D ( k) ;另一部分是在 D ( k) 的基础上 ,优化调整贝叶斯网络结构得到 G ( k + 1) ,直到满足结构迭代终止条件结束迭代. 2. 1 基于混合数据聚类的连续变量离散化对每一个连续变量的离散化是一个子迭代过程 ,按照贝叶斯网络结构 G ( k) 所确定的变量顺序依次对连续变量进行重新离散化 ,下一个连续变量的离散化在上一个离散化结果的基础上进行 ,直到离散化完所有的连续变量. 为有效地继承因果信息 ,结合贝叶斯网络中的因果局部结构 (父结点结构) 和 Gibbs sampling 进行混合数据聚类 ,通过聚类实现连续变量的离散化. 在对一个连续变量的离散化过程中 ,包括确定对应的离散变量取值 (类值) 和维数 (类数) 2 部分内容. 在依次对连续变量重新离散化的过程中 ,贝叶斯网络结构保持不变 ,但数据集在不断的变化 ,这样产生一个离散数据集子序列 D ( k) 0 = D ( k) , D ( k) 1 , …, D ( k) t = D ( k + 1) ,其中 D ( k) j 是在 D ( k) j - 1 中用连续变量 Xj 的最新离散化数据代替原有离散化数据而得到的数据集. 2. 1. 1 确定连续变量对应的离散变量取值设由 G ( k) 所确定的变量顺序为 X ( k) 1 , …, X ( k) n , 为方便把离散化后的变量排在前部 ,在每一部分内部保持原来的顺序 ,得到新的变量序列为 X ( k) 1 , …, X ( k) t , Xt + 1 , …, Xn . 用 Xi 替换 X ( k) i ,通过混合数据聚类得到 Xi 离散化后的离散变量(类变量) ,仍用 X ( k) i 表示. 由贝叶斯和乘法公式可得 p ( x ( k) i | x ( k) 1 , …, x ( k) i- 1 , xi , G ( k) ) = αp ( x ( k) i ,πx ( k) i , xi , G ( k) ) = βp ( xi | πx ( k) i , x ( k) i , G ( k) ) p ( x ( k) i | πx ( k) i , G ( k) ) . (1) 式中 :πx ( k) i 是 G ( k) 中 X ( k) i 父结点集的配置 ,α和β是与 x ( k) i 无关的量. 基于 G ( k) 和 Gibbs sampling 进行混合数据聚类 ,从而实现对变量 Xi 的重新离散化 ,用新的离散化变量的值代替 D ( k) i 中 X ( k) i 的值 ,并在 D ( k) i 的基础上重新离散化 X i + 1得到 D ( k) i + 1 ,直到完成所有连续变量的重新离散化得到 D ( k + 1) . 在式 (1) 中 ,对连续变量采用条件正态密度函数 ,也可采用其他密度函数(核密度或多项式密度函数等) . 在聚类迭代过程中 ,结合 G ( k) 和 Gibbs sampling 依次确定数据库中每一个记录中的 X ( k) i 的值 ,确定了数据库中所有记录中的 X ( k) i 的值便实现一次迭代 ,直到满足终止条件结束迭代. 下面给出在一个记录中确定 X ( k) i 值的方法 : p ( xi | πx ( k) i , x ( k) i , G ( k) ) = g ( xi ;μi (πx ( k) i , x ( k) i ) ;σi (πx ( k) i , x ( k) i ) | G ( k) ) = 1 2πσi (πx ( k) i , x ( k) i ) e - x i -μi (πx ( k) i , x ( k) i ) 2σ2 i (πx ( k) i , x ( k) i ) . (2) 式中 :μi (πx ( k) i , x ( k) i ) 和σi (πx ( k) i , x ( k) i ) 分别表示变量 Xi 条件均值和条件标准差. 如果 p ( x ( k) i | πx ( k) i , G ( k) ) = 0 , 对 pi ( x ( k) | πx ( k) i , G ( k) ) 进行拉普拉斯修正(Laplace2corrected) [ 16 ] : p ( x ( k) i | πx ( k) i , G ( k) ) = (1/ N) ( N (πx ( k) i ) + N ( x ( k) i ) (1/ N) ) . 式中 : N (πx ( k) i ) 为 X ( k) i 的父结点集 ∏X ( k) i 具有配置 πx ( k) i 的例子数量 , N ( x ( k) i ) 为 X ( k) i = x ( k) i 的例子数量. 对选择的维数 li (2 ≤li ≤M ( k) i ) ,首先随机初始化 X ( k) i 的值 ,然后通过抽样对 D ( k) i 中变量 X ( k) i 的值进行修正 ,直到收敛. 设需要离散化的变量 Xi 离散化后对应的离散变量最大可能的维数为 M ( k) i (一般取 5 或 6) ,按照数据库中记录的顺序依次对 X ( k) i 的值进行修正. 设 X ( k) i 在第 m 个记录的待修正值为 x ( k) im , ^x ( k) im 表示修正后的值 ,变量 X ( k) i 的可能取值为 x 1 i , …, x l i i . 对抽样式子进行归一化处理 , 记 w ( k) i ( h) = p ( xi |πx i , x h i , G ( k) ) p ( x h i |πx i , G ( k) ) ∑ l i j = 1 p ( xi |πx i , x j i , G ( k) ) p ( x j i |πx i , G ( k) ) , h ∈{ 1 , …, li} , 对生成的随机数λ,离散变量 X ( k) i 的取值为 ^x ( k) im = x 1 i , 0 ∑ l i - 1 j = 1 w ( k) i ( j) . (3) 2. 1. 2 确定最优的离散化方案根据最优维数确定的离散化方案便是最优的离散化方案 ,因此确定最优的离散化方案的核心是确 ·84 · 智能系统学报第 2 卷

定连续变量对应的离散变量的最优维数. 设 D ( k) i2 , …, D ( k) iM ( k) i 是使用不同的离散化方案 Λh ( 2 ≤h ≤ M ( k) i ) ,选择一个 h 的值便得到一个离散化方案) 离散化变量 Xi 而得到的离散数据集序列 ,对每一个离散化方案分别进行 MDL 标准打分 , 取 h0 = min M ( k) i ≥h ≥2 { MDL (Λh | D ( k) ih ) }作为离散变量的维数. MDL (Λh | D ( k) ih ) = lg N 2 | Λh | - L (Λh | D ( k) ih ) . (4) 式中 :| Λh | 表示离散化方案 Λh 中变量 X ( k) i 在 G ( k) 中马尔可夫毯[1 ]结构的参数数量 : L (Λh | D ( k) ih ) = ∑ N i =1 lg ( P( ui | M X ( k) i , D ( k) ih ,Λh ) ) = N x ( k)∑i ,πx ( k) i p ( x ( k) i ,πx ( k) i | M X ( k) i , D ( k) ih ,Λh ) x ( k)∏i ∈πx j p ( x j ,πx j | M X ( k) i , D ( k) ih ,Λh ) · lg ( p ( x ( k) i | πx ( k) i , M X ( k) i , D ( k) ih ,Λh ) x ( k)∏i ∈πx j p ( x j | πx j , M X ( k) i , D ( k) ih ,Λh ) . 2. 2 贝叶斯网络结构优化调整贝叶斯网络结构优化调整包括结点顺序和结构调整 2 部分内容 ,通过优化将得到更好的贝叶斯网络结构 ,直到迭代中的贝叶斯网络结构趋于稳定. 2. 2. 1 依赖关系优化利用贝叶斯网络的信息管道模型[17 - 18 ] 描述变量之间存在的 3 种基本依赖关系 (边) :1) 传递依赖 (transitive dependencies) ,结点之间存在直接的信息流动 ,而且信息流不能被其他结点所阻塞 ,结点所表示的变量之间边缘和条件依赖 ; 2) 非传递依赖 (non2transitive dependencies) ,结点之间不存在直接的信息流动 ,而是由连接两结点之间的开路(不含碰撞结点的路径) 产生信息流 ,这种信息流被切割集中的结点所阻塞 ,2 个结点所表示的变量之间边缘依赖 ,但条件独立 ;3) 导出依赖 (induced dependen2 cies) ,这种依赖是由 V 结构所导致 ,结点之间不存在直接的信息流动 ,而是由 V 结构中的碰撞结点诱发的信息流 ,结点所表示的变量之间边缘独立 ,但条件依赖. 下面基于变量之间基本依赖关系和依赖分析思想进行依赖关系优化 (包括补充丢失的依赖关系和删除冗余的依赖关系) 和因果语义优化 2 部分内容. 使用互信息和条件互信息进行变量之间定量条件独立性检验 ,分别用 I ( Xi , Xj) 和 I ( Xi , Xj | Xu 1 , …, Xu h ) 表示变量 Xi 和 X j 之间的互信息和以 X u 1 , …, Xu h ( uk ≠i , j , k = 1 , …, h) 为条件的条件互信息 , 对给定的小正数ε(一般取ε= 0. 01) ,如果 I( Xi , Xj | Xu 1 , …, Xu h ) ε,在 G ( k) 中增加边 Xi - Xj . 用 L ( k) 0 表示对应的边表 ,其中的元素是三元组( i , j ,η) , j > i , i = 1 , …, n , j = 2 , …, n ,δ= 0 ,1 ,η= 1 和η0 = 0 分别表示存在和不存在边 Xi - Xj .这一过程最多需要( n + 1) ( n + 2) / 2 次互信息计算. 2) 删除冗余的依赖关系由于连续变量重新离散化 ,可能存在一些冗余的边 ,通过下面的方法去除冗余的边. 在 G ( k) 中 ,用 S Xi ( Xi , Xj) 和 S X j ( Xi , Xj) 分别表示 Xi 和 X j 的邻域中在 X i 和 X j 链路[18 ] 上的结点集 , S ( Xi , Xj ) 表示 S Xi ( Xi , Xj) 和 S X j ( Xi , Xj) 中具有较少结点的结点集. 对存在边的结点对 Xi , Xj , 设 S ( Xi , Xj ) = { X ( i , j) 1 , …, X ( i , j) t } ,如果存在 t0 (1 ≤t0 ≤t) 使 I ( Xi , Xj | X ( i , j) t 0 , D) 0 , 如果 I( Xi , Xj | X mh , D ( k) ) I ( Xi , Xj | D ( k) ) > ( 1 +δ) , 1 ≤h ≤t ,则 Xi , Xj 和 X mh形成 V 结构 ,定向为 Xi → X mh和 X j →X mh ,这一过程最多需要 n( n - 1) 次条件互信息计算. 使用碰撞识别调整方向后 ,可能还有一部分边的方向没有得到调整 ,下面基于变量之间的预测能第 6 期王双成 ,等 :用于因果分析的混合贝叶斯网络结构学习 ·85 ·

·86· 智能系统学报第2卷力为其余的边调整定向.这种方法的基本思想是：对关于混合贝叶斯网络的参数学习，如果使用离任意的2个变量X,和X,在排除其他变量影响的散化后的离散数据，可直接由数据统计得到：如果使情况下，如果X,对X,比X,对X,更具条件预测能用混合数据，由于父结点结构是分类或回归结构，对力，方向应该由X:指向X 离散变量结点可采用分类技术，对连续变量结点可记F(Xm,Xm,→X)为变量Xm,…Xm,对采用神经网络或Logistic回归确定参数，限于篇幅 X,的预测能力不予详述 F(Xm1,Xm,→X)= 2.3迭代终止检验 p(mp 迭代终止检验包括离散化（聚类）迭代终止检验和结构迭代终止检验，离散化迭代是具有确定贝叶记R(Xm,,Xm,X→X)为以Xm,Xm,为条斯网络结构的内层迭代，结构迭代是外层迭代，结构件，X对X,的相对预测能力迭代终止学习过程便结束」 R(Xm1,Xm,X→X= 2.3.1离散化迭代终止检验 FXm,,Xm,X→X 1 采用相邻2次迭代被离散化变量值序列的一致 F(Xm1,Xm,→X) 性检验进行终止迭代判断.设相邻2次迭代所得到式中：j为，jmh,h=1,1 的离散化值序列分别为x,x,x很和x+” 对选择的X:和X,分别用B(X)和B(X)表 x",x*",那么sig(x,x")= 示X,和X的马尔可夫毯，当B(X)和B(X)给定 0,x=x号+v 时，X,和X,之间便没有其他因素的影响，按如下方 1”v1可≤N.对给定的阀值n>0,如法调整其他边的方向. 如果R(B(X)UB(X),X→X)>R(B(X)U 果大，9g,)<则结束选代 B(X),X→X),而且X,→X不产生环路，就定向 2.3.2结构迭代终止检验为X→X,否则定向为X,一X. 按照变量的某一确定顺序（如在数据库中的顺如果R(B(X)UB(X),X:→X)<R(B(X)U 序)建立贝叶斯网络结构数组，G所对应的结构数 B(X),X→X),而且X,一X不产生环路，就定向组为w=（a程，a州，aw,a,… 为X,一X,否则定向为X,→X a品y).当X和X)之间存在边时，a=1(i<), 如果R(B(X)UB(X),X,→X)=R(B(X)U 否则a叫=0.对给定的正整数阈值，如果习a+”- B(X),X→X),选择不产生环路的情况定向，2种 a1<m,结束迭代情况都不产生环路就随机定向.基于预测能力的定向最多需要进行】(m-)次条件相对预测能力计 3实验算，对GW调整后得到G+v 根据网站http:/www.norsys.com提供的A- 综上所述，进行一次贝叶斯网络结构优化调整 LARM网概率分布表生成离散变量模拟数据集，使算法的时间复杂性是O().图2给出了经过迭代用文献[19]中的离散变量连续化的方法，把离散变学习得到的混合贝叶斯网络结构量X3,X4,X36连续化.分别取6=0.05和而=4 进行实验在第1次贝叶斯网络迭代中，对具有多父结点的连续变量X3、X5、X7,分别取4、4、2个值的离散化迭代收敛情况如图3(a)所示.贝叶斯网络结构迭代收敛情况如图3(b)所示。从图3(a)中可以看出，对X、X5、X迭代5 次后均收敛，显示了具有很高的离散化效率，而其他的离散化算法在离散化过程中都具有很大的系统开销.对其他连续变量（包括不同迭代次数）离散化迭图2迭代学习后的混合贝叶斯网络结构代可得到类似的收敛情况.图3(b)中显示，对结构 Fig.2 Hybrid Bayesian network structure 迭代6次后便收敛，表明学习算法具有很高的效率」 after iterative learning 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

力为其余的边调整定向. 这种方法的基本思想是 :对任意的 2 个变量 Xi 和 X j ,在排除其他变量影响的情况下 ,如果 Xi 对 X j 比 X j 对 X i 更具条件预测能力 ,方向应该由 Xi 指向 X j . 记 F( X m1 , …, X mt →Xi) 为变量 X m1 , …, X mt 对 X i 的预测能力 F( X m1 , …, X mt → Xi) = xm ∑1 , …, xmt p ( xm1 , …, xmt ) max X i ( xm1 , …, xmt ) { p( xi | xm1 , …, xmt )} , 记 R ( X m1 , …, X mt , Xj →Xi) 为以 X m1 , …, X mt 为条件 , Xj 对 X i 的相对预测能力 R ( X m1 , …, X mt , Xj → Xi) = F( X m1 , …, X mt , Xj → Xi) F( X m1 , …, X mt → Xi) - 1 , 式中 : j ≠i , j ≠mh , h = 1 , …, t. 对选择的 Xi 和 X j ,分别用 B ( Xi) 和 B ( Xj ) 表示 Xi 和 X j 的马尔可夫毯 ,当 B ( Xi) 和 B ( Xj) 给定时 , Xi 和 X j 之间便没有其他因素的影响 ,按如下方法调整其他边的方向. 如果 R(B ( Xi) ∪B ( Xj) , Xi →Xj) > R(B ( Xi) ∪ B ( Xj) , Xj →Xi) ,而且 Xi →Xj 不产生环路 ,就定向为 Xi →Xj ,否则定向为 Xi ←Xj . 如果 R(B ( Xi) ∪B ( Xj) , Xi →Xj) 0 ,如果 1 N ∑ N j = 1 sig ( x ( k) ij , x ( k + 1) ij ) <η0 ,则结束迭代. 2. 3. 2 结构迭代终止检验按照变量的某一确定顺序 (如在数据库中的顺序) 建立贝叶斯网络结构数组 , G ( k) 所对应的结构数组为 w ( k) = ( a ( k) 12 , …, a ( k) 1 n , …, a ( k) i( i + 1) , …, a ( k) in , …, a ( k) ( n - 1) n ) . 当 Xi 和 X j 之间存在边时 , a ( k) ij = 1 ( i < j) , 否则 aij = 0. 对给定的正整数阈值 n0 ,如果 ∑i < j | a ( k + 1) ij - a ( k) ij | < n0 ,结束迭代. 3 实验根据网站 http :/ / www. norsys. com 提供的 A2 LARM 网概率分布表生成离散变量模拟数据集 ,使用文献[ 19 ]中的离散变量连续化的方法 ,把离散变量 X2 , X4 , …, X36连续化. 分别取η0 = 0. 05 和 n0 = 4 进行实验. 在第 1 次贝叶斯网络迭代中 ,对具有多父结点的连续变量 X13 、X35 、X27 ,分别取 4、4、2 个值的离散化迭代收敛情况如图 3 (a) 所示. 贝叶斯网络结构迭代收敛情况如图 3 (b) 所示. 从图 3 (a) 中可以看出 ,对 X13 、X35 、X27 迭代 5 次后均收敛 ,显示了具有很高的离散化效率 ,而其他的离散化算法在离散化过程中都具有很大的系统开销. 对其他连续变量 (包括不同迭代次数) 离散化迭代可得到类似的收敛情况. 图 3 ( b) 中显示 ,对结构迭代 6 次后便收敛 ,表明学习算法具有很高的效率. ·86 · 智能系统学报第 2 卷

第6期王双成，等：用于因果分析的混合贝叶斯网络结构学习 ·87 701 一X:离散化保持率方面，基于核密度的离散化算法略占优势，在 ·”··X离散化一X2离散化条件独立性保持率方面，基于正态密度的离散化方 2020 法略占优势.由于核密度估计随例子增加运算复杂 10 程度的增长远大于正态密度，因此当例子多时适合 45678910 于采用正态密度离散化方法，而当例子少时适合于迭代次数采用核密度离散化方法 (a)离散化迭代收敛情况使用扩展的熵离散化算法和本文建立的聚类离散化算法进行连续变量的离散化，其有效性的比较如图5所示 20 扩展的嫡离散化算法 ··基于聚类的离散化算法 510 1.0 0.9 0.8 0 345678976 07 0.6 迭代次数 500 1000-1500 20003000 (b)结构迭代收敛情况练数据数量图3迭代收敛情况 (a)变量之间的依赖保持率比较 Fig.3 The iteration convergence situation 基于核密度离散化算法和基于正态密度的离散 1.00 一扩展的嫡离散化算法 ·。·,基于聚类的离散化算法 0.86 化算法的比较情况如图4所示 0.72 基于核密度的离散化 0.58 1.0 基于正态密度的离散化· 0.44 0.9 0.30 0.8 00 1000150020003000 0.7 训练数据数量 0.6 500 1000150020003000 (b)变量之间的条件独立性保持率比较训练数据数量图5基于聚类的离散化算法与扩展的熵离散化算法比较 (a)变量之间的依懒保持率 Fig.5 The situation comparison of discretizing continuous variables between clustering and extended entropy 1.00 基于核密度的离散化 0.86 ·基于正态密度的离化.：图5中显示，当例子数据量小时，扩展的熵离散 0.72 0.58 化算法略优于聚类算法，但随例子数据的增加，聚类 0.44 算法明显具有优势.具有这种优势的主要原因是：随 030… 5001000150020003000 着例子数据的增加变量之间依赖和条件独立性信息训练数据数量能够得到充分的利用，且贝叶斯网络结构得到不断的优化调整，而在扩展的熵离散化算法中，随着例子 (b)变量之间的条件独立性保持率数据的增加，离散化和结构学习的局部最优性影响图4基于正态密度和核密度的离散化情况比较逐渐增加，导致了最终的差距 Fig.4 The situation comparison of discretizing continuous 在UCI机器学习数据仓库2o1中选择10个分类 variables between normal density and kernel density 数据集，脚标最大的一个是类变量，其他的是属性变从图4的实验结果可以看出，在依赖关系保持量.从其中3个数据集heart_disease、breast_,cancer 方面，当例子少时，基于核密度的离散化算法明显优和cmc学习得到的贝叶斯网络结构如图6所示.基于基于正态密度的离散化算法，当例子多时，在依赖于扩展的熵离散化和聚类离散化2种方法，对类变 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.ne

图 3 迭代收敛情况 Fig. 3 The iteration convergence situation 基于核密度离散化算法和基于正态密度的离散化算法的比较情况如图 4 所示. 图 4 基于正态密度和核密度的离散化情况比较 Fig. 4 The situation comparison of discretizing continuous variables between normal density and kernel density 从图 4 的实验结果可以看出 ,在依赖关系保持方面 ,当例子少时 ,基于核密度的离散化算法明显优于基于正态密度的离散化算法 ,当例子多时 ,在依赖保持率方面 ,基于核密度的离散化算法略占优势 ,在条件独立性保持率方面 ,基于正态密度的离散化方法略占优势. 由于核密度估计随例子增加运算复杂程度的增长远大于正态密度 ,因此当例子多时适合于采用正态密度离散化方法 ,而当例子少时适合于采用核密度离散化方法. 使用扩展的熵离散化算法和本文建立的聚类离散化算法进行连续变量的离散化 ,其有效性的比较如图 5 所示. 图 5 基于聚类的离散化算法与扩展的熵离散化算法比较 Fig. 5 The situation comparison of discretizing continuous variables between clustering and extended entropy 图 5 中显示 ,当例子数据量小时 ,扩展的熵离散化算法略优于聚类算法 ,但随例子数据的增加 ,聚类算法明显具有优势. 具有这种优势的主要原因是 :随着例子数据的增加变量之间依赖和条件独立性信息能够得到充分的利用 ,且贝叶斯网络结构得到不断的优化调整 ,而在扩展的熵离散化算法中 ,随着例子数据的增加 ,离散化和结构学习的局部最优性影响逐渐增加 ,导致了最终的差距. 在 UCI 机器学习数据仓库[ 20 ]中选择 10 个分类数据集 ,脚标最大的一个是类变量 ,其他的是属性变量. 从其中 3 个数据集 heart_disease、breast_cancer 和 cmc 学习得到的贝叶斯网络结构如图 6 所示. 基于扩展的熵离散化和聚类离散化 2 种方法 ,对类变第 6 期王双成 ,等 :用于因果分析的混合贝叶斯网络结构学习 ·87 ·

·88 智能系统学报第2卷量的预测能力（推理能力）比较情况如表1所示于扩展熵离散化方法学习得到的贝叶斯网络，对属性变量的预测能力也可得到类似的结果，可知，基于聚类离散化方法学习得到的贝叶斯网络在推理方面 X 更加可靠 4结束语 Xio 建立了具有连续变量的贝叶斯网络结构迭代学 Xa 习方法，在迭代中过程中，一方面，通过基于父结点结构和Gibbs sampling进行混合数据聚类来实现 (a)heart disease 连续变量的离散化，并根据离散变量的马尔可夫毯和MDL打分确定离散变量的最优维数，这样能够有效地动态继承变量之间的因果关系；另一方面，基于依赖分析方法的贝叶斯网络因果结构优化调整使 X 变量之间因果关系不断得到改进，逐渐趋于稳定.该方法避免了使用基于扩展的熵离散化方法和打分搜索结构学习方法所带来的主要问题，同时，也可用 (b)breast cancer 于其他具有连续变量的相关问题参考文献： [1]PEARL J.Probabilistic reasoning in intelligent systems: networks of plausible inference[M].San Mateo,Morgan Kaufmann,1988 [2]HECKERMAN D,GEIGER D,CHICKERING D M. Learning Bayesian networks:the combination of knowl- edge and statistical data[J].Machine Learning,1995,20 (c)cme (3)：197.243. 图6学习得到的贝叶斯网络结构 [3]SPIRTES P,MEEK C,RICHARDSON T.Causal in Fig.6 Learned Bayesian network structures 表12种离散化方法在推理能力方面的比较 ference in the presence of latent variables and selection bias[A].Proceedings of the 11th Annual Conference on Table 1 The comparison of two discretizing methods Uncertainty in Artificial Intelligence C].Pittsburgh, in inference respect USA,1995 基于扩展基于聚类变量数据集熵离散化离散化数量 [4]CHIC KERIN G D M.Learning equivalence classes of iris 95.334.2797.334.425 Bayesian network structures [J].Machine Learning, liver disease 56.572.6256.572.62 7 2002,2(3):445-498. pima_indians_diabetes 70.78±3.8374.55±2.63 9 [5]HENSON J.Comparing causality principles[J ]Studies heart disease 77.40±5.8086.66±5.2814 in History and Philosophy of Modern Physics,2005,36 new_thyroid 74.76±占.9274.76±5.92 6 (3):519-543 cme 44.00±4.5142.30±3.6810 wdbc 93.16±1.6697.02±1.9332 [6]THIESSON B,MEEK C,CHICKERINGD,HECKER- breast caneer 74.48±3.4475.85±3.4410 MAN D.Learning mixtures of Bayesian networks [R]. Thyroid0387 66.40±2.7666.602.5822 MSR-TR9730,1997. sick euthyroid 90.76±1.1791.55±1.1125 [7]MURPHY K P.Inference and learning in hybrid Bayes- ian networks[R].CSD-98-990,1998. 从表1中可以看出，基于聚类离散化方法学习 [8]MONTI S,COOPER G F.learning hybrid Bayesian net- 得到的贝叶斯网络对类变量的预测能力明显优于基 works from data[R].ISSP-97-01,1997 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

量的预测能力(推理能力) 比较情况如表 1 所示. 图 6 学习得到的贝叶斯网络结构 Fig. 6 Learned Bayesian network structures 表 1 2 种离散化方法在推理能力方面的比较 Table 1 The comparison of two discretizing methods in inference respect 数据集基于扩展熵离散化基于聚类离散化变量数量 iris 95. 33 ±4. 27 97. 33 ±4. 42 5 liver_disease 56. 57 ±2. 62 56. 57 ±2. 62 7 pima_indians_diabetes 70. 78 ±3. 83 74. 55 ±2. 63 9 heart_disease 77. 40 ±5. 80 86. 66 ±5. 28 14 new_thyroid 74. 76 ±5. 92 74. 76 ±5. 92 6 cmc 44. 00 ±4. 51 42. 30 ±3. 68 10 wdbc 93. 16 ±1. 66 97. 02 ±1. 93 32 breast_caneer 74. 48 ±3. 44 75. 85 ±3. 44 10 Thyroid0387 66. 40 ±2. 76 66. 60 ±2. 58 22 sick_euthyroid 90. 76 ±1. 17 91. 55 ±1. 11 25 从表 1 中可以看出 ,基于聚类离散化方法学习得到的贝叶斯网络对类变量的预测能力明显优于基于扩展熵离散化方法学习得到的贝叶斯网络 ,对属性变量的预测能力也可得到类似的结果 ,可知 ,基于聚类离散化方法学习得到的贝叶斯网络在推理方面更加可靠. 4 结束语建立了具有连续变量的贝叶斯网络结构迭代学习方法 ,在迭代中过程中 ,一方面 ,通过基于父结点结构和 Gibbs sampling 进行混合数据聚类来实现连续变量的离散化 ,并根据离散变量的马尔可夫毯和 MDL 打分确定离散变量的最优维数 ,这样能够有效地动态继承变量之间的因果关系 ;另一方面 ,基于依赖分析方法的贝叶斯网络因果结构优化调整使变量之间因果关系不断得到改进 ,逐渐趋于稳定. 该方法避免了使用基于扩展的熵离散化方法和打分2 搜索结构学习方法所带来的主要问题 ,同时 ,也可用于其他具有连续变量的相关问题. 参考文献 : [1 ] PEARL J. Probabilistic reasoning in intelligent systems: networks of plausible inference[ M]. San Mateo , Morgan Kaufmann , 1988. [2 ] HECKERMAN D , GEIGER D , CHICKERIN G D M. Learning Bayesian networks: the combination of knowl2 edge and statistical data[J ]. Machine Learning , 1995 , 20 (3) : 197 - 243. [ 3 ] SPIRTES P , MEEK C , RICHARDSON T. Causal in2 ference in the presence of latent variables and selection bias[ A ]. Proceedings of the 11th Annual Conference on Uncertainty in Artificial Intelligence [ C ]. Pittsburgh , USA , 1995. [ 4 ] CHICKERIN G D M. Learning equivalence classes of Bayesian network structures [ J ]. Machine Learning , 2002 , 2 (3) : 445 - 498. [5 ] HENSON J. Comparing causality principles[J ]. Studies in History and Philosophy of Modern Physics , 2005 , 36 (3) : 519 - 543. [ 6 ] THIESSON B , MEEK C , CHICKERIN G D , HECKER2 MAN D. Learning mixtures of Bayesian networks[ R ]. MSR2TR297230 , 1997. [7 ]MURPH Y K P. Inference and learning in hybrid Bayes2 ian networks[ R]. CSD2982990 ,1998. [8 ]MON TI S , COOPER G F. learning hybrid Bayesian net2 works from data[ R]. ISSP297201 , 1997. ·88 · 智能系统学报第 2 卷

第6期王双成，等：用于因果分析的混合贝叶斯网络结构学习 ·89· [9]FA YYAD U,IRANI K.Mult-interval discretization of [19]王飞，刘大有，薛万欣.基于遗传算法的Bayesian网中 continuous-valued attributes for calssification learning 连续变量离散化的研究[U].计算机学报，2002,25 [A].Proceedings International Joint Conference on Arti- (8):794-800. ficial Intelligence[C].Chambery,France,1993. WANG Fei,LIU Dayou,XUE Wanxin.Discretizing [10]LAM W,BACCHUS F.Learning Bayesian belief net- continuous variables of Bayesian networks based on ge- works:an approach based on the MDL principle [J]. netic algorithms [J].Chinese Journal of Computers, Computational Intelligence,1994,10(4):269-293. 2002,25(8):794.800. [11]CHICKERING D M.Learning Bayesian networks is [20]MURPHY SL,AHA D W.UCI repository of machine NP-Hard[R].MSR-TR-94-17,1994. learning databases EB/OL ]http:/www.ics.uci [12]茆诗松，王静龙，濮晓龙.高等数理统计[M.北京：高 edu/~mlearn/ML Repository,2005-09-10. 等教有出版社，1998. 作者简介： [13]GEMAN S,GEMAN D.Stochastic relaxation,Gibbs 王双成，男，1958年生，教授，博士 distributions and the Bayesian restoration of images[J]. 主要研究方向为人工智能、机器学习和 IEEE Transactions on Pattern Analysis and Machine In- 数据挖掘及其在风险管理中的应用，先 telligence,1984,6(6):721-742. 后承担国家自然科学基金“面向智能信 [14]CHOW C K,LIU C N.Approximating discrete proba- 息处理的贝叶斯网络关键理论与方法研 bility distributions with dependence trees [J].IEEE 究”和“面向风险管理的贝叶斯网络与集 Transactions on Information Theory,1968,14(3):462 成研究”等课题，发表学术论文40余篇 .467. Email:wangsc @lixin.edu.cn. [15 ]BUNTINE W L.Chain graphs for learning[A].Pro- ceedings of the 17th Conference Artificial Intelligence 李小琳，女，1978年生，讲师，博士， [C].San Francisco,USA,1995. 主要研究方向为机器学习和数据挖掘， [16]DOMIN GOS P,PAZZANI M.On the optimality of the 先后参与国家自然科学基金2项，发表 simple Bayesian classifier under zero-one loss [J ]Ma- 学术论文16篇 chine Learning,1997,29(2.3):103.130. E mail lixl 126 @126.com. [17]王双成，苑森淼.具有丢失数据的贝叶斯网络结构学习研究[J].软件学报，2004,15(7)：1030-1041. WANG Shuangcheng,YUAN Senmiao.Research on learning Bayesian networks structure with missing data 侯彩虹，女，1978年生，讲师，博士， [J ]Journal of Software,2004,15(7):1030-1041. 主要研究方向是智能控制和数据挖掘， [18]王双成，苑森淼.具有丢失数据的可分解马尔科夫网络先后参与国家自然科学基金2项，发表结构学习[U].计算机学报，2004,27(9)：1221-1228. 学术论文12篇. WANG Shuangcheng,YUAN Senmiao.Learning de- Email dhuhch @mail.dhu.edu.cn. composable Markov network structure with missing data [J].Chinese Journal of Computers,2004,27(9):1221 -1228 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net

[9 ] FA YYAD U , IRANI K. Mult2interval discretization of continuous2valued attributes for calssification learning [ A ]. Proceedings International Joint Conference on Arti2 ficial Intelligence[C]. Chambery , France , 1993. [10 ]LAM W , BACCHUS F. Learning Bayesian belief net2 works: an approach based on the MDL principle [J ]. Computational Intelligence , 1994 , 10 (4) : 269 - 293. [11 ] CHICKERIN G D M. Learning Bayesian networks is NP2Hard[ R]. MSR2TR294217 , 1994. [12 ]茆诗松 ,王静龙 ,濮晓龙. 高等数理统计[ M ]. 北京 : 高等教育出版社 , 1998. [13 ] GEMAN S , GEMAN D. Stochastic relaxation , Gibbs distributions and the Bayesian restoration of images[J ]. IEEE Transactions on Pattern Analysis and Machine In2 telligence , 1984 , 6 (6) : 721 - 742. [14 ]CHOW C K , L IU C N. Approximating discrete proba2 bility distributions with dependence trees [J ]. IEEE Transactions on Information Theory , 1968 , 14 (3) : 462 - 467. [15 ]BUN TIN E W L. Chain graphs for learning [ A ]. Pro2 ceedings of the 17th Conference Artificial Intelligence [C]. San Francisco , USA , 1995. [16 ]DOMIN GOS P , PAZZANI M. On the optimality of the simple Bayesian classifier under zero2one loss[J ]. Ma2 chine Learning , 1997 , 29 (2 - 3) : 103 - 130. [17 ]王双成 ,苑森淼. 具有丢失数据的贝叶斯网络结构学习研究[J ]. 软件学报 ,2004 , 15 (7) : 1030 - 1041. WAN G Shuangcheng , YUAN Senmiao. Research on learning Bayesian networks structure with missing data [J ]. Journal of Software , 2004 , 15 (7) : 1030 - 1041. [18 ]王双成 ,苑森淼. 具有丢失数据的可分解马尔科夫网络结构学习[J ]. 计算机学报 , 2004 , 27 (9) : 1221 - 1228. WAN G Shuangcheng , YUAN Senmiao. Learning de2 composable Markov network structure with missing data [J ]. Chinese Journal of Computers , 2004 , 27 (9) : 1221 - 1228. [19 ]王飞 ,刘大有 ,薛万欣. 基于遗传算法的 Bayesian 网中连续变量离散化的研究 [J ]. 计算机学报 , 2002 , 25 (8) : 794 - 800. WAN G Fei , L IU Dayou , XU E Wanxin. Discretizing continuous variables of Bayesian networks based on ge2 netic algorithms [J ]. Chinese Journal of Computers , 2002 , 25 (8) : 794 - 800. [ 20 ]MURPH Y S L , A HA D W. UCI repository of machine learning databases[ EB/ OL ]. http : / / www. ics. uci. edu/ ～mlearn/ MLRepository , 2005 - 09 - 10. 作者简介 : 王双成 ,男 ,1958 年生 ,教授 ,博士 , 主要研究方向为人工智能、机器学习和数据挖掘及其在风险管理中的应用 ,先后承担国家自然科学基金“面向智能信息处理的贝叶斯网络关键理论与方法研究”和“面向风险管理的贝叶斯网络与集成研究”等课题 ,发表学术论文 40 余篇. E2mail : wangsc @lixin. edu. cn. 李小琳 ,女 ,1978 年生 ,讲师 ,博士 , 主要研究方向为机器学习和数据挖掘 , 先后参与国家自然科学基金 2 项 ,发表学术论文 16 篇. E2mail : lixl_126 @126. com. 侯彩虹 ,女 ,1978 年生 ,讲师 ,博士 , 主要研究方向是智能控制和数据挖掘 , 先后参与国家自然科学基金 2 项 ,发表学术论文 12 篇. E2mail : dhuhch @mail. dhu. edu. cn. 第 6 期王双成 ,等 :用于因果分析的混合贝叶斯网络结构学习 ·89 ·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录