第7卷第2期 智能系统学报 Vol.76.2 2012年4月 CAAI Transactions on Intelligent Systems Apr.2012 D0I:10.3969/i.issn.16734785.201112005 网络出版t地址:htp://www.cnki.net/kcma/detail/23.1538.TP.20120416.0843.001.html 逻辑回归分析的马尔可夫毯学习算法 郭坤,王浩,姚宏亮,李俊照 (合肥工业大学计算机与信息学院,安微合肥230009) 摘要:针对当前的马尔可夫毯学习算法会引入不正确的父子节点和配偶节点的问题,提出了一种基于逻辑回归分 析的马尔可夫毯学习算法RA-MMMB.利用MMMB算法得到候选的马尔可夫毯,建立目标变量与候选马尔可夫毯的 逻辑回归方程,通过回归分析在保留与目标变量相关性很强的变量的同时,去掉MMB等算法所引入的弱相关性的 错误变量以及其他的弱相关性变量;然后利用G测试去掉回归分析后候选马尔可夫毯中的兄弟节点,得到目标变 量的马尔可夫毯.RA-MMMB算法通过回归分析,减少了条件独立测试的次数,提高了学习的精度.实验比较和分析 表明,RA-MMMB算法能有效地发现变量的马尔可夫毯. 关键词:贝叶斯网络;马尔可夫毯:逻辑回归分析:条件独立测试 中图分类号:TP181文献标志码:A文章编号:16734785(2012)02-015308 An algorithm for a Markov blanket based on logistic regression analysis GUO Kun,WANG Hao,YAO Hongliang,LI Junzhao College of Computer and Information,Hefei University of Technology,Hefei 230009,China) Abstract:To solve the problem of incorrect parent,child,and spouse nodes being brought into the current algo- rithms,an improved algorithm called a regression analysis-max min Markov blanket(RA-MMMB)was presented u- sing the Markov Blanket based on logistic regression analysis.First,a logistic regression equation was established between the target variable and a set of its candidate Markov blankets obtained from the max-min Markov blanket (MMMB)algorithm.Regression analysis can retain the variables strongly correlated with the target variable,and can remove the error variables and other variables weakly correlated with it as well.The incorrect nodes in the MMMB algorithm were also removed from the candidate Markov blanket;then,after the G2 conditiond independ- ence test,which removed the brother node of the target variable in the candidate Markov blanket,returned after the regression analysis,the Markov blanket of the target variable was obtained.By the method of regression analysis, the RA-MMMB algorithm reduces the number of condition tests of independence and improves the accuracy of dis- covering the Markov blanket for the target variable.The result shows that the method can discover the Markov blan- ket of the target variable efficiently. Keywords:Bayesian networks;Markov blanket;logistic regression analysis;conditional independence test 在给定贝叶斯网络(Bayesian networks)中一个打分一搜索方法等建立贝叶斯网络结构,然后基于 变量的马尔可夫毯(Markov blanket)时,贝叶斯网络 贝叶斯网络结构确定目标变量的马尔可夫毯,但该 中其他变量与该变量条件独立,一个变量的马尔可 类方法得到的马尔可夫毯不准确,且学习方法效率 夫毯能够屏蔽贝叶斯网络中其他变量对该变量的影 低:另一类是利用局部学习的方法直接学习目标变 响,可用来预测、分类和因果发现等 量的马尔可夫毯.当前研究者主要采用基于局部学 确定目标变量的马尔可夫毯有2类方法:利用 习的方法学习马尔可夫毯,相关工作如Margaritis和 Thrun提出了GS(Gow-Shrink)算法I,首先启发式 收稿日期:2011-1208.,网络出版日期:201204-160. 地搜索所有与目标变量依赖的变量,然后去除冗余 基金项目:国家自然科学基金资助项目(61070131,61175051) 通信作者:郭坤.E-mail:guokun19871005@163.com. 的变量.由于配偶节点较晚进入候选的马尔可夫毯
·154 智能系统学报 第7卷 导致候选的马尔可夫毯中引入了较多的错误节点, 的变量,是指G中每个节点X在给定它的父节点P 降低了后面的条件独立测试的有效性和可靠性. (X)下的条件概率分布P(XIP,(X)).贝叶斯网络 Tsamardinos等对GS进行了改进,提出了IAMB(in 的联合概率分布可表示如下: cremental association Markov blanket)算法[2】,每入选 p()=Πxep(XIP.(X)). 一个变量,就对该变量进行条件独立测试,减少了错 定义1碰撞节点.如果路径P中的节点W含 误变量的引入:但该算法的条件独立测试是在给定 有2条指向它的边,那么节点W在P中是碰撞节 整个马尔可夫毯下进行的,条件独立测试要求的数 点.在给定W时,它的2个父节点条件依赖. 据量较大3].Tsamardinos等提出的MMMB(max-min 定义2d分离.如果下列任意一条成立:1)路 Markov blanket)算法[4]首先利用MMPC(mar-min 径P上存在一个包含于集合Z的非碰撞节点;2)路 parents and children)算法I4]寻找目标节点的父节点 径P上的碰撞节点和它的子孙节点均不包含在Z 和子节点,然后找到它的配偶节点,但该方法会引入 中,那么称节点X到节点Y的一条路径P被节点集 错误的父子节点和配偶节点).与此相似的算法还 合Z阻塞.当且仅当从X到Y的每条路径均被Z阻 有Hiton-MB(Hiton-Markov blanket)算法[6].Tsamar- 塞,称节点X和Y被Z集合d分离.当有向无环图G dinos等在贝叶斯网络结构学习算法MMHC(max- 和联合概率分布满足忠实性条件时,d分离与条件 min Hill-climbing)[)中调用MMPC算法时,利用父 独立等价.本文中Ind(X;TIZ)表示变量T和X在 节点与子节点对称的性质,去除MMP℃算法引入的 给定变量集Z时条件独立;Dep(X;TIZ)表示变量T 错误父子节点.而PCMB(parents-children Markov 和X在给定Z时条件依赖。 blanket)算法[)利用完整的条件独立测试去除错误 定义3马尔可夫毯一个变量T的马尔可夫毯 节点,但存在时间复杂度较大的问题 MB(T)是在给定该集合时,变量集V中所有其他的节 针对上述算法存在引人错误节点和时间复杂度 点与T条件独立的最小集合.即对HX∈V\ 较大的问题,为了提高学习马尔可夫毯的精度和效 (MB(T)UT),nd(X;TIMBUT).有向无环图G中的 率,在马尔可夫毯学习算法中引入回归分析8].回 每个节点T,它的马尔可夫毯MB(T)包括T的父节点、 归分析可以在发现与目标变量相关性很强的变量的 子节点和配偶节点(与T共同有一个子节点), 同时,去掉与目标变量相关性弱或无关的变量.回归 图1中节点T的马尔可夫毯包括父节点{B, 分析广泛应用于机器学习中的特征选择,从变量集 E}、子节点{C,D}和配偶节点F. 合中选取最优的特征子集9].根据变量数据取值是 否连续,将回归分析分为线性回归分析和逻辑回归 分析o1(logistic regression analysis)2类.逻辑回归 分析可以有效处理贝叶斯网络中的离散数据.因此, 如何让学习到的马尔可夫毯更加精确,学习过程效 率更高,是马尔可夫毯学习算法的核心问题.提出一 种基于逻辑回归分析对MMMB算法改进的RA- MMMB(regression analysis-max min Markov blanket) 算法.该算法对MMMB算法过程中的候选马尔可夫 毯与目标变量进行逻辑回归分析,去掉相关性弱的 变量,然后进行条件独立测试,去掉候选马尔可夫毯 图1T的马尔可夫毯(阴影节点) 存在的兄弟节点,得到最终的马尔可夫毯.本文采用 Fig.1 The Markov blanket of node T(shadow nodes) 文献[11]中的G测试来判断2个变量在给定变量 集时是否条件独立,实验证明,该方法能有效地去掉 2 MMMB算法 MMMB算法包含的错误变量,并减少了条件独立测 2.1MMMB算法描述 试的次数 MMMB算法采用分治法发现目标变量T的马尔 1 贝叶斯网络及相关定义 可夫毯MB(T),首先调用MMPC算法找到T的父子 节点集PC(T),然后找到T的配偶节点.T的父子节 设V代表一组离散随机变量,用〈G,〉来表示 点集PC(T)和配偶节点组成了T的马尔可夫毯 贝叶斯网络,其中有向无环图G中的节点对应V中 MB(T).MMPC算法首先利用启发式搜索策略使与T
第2期 郭坤,等:逻辑回归分析的马尔可夫毯学习算法 ·155· 相关的变量依次进入T的候选父子节点集CP℃,然后 MB=MBUX 移去CPC中被错误引入的变量I;MMMB算法对 return MB. PC(T)中的每一个元素调用MMP℃算法,得到T的候 选马尔可夫毯CMB,经过条件独立性测试,找到T的 2.2MMMB算法存在的问题 配偶节点.然而,MMPC算法会包含未去掉的T的错 MMPC算法去掉错误节点的依据为:如果X 误父子节点,MMMB算法也会引入T的错误的配偶 PC(T),在给定ZCPC(T)下,X与T条件独立,通 节点.MMPC算法和MMMB算法描述如下. 过条件独立测试可以将添加到CP℃中的错误节点 1)MMPC算法. 去掉.但存在有些错误节点不能被去掉,以图2(a) 为例,节点T的父子节点集合PC(T)={A},对T调 输入:目标变量T, 用MMPC算法: 输出:T的父子节点集合P℃(T). 1)CPC添加节点. /*添加节点到CPC*/ ①CPC=☑,A与T邻接,Dep(A;TI☑)的值最 CPC=; 大,节点A首先进入到CPC; repeat; ②CPC={A},路径T→A←-B→C中的碰撞节点 foreach X∈八CPC\{T; A包含在{A}中,该路径未被{A}阻塞,Dep(C;TI assoc(X)=arg:min,ccPc Dep(X;TIs); A);而nd(B;TI☑),节点C被添加到CPC; /寻找sCCPC,使得Dep(X;TIs)的值最小 ③CPC={A,C},由于nd(B;TI☑),节点B不 Y=arg:max xemcrcvr Dep(X;Tlassoc(X)); 能被添加到CPC. /寻找Y∈八({T}UCPC),使得Dep(Y;TI 2)CPC={A,C}去掉错误节点. assoc((Y))的值最大 ①给定任意的集合Z,Dep(A;TIZ),所以A不 if Dep (Y;Tlassoc(Y)); 会从CPC中移除. CPC =CPCUY; ②由于路径T→A→C中的非碰撞节点A并不 until CPC不再改变; 包含在⑦中,该路径未被☑阻塞,Dep(C;TI☑),且 /*从CPC中去掉错误的节点*/ Dep(C;TIA).所以不存在CPC\{C;的子集s使得 foreach X∈CPC; Ind(C;TIs),节点C并不能被移除,CPC={A,C. if3 s CCPC\{X},使得Ind(X;Tls); 但节点C并不在真实的PC(T)中. CPC=CPCI{X};/把X从CPC中移除 同理,图2(b)中的节点C也会包含在MMPC return CPC. 算法输出的父子节点集合中. 2)MMMB算法描述: 输入:目标变量T 输出:T的马尔可夫毯MB(T), /*得到MB(T)的候选马尔可夫毯*/ PC(T)=MMPC(T); MB=PC(T); CMB=PC(T)UcePC MMPC(C)\T; (a)情况1 (b)情2 /*找到T的配偶节点*/ 图2 MMPC算法引入错误节点C foreach XE CMB\PC(T); Fig.2 Incorrect node C included in CPC returned 寻找集合s使得Ind(X;TIs); MMMB算法寻找配偶节点的依据为:对X∈ foreach Y∈PC(T); CMB\PC(T),YePC(T),如果存在集合Z(X,TZ), if Dep(X;TIY Us); 且Ind(X;TIZ),使得Dep(X;TI{Y}UZ),那么X为 将X标记; Y的配偶节点.即使MMPC算法输出的CPC为正确 f(X有标记); 的PC(T),MMMB算法返回的MB(T)也会包含错误
·156 智能系统学报 第7卷 的配偶节点.例如图3中节点T的父子节点PC(T)为 变量和与因变量相关性弱的次要变量.以目标变量 {B,D},候选马尔可夫毯CMB={A,B,C,D}.由图3 T为因变量,MMMB算法中的候选马尔可夫毯CMB 易知Ind(A;TI{B}),路径A→C+D:T中的碰撞节 为自变量集合,进行回归分析,可以从CMB中去掉 点D包含在集合{DU{B}中,所以Dep(A;TI{DU 与目标变量相关性不强的变量. {B}),A被添加到马尔可夫毯中,但是实际上A并不 3.2.1候选马尔可夫毯的逻辑回归分析模型 在节点T的马尔可夫毯MB(T)中. 一般贝叶斯网络中的数据为离散值,所以对目 标变量和候选马尔可夫毯采用逻辑回归分析山.当 目标变量T为0-1型(取值为2个)因变量,CMB为 自变量集合时,二元逻辑回归模型为 hbp=A+BX+B++x 式中:P=P(T=1),X1,X2,…,X∈CMB,Bo,B,…, B,为未知参数,称为回归系数.采用极大似然估计 方法得到回归系数的估计值B。,B,…,B。,当因变量 取值为多个(大于2个)时,采用多元逻辑回归.当 目标变量T的取值有a、b、c3种,CMB为自变量集 合时,多元逻辑回归的模型为: 图3MMMB算法引入T的错误的配偶节点A Fig.3 Incorrect spouse node A included in MMMB n2T=b=月,+BnX+Bnx2+…+BX, P(T =a) MMPC算法添加的错误节点会包含在最终的 马尔可夫毯MB(T)中,而且这些节点会引入T的错 In p(T=c) P(T=a) =B2 +B2X+B22X2++BzXx. 误的配偶节点.即使MMPC算法返回的是正确的 回归分析通过假设检验判断回归系数是否为零 PC(T),MMMB本身也会引入错误的配偶节点.所 来决定是否去掉候选马尔可夫毯中的变量.假设 以,为了提高学习马尔可夫毯算法的精度和效率,需 Ho:B=0,i=1,2,…,k,逻辑回归中回归系数的检 要去掉这些错误的变量,而这些变量与目标变量的 验统计量采用Wald统计量,即 相关性不强, Wald;= 3RA-MMMB算法 式中:Sa,为回归系数的标准误差.Wald统计量服从 3.1根据相关性将节点分类 自由度为1的X2分布.原假设是正确的却拒绝了该 根据贝叶斯网络中各节点与目标节点T的相 假设,犯这类错误的概率记为卫.当概率值p小于给 关性关系,把MMMB算法中候选马尔可夫毯CMD= 定的显著性水平α(一般取α=0.05)时,则拒绝原 PC(T)Ucec(MMPC(C){T中的节点分为4类: 假设,认定该回归系数不为零;反之,认定该回归系 1)T的父节点和T的子节点:这类节点与T有 数为零,则将该变量从方程中去掉.概率p值越小, 很强的相关性; 表明对应的变量对目标变量T的影响就越显著。 2)T的父节点的父节点和T的子节点的子节 3.2.2候选马尔可夫毯的逻辑回归分析过程 点:由于贝叶斯网络已存在T的父节点和T的子节 采用逐步后向回归依次去掉候选马尔可夫毯 点,故这类节点与T的相关性较弱; CMB中与目标变量T相关性弱的变量.如果逻辑回 3)T的兄弟节点(与T共同有一个父节点)和T 归方程中自变量集合存在回归系数为零的概率值卫 的配偶节点:这类节点和T有共同的原因或结果, 大于显著性水平的变量,则将回归方程中卫值最大 当给定T的父节点或T的子节点时,与T的相关性 的变量从CMB中去掉,然后建立CMB中剩余的变 较强; 量与目标变量的逻辑回归方程,继续进行回归分析, 4)MP℃算法引入的错误节点的父子节点中上述 再将方程中概率值p最大的变量从CMB去掉,继续 3类以外的节点,这类节点与T的相关性最弱. 回归分析直至回归方程中不再含有P值大于显著性 3.2候选马尔可夫毯的逻辑回归分析 水平的变量. 回归分析2]可以从自变量集合中选入与因变 由于CMB中的第4)类节点与T的相关性最 量相关性强的自变量,并去掉那些与因变量无关的 弱,所以会在逐步后向回归中最先被去掉:因为回归
第2期 郭坤,等:逻辑回归分析的马尔可夫毯学习算法 ·157… 方程中含有T的父节点和子节点,接下来与T的相 return CMB. 关性较弱的第2)类节点会作为回归方程中的次要 变量从CMB中被去掉;第3)类节点由于T的父节 RA-MMMB算法运用逐步后向回归依次把 点和T的子节点的存在,与T的相关性较强,所以 MMMB算法中的候选马尔可夫毯CMB中与目标变 会保留在CMB中;而第1)类节点与T的相关性最 量相关性弱的变量去掉,再经过条件独立测试,去掉 强,也包含在CMB中. 兄弟节点,返回最终的马尔可夫毯.由于MMPC算 3.3去除兄弟节点 法引人的错误节点是目标变量的子节点的子节点, 经过逐步后向回归分析,最终的CMB中包含T MMMB算法引入的错误的配偶节点是目标变量的 的父节点和子节点、配偶节点和兄弟节点,在给定T 父节点的父节点,都属于上述第2)类节点,它们会 的父节点时,T的兄弟节点与T条件独立.对于X∈ 在回归分析中被去掉.RA-MMMB算法的回归分析 CMB1{PC(T),Y∈PC(T),如果Ind(X;TIY),则 过程去掉与目标变量相关性弱的变量后,只需去掉 将X从CMB中去掉.而CMBI{PC(T)}中不存在给 回归分析后的CMB中的兄弟节点就能得到马尔可 定子节点时与T条件独立的变量,所以不会去掉马 夫毯,与MMMB算法相比,减少了大量条件独立性 尔可夫毯中的变量.通过条件独立测试,去掉T的 测试,并且由于条件变量集很小,保证了条件独立测 兄弟节点,得到最终的马尔可夫毯.如果P℃(T)中 试的可靠性 的元素在逐步后向回归分析中被去掉,说明该元素 4实验分析与算法比较 为T的错误的父子节点,把它从候选马尔可夫毯 CMB中去掉的同时,从PC(T)中也把它去掉,减少 在Matlab7.0和SPSS17的软件环境下,利用 不必要的条件独立测试,并且避免在马尔可夫毯中 Insurance网(含有27个节点)和Alam网(含有37 引入其他错误的变量, 个节点)的500、1000、5000组数据,对这2个网络 3.4RA-MMMB算法描述 中的每个节点分别使用MMMB算法、PCMB算法和 基于逻辑回归分析的马尔可夫毯学习算法RA- RA-MMMB算法输出它的马尔可夫毯,并进行对比. MMMB描述如下: 由于实验数据为离散数据,对取值为2的目标变量, RA-MMMB算法: RA-MMMB算法在SPSS软件里采用二元逻辑回归, 对取值为多个(大于2)的目标变量,采用多元逻辑 输入:数据集Data和目标变量T, 回归 输出:T的马尔可夫毯MB(T). 4,1评价标准 /*对候选马尔可夫毯进行逐步回归分析*/ 本文采用PCMB算法所在的文献[5]里的查准 PC(T)=MMPC(Data,T); 率(precision)、查全率(recall)以及它们之间的欧氏 CMB PC(T)UcePC(T MMPC(Data,C)\T; 距离d来衡量马尔可夫毯学习算法的好坏.对于一 repeat; 个目标变量T,查准率是指算法输出的MB(T)中包 建立以T为因变量,CMB为自变量集合的逻辑回 含正确变量的比率;查全率是指算法输出的MB(T) 归方程,进行回归分析; 中正确变量的个数占实际MB(T)变量个数的比率. Y=arg:maxxsCMBP(X);/寻找回归方程中Wald precision 统计量p值最大的变量 算法输出的MB(T)包含的正确变量个数 if P(Y)>a; /a为显著性水平 算法的MB(T)的变量个数 CMB=CMB\Y; recall if YePC(T); 算法输出的MB(T)包含的正确变量个数 PC(T)=PC(T)\Y; 实际的MB(T)的变量个数 until P(Y)≤a; 为了对上述2个标准进行综合评价,定义两者 /*去除兄弟节点*/ 之间的欧氏距离为 foreach XE CMB\PC(T); d =v(1 -precision)2+(1 -recall)2. foreach YePC(T); 式中:d表明算法准确率,d越小,表明算法准确率 if Ind(X;TIY); 越高。 CMB CMB\X;
·158 智能系统学报 第7卷 4.2分析与比较 和X2 针对Alam网进行分析.如图4所示,图中的 表1节点Xa和候选马尔可夫毯CMB逐步后向回归过程 {X3,X22,X29,X2}和{Xa,X22,X9,X1}均构成了图 (显著性水平a=0.05) 2(a)中的结构.节点X3的父子节点集合PC={X4, Table 1 The process of stepwise backward regression be- X25,X2,X2,它的马尔可夫毯MB={X4,Xs,X2, tween node X and CMB(significance level a 0.05) X22,X27,X9}.当Alam网中数据集大小为5000时, 利用MMPC算法得到的父子节点集合PC'={X4, 节点 概率值p 节点 概率值p X5,X2,X2,X1,X1.比实际网络中节点Xa的父子 Xis 0.945 Xn 0.035 节点集合多余了X1、X1这2个节点.MMMB算法中 X19 0.923 X 0.030 的候选马尔可夫毯为CMB={X4,X5,X2,X2,X, X 0.749 X 0.025 X21,X4,X5,X9,X6,X7,X9},最终返回的马尔可 X 0.725 Xx 0.022 夫毯为MB'={X4,X25,X2,X2,X7,X9,X1,X21},比 Xs 0.631 Xz 0.005 节点Xa真实的马尔可夫毯多余了X,和X这2个 X26 0.482 X25 0.004 节点,即错误的父子节点会保留在马尔可夫毯内. 以Alam网中节点Xg为例,如图5所示,{X9, X1,X9,X8,X8构成了图3中的结构.节点X1g的 父子节点集PC={X0,X21,X8},它的马尔可夫毯 MB={X0,X21,X1a,Xa.当Alam网中数据为5000 时,利用MMPC算法得到的父子节点集合PC'= {X2,X21,Xa},与实际的父子节点集合相同.MMMB 算法中的候选马尔可夫毯CMB={X0,X21,X18,X4, X5,X2,X8,X9f,最终返回的马尔可夫毯为MB'= {X0,X21,X8,X8,X9,,比真实的马尔可夫毯多了 节点X9,即引人了节点Xg的错误的配偶节点X9: 图4Alam网局部,阴影节点组成图2(a)的结构 Fig.4 Local Alarm network,shadow nodes form the structure in Fig.2(a) RA-MMMB算法对候选马尔可夫毯CMB与节 点Xa进行逐步后向回归,依次去掉了节点X5、X9、 X、X21、X4、X6,逐步后向回归去掉变量的过程如表 1所示(左列的变量对应的概率值p为该变量被去 掉时在回归方程中回归系数为零的概率,其余的变 X 量对应该变量保留在最终回归方程中的P值).其 图5Alam网局部,阴影节点组成图3的结构 中最先被去掉的2个节点X5和X是网络中节点 Fig.5 Local Alarm network,shadow nodes form the X21的2个子节点,而节点X21是被错误引入到节点 structure in Fig.3 X3的父子节点集合的节点.接着被去掉的节点X, RA-MMMB算法对候选马尔可夫毯与节点Xg X21,X4是节点Xa的子节点X2的子节点,节点X6是 进行逐步后向回归,依次去掉了节点X4、X2、X9, 节点Xa的父节点Xs的父节点,剩余变量集为{X4, 逐步后向回归去掉变量的过程如表2所示(左列变 X25,X2,X22,X27,X9}.对回归分析后的剩余节点进 量含义同表1).其中节点X4为节点X9的子节点 行条件独立测试,发现这些均不是节点X的兄弟节 X的子节点,节点X2和X9为节点X1g的父节点X21 点,RA-MMMB算法返回的最终的马尔可夫毯 的父节点,剩余的变量集合为{Xn,X1,X18,X5, MB”={X4,X5,X2,X2,X7,X9},跟真实的马尔可 Xa{.RA-MMMB算法接着通过条件独立性测试去 夫毯相同,去掉了MMPC算法引入的错误的变量X, 掉了节点X5,而节点Xs为网络中节点Xg的兄弟节
第2期 郭坤,等:逻辑回归分析的马尔可夫毯学习算法 ·159 点,他们有共同的父节点X·得到最终的MB”= 从图6可以看出,对不同的数据集,RA-MMMB {X0,X21,X18,X8},与实际马尔可夫毯相同,去掉了 算法输出结果的查准率、查全率均比MMMB算法的 MMMB算法中引入的错误的变量Xg· 结果高,相应的欧氏距离均比MMMB算法小,表明 表2节点X,和候选马尔可夫毯CMB逐步后向回归过程 了该算法要优于MMMB算法;而与PCMB算法相 (显著性水平α=0.05) 比,虽然RA-MMMB算法查全率偏低,但查准率较 Table 2 The process of stepwise backward regression between 高,综合评价指标欧氏距离小,体现了在整体上要优 node X and CMB(significance level a =0.05) 于P℃MB算法.同时可以看出,数据集中样本数目越 节点 概率值p 节点 概率值p 多,欧氏距离就越小,算法的准确率就越高。 Xi 0.514 Xz 0.034 5结束语 X2 0.385 Xis 0.014 X2 0.347 X2o 0.010 基于逻辑回归分析的马尔可夫毯学习算法,对 Xis MMMB算法里存在错误的父子节点和配偶节点的 0.041 X21 0.010 问题进行了分析,然后对MMMB算法中的候选马尔 对Insurance网和Alam网里各数据集的每个 可夫毯与目标变量进行逐步后向回归,去掉了错误 节点分别使用MMMB算法、PCMB算法和RA- 节点和其他与目标变量相关性弱的节点,然后进行 MMMB算法学习它的马尔可夫毯,并计算出这3种 条件独立测试去掉兄弟节点,减少了条件独立测试 算法对各网络的平均查准率、平均查全率和平均欧 的次数,提高了学习马尔可夫毯的精度.针对本算法 氏距离,进行比较.如图6所示。 的查全率较PCMB算法低的缺点,需要进一步的工 1.0 作去改进 。-MMMB的含准率 +PCMB的食准率 参考文献: gHA-MMMB的查准率 0.6 -a-MMMB的查全率 [1]MARGARITIS D,THRUN S.Bayesian network induction +PCMB的含全率 e-BA-MMMB的查全率 via local neighborhoods[C]//Advances in Neural Informa- 0.4 -G.MMMB的欧氏距离 tion Processing Systems.Denver,Colorado,USA,1999: -+·PCMB的欧氏E离 -©.RA-MMMB的欧氏HE离 505-511. 0.2 [2]TSAMARDINOS I,ALIFERIS C F,STATNIKOV A.Algo- rithms for large scale Markov blanket discovery[C]//Pro- ceedings of the Sixteenth Intemational Florida Artificial In- 4 *10 数据个数 telligence Research Society Conference.St Augustine,Flor- (a)nsurance网数据集 ida,USA,2003:376-380 1.0 [3]FU Shunkai,Desmarais M C.Markov blanket based feature selection:a review of past decade[C]//Proceedings of the 0.8 World Congress on Engineering London,UK,2010:22-27. e-MMMB的查准梨 +一PCMB的查准* [4]TSAMARDINOS I,ALIFERIS C F,STATNIKOV A.Time e-RA-MMMB的查准梨 0.6 and sample efficient discovery of Markov blankets and direct ·0M2 causal relations[C]//Proceedings of the Ninth ACM SIGK- o-RA-MMMB的含全率 0.4 -a·MMMB的欧氏E离 DD International Conference on Knowledge Discovery and -+PCMB的欧氏距离 Data Mining.Washington,DC,USA,2003:673-678. G口 -o·RA-MMMB的欧氏距离 0.2 [5]PENA J M,NILSSON R,BJRKEGREN J,et al.Towards scalable and data efficient leaming of Markov boundaries ×10 [J].Intemational Joumal of Approximate Reasoning, 4 数据个数 2007,45(2):211-232. [6]ALIFERIS C F,TSAMARDINOS I,STATNIKOV A.HI- (b)Alam网数据集 TON:a novel Markov blanket algorithm for optimal variable 图6 Insurance和Alam数据集各算法的查准率、查全率 和欧氏距离 selection[C]//Proceedings of the 2003 American Medical Fig.6 Precision,recall and Euclidean distance of each algo Informatics Association Annual Symposium.Washington, DC,USA,2003:21-25. rithm in Insurance and Alarm network dataset [7]TSAMARDINOS I,BROWN L E,ALIFERIS C F.The
·160. 智能系统学报 第7卷 max-min hill-climbing Bayesian network structure learning network leaming on algorithm based on ant colony optimi- algorithm[J].Machine Learning,2006,65:31-78. zation[J].Systems Engineering and Electronics,2010, [8]孟晓东,袁道华,施惠丰.基于回归模型的数据挖掘研究 32(7):1509-1512. [J].计算机与现代化,2010,173(1):26-28. 作者简介: MENG Xiaodong,YUAN Daohua,SHI Huifeng.Research 郭坤,男,1987年生,硕士研究生, on regress-base system on data mining[J].Computer and 主要研究方向为机器学习与数据挖掘, Modemization,2010,173(1):26-28. [9]SINGH S,KUBICA J,LARSEN S,et al.Parallel large scale feature selection for logistic regression[C]//SIAM In- terational Conference on Data Mining(SDM).Sparks,Ne- vada,USA,2009:1171-1182. [10]施朝健,张明铭.Logistic回归模型分析[J].计算机辅 王浩,男,1962年生,教授,博士,主要 助工程,2005,14(3):74-78. 研究方向为人工智能. SHI Chaojian,ZHANG Mingming.Analysis of logistic re- gression models[J].Computer Aided Engineering,2005, 14(3):74-78. [11]高晓光,赵欢欢,任佳.基于蚁群优化的贝叶斯网络学 习[J].系统工程与电子技术,2010,32(7):1509 1512. 姚宏亮,男,192年生,副教授,博士, [12 SPIRTES P,GLYMOUR C,SCHEINES R.Causation, 主要研究方向为机器学习与知识工程 prediction,and search [M].2nd ed.Cambrdge,USA: The MIT Press,2000:23-28. GAO Xiaoguang,ZHAO Huanhuan,REN Jia.Bayesian 2012年自动化、机电一体化和机器人国际会议 International Conference on Automation, Mechatronics and Robotics (ICAMR'2012) International Conference on Automation,Mechatronics and Robotics(ICAMR2012)aimed at presenting current re- search being carried out in that area and scheduled to be held August 11-12,2012 at Phuket(Thailand).The idea of the conference is for the scientists,scholars,engineers and students from the Universities all around the world and the industry to present ongoing research activities,and hence to foster research relations between the Universi- ties and the industry.This conference provides opportunities for the delegates to exchange new ideas and application experiences face to face,to establish business or research relations and to find global partners for future collabora- tion. Important Dates: Deadline of Full Paper submission May 25,2012; Notification of acceptance June 10,2012; Deadline for Camera ready and authors'registration June 21,2012; Conference Dates August 11-12,2012. Submission Methods: Prospective authors are invited to submit full papers including results,figures and references.Paper will be accept- ed only by: 1.Email the formatted paper according to the.doc template paper (in.doc or.docx format)at email id:info@ psrcentre.org alongwith the name of the conference. 2.Electronic submission through the conference web site(Click on the Paper Submission link). Website:http://psrcentre.org/listing.php?subcid =108&mode =detail