正在加载图片...
第6期 王双成,等:用于因果分析的混合贝叶斯网络结构学习 ·87 701 一X:离散化 保持率方面,基于核密度的离散化算法略占优势,在 ·”··X离散化 一X2离散化 条件独立性保持率方面,基于正态密度的离散化方 2020 法略占优势.由于核密度估计随例子增加运算复杂 10 程度的增长远大于正态密度,因此当例子多时适合 45678910 于采用正态密度离散化方法,而当例子少时适合于 迭代次数 采用核密度离散化方法 (a)离散化迭代收敛情况 使用扩展的熵离散化算法和本文建立的聚类离 散化算法进行连续变量的离散化,其有效性的比较 如图5所示 20 扩展的嫡离散化算法 ··基于聚类的离散化算法 510 1.0 0.9 0.8 0 345678976 07 0.6 迭代次数 500 1000-1500 20003000 (b)结构迭代收敛情况 练数据数量 图3迭代收敛情况 (a)变量之间的依赖保持率比较 Fig.3 The iteration convergence situation 基于核密度离散化算法和基于正态密度的离散 1.00 一扩展的嫡离散化算法 ·。·,基于聚类的离散化算法 0.86 化算法的比较情况如图4所示 0.72 基于核密度的离散化 0.58 1.0 基于正态密度的离散化· 0.44 0.9 0.30 0.8 00 1000150020003000 0.7 训练数据数量 0.6 500 1000150020003000 (b)变量之间的条件独立性保持率比较 训练数据数量 图5基于聚类的离散化算法与扩展的熵离散化算法比较 (a)变量之间的依懒保持率 Fig.5 The situation comparison of discretizing continuous variables between clustering and extended entropy 1.00 基于核密度的离散化 0.86 ·基于正态密度的离化.: 图5中显示,当例子数据量小时,扩展的熵离散 0.72 0.58 化算法略优于聚类算法,但随例子数据的增加,聚类 0.44 算法明显具有优势.具有这种优势的主要原因是:随 030… 5001000150020003000 着例子数据的增加变量之间依赖和条件独立性信息 训练数据数量 能够得到充分的利用,且贝叶斯网络结构得到不断 的优化调整,而在扩展的熵离散化算法中,随着例子 (b)变量之间的条件独立性保持率 数据的增加,离散化和结构学习的局部最优性影响 图4基于正态密度和核密度的离散化情况比较 逐渐增加,导致了最终的差距 Fig.4 The situation comparison of discretizing continuous 在UCI机器学习数据仓库2o1中选择10个分类 variables between normal density and kernel density 数据集,脚标最大的一个是类变量,其他的是属性变 从图4的实验结果可以看出,在依赖关系保持 量.从其中3个数据集heart_disease、breast_,cancer 方面,当例子少时,基于核密度的离散化算法明显优 和cmc学习得到的贝叶斯网络结构如图6所示.基 于基于正态密度的离散化算法,当例子多时,在依赖 于扩展的熵离散化和聚类离散化2种方法,对类变 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.ne图 3 迭代收敛情况 Fig. 3 The iteration convergence situation 基于核密度离散化算法和基于正态密度的离散 化算法的比较情况如图 4 所示. 图 4 基于正态密度和核密度的离散化情况比较 Fig. 4 The situation comparison of discretizing continuous variables between normal density and kernel density 从图 4 的实验结果可以看出 ,在依赖关系保持 方面 ,当例子少时 ,基于核密度的离散化算法明显优 于基于正态密度的离散化算法 ,当例子多时 ,在依赖 保持率方面 ,基于核密度的离散化算法略占优势 ,在 条件独立性保持率方面 ,基于正态密度的离散化方 法略占优势. 由于核密度估计随例子增加运算复杂 程度的增长远大于正态密度 ,因此当例子多时适合 于采用正态密度离散化方法 ,而当例子少时适合于 采用核密度离散化方法. 使用扩展的熵离散化算法和本文建立的聚类离 散化算法进行连续变量的离散化 ,其有效性的比较 如图 5 所示. 图 5 基于聚类的离散化算法与扩展的熵离散化算法比较 Fig. 5 The situation comparison of discretizing continuous variables between clustering and extended entropy 图 5 中显示 ,当例子数据量小时 ,扩展的熵离散 化算法略优于聚类算法 ,但随例子数据的增加 ,聚类 算法明显具有优势. 具有这种优势的主要原因是 :随 着例子数据的增加变量之间依赖和条件独立性信息 能够得到充分的利用 ,且贝叶斯网络结构得到不断 的优化调整 ,而在扩展的熵离散化算法中 ,随着例子 数据的增加 ,离散化和结构学习的局部最优性影响 逐渐增加 ,导致了最终的差距. 在 UCI 机器学习数据仓库[ 20 ]中选择 10 个分类 数据集 ,脚标最大的一个是类变量 ,其他的是属性变 量. 从其中 3 个数据集 heart_disease、breast_cancer 和 cmc 学习得到的贝叶斯网络结构如图 6 所示. 基 于扩展的熵离散化和聚类离散化 2 种方法 ,对类变 第 6 期 王双成 ,等 :用于因果分析的混合贝叶斯网络结构学习 ·87 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有