正在加载图片...
第2期 王雪平,等:基于可决系数的自适应关联规则挖掘算法 ·357· Conf为0.612,而k取4次时得到minConf为0.762; 动确定k的次数及对应的多项式。k从2开始,以 Groceries数据集下k取3次时得到minConf为 相邻两阶精度差R小于Rend为结束条件,本实 0.094,而k取4次时得到minConf为0.116。综合 验以Rend取0.05为例。本步实验结果与文献[12] 上述两部分分析说明多项式的阶次会影响阈值, 所提的AdapARM算法比较如表5所示。 从而也会影响挖掘结果。如何自适应确定多项式 然后,根据k阶多项式二阶导函数求取最小 阶次是很有必要的。 支持数,得到对应的二阶导函数及最小支持数 4.2结果对比与分析 minCount如表6所示。 根据挖掘的流程,首先选取待挖掘数据集中 按照Apriori算法思想,在上步求得的最小支 各事务项支持数作为特征数据并按支持数大小进 持数基础上,从一阶频繁项开始逐层向上,获取 行降序排序建立“序-值”对序列。 所有k阶频繁项集,并根据频繁项集产生关联规 其次,采用文中所提的自动阶次拟合方法建 则,得到如表7结果。 立“序-值”对序列的k次多项式曲线拟合模型,自 表5k次拟合多项式比较(支持数) Table 5 Comparison of k order polynomial fitting curves(support number) 数据集 算法 确定的拟合多项式(支持数) AARM BR 3 fx)=0.0833x3-1,1429r2+3.5595x+4.2857 Trolley AdapARM 3 fx=0.0833x-1.1429x2+3.5595r+4.2857 AARM BR ? f=2×10x-0.0081x3+1.163x2-71.273xr+1734.8 Groceries AdapARM fx-7x10-10x3+2×105x2-0.0014r+0.5439 表6最小支持数比较 Table 6 Comparison of Minimum support number 数据集 算法 二阶导函数(支持数) minCount AARM_BR "x)=-2.285740.5x 4 Trolley AdapARM f"x=-2.285740.5x 4 AARM_BR fcx2.3261-0.0488x42.4158×10x2 77 Groceries AdapARM fcx=0.8271-0.0077x 107 表7产生的规则数目比较 根据数据集Trolley和数据集Groceries产生 Table 7 Comparison of the produced rules number 的关联规则的置信度从大到小排序并进行k次多 项式曲线拟合,k从2开始,以相邻两阶精度差 数据集 算法 求得的关联规则数目 R小于Rend为结束条件,本实验以Rend取0.05 AARM BR 30 Trolley 为例。在本步中,两个方法得到的阶次k均为3, AdapARM 30 确定的拟合多项式如表8所示。 AARM_BR 1146 根据k次多项式二阶导函数求取最小置信 Groceries AdapARM 498 度,h(x)和hc(x)的二阶导函数h:(x)和h:(x)公 式及对应的最小置信度分别如表9所示。 表8k次拟合多项式比较(置信度) Table 8 Comparison of k order polynomial fitting curves(confidence) 数据集 算法 确定的拟合多项式(置信度) AARM BR 3 hxF-6x10x3+0.0004r2-0.0199r+0.9358 Trolley AdapARM 3 hx=-6×10x3+0.0004x2-0.0199r+0.9358 AARM_BR 3 hcx=6.7744×1010x3+1.5988x105x2-0.0014r+0.5439 Groceries AdapARM hGx)=-6.4263x10x3+6.7023x105x2-0.0027x+0.523Conf 为 0.612,而 k 取 4 次时得到 minConf 为 0.762; Groceries 数据集下 k 取 3 次时得到 minConf 为 0.094,而 k 取 4 次时得到 minConf 为 0.116。综合 上述两部分分析说明多项式的阶次会影响阈值, 从而也会影响挖掘结果。如何自适应确定多项式 阶次是很有必要的。 4.2 结果对比与分析 根据挖掘的流程,首先选取待挖掘数据集中 各事务项支持数作为特征数据并按支持数大小进 行降序排序建立“序−值”对序列。 其次,采用文中所提的自动阶次拟合方法建 立“序−值”对序列的 k 次多项式曲线拟合模型,自 动确定 k 的次数及对应的多项式。k 从 2 开始,以 相邻两阶精度差 R 2 小于 Rend 为结束条件,本实 验以 Rend 取 0.05 为例。本步实验结果与文献 [12] 所提的 AdapARM 算法比较如表 5 所示。 然后,根据 k 阶多项式二阶导函数求取最小 支持数,得到对应的二阶导函数及最小支持数 minCount 如表 6 所示。 按照 Apriori 算法思想,在上步求得的最小支 持数基础上,从一阶频繁项开始逐层向上,获取 所有 k 阶频繁项集,并根据频繁项集产生关联规 则,得到如表 7 结果。 表 5 k 次拟合多项式比较 (支持数) Table 5 Comparison of k order polynomial fitting curves (support number) 数据集 算法 k 确定的拟合多项式(支持数) Trolley AARM_BR 3 fT (x)=0.083 3x 3 −1.142 9x 2 +3.559 5x+4.285 7 AdapARM 3 fT (x)=0.083 3x 3 −1.142 9x 2 +3.559 5x+4.285 7 Groceries AARM_BR 4 fG(x)=2×10−5 x 4 −0.008 1x 3 +1.163x 2 −71.273x+1 734.8 AdapARM 3 fG(x)=−7×10−10 x 3 +2×10−6 x 2 −0.001 4x+0.543 9 表 6 最小支持数比较 Table 6 Comparison of Minimum support number 数据集 算法 二阶导函数(支持数) minCount Trolley AARM_BR f"T (x)=−2.285 7+0.5x 4 AdapARM f"T (x)=−2.285 7+0.5x 4 Groceries AARM_BR f"G(x)=2.326 1−0.048 8 x+2.415 8×10−4 x 2 77 AdapARM f"G(x)=0.827 1−0.007 7 x 107 表 7 产生的规则数目比较 Table 7 Comparison of the produced rules number 数据集 算法 求得的关联规则数目 Trolley AARM_BR 30 AdapARM 30 Groceries AARM_BR 1 146 AdapARM 498 根据数据集 Trolley 和数据集 Groceries 产生 的关联规则的置信度从大到小排序并进行 k 次多 项式曲线拟合,k 从 2 开始,以相邻两阶精度差 R 2 小于 Rend 为结束条件,本实验以 Rend 取 0.05 为例。在本步中,两个方法得到的阶次 k 均为 3, 确定的拟合多项式如表 8 所示。 根据 k 次多项式二阶导函数求取最小置信 度,hT (x) 和 hG(x) 的二阶导函数 h"T (x) 和 h"G (x) 公 式及对应的最小置信度分别如表 9 所示。 表 8 k 次拟合多项式比较 (置信度) Table 8 Comparison of k order polynomial fitting curves (confidence) 数据集 算法 k 确定的拟合多项式(置信度) Trolley AARM_BR 3 hT (x)=−6×10−6 x 3 +0.000 4x 2 −0.019 9x+0.935 8 AdapARM 3 hT (x)=−6×10−6 x 3 +0.000 4x 2 −0.019 9x+0.935 8 Groceries AARM_BR 3 hG(x)=6.774 4×10−10 x 3 +1.598 8×10−6 x 2 −0.001 4x+0.543 9 AdapARM 3 hG(x)=−6.426 3×10−9 x 3 +6.702 3×10−6 x 2 −0.002 7x+0.523 第 2 期 王雪平,等:基于可决系数的自适应关联规则挖掘算法 ·357·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有