正在加载图片...
第2期 王雪平,等:基于可决系数的自适应关联规则挖掘算法 ·355· 开始 输入事务数据集D,拟合结束条件Rend 输出所有强规则SR,SR={SR1,SR2,, 初始化=l,R=0,Rend=0.05 SR,} 1)C=find candidate 1-itemsets(D); 从大到小排列支持数/置信度 2)C'=sort_InDescOrder((C)/降序排序 ∥自适应确定多项式拟合曲线的次数k =k+1 3)k=find_k_polynomial_curve_fitting(C); 产生支持数k次多项式, 创建次多项式进行曲线拟合,并计算阳 4)fx)=polynomial_curve_fitting(Ci,k); 5)find xo,where f"((xo)=0; Ri-Ri>Rend 6)minCount=int(xo),/∥xo下取整并赋给min- N Count; 7)(L,L2,,La)=find_all_frequent_k- 求k次多项式的二阶导,确定最小支持数 (minCount)/最小置信度(minConf) itemsets(D,minCount); 8){R1,R2,,R,)=generateRule_from_ 结束 frequent_k-itemsets((L,L2,,L,l/对所有规则按置 信度降序排序; 图1自适应k次拟合多项式流程 9)R'=sort InDescOrder(R,R2,·,R,∥自适应 Fig.1 The flow of adaptive k-order fitting polynomial 确定多项式拟合曲线的次数k 最后,求解拟合曲线中二阶导数f(x)=0的 10)k=find_k_polynomial_curve_fitting(R'); 点(记xo)及对应的函数值x,x下取整作为最 产生k次多项式 小支持数阈值minCount,.xo)作为最小置信度阈 11)h(x)=polynomial curve fitting(R,k); 值minConf。 12)find xo,where h"(xo)-0; 3.2 AARM BR算法实现 13)minConf=hx,/得到最小置信度; 基于可决系数自适应阶次的多项式曲线拟合 14)(SR,SR2,,SR,)=find_strong_rules((R, 模型下确定最小支持数和置信度阈值的关联规则 R2,,R),minConf); 挖掘算法AARM BR的核心流程如图2所示。 15)Return{SR,SR2,,SR}∥得到所有强 AARM BR算法描述如下: 规则。 2次 从大到小排 根据“序一 列支持数/ 多项式 值”对进行 计算R肥 置信度 曲线拟合 根据 确定 征数据 确定 求曲线二 次数 导 从大到小排 根据“序 n次 列支持数/ 值”对进行 计算吧 多项式 置信度 曲线拟合 由事务集D中所提取的特征(如支持数、置信度)→自动 确定最小支持数minCount、最小置信度ninConf 图2 AARM BR核心流程 Fig.2 Key process of AARM_BR 4实验与分析 ies数据集。Trolley数据集总共有9条消费记录 为了比较分析,选取文献[12]使用的数据集 (即9行),包含7种不同商品;Groceries数据集有 进行实验。具体数据集为关联规则挖掘购物车 9835条消费记录(即9835行),包含169种不同 Trolley数据集和开源软件RGUI里的Grocer- 商品。下面对自适应k次多项式的挖掘流程进行f ′′ 最后,求解拟合曲线中二阶导数 (x) = 0 的 点 (记 x0 ) 及对应的函数值 f(x0 ),x0 下取整作为最 小支持数阈值 minCount,f(x0 ) 作为最小置信度阈 值 minConf。 3.2 AARM_BR 算法实现 基于可决系数自适应阶次的多项式曲线拟合 模型下确定最小支持数和置信度阈值的关联规则 挖掘算法 AARM_BR 的核心流程如图 2 所示。 AARM_BR 算法描述如下: 输入 事务数据集 D,拟合结束条件 Rend 输出 所有强规则 SR,SR={SR1 , SR2 , ···, SRr} 1) C1 = find_candidate_1-itemsets(D); 2) C '1= sort_InDescOrder(C1 ); //降序排序 //自适应确定多项式拟合曲线的次数 k; 3) k=find_k_polynomial_curve_fitting(C '1 ); //产生支持数 k 次多项式; 4) f(x) = polynomial_curve_fitting(C '1 ,k); 5) find x0 , where f"((x0 )=0; 6) minCount =int(x0 ); //x0 下取整并赋给 min￾Count; 7) {L1 , L2 , ···, Lk}= find_all_frequent_k￾itemsets(D, minCount); 8) {R1 , R2 , ···, Rt}= generateRule_from_ frequent_k-itemsets(L1 , L2 , ···, Lk ); //对所有规则按置 信度降序排序; 9) R '= sort_InDescOrder(R1 , R2 , ···, Rt ); //自适应 确定多项式拟合曲线的次数 k 10) k=find_k_polynomial_curve_fitting(R'); //产生 k 次多项式 11) h(x) = polynomial_curve_fitting(R',k); 12) find x0 , where h"(x0 )=0; 13) minConf=h(x0 ); //得到最小置信度; 14) {SR1 , SR2 , ···, SRr} = find_strong_rules({R1 , R2 , ···, Rt}, minConf); 15) Return {SR1 , SR2 , ···, SRr} //得到所有强 规则。 由事务集D中所提取的特征 (如支持数、置信度)自动 确定最小支持数minCount、最小置信度minConf 从大到小排 列支持数/ 置信度 从大到小排 列支持数/ 置信度 根据“序- 值”对进行 曲线拟合 根据“序- 值”对进行 曲线拟合 … … 2次 多项式 n次 多项式 … 根据 R 2, 确定 曲线 拟合 次数 确定 支持 数/ 置信 度 计算R 2 计算R 2 … 特征数据 求曲线二阶导 图 2 AARM_BR 核心流程 Fig. 2 Key process of AARM_BR 4 实验与分析 为了比较分析,选取文献 [12] 使用的数据集 进行实验。具体数据集为关联规则挖掘购物车 Trolley 数据集和开源软件 R GUI 里的 Grocer￾ies 数据集。Trolley 数据集总共有 9 条消费记录 (即 9 行),包含 7 种不同商品;Groceries 数据集有 9 835 条消费记录 (即 9 835 行),包含 169 种不同 商品。下面对自适应 k 次多项式的挖掘流程进行 开始 从大到小排列支持数/置信度 创建k次多项式进行曲线拟合,并计算Rk 2 Y 求k次多项式的二阶导,确定最小支持数 (minCount)/最小置信度 (minConf ) N 结束 初始化k=1, R 2 k=0, Rend=0.05 k=k+1 Rk 2 -R 2 k-1>Rend 图 1 自适应 k 次拟合多项式流程 Fig. 1 The flow of adaptive k-order fitting polynomial 第 2 期 王雪平,等:基于可决系数的自适应关联规则挖掘算法 ·355·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有