正在加载图片...
·506· 智能系统学报 第16卷 表2原始数据(上汽集团股票) 为说明实验结果的真实可靠性,图8给出了 Table 2 Raw data(Shangqi group) 当min supc=12时,频繁2项集的详细数据。其 日期 收盘价元 日期 收盘价/元 中,阴影部分的数字表示满足min supc的频繁项 2020-09-01 19.02 2020-09-14 19.43 集个数,例如频繁项集ab1共有38个,非阴影部 2020-09-02 18.91 2020-09-15 19.67 分的数字表示不满足min supc的项集个数,‘一 2020-09-03 19.21 2020-09-16 19.89 则表示该频繁项集不存在,因为本文挖掘的是不 2020-09-04 19.26 2020-09-17 20.32 同时间序列间的关联关系,所以aa2等不是要找 2020-09-07 19.40 2020-09-18 20.25 2020-09-08 20.04 2020-09-21 20.13 的频繁2项集。 2020-09-09 19.20 2020-09-22 19.74 a a 42 2020-09-10 19.14 2020-09-23 19.83 42- 2020-09-11 18.99 2020-09-24 19.30 43 一 b138 35 b b: 4.2时序数据关联分析 25 9 0 34 本次实验共分为2组,第1组使用商品销售 9 46 10 32 4522 21 数据集,第2组使用股票数据集。实验采用SFT 24 7 11161016 c3301349232541 C 算法,除了与经典算法Apriori和FP-growth进行 比较外,实验还给出了近年来提出并且具有较好 图8频繁2项集及其个数 性能的MapReduce、BM_Apriori和WV_Apriori算 Fig.8 Frequent 2 itemsets and their number 法的挖掘结果进行比较。由于近年来从时间序列 鉴于FP-growth算法不能给出频繁项集的支 角度研究商品销售关联性成为热门方向2421 持度和置信度,而MapReduce、BM Apriori和 因此本文将给出详细的商品销售数据挖掘结果, WV_Apriori是为挖掘频繁项集而提出的算法,故 并用股票数据的部分结果说明新方法具有普适 本文仅给出SFT和Apriori算法所挖掘频繁项集 性。第1组实验结果如图7所示,图7中展示了 的支持度和置信度。当min_supc=l2时,2个算法 基于不同的min supc,.实验算法和对比算法的频 均给出如表3所示的结果,其中Rule表示规则, 繁2、3项集的个数。实验表明,无论min_supc Sup表示支持度,Conf表示置信度。以ab→c 取什么值,这些算法的挖掘结果都是相同的,进 为例,其表明增加购买20725商品、20727商品和 而说明SFT方法能够取得同样精度的效果。 20728商品的规则数占总规则数的0.09:当都增 加购买20725和20727时,20728的购买量会增 30 Apriori EM Apriori 加的概率为0.57。 FP-growth WV Apriori MapReduce SFT 表3SFT与Apriori算法挖掘关联规则 20 Table 3 Association rules mined by SFT and Apriori 项集 Rule Sup Conf Rule Sup Conf a1=b10.170.38 a1→b20.110.25 a1→b30.160.37 a1→c1 0.200.46 a1→c20.100.24 a1→c3 0.130.3 2 16 20 a2=c30.050.43 a3→b1 0.150.38 最小支持度计数 (a)频繁2项集 a3→b20.100.25 a3→b3 0.150.36 频繁2项集 a3→c10.140.34 a3→c3 0.220.53 0.200.53 0.070.19 0 Apriori b3→C1 b1→c2 FP-growth MapReduce b1=c3 0.100.27 b2→c1 0.090.37 EM Apriori b2=c3 0.110.44 b3=→c1 0.090.25 WV Apriori SFT b3→c20.070.19 b3→c3 0.190.54 a1b1→c10.090.57a1→b1c10.090.22 2 4b2→c10.060.6a1→b2c910.06 0.15 a1b3→c30.070.45a1b3=c30.070.17 12 16 20 2 最小支持度计数 频繁3项集ab1→c10.080.54a3→b1910.080.20 (b)频繁3项集 4b1→c30.050.34a3=b1c0.050.13 ab2→c30.060.60a3→b2c30.060.15 图7频繁项集个数对比(商品数据) ab3=→c30.100.67a3→b3930.100.25 Fig.7 Comparison of frequent itemsets(commodity data)表 2 原始数据 (上汽集团股票) Table 2 Raw data(Shangqi group) 日期 收盘价/元 日期 收盘价/元 2020-09-01 19.02 2020-09-14 19.43 2020-09-02 18.91 2020-09-15 19.67 2020-09-03 19.21 2020-09-16 19.89 2020-09-04 19.26 2020-09-17 20.32 2020-09-07 19.40 2020-09-18 20.25 2020-09-08 20.04 2020-09-21 20.13 2020-09-09 19.20 2020-09-22 19.74 2020-09-10 19.14 2020-09-23 19.83 2020-09-11 18.99 2020-09-24 19.30 4.2 时序数据关联分析 本次实验共分为 2 组,第 1 组使用商品销售 数据集,第 2 组使用股票数据集。实验采用 SFT 算法,除了与经典算法 Apriori 和 FP-growth 进行 比较外,实验还给出了近年来提出并且具有较好 性能的 MapReduce、BM_Apriori 和 WV_Apriori 算 法的挖掘结果进行比较。由于近年来从时间序列 角度研究商品销售关联性成为热门方向[ 2 4 - 2 5 ] , 因此本文将给出详细的商品销售数据挖掘结果, 并用股票数据的部分结果说明新方法具有普适 性。第 1 组实验结果如图 7 所示,图 7 中展示了 基于不同的 min_supc,实验算法和对比算法的频 繁 2、3 项集的个数。实验表明,无论 min_supc 取什么值,这些算法的挖掘结果都是相同的,进 而说明 SFT 方法能够取得同样精度的效果。 25 30 20 15 10 5 0 4 8 12 16 20 最小支持度计数 频繁项集/个 27 26 20 19 17 20 25 15 10 5 0 4 8 12 16 20 24 24 最小支持度计数 频繁项集/个 22 11 7 4 2 Apriori FP-growth MapReduce EM_Apriori WV_Apriori SFT (a) 频繁 2 项集 (b) 频繁 3 项集 Apriori FP-growth MapReduce EM_Apriori WV_Apriori SFT 图 7 频繁项集个数对比 (商品数据) Fig. 7 Comparison of frequent itemsets(commodity data) 为说明实验结果的真实可靠性,图 8 给出了 当 min_supc =12 时,频繁 2 项集的详细数据。其 中,阴影部分的数字表示满足 min_supc 的频繁项 集个数,例如频繁项集 a1b1 共有 38 个,非阴影部 分的数字表示不满足 min_supc 的项集个数,‘—’ 则表示该频繁项集不存在,因为本文挖掘的是不 同时间序列间的关联关系,所以 a1a2 等不是要找 的频繁 2 项集。 a1 a2 a3 b1 b2 b3 c1 c2 c3 a1 a2 a3 b1 b2 b3 c1 c2 c3 图 8 频繁 2 项集及其个数 Fig. 8 Frequent 2 itemsets and their number a1b1 ⇒ c1 鉴于 FP-growth 算法不能给出频繁项集的支 持度和置信度,而 MapReduce、BM_Apriori 和 WV_Apriori 是为挖掘频繁项集而提出的算法,故 本文仅给出 SFT 和 Apriori 算法所挖掘频繁项集 的支持度和置信度。当 min_supc=12 时,2 个算法 均给出如表 3 所示的结果,其中 Rule 表示规则, Sup 表示支持度,Conf 表示置信度。以 为例,其表明增加购买 20 725 商品、20 727 商品和 20 728 商品的规则数占总规则数的 0.09;当都增 加购买 20 725 和 20 727 时,20 728 的购买量会增 加的概率为 0.57。 表 3 SFT 与 Apriori 算法挖掘关联规则 Table 3 Association rules mined by SFT and Apriori 项集 Rule Sup Conf Rule Sup Conf 频繁2项集 a1⇒ b1 0.17 0.38 a1⇒ b2 0.11 0.25 a1⇒ b3 0.16 0.37 a1⇒c1 0.20 0.46 a1⇒c2 0.10 0.24 a1⇒c3 0.13 0.3 a2⇒c3 0.05 0.43 a3⇒ b1 0.15 0.38 a3⇒ b2 0.10 0.25 a3⇒ b3 0.15 0.36 a3⇒c1 0.14 0.34 a3⇒c3 0.22 0.53 b3⇒c1 0.20 0.53 b1⇒c2 0.07 0.19 b1⇒c3 0.10 0.27 b2⇒c1 0.09 0.37 b2⇒c3 0.11 0.44 b3⇒c1 0.09 0.25 b3⇒c2 0.07 0.19 b3⇒c3 0.19 0.54 频繁3项集 a1 b1⇒c1 0.09 0.57 a1⇒ b1 c1 0.09 0.22 a1 b2⇒c1 0.06 0.6 a1⇒ b2 c1 0.06 0.15 a1 b3⇒c3 0.07 0.45 a1 b3⇒ c3 0.07 0.17 a3 b1⇒c1 0.08 0.54 a3⇒ b1c1 0.08 0.20 a3 b1⇒c3 0.05 0.34 a3⇒ b1 c3 0.05 0.13 a3 b2⇒c3 0.06 0.60 a3⇒ b2 c3 0.06 0.15 a3 b3⇒c3 0.10 0.67 a3 ⇒ b3 c3 0.10 0.25 ·506· 智 能 系 统 学 报 第 16 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有