的子句过长、数量过多，以及属性间的相关性不够强。由于二进制编码方法和关

正在加载图片...

·410 智能系统学报第10卷的子句过长、数量过多，以及属性间的相关性不够耗的对比实验。通过多次实验，选取的负样本基数强。由于二进制编码方法和关联规则挖掘过程的随为50，这种大小的样本空间可以让OCAT方法的耗机性都会影响所生成的关联规则的准确性，故需要时不会太大，又能明显比较出2种方法在相同数据在实验过程中进行多级反馈和修正。基于启发式的集上的时间耗费差异。在改变正样本的基数时，分 OCAT算法流程如下。别使用上述2种方法的运算时间对比如图2(a)所输入：正负样本E和E。 /E、E分别是示。同理，将正样本基数固定为10，负样本基数从未流失和已流失客户数据集。 50开始，每次增加10条负样本记录，一直到100 输出：程序执行多次所得最优的关联规则C,其条，此时得到的运算时间对比如图2(b)所示。此规范形式为式(1)所示，其中析取子式由属性片段外，在300条正样本与100条负样本情况下，对二者析取得到，并能保证子式的数量n最少，且子式中属的内存占用情况进行对比，其中图2(c)为未运行程性片段的数量也是最少。序时的内存占用，图2(d)与图2(e)分别为使用 C=(析取子式1)八析取子式2∧.个 OCAT方法与加入启发式方法后的内存占用情况。析取子式n八… (1) 一未加入启发式初始化E、E和C=☑ 。一加入启发式 Do While(E≠⑦) 2 重置集合A,C,=☑；/A为二进制编码属性片段a的集合，a4为A,或-4： 1 Do While(E*≠☑) 画 1)根据POS(a)/NEG(a,)的比值逆序排列A中的元素a4(如果NEG(a4)为零，则将POS(a)作为它的值)： 2)选择有序集A中前α(%)的元素生成 10 11 12131415 16 待选集合L; 正样本数 3)从L中随机选择属性a加入到C:中： (a)正样本数-时间关系 4)E←-E*-E(a);/E(a)为包含 a时C,所能接受的E的中的元素集合 5)A←-A-a4: /将a从集合A中别除 ·一未加入启发式 6)对所有a4∈A重新计算P0S(a)的值：一加入启发式 Repeat 7)C-C∧C: //将子式C合取到关联 0 规则C中 8)E←-E-E(C); /E-(C)为C 目前所能拒绝的E中的元素集合 9)重置E*: 50 70 90 110 负样本数 Repeat (b)负样本数-时间的关系 2细精度关联规则挖掘 goen 内存 4.0 GB DDR2 有程地用道 110t 为了验证上述方法在预测客户流失过程中的可航a 行性及有效性，我们设计并实现了各个过程。实验袋occ白环境为1)CPU/内存/硬盘：AMD Athlon(m)Ⅱ 以太同 X2215/DDR24GB/320GB7200转/min:2)平台/ 湘中 430Me 环境/语言Windows8.164bit操作系统、Microsoft 1.0 GB 27 GB Visual Studio2013/C、C#。 1.1/4.6GB1.8G6 度生有为了验证加入启发式规则后算法的收敛效果， 245MB77.6MB 在相同正负样本和相同环境下进行了时间与空间消 (c)电脑空闲时的内存的子句过长、数量过多，以及属性间的相关性不够强。由于二进制编码方法和关联规则挖掘过程的随机性都会影响所生成的关联规则的准确性，故需要在实验过程中进行多级反馈和修正。基于启发式的ＯＣＡＴ算法流程如下。输入：正负样本Ｅ＋和Ｅ－。／／Ｅ＋、Ｅ－分别是未流失和已流失客户数据集。输出：程序执行多次所得最优的关联规则Ｃ，其规范形式为式（１）所示，其中析取子式由属性片段析取得到，并能保证子式的数量ｎ最少，且子式中属性片段的数量也是最少。Ｃ＝（析取子式１） ∧ 析取子式２ ∧．．． ∧ 析取子式ｎ ∧ … （１）初始化Ｅ＋、Ｅ－和Ｃ＝ ∅ ＤｏＷｈｉｌｅ（Ｅ－≠ ∅ ）重置集合Ａ，Ｃｉ＝ ∅ ；／／Ａ为二进制编码属性片段ａｋ的集合，ａｋ为Ａｉ或ØＡｉＤｏＷｈｉｌｅ（Ｅ＋≠ ∅ ）１）根据ＰＯＳ（ａｋ）／ＮＥＧ（ａｋ）的比值逆序排列Ａ中的元素ａｋ（如果ＮＥＧ（ａｋ）为零，则将ＰＯＳ（ａｋ）作为它的值）；２）选择有序集Ａ中前α （％）的元素生成待选集合Ｌ；３）从Ｌ中随机选择属性ａｋ加入到Ｃｉ中；４）Ｅ＋←Ｅ＋－Ｅ＋（ａｋ）；／／Ｅ＋（ａｋ）为包含ａｋ时Ｃｉ所能接受的Ｅ＋的中的元素集合５）Ａ←Ａ－ａｋ；／／将ａｋ从集合Ａ中剔除６）对所有ａｋ∈Ａ重新计算ＰＯＳ（ａｋ）的值；Ｒｅｐｅａｔ７）Ｃ←Ｃｉ∧Ｃ；／／将子式Ｃｉ合取到关联规则Ｃ中８）Ｅ－←Ｅ－－Ｅ－（Ｃ）；／／Ｅ－（Ｃ）为Ｃ目前所能拒绝的Ｅ－中的元素集合９）重置Ｅ＋；Ｒｅｐｅａｔ２细精度关联规则挖掘为了验证上述方法在预测客户流失过程中的可行性及有效性，我们设计并实现了各个过程。实验环境为１）ＣＰＵ／内存／硬盘：ＡＭＤＡｔｈｌｏｎ（ｔｍ） Ⅱ Ｘ２２１５／ＤＤＲ２４ＧＢ／３２０ＧＢ７２００转／ｍｉｎ；２）平台／环境／语言Ｗｉｎｄｏｗｓ８．１６４ｂｉｔ操作系统、ＭｉｃｒｏｓｏｆｔＶｉｓｕａｌＳｔｕｄｉｏ２０１３／Ｃ、Ｃ＃。为了验证加入启发式规则后算法的收敛效果，在相同正负样本和相同环境下进行了时间与空间消耗的对比实验。通过多次实验，选取的负样本基数为５０，这种大小的样本空间可以让ＯＣＡＴ方法的耗时不会太大，又能明显比较出２种方法在相同数据集上的时间耗费差异。在改变正样本的基数时，分别使用上述２种方法的运算时间对比如图２（ａ）所示。同理，将正样本基数固定为１０，负样本基数从５０开始，每次增加１０条负样本记录，一直到１００条，此时得到的运算时间对比如图２（ｂ）所示。此外，在３００条正样本与１００条负样本情况下，对二者的内存占用情况进行对比，其中图２（ｃ）为未运行程序时的内存占用，图２（ｄ）与图２（ｅ）分别为使用ＯＣＡＴ方法与加入启发式方法后的内存占用情况。（ａ）正样本数－时间关系（ｂ）负样本数－时间的关系（ｃ）电脑空闲时的内存 ·４１０· 智能系统学报第１０卷

<<向上翻页向下翻页>>

点击下载：机器学习：基于细精度关联规则挖掘的电信客户流失分析