（ｄ）未加入启发式时内存（ｅ）加入启发式后内存（ｆ）α 值

正在加载图片...

第3期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·411 CPU 内存所有负样本。这一结果具有如下特点： 4.0 GB DDR2 176 1)反映了一些新的规律。以子式(-4VA3VAV 内存 2a/3.7GB70% A,V-A,VA2)为例，对照表1分析得出属性non_fee 蓝盘0C:D:E 0 与其他属性Year_local_fee、I1r2fm的“内在片段”的以太网内存延件相关性，即“属性+片段->片段”或“片段+片段->属覆法0接0kbp5 性”，而传统的关联规则只能发现属性与属性的相关地用中时用逐 00M 性，即“属性+属性->属性”。 2.8GB975MB 日快阿的得 214 日皮要泰： DIMM 已交已第存 2)运算效率高。以子式(A1VA,VA,VA6V 方件的内257M 3.2/4.6GB1022MB A,VA2)为例，其仅有6个原子项，因此运行较快。非顶度到出 236MB77.4MB 而由于上述关联规则为合取范式，以“∧”为连接词构 (d)未加入启发式时内存成，因此用这种形式的规则检验海量数据时可采用高 CPU 内存度并行计算的方法，进一步了减少时间开销。 4.0 GB DDR2 内存用量 3768 3)剖析了属性内部结构与内涵。以子式(4，V 内存 13/3.7G635%则 A3VAVA.VA,VA2)为例，其等价于(A1∧A3A 磁盘0C:D:E到 AA46AAg)→A12,体现的已非属性之间的关联， 0 内骨而是属性片段与片段的相关性，即片段A,的取值取决于片段A143A,4,和A,。这一结果有利于公司决策者制定更为精准的市场策略。使同中可用速： 400MH 1.3GB2.4GB 已决用的播 214 阻成要来 DIMM 4)提高了fine精度。10次实验所得到的关联规已存 1.5/4.9GB1.7GB 为年道的内257M 则分别对应10条主合取范式，这些主合取范式可以面离中花非物四国中地 245MB84.9MB 使用矩阵形式表示，式(2)的主合取范式如表4所示。 (e)加入启发式后内存其余9条主合取范式与表4所示的主合取范式的相 1.0 似度在86.4%~90.2%，体现了结果的稳定性、可信性 0.9 和鲁棒性，说明了提升fine精度的合理性。 0.8 0.7 表4主合取范式形式 0.6 0.5 Table 4 Principal conjunctive normal form 00.10.20.30.40.50.60.70.80.91.0 编码 SubF1 SubF2 SubF3 SubF4 a值 ()α值-准确度的关系 A 0 △ △ 1 图2实验结果 A2 △ △ 1 △ Fig.2 Experiment results Ax 1 △ △ A △ △ △ 从图2(a)~(e)可以看出，加入启发式规则之 As 1 0 △ 0 1 △ 0 △ 后的方法比OCAT方法所消耗的时间与空间都大大 Ao A △ △ 1 △ 减少，图2(f)描述了不同的阈值α值对预测准确度 As △ 1 △ 的影响，体现了其重要性。最后，10次实验所得的 Ag 0 1 △ △ 关联规则之一如式(2)所示。 A1o △ △ 0 0 C=(A:V A3 V As V A VA,V A2)A...n A △ 0 △ △ (A VAs V As VAg VA V-A3 V A4)A AR △ 1 △ (A2 VA3 VAs V A7 VA0 V A VA)A An △ 0 △ (A VAs VA0 V A3) (2) A △ 1 0 该表达式为关联规则的布尔表达式，它由4条注：符号“△”表示取0和1均可，SubF1有256条，SubF2有析取范式的子式经过合取操作得到，其中每条子式 128条，SubF3有128条，SubF4有1024条均能接受所有的正样本而拒绝若干负样本，所有子 5)得到了更直观、清晰的语义解释。以子式式合取而成的关联规则能接受所有正样本并且拒绝 (A,VMsV4oVA13)为例，若某一客户数据使该（ｄ）未加入启发式时内存（ｅ）加入启发式后内存（ｆ）α 值－准确度的关系图２实验结果Ｆｉｇ．２Ｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓ从图２（ａ）～（ｅ）可以看出，加入启发式规则之后的方法比ＯＣＡＴ方法所消耗的时间与空间都大大减少，图２（ｆ）描述了不同的阈值 α 值对预测准确度的影响，体现了其重要性。最后，１０次实验所得的关联规则之一如式（２）所示。Ｃ＝（ØＡ１ ∨ Ａ３ ∨ Ａ５ ∨ Ａ６ ∨ ØＡ９ ∨ Ａ１２） ∧ … ∧ （Ａ４ ∨ ØＡ５ ∨ Ａ８ ∨ Ａ９ ∨ ØＡ１１ ∨ ØＡ１３ ∨ Ａ１４） ∧ （Ａ２ ∨ ØＡ３ ∨ ØＡ６ ∨ Ａ７ ∨ ØＡ１０ ∨ Ａ１２ ∨ ØＡ１４） ∧ （Ａ１ ∨ ØＡ５ ∨ ØＡ１０ ∨ Ａ１３）（２）该表达式为关联规则的布尔表达式，它由４条析取范式的子式经过合取操作得到，其中每条子式均能接受所有的正样本而拒绝若干负样本，所有子式合取而成的关联规则能接受所有正样本并且拒绝所有负样本。这一结果具有如下特点：１）反映了一些新的规律。以子式（ØＡ１∨Ａ３∨Ａ５∨ Ａ６∨ØＡ９∨Ａ１２）为例，对照表１分析得出属性ｎｏｎ＿ｆｅｅ与其他属性Ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ、ｒ１、ｒ２、ｆｅ０９０２的“内在片段”的相关性，即“属性＋片段－＞片段”或“片段＋片段－＞属性”，而传统的关联规则只能发现属性与属性的相关性，即“属性＋属性－＞属性”。２）运算效率高。以子式（ ØＡ１∨Ａ３∨Ａ５∨Ａ６∨ ØＡ９∨Ａ１２）为例，其仅有６个原子项，因此运行较快。而由于上述关联规则为合取范式，以“∧”为连接词构成，因此用这种形式的规则检验海量数据时可采用高度并行计算的方法，进一步了减少时间开销。３）剖析了属性内部结构与内涵。以子式（ØＡ１∨ Ａ３∨Ａ５∨Ａ６∨ØＡ９∨Ａ１２）为例，其等价于（Ａ１∧ØＡ３∧ ØＡ５∧ØＡ６∧Ａ９） ÞＡ１２，体现的已非属性之间的关联，而是属性片段与片段的相关性，即片段Ａ１２的取值取决于片段Ａ１、Ａ３、Ａ５、Ａ６和Ａ９。这一结果有利于公司决策者制定更为精准的市场策略。４）提高了ｆｉｎｅ精度。１０次实验所得到的关联规则分别对应１０条主合取范式，这些主合取范式可以使用矩阵形式表示，式（２）的主合取范式如表４所示。其余９条主合取范式与表４所示的主合取范式的相似度在８６．４％～９０．２％，体现了结果的稳定性、可信性和鲁棒性，说明了提升ｆｉｎｅ精度的合理性。表４主合取范式形式Ｔａｂｌｅ４Ｐｒｉｎｃｉｐａｌｃｏｎｊｕｎｃｔｉｖｅｎｏｒｍａｌｆｏｒｍ编码ＳｕｂＦ１ＳｕｂＦ２ＳｕｂＦ３ＳｕｂＦ４Ａ１０ △ △ １Ａ２ △ △ １ △ Ａ３１ △ ０ △ Ａ４ △ １ △ △ Ａ５１０ △ ０Ａ６１ △ ０ △ Ａ７ △ △ １ △ Ａ８ △ １ △ △ Ａ９０１ △ △ Ａ１０ △ △ ００Ａ１１ △ ０ △ △ Ａ１２１ △ １ △ Ａ１３ △ ０ △ １Ａ１４ △ １０ △ 注：符号“△”表示取０和１均可，ＳｕｂＦ１有２５６条，ＳｕｂＦ２有１２８条，ＳｕｂＦ３有１２８条，ＳｕｂＦ４有１０２４条５）得到了更直观、清晰的语义解释。以子式（Ａ１∨ØＡ５∨ØＡ１０∨Ａ１３）为例，若某一客户数据使该第３期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·４１１·

<<向上翻页向下翻页>>

点击下载：机器学习：基于细精度关联规则挖掘的电信客户流失分析