的可以快速发现任意形状类的ＤＢＳＣＡＮ分类算法［１１］完成从“属性”

正在加载图片...

第3期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·409 的可以快速发现任意形状类的DBSCAN分类算训练集数据的正负样本（用E*和E来分别表示正法[四完成从“属性”到“属性片段”的分解。另外，样本和负样本)，剩余的数据用作检验集。最后，通此数据集不同属性值域区间的差异较大，这可能会过前后10次进行随机抽取得到正负样本，并分别计影响分类的效果，因此还需要对这些属性进行常用算结果，进一步验证数据挖掘结果的稳定性、可信性的归一化处理。具体的步骤是：首先使用mapmin- 和鲁棒性。在构造E和E时，采用了如表3所示 max(x,min,max)函数将值域归一到区间[0,1]，其的属性排列顺序及其编码对应关系。次以每个属性数据结合函数ones(n,1)产生的数据表3属性与二进制编码对应关系作为输入x(其中n为样本的个数)，通过经验以及 Table 3 Binary encoding of all attributes and its representation 多次实验确定较优的参数。结果集中可能会存在孤属性二进制编码立点，较优的参数能够减少孤立点的个数，并且产生较为合理的分类。在实际应用中，孤立点的数量往 non_fee A2 往远小于正常数据)]，因此其影响比较小，故本文 A 就近将孤立点分配至临近的区间（相应的孤立点处 year_local fee A. 理方法作为后续工作)。经过DBSCAN运算后，便 A 得到了属性分类，即“属性片段”，这些分类结果直 Ao 接反映了其属性值自然特有的内在规律，由事物本 A 身决定，不受人为控制，因此对后续进一步分析隐藏 As 在它们之间的相关性有重要的指导作用。最后，再 Ag 根据分类的个数，使用若干二进制位对属性片段进 A10 行二进制编码。以属性year_local_fee为例，其被划 Au 分为7个区间，包含65个孤立点，将这些孤立点按 AR 照就近原则并入7个区间内，故以3位二进制位来 foo2 An 表示，如表1所示。实验中各属性的分类数如表2 Au 所示。 1.2OCAT关联规则挖掘表1属性year_local_fee的二进制编码对应关系经过数据预处理得到的二进制数据不能采用决 Table 1 Classification of year local fee and its binary encoding 策树和聚类等传统方法处理，同时为了让关联规则区间 12 3 4 5 6 > 易于实施并行计算，实验中采用了OCAT方法，该方编码000 001010 011100101110 法每次产生一条最优子式（接受全部正样本，拒绝尽可能多的负样本)，最终将子式通过合取操作得表2所有属性的分类数到关联规则。但是，OCAT产生单个子式的过程中 Table 2 Classification quantity of all attributes 剪枝的数量较少，导致收敛速度缓慢，并且需要存储属性分类数大量的叶子结点的限界，导致运算时耗费了极大的 non_fee 3 时间和空间。因此，实验中最终引入了启发式规 year local fee 7 则]0进行快速剪枝，将时间复杂度从指数级别 1 1 降到多项式级别，这将非常适合数据量庞大的电信 T2 5 数据挖掘。 fo 启发式方法中根据POS(a)/NEG(a:)的比值逆序排列属性（片段）a:(a.为A:或4：)形成有序集 3)正负样本的构造。合A,挑选A中前α(%)（阈值）的元素生成待选集首先，根据数据集中chum标志位（标志客户流合L。关联规则的构造过程即不断地从待选集合L 失信息的属性)的值，将整个数据集的用户划分为中随机选出属性（片段）a加入子式的过程，该过程已经流失的客户(chum值为0)和未流失的客户持续到关联规则完成或集合L为空。若α值过小， (chum值为1)2类。其次，为了得到关联规则挖掘则关联规则不完整，导致预测结果准确度下降：反中需要的训练集和检验集，实验分别随机抽取未流之，若α值过大，则对客户流失影响很小的属性（片失客户和已流失客户中四分之三的数据[]来构造段)可能会包含在关联规则中，从而导致关联规则的可以快速发现任意形状类的ＤＢＳＣＡＮ分类算法［１１］完成从“属性”到“属性片段” 的分解。另外，此数据集不同属性值域区间的差异较大，这可能会影响分类的效果，因此还需要对这些属性进行常用的归一化处理。具体的步骤是：首先使用ｍａｐｍｉｎ⁃ ｍａｘ（ｘ，ｍｉｎ，ｍａｘ）函数将值域归一到区间［０，１］，其次以每个属性数据结合函数ｏｎｅｓ（ｎ，１）产生的数据作为输入ｘ（其中ｎ为样本的个数），通过经验以及多次实验确定较优的参数。结果集中可能会存在孤立点，较优的参数能够减少孤立点的个数，并且产生较为合理的分类。在实际应用中，孤立点的数量往往远小于正常数据［１２］，因此其影响比较小，故本文就近将孤立点分配至临近的区间（相应的孤立点处理方法作为后续工作）。经过ＤＢＳＣＡＮ运算后，便得到了属性分类，即“属性片段”，这些分类结果直接反映了其属性值自然特有的内在规律，由事物本身决定，不受人为控制，因此对后续进一步分析隐藏在它们之间的相关性有重要的指导作用。最后，再根据分类的个数，使用若干二进制位对属性片段进行二进制编码。以属性ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ为例，其被划分为７个区间，包含６５个孤立点，将这些孤立点按照就近原则并入７个区间内，故以３位二进制位来表示，如表１所示。实验中各属性的分类数如表２所示。表１属性ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ的二进制编码对应关系Ｔａｂｌｅ１Ｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅａｎｄｉｔｓｂｉｎａｒｙｅｎｃｏｄｉｎｇ区间１２３４５６７编码０００００１０１００１１１００１０１１１０表２所有属性的分类数Ｔａｂｌｅ２Ｃｌａｓｓｉｆｉｃａｔｉｏｎｑｕａｎｔｉｔｙｏｆａｌｌａｔｔｒｉｂｕｔｅｓ属性分类数ｎｏｎ＿ｆｅｅ３ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ７ｒ１７ｒ２５ｆｅ０９０２８３）正负样本的构造。首先，根据数据集中ｃｈｕｒｎ标志位（标志客户流失信息的属性）的值，将整个数据集的用户划分为已经流失的客户（ｃｈｕｒｎ值为０）和未流失的客户（ｃｈｕｒｎ值为１）２类。其次，为了得到关联规则挖掘中需要的训练集和检验集，实验分别随机抽取未流失客户和已流失客户中四分之三的数据［１３］来构造训练集数据的正负样本（用Ｅ＋和Ｅ－来分别表示正样本和负样本），剩余的数据用作检验集。最后，通过前后１０次进行随机抽取得到正负样本，并分别计算结果，进一步验证数据挖掘结果的稳定性、可信性和鲁棒性。在构造Ｅ＋和Ｅ－时，采用了如表３所示的属性排列顺序及其编码对应关系。表３属性与二进制编码对应关系Ｔａｂｌｅ３Ｂｉｎａｒｙｅｎｃｏｄｉｎｇｏｆａｌｌａｔｔｒｉｂｕｔｅｓａｎｄｉｔｓｒｅｐｒｅｓｅｎｔａｔｉｏｎ属性二进制编码ｎｏｎ＿ｆｅｅＡ１Ａ２ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅＡ３Ａ４Ａ５ｒ１Ａ６Ａ７Ａ８ｒ２Ａ９Ａ１０Ａ１１ｆｅ０９０２Ａ１２Ａ１３Ａ１４１．２ＯＣＡＴ关联规则挖掘经过数据预处理得到的二进制数据不能采用决策树和聚类等传统方法处理，同时为了让关联规则易于实施并行计算，实验中采用了ＯＣＡＴ方法，该方法每次产生一条最优子式（接受全部正样本，拒绝尽可能多的负样本），最终将子式通过合取操作得到关联规则。但是，ＯＣＡＴ产生单个子式的过程中剪枝的数量较少，导致收敛速度缓慢，并且需要存储大量的叶子结点的限界，导致运算时耗费了极大的时间和空间。因此，实验中最终引入了启发式规则［９］７３－８０进行快速剪枝，将时间复杂度从指数级别降到多项式级别，这将非常适合数据量庞大的电信数据挖掘。启发式方法中根据ＰＯＳ（ａｋ）／ＮＥＧ（ａｋ）的比值逆序排列属性（片段）ａｋ（ａｋ为Ａｉ或ØＡｉ）形成有序集合Ａ，挑选Ａ中前 α（％）（阈值）的元素生成待选集合Ｌ。关联规则的构造过程即不断地从待选集合Ｌ中随机选出属性（片段）ａｋ加入子式的过程，该过程持续到关联规则完成或集合Ｌ为空。若 α 值过小，则关联规则不完整，导致预测结果准确度下降；反之，若 α 值过大，则对客户流失影响很小的属性（片段）可能会包含在关联规则中，从而导致关联规则第３期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·４０９·

<<向上翻页向下翻页>>

点击下载：机器学习：基于细精度关联规则挖掘的电信客户流失分析