机器学习：基于细精度关联规则挖掘的电信客户流失分析

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：869.53KB

第10卷第3期智能系统学报 Vol.10 No.3 2015年6月 CAAI Transactions on Intelligent Systems Jun.2015 D0:10.3969/j.issn.1673-4785.201404050 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.tp.20150527.1021.001.html 基于细精度关联规则挖掘的电信客户流失分析梁路，王彪，王剑辉，刘冬宁 (广东工业大学计算机学院，广东广州510006) 摘要：用决策树等常规关联规则方法分析电信客户流失问题时，存在属性相关性不够精细的问题，即无法剖析属性的内在结构、内涵及隐藏的细粒度的相关规律，同时也无法满足海量电信数据分析的需求。采用细精度关联规则挖掘解决上述问题，从逻辑学角度提出用二进制编码的方法对属性进行分解，用其构造正负训练样本集，然后进行 OC4T关联规则挖掘，并加入启发式规则加快收敛速度，以节省时间和内存开销。实验结果表明，基于这种方法产生的关联规则提高了细精度，同时易于实施并行计算和提高效率，能更好地满足当前电信应用需求。关键词：电信客户流失：细精度；关联规则：逻辑方法：OCAT:启发式规则中图分类号：TP182文献标志码：A文章编号：1673-4785(2015)03-0407-07 中文引用格式：梁路，王彪，王剑辉，等.基于细精度关联规则挖掘的电信客户流失分析[J】.智能系统学报，2015,10(3)：407413. 英文引用格式：LIANG Lu,WANG Biao,WANG Jianhui,etal.Analysis of telecom customer churn based on fine-grained associa- tion rule mining[J].CAAI Transactions on Intelligent Systems,2015,10(3):407-413. Analysis of telecom customer churn based on fine-grained association rule mining LIANG Lu,WANG Biao,WANG Jianhui,LIU Dongning (Faculty of Computer Science,Guangdong University of Technology,Guangzhou 510006,China) Abstract:When using traditional association rule mining such as decision tree to analyze the problem of telecom customer churn,we always meet the problem that the dependency of attributes are not enough fine,which means traditional methods not only cannot analyze the internal structure and hidden fine-grained related rules of attributes, but also cannot satisfy the needs of analyzing massive telecom data.In this paper,we solve the above problems by using fine-grained association rule mining.We firstly design a binary coding method from logic viewpoint to break attributes to segments,and then build the positive and negative training sample sets based on segments.In experi- ment we adopt the one clause at a time (OCAT)algorithm on association rule mining for speeding up the conver- gence speed and saving the overhead of time and memory.Finally,the experimental result shows that this method improves the fine-grained of the association rule,which can be easily used in parallel computing to raise efficiency, and satisfy the requirements of current telecom application. Keywords:telecom customer churn;fine grain;association rules;logic method;one clause at a time (OCAT); heuristic rules 当前各电信企业市场竞争越演越烈，为了提高史数据进行分析，制定更好的技术方案和营销策略。客户忠诚度，迫切要求企业借助于对日益庞大的历然而影响客户忠诚度的因素非常复杂，营销人员不通晓技术，技术人员又不精于营销，且数据挖掘是目收稿日期：2014-04-27.网络出版日期：2015-05-27. 基金项目：国家“863”计划重大项目(2013AA01A212):国家自然科学前最有效的数据分析手段之一，用于发现大量数据基金资助项目(61272067,61104156)：广东省自然科学基所隐含的各种规律)，因此选择一种合适的数据挖金资助项目(9451009001002777). 通信作者：王彪.E-mail:wangbiao._gut@163.com. 掘方法极为重要。目前常用的方法是关联规则挖

第１０卷第３期智能系统学报Ｖｏｌ．１０ №．３２０１５年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１５ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１４０４０５０网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５０５２７．１０２１．００１．ｈｔｍｌ基于细精度关联规则挖掘的电信客户流失分析梁路，王彪，王剑辉，刘冬宁（广东工业大学计算机学院，广东广州５１０００６）摘要：用决策树等常规关联规则方法分析电信客户流失问题时，存在属性相关性不够精细的问题，即无法剖析属性的内在结构、内涵及隐藏的细粒度的相关规律，同时也无法满足海量电信数据分析的需求。采用细精度关联规则挖掘解决上述问题，从逻辑学角度提出用二进制编码的方法对属性进行分解，用其构造正负训练样本集，然后进行ＯＣＡＴ关联规则挖掘，并加入启发式规则加快收敛速度，以节省时间和内存开销。实验结果表明，基于这种方法产生的关联规则提高了细精度，同时易于实施并行计算和提高效率，能更好地满足当前电信应用需求。关键词：电信客户流失；细精度；关联规则；逻辑方法；ＯＣＡＴ；启发式规则中图分类号：ＴＰ１８２文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０３⁃０４０７⁃０７中文引用格式：梁路，王彪，王剑辉，等．基于细精度关联规则挖掘的电信客户流失分析［Ｊ］．智能系统学报，２０１５，１０（３）：４０７⁃４１３．英文引用格式：ＬＩＡＮＧＬｕ，ＷＡＮＧＢｉａｏ，ＷＡＮＧＪｉａｎｈｕｉ，ｅｔａｌ．Ａｎａｌｙｓｉｓｏｆｔｅｌｅｃｏｍｃｕｓｔｏｍｅｒｃｈｕｒｎｂａｓｅｄｏｎｆｉｎｅ⁃ｇｒａｉｎｅｄａｓｓｏｃｉａ⁃ ｔｉｏｎｒｕｌｅｍｉｎｉｎｇ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（３）：４０７⁃４１３．Ａｎａｌｙｓｉｓｏｆｔｅｌｅｃｏｍｃｕｓｔｏｍｅｒｃｈｕｒｎｂａｓｅｄｏｎｆｉｎｅ⁃ｇｒａｉｎｅｄａｓｓｏｃｉａｔｉｏｎｒｕｌｅｍｉｎｉｎｇＬＩＡＮＧＬｕ，ＷＡＮＧＢｉａｏ，ＷＡＮＧＪｉａｎｈｕｉ，ＬＩＵＤｏｎｇｎｉｎｇ（ＦａｃｕｌｔｙｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｈｅｎｕｓｉｎｇｔｒａｄｉｔｉｏｎａｌａｓｓｏｃｉａｔｉｏｎｒｕｌｅｍｉｎｉｎｇｓｕｃｈａｓｄｅｃｉｓｉｏｎｔｒｅｅｔｏａｎａｌｙｚｅｔｈｅｐｒｏｂｌｅｍｏｆｔｅｌｅｃｏｍｃｕｓｔｏｍｅｒｃｈｕｒｎ，ｗｅａｌｗａｙｓｍｅｅｔｔｈｅｐｒｏｂｌｅｍｔｈａｔｔｈｅｄｅｐｅｎｄｅｎｃｙｏｆａｔｔｒｉｂｕｔｅｓａｒｅｎｏｔｅｎｏｕｇｈｆｉｎｅ，ｗｈｉｃｈｍｅａｎｓｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｎｏｔｏｎｌｙｃａｎｎｏｔａｎａｌｙｚｅｔｈｅｉｎｔｅｒｎａｌｓｔｒｕｃｔｕｒｅａｎｄｈｉｄｄｅｎｆｉｎｅ⁃ｇｒａｉｎｅｄｒｅｌａｔｅｄｒｕｌｅｓｏｆａｔｔｒｉｂｕｔｅｓ，ｂｕｔａｌｓｏｃａｎｎｏｔｓａｔｉｓｆｙｔｈｅｎｅｅｄｓｏｆａｎａｌｙｚｉｎｇｍａｓｓｉｖｅｔｅｌｅｃｏｍｄａｔａ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｓｏｌｖｅｔｈｅａｂｏｖｅｐｒｏｂｌｅｍｓｂｙｕｓｉｎｇｆｉｎｅ⁃ｇｒａｉｎｅｄａｓｓｏｃｉａｔｉｏｎｒｕｌｅｍｉｎｉｎｇ．Ｗｅｆｉｒｓｔｌｙｄｅｓｉｇｎａｂｉｎａｒｙｃｏｄｉｎｇｍｅｔｈｏｄｆｒｏｍｌｏｇｉｃｖｉｅｗｐｏｉｎｔｔｏｂｒｅａｋａｔｔｒｉｂｕｔｅｓｔｏｓｅｇｍｅｎｔｓ，ａｎｄｔｈｅｎｂｕｉｌｄｔｈｅｐｏｓｉｔｉｖｅａｎｄｎｅｇａｔｉｖｅｔｒａｉｎｉｎｇｓａｍｐｌｅｓｅｔｓｂａｓｅｄｏｎｓｅｇｍｅｎｔｓ．Ｉｎｅｘｐｅｒｉ⁃ ｍｅｎｔｗｅａｄｏｐｔｔｈｅｏｎｅｃｌａｕｓｅａｔａｔｉｍｅ（ＯＣＡＴ）ａｌｇｏｒｉｔｈｍｏｎａｓｓｏｃｉａｔｉｏｎｒｕｌｅｍｉｎｉｎｇｆｏｒｓｐｅｅｄｉｎｇｕｐｔｈｅｃｏｎｖｅｒ⁃ ｇｅｎｃｅｓｐｅｅｄａｎｄｓａｖｉｎｇｔｈｅｏｖｅｒｈｅａｄｏｆｔｉｍｅａｎｄｍｅｍｏｒｙ．Ｆｉｎａｌｌｙ，ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｈｏｗｓｔｈａｔｔｈｉｓｍｅｔｈｏｄｉｍｐｒｏｖｅｓｔｈｅｆｉｎｅ⁃ｇｒａｉｎｅｄｏｆｔｈｅａｓｓｏｃｉａｔｉｏｎｒｕｌｅ，ｗｈｉｃｈｃａｎｂｅｅａｓｉｌｙｕｓｅｄｉｎｐａｒａｌｌｅｌｃｏｍｐｕｔｉｎｇｔｏｒａｉｓｅｅｆｆｉｃｉｅｎｃｙ，ａｎｄｓａｔｉｓｆｙｔｈｅｒｅｑｕｉｒｅｍｅｎｔｓｏｆｃｕｒｒｅｎｔｔｅｌｅｃｏｍａｐｐｌｉｃａｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ｔｅｌｅｃｏｍｃｕｓｔｏｍｅｒｃｈｕｒｎ；ｆｉｎｅｇｒａｉｎ；ａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓ；ｌｏｇｉｃｍｅｔｈｏｄ；ｏｎｅｃｌａｕｓｅａｔａｔｉｍｅ（ＯＣＡＴ）；ｈｅｕｒｉｓｔｉｃｒｕｌｅｓ收稿日期：２０１４⁃０４⁃２７．网络出版日期：２０１５⁃０５⁃２７．基金项目：国家“８６３”计划重大项目（２０１３ＡＡ０１Ａ２１２）；国家自然科学基金资助项目（６１２７２０６７，６１１０４１５６）；广东省自然科学基金资助项目（９４５１００９００１００２７７７）．通信作者：王彪．Ｅ⁃ｍａｉｌ：ｗａｎｇｂｉａｏ＿ｇｄｕｔ＠１６３．ｃｏｍ．当前各电信企业市场竞争越演越烈，为了提高客户忠诚度，迫切要求企业借助于对日益庞大的历史数据进行分析，制定更好的技术方案和营销策略。然而影响客户忠诚度的因素非常复杂，营销人员不通晓技术，技术人员又不精于营销，且数据挖掘是目前最有效的数据分析手段之一，用于发现大量数据所隐含的各种规律［１］，因此选择一种合适的数据挖掘方法极为重要。目前常用的方法是关联规则挖

·408· 智能系统学报第10卷掘)，因为其能够比较直观地得出各因素之间的关某种基于逻辑的方法寻找一系列子式，再由这些子式系，而且操作过程简单，结果的可解释性强)。但合取得到关联规则表达式，该表达式由二进制化后的是，现有的关联规则挖掘方法均无法进一步发现隐 “属性片段”构成，不仅能直观地展现属性的内部结构藏在属性内部的相关规律，并且在面向海量数据挖和内涵，而且这种由合取范式表示的关联规则特别适掘时效率很低。合采用并行计算进行海量数据分析，从而提高运算效目前用于电信客户流失预测的方法主要可分为率。图1展示了该方法的具体步骤：数据预处理（数 3类4：第1类方法以传统的统计学理论为基础，主据清洗、数据二进制编码和正负样本构造)、关联规则要包括聚类、贝叶斯分类器、决策树和逻辑回归等。的挖掘、结果检验以及评估反馈。如Kim等)曾采用逻辑回归方法对韩国部分移动数据预处理客户进行了流失预测分析，探讨了韩国移动电信市数据清洗场相关因素在客户流失和忠诚度之间的关系，为保持客户的忠诚度提供了帮助。第2类方法以人工智数据二进制编码反馈能理论为基础，主要包括人工神经网络和进化学习构造正负样本等。如Moz心r等[6曾采用人工神经网络方法结合数据抽样等方法建立了客户流失预测模型，并为某电确定阅值a的值信公司进行了客户流失预测，通过与决策树等方法反馈对比，发现采用该方法产生的关联规则预测效果更 OCAT关联规则挖掘好，准确率更高。第3类方法以统计学习理论为基结果检验础，其典型代表为支持向量机方法。如邝涛等[小采用基于代价敏感学习的支持向量机模型对某电信公评估司的客户数据进行挖掘，并通过与神经网络等方法图1细精度关联规则挖掘流程对比，发现该方法能获得较高的预测精度和覆盖率， Fig.I Process of fine-grained association rule mining 并能在某种程度上解决了数据集非平衡性等问题。尽管以上3类方法被大量使用，但它们都忽略 1.1数据预处理了属性内在结构之间的细粒度的相关规律，即存在文中数据集为某电信运营商某地区数据仓库中关联规则不够精细的问题：并且在用于海量数据分的客户原始历史数据，总共有176921条记录，其中正析时计算量大、效率低，难以及时反映客户的流失倾常客户记录为156885条，流失客户记录20036条。向，因此不能完全满足当前电信应用的需求。因此， 1)数据清洗与属性变换。本文的思路是把每个独立的属性“打碎”，即分解得首先删除有效值较少的属性或记录，以及非法的到细粒度的“属性片段”，以提高关联规则的f6ne精记录。其次，在电信客户流失的应用背景下，需要研度[)，再基于属性片段采用合适的关联规则挖掘算究能够反映客户消费承受能力、消费习惯和消费行为法，最后得到的关联规则要易于对海量数据实施并的属性相关性，同时用文献[10]的经验做支撑，为了行计算提高效率，从而可以更好地及时定位影响客能够准确地覆盖影响客户流失的因素，构建了月消费户流失的关键因素，或发现一些隐藏的关键规律，使比率，（上一个月与本月的消费比值）、年度本地通话其能在电信客户流失预测中具有更大的应用空间。费用(year_local_fee)、未消费月份数(non_fee)3个属 1 电信数据挖掘分析与改进性。在实验中选用了t(2008年12月的消费额/2009 年1月的消费额)、，2(2009年1月的消费额/2009年为了得到属性内在相关规律及方便实现并行运 2月的消费额)，fe(2009年2月的消费额)、year_lo- 算，采用了基于逻辑的细精度关联规则挖掘方法。首 cal_fee等5个属性作为特征属性。先提出了与领域相关的属性分解方法，即对属性值域 2)数据二进制编码。进行合适的分类以得到“属性片段”，再对每个分类进考虑到属性值域分类的语义差别，及其与客户行二进制编码。而这样变化后的数据并不适合采用流失问题的相关性差别，采用了与领域相关的二进决策树和聚类等传统方法进行处理，于是我们结合了制编码方法将属性“掰碎”，即根据记录的取值相关 E.Triantaphyllou提出的基于逻辑的OCAT方性进行分类。经过分析，发现实验用到的电信用户法[]-“进行关联规则挖掘。这种方法的核心是通过数据集具有典型的密度特性，因此采用了基于密度

掘［２］，因为其能够比较直观地得出各因素之间的关系，而且操作过程简单，结果的可解释性强［３］。但是，现有的关联规则挖掘方法均无法进一步发现隐藏在属性内部的相关规律，并且在面向海量数据挖掘时效率很低。目前用于电信客户流失预测的方法主要可分为３类［４］：第１类方法以传统的统计学理论为基础，主要包括聚类、贝叶斯分类器、决策树和逻辑回归等。如Ｋｉｍ等［５］曾采用逻辑回归方法对韩国部分移动客户进行了流失预测分析，探讨了韩国移动电信市场相关因素在客户流失和忠诚度之间的关系，为保持客户的忠诚度提供了帮助。第２类方法以人工智能理论为基础，主要包括人工神经网络和进化学习等。如Ｍｏｚｅｒ等［６］曾采用人工神经网络方法结合数据抽样等方法建立了客户流失预测模型，并为某电信公司进行了客户流失预测，通过与决策树等方法对比，发现采用该方法产生的关联规则预测效果更好，准确率更高。第３类方法以统计学习理论为基础，其典型代表为支持向量机方法。如邝涛等［７］采用基于代价敏感学习的支持向量机模型对某电信公司的客户数据进行挖掘，并通过与神经网络等方法对比，发现该方法能获得较高的预测精度和覆盖率，并能在某种程度上解决了数据集非平衡性等问题。尽管以上３类方法被大量使用，但它们都忽略了属性内在结构之间的细粒度的相关规律，即存在关联规则不够精细的问题；并且在用于海量数据分析时计算量大、效率低，难以及时反映客户的流失倾向，因此不能完全满足当前电信应用的需求。因此，本文的思路是把每个独立的属性“打碎”，即分解得到细粒度的“属性片段”，以提高关联规则的ｆｉｎｅ精度［８］，再基于属性片段采用合适的关联规则挖掘算法，最后得到的关联规则要易于对海量数据实施并行计算提高效率，从而可以更好地及时定位影响客户流失的关键因素，或发现一些隐藏的关键规律，使其能在电信客户流失预测中具有更大的应用空间。１电信数据挖掘分析与改进为了得到属性内在相关规律及方便实现并行运算，采用了基于逻辑的细精度关联规则挖掘方法。首先提出了与领域相关的属性分解方法，即对属性值域进行合适的分类以得到“属性片段”，再对每个分类进行二进制编码。而这样变化后的数据并不适合采用决策树和聚类等传统方法进行处理，于是我们结合了Ｅ．Ｔｒｉａｎｔａｐｈｙｌｌｏｕ提出的基于逻辑的ＯＣＡＴ方法［９］３５－４５进行关联规则挖掘。这种方法的核心是通过某种基于逻辑的方法寻找一系列子式，再由这些子式合取得到关联规则表达式，该表达式由二进制化后的 “属性片段”构成，不仅能直观地展现属性的内部结构和内涵，而且这种由合取范式表示的关联规则特别适合采用并行计算进行海量数据分析，从而提高运算效率。图１展示了该方法的具体步骤：数据预处理（数据清洗、数据二进制编码和正负样本构造）、关联规则的挖掘、结果检验以及评估反馈。图１细精度关联规则挖掘流程Ｆｉｇ．１Ｐｒｏｃｅｓｓｏｆｆｉｎｅ⁃ｇｒａｉｎｅｄａｓｓｏｃｉａｔｉｏｎｒｕｌｅｍｉｎｉｎｇ１．１数据预处理文中数据集为某电信运营商某地区数据仓库中的客户原始历史数据，总共有１７６９２１条记录，其中正常客户记录为１５６８８５条，流失客户记录２００３６条。１）数据清洗与属性变换。首先删除有效值较少的属性或记录，以及非法的记录。其次，在电信客户流失的应用背景下，需要研究能够反映客户消费承受能力、消费习惯和消费行为的属性相关性，同时用文献［１０］的经验做支撑，为了能够准确地覆盖影响客户流失的因素，构建了月消费比率ｒｉ（上一个月与本月的消费比值）、年度本地通话费用（ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ）、未消费月份数（ｎｏｎ＿ｆｅｅ）３个属性。在实验中选用了ｒ１（２００８年１２月的消费额／２００９年１月的消费额）、ｒ２（２００９年１月的消费额／２００９年２月的消费额）、ｆｅ０９０２（２００９年２月的消费额）、ｙｅａｒ＿ｌｏ⁃ ｃａｌ＿ｆｅｅ等５个属性作为特征属性。２）数据二进制编码。考虑到属性值域分类的语义差别，及其与客户流失问题的相关性差别，采用了与领域相关的二进制编码方法将属性“掰碎”，即根据记录的取值相关性进行分类。经过分析，发现实验用到的电信用户数据集具有典型的密度特性，因此采用了基于密度 ·４０８· 智能系统学报第１０卷

第3期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·409 的可以快速发现任意形状类的DBSCAN分类算训练集数据的正负样本（用E*和E来分别表示正法[四完成从“属性”到“属性片段”的分解。另外，样本和负样本)，剩余的数据用作检验集。最后，通此数据集不同属性值域区间的差异较大，这可能会过前后10次进行随机抽取得到正负样本，并分别计影响分类的效果，因此还需要对这些属性进行常用算结果，进一步验证数据挖掘结果的稳定性、可信性的归一化处理。具体的步骤是：首先使用mapmin- 和鲁棒性。在构造E和E时，采用了如表3所示 max(x,min,max)函数将值域归一到区间[0,1]，其的属性排列顺序及其编码对应关系。次以每个属性数据结合函数ones(n,1)产生的数据表3属性与二进制编码对应关系作为输入x(其中n为样本的个数)，通过经验以及 Table 3 Binary encoding of all attributes and its representation 多次实验确定较优的参数。结果集中可能会存在孤属性二进制编码立点，较优的参数能够减少孤立点的个数，并且产生较为合理的分类。在实际应用中，孤立点的数量往 non_fee A2 往远小于正常数据)]，因此其影响比较小，故本文 A 就近将孤立点分配至临近的区间（相应的孤立点处 year_local fee A. 理方法作为后续工作)。经过DBSCAN运算后，便 A 得到了属性分类，即“属性片段”，这些分类结果直 Ao 接反映了其属性值自然特有的内在规律，由事物本 A 身决定，不受人为控制，因此对后续进一步分析隐藏 As 在它们之间的相关性有重要的指导作用。最后，再 Ag 根据分类的个数，使用若干二进制位对属性片段进 A10 行二进制编码。以属性year_local_fee为例，其被划 Au 分为7个区间，包含65个孤立点，将这些孤立点按 AR 照就近原则并入7个区间内，故以3位二进制位来 foo2 An 表示，如表1所示。实验中各属性的分类数如表2 Au 所示。 1.2OCAT关联规则挖掘表1属性year_local_fee的二进制编码对应关系经过数据预处理得到的二进制数据不能采用决 Table 1 Classification of year local fee and its binary encoding 策树和聚类等传统方法处理，同时为了让关联规则区间 12 3 4 5 6 > 易于实施并行计算，实验中采用了OCAT方法，该方编码000 001010 011100101110 法每次产生一条最优子式（接受全部正样本，拒绝尽可能多的负样本)，最终将子式通过合取操作得表2所有属性的分类数到关联规则。但是，OCAT产生单个子式的过程中 Table 2 Classification quantity of all attributes 剪枝的数量较少，导致收敛速度缓慢，并且需要存储属性分类数大量的叶子结点的限界，导致运算时耗费了极大的 non_fee 3 时间和空间。因此，实验中最终引入了启发式规 year local fee 7 则]0进行快速剪枝，将时间复杂度从指数级别 1 1 降到多项式级别，这将非常适合数据量庞大的电信 T2 5 数据挖掘。 fo 启发式方法中根据POS(a)/NEG(a:)的比值逆序排列属性（片段）a:(a.为A:或4：)形成有序集 3)正负样本的构造。合A,挑选A中前α(%)（阈值）的元素生成待选集首先，根据数据集中chum标志位（标志客户流合L。关联规则的构造过程即不断地从待选集合L 失信息的属性)的值，将整个数据集的用户划分为中随机选出属性（片段）a加入子式的过程，该过程已经流失的客户(chum值为0)和未流失的客户持续到关联规则完成或集合L为空。若α值过小， (chum值为1)2类。其次，为了得到关联规则挖掘则关联规则不完整，导致预测结果准确度下降：反中需要的训练集和检验集，实验分别随机抽取未流之，若α值过大，则对客户流失影响很小的属性（片失客户和已流失客户中四分之三的数据[]来构造段)可能会包含在关联规则中，从而导致关联规则

的可以快速发现任意形状类的ＤＢＳＣＡＮ分类算法［１１］完成从“属性”到“属性片段” 的分解。另外，此数据集不同属性值域区间的差异较大，这可能会影响分类的效果，因此还需要对这些属性进行常用的归一化处理。具体的步骤是：首先使用ｍａｐｍｉｎ⁃ ｍａｘ（ｘ，ｍｉｎ，ｍａｘ）函数将值域归一到区间［０，１］，其次以每个属性数据结合函数ｏｎｅｓ（ｎ，１）产生的数据作为输入ｘ（其中ｎ为样本的个数），通过经验以及多次实验确定较优的参数。结果集中可能会存在孤立点，较优的参数能够减少孤立点的个数，并且产生较为合理的分类。在实际应用中，孤立点的数量往往远小于正常数据［１２］，因此其影响比较小，故本文就近将孤立点分配至临近的区间（相应的孤立点处理方法作为后续工作）。经过ＤＢＳＣＡＮ运算后，便得到了属性分类，即“属性片段”，这些分类结果直接反映了其属性值自然特有的内在规律，由事物本身决定，不受人为控制，因此对后续进一步分析隐藏在它们之间的相关性有重要的指导作用。最后，再根据分类的个数，使用若干二进制位对属性片段进行二进制编码。以属性ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ为例，其被划分为７个区间，包含６５个孤立点，将这些孤立点按照就近原则并入７个区间内，故以３位二进制位来表示，如表１所示。实验中各属性的分类数如表２所示。表１属性ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ的二进制编码对应关系Ｔａｂｌｅ１Ｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅａｎｄｉｔｓｂｉｎａｒｙｅｎｃｏｄｉｎｇ区间１２３４５６７编码０００００１０１００１１１００１０１１１０表２所有属性的分类数Ｔａｂｌｅ２Ｃｌａｓｓｉｆｉｃａｔｉｏｎｑｕａｎｔｉｔｙｏｆａｌｌａｔｔｒｉｂｕｔｅｓ属性分类数ｎｏｎ＿ｆｅｅ３ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ７ｒ１７ｒ２５ｆｅ０９０２８３）正负样本的构造。首先，根据数据集中ｃｈｕｒｎ标志位（标志客户流失信息的属性）的值，将整个数据集的用户划分为已经流失的客户（ｃｈｕｒｎ值为０）和未流失的客户（ｃｈｕｒｎ值为１）２类。其次，为了得到关联规则挖掘中需要的训练集和检验集，实验分别随机抽取未流失客户和已流失客户中四分之三的数据［１３］来构造训练集数据的正负样本（用Ｅ＋和Ｅ－来分别表示正样本和负样本），剩余的数据用作检验集。最后，通过前后１０次进行随机抽取得到正负样本，并分别计算结果，进一步验证数据挖掘结果的稳定性、可信性和鲁棒性。在构造Ｅ＋和Ｅ－时，采用了如表３所示的属性排列顺序及其编码对应关系。表３属性与二进制编码对应关系Ｔａｂｌｅ３Ｂｉｎａｒｙｅｎｃｏｄｉｎｇｏｆａｌｌａｔｔｒｉｂｕｔｅｓａｎｄｉｔｓｒｅｐｒｅｓｅｎｔａｔｉｏｎ属性二进制编码ｎｏｎ＿ｆｅｅＡ１Ａ２ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅＡ３Ａ４Ａ５ｒ１Ａ６Ａ７Ａ８ｒ２Ａ９Ａ１０Ａ１１ｆｅ０９０２Ａ１２Ａ１３Ａ１４１．２ＯＣＡＴ关联规则挖掘经过数据预处理得到的二进制数据不能采用决策树和聚类等传统方法处理，同时为了让关联规则易于实施并行计算，实验中采用了ＯＣＡＴ方法，该方法每次产生一条最优子式（接受全部正样本，拒绝尽可能多的负样本），最终将子式通过合取操作得到关联规则。但是，ＯＣＡＴ产生单个子式的过程中剪枝的数量较少，导致收敛速度缓慢，并且需要存储大量的叶子结点的限界，导致运算时耗费了极大的时间和空间。因此，实验中最终引入了启发式规则［９］７３－８０进行快速剪枝，将时间复杂度从指数级别降到多项式级别，这将非常适合数据量庞大的电信数据挖掘。启发式方法中根据ＰＯＳ（ａｋ）／ＮＥＧ（ａｋ）的比值逆序排列属性（片段）ａｋ（ａｋ为Ａｉ或ØＡｉ）形成有序集合Ａ，挑选Ａ中前 α（％）（阈值）的元素生成待选集合Ｌ。关联规则的构造过程即不断地从待选集合Ｌ中随机选出属性（片段）ａｋ加入子式的过程，该过程持续到关联规则完成或集合Ｌ为空。若 α 值过小，则关联规则不完整，导致预测结果准确度下降；反之，若 α 值过大，则对客户流失影响很小的属性（片段）可能会包含在关联规则中，从而导致关联规则第３期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·４０９·

·410 智能系统学报第10卷的子句过长、数量过多，以及属性间的相关性不够耗的对比实验。通过多次实验，选取的负样本基数强。由于二进制编码方法和关联规则挖掘过程的随为50，这种大小的样本空间可以让OCAT方法的耗机性都会影响所生成的关联规则的准确性，故需要时不会太大，又能明显比较出2种方法在相同数据在实验过程中进行多级反馈和修正。基于启发式的集上的时间耗费差异。在改变正样本的基数时，分 OCAT算法流程如下。别使用上述2种方法的运算时间对比如图2(a)所输入：正负样本E和E。 /E、E分别是示。同理，将正样本基数固定为10，负样本基数从未流失和已流失客户数据集。 50开始，每次增加10条负样本记录，一直到100 输出：程序执行多次所得最优的关联规则C,其条，此时得到的运算时间对比如图2(b)所示。此规范形式为式(1)所示，其中析取子式由属性片段外，在300条正样本与100条负样本情况下，对二者析取得到，并能保证子式的数量n最少，且子式中属的内存占用情况进行对比，其中图2(c)为未运行程性片段的数量也是最少。序时的内存占用，图2(d)与图2(e)分别为使用 C=(析取子式1)八析取子式2∧.个 OCAT方法与加入启发式方法后的内存占用情况。析取子式n八… (1) 一未加入启发式初始化E、E和C=☑ 。一加入启发式 Do While(E≠⑦) 2 重置集合A,C,=☑；/A为二进制编码属性片段a的集合，a4为A,或-4： 1 Do While(E*≠☑) 画 1)根据POS(a)/NEG(a,)的比值逆序排列A中的元素a4(如果NEG(a4)为零，则将POS(a)作为它的值)： 2)选择有序集A中前α(%)的元素生成 10 11 12131415 16 待选集合L; 正样本数 3)从L中随机选择属性a加入到C:中： (a)正样本数-时间关系 4)E←-E*-E(a);/E(a)为包含 a时C,所能接受的E的中的元素集合 5)A←-A-a4: /将a从集合A中别除 ·一未加入启发式 6)对所有a4∈A重新计算P0S(a)的值：一加入启发式 Repeat 7)C-C∧C: //将子式C合取到关联 0 规则C中 8)E←-E-E(C); /E-(C)为C 目前所能拒绝的E中的元素集合 9)重置E*: 50 70 90 110 负样本数 Repeat (b)负样本数-时间的关系 2细精度关联规则挖掘 goen 内存 4.0 GB DDR2 有程地用道 110t 为了验证上述方法在预测客户流失过程中的可航a 行性及有效性，我们设计并实现了各个过程。实验袋occ白环境为1)CPU/内存/硬盘：AMD Athlon(m)Ⅱ 以太同 X2215/DDR24GB/320GB7200转/min:2)平台/ 湘中 430Me 环境/语言Windows8.164bit操作系统、Microsoft 1.0 GB 27 GB Visual Studio2013/C、C#。 1.1/4.6GB1.8G6 度生有为了验证加入启发式规则后算法的收敛效果， 245MB77.6MB 在相同正负样本和相同环境下进行了时间与空间消 (c)电脑空闲时的内存

的子句过长、数量过多，以及属性间的相关性不够强。由于二进制编码方法和关联规则挖掘过程的随机性都会影响所生成的关联规则的准确性，故需要在实验过程中进行多级反馈和修正。基于启发式的ＯＣＡＴ算法流程如下。输入：正负样本Ｅ＋和Ｅ－。／／Ｅ＋、Ｅ－分别是未流失和已流失客户数据集。输出：程序执行多次所得最优的关联规则Ｃ，其规范形式为式（１）所示，其中析取子式由属性片段析取得到，并能保证子式的数量ｎ最少，且子式中属性片段的数量也是最少。Ｃ＝（析取子式１） ∧ 析取子式２ ∧．．． ∧ 析取子式ｎ ∧ … （１）初始化Ｅ＋、Ｅ－和Ｃ＝ ∅ ＤｏＷｈｉｌｅ（Ｅ－≠ ∅ ）重置集合Ａ，Ｃｉ＝ ∅ ；／／Ａ为二进制编码属性片段ａｋ的集合，ａｋ为Ａｉ或ØＡｉＤｏＷｈｉｌｅ（Ｅ＋≠ ∅ ）１）根据ＰＯＳ（ａｋ）／ＮＥＧ（ａｋ）的比值逆序排列Ａ中的元素ａｋ（如果ＮＥＧ（ａｋ）为零，则将ＰＯＳ（ａｋ）作为它的值）；２）选择有序集Ａ中前α （％）的元素生成待选集合Ｌ；３）从Ｌ中随机选择属性ａｋ加入到Ｃｉ中；４）Ｅ＋←Ｅ＋－Ｅ＋（ａｋ）；／／Ｅ＋（ａｋ）为包含ａｋ时Ｃｉ所能接受的Ｅ＋的中的元素集合５）Ａ←Ａ－ａｋ；／／将ａｋ从集合Ａ中剔除６）对所有ａｋ∈Ａ重新计算ＰＯＳ（ａｋ）的值；Ｒｅｐｅａｔ７）Ｃ←Ｃｉ∧Ｃ；／／将子式Ｃｉ合取到关联规则Ｃ中８）Ｅ－←Ｅ－－Ｅ－（Ｃ）；／／Ｅ－（Ｃ）为Ｃ目前所能拒绝的Ｅ－中的元素集合９）重置Ｅ＋；Ｒｅｐｅａｔ２细精度关联规则挖掘为了验证上述方法在预测客户流失过程中的可行性及有效性，我们设计并实现了各个过程。实验环境为１）ＣＰＵ／内存／硬盘：ＡＭＤＡｔｈｌｏｎ（ｔｍ） Ⅱ Ｘ２２１５／ＤＤＲ２４ＧＢ／３２０ＧＢ７２００转／ｍｉｎ；２）平台／环境／语言Ｗｉｎｄｏｗｓ８．１６４ｂｉｔ操作系统、ＭｉｃｒｏｓｏｆｔＶｉｓｕａｌＳｔｕｄｉｏ２０１３／Ｃ、Ｃ＃。为了验证加入启发式规则后算法的收敛效果，在相同正负样本和相同环境下进行了时间与空间消耗的对比实验。通过多次实验，选取的负样本基数为５０，这种大小的样本空间可以让ＯＣＡＴ方法的耗时不会太大，又能明显比较出２种方法在相同数据集上的时间耗费差异。在改变正样本的基数时，分别使用上述２种方法的运算时间对比如图２（ａ）所示。同理，将正样本基数固定为１０，负样本基数从５０开始，每次增加１０条负样本记录，一直到１００条，此时得到的运算时间对比如图２（ｂ）所示。此外，在３００条正样本与１００条负样本情况下，对二者的内存占用情况进行对比，其中图２（ｃ）为未运行程序时的内存占用，图２（ｄ）与图２（ｅ）分别为使用ＯＣＡＴ方法与加入启发式方法后的内存占用情况。（ａ）正样本数－时间关系（ｂ）负样本数－时间的关系（ｃ）电脑空闲时的内存 ·４１０· 智能系统学报第１０卷

第3期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·411 CPU 内存所有负样本。这一结果具有如下特点： 4.0 GB DDR2 176 1)反映了一些新的规律。以子式(-4VA3VAV 内存 2a/3.7GB70% A,V-A,VA2)为例，对照表1分析得出属性non_fee 蓝盘0C:D:E 0 与其他属性Year_local_fee、I1r2fm的“内在片段”的以太网内存延件相关性，即“属性+片段->片段”或“片段+片段->属覆法0接0kbp5 性”，而传统的关联规则只能发现属性与属性的相关地用中时用逐 00M 性，即“属性+属性->属性”。 2.8GB975MB 日快阿的得 214 日皮要泰： DIMM 已交已第存 2)运算效率高。以子式(A1VA,VA,VA6V 方件的内257M 3.2/4.6GB1022MB A,VA2)为例，其仅有6个原子项，因此运行较快。非顶度到出 236MB77.4MB 而由于上述关联规则为合取范式，以“∧”为连接词构 (d)未加入启发式时内存成，因此用这种形式的规则检验海量数据时可采用高 CPU 内存度并行计算的方法，进一步了减少时间开销。 4.0 GB DDR2 内存用量 3768 3)剖析了属性内部结构与内涵。以子式(4，V 内存 13/3.7G635%则 A3VAVA.VA,VA2)为例，其等价于(A1∧A3A 磁盘0C:D:E到 AA46AAg)→A12,体现的已非属性之间的关联， 0 内骨而是属性片段与片段的相关性，即片段A,的取值取决于片段A143A,4,和A,。这一结果有利于公司决策者制定更为精准的市场策略。使同中可用速： 400MH 1.3GB2.4GB 已决用的播 214 阻成要来 DIMM 4)提高了fine精度。10次实验所得到的关联规已存 1.5/4.9GB1.7GB 为年道的内257M 则分别对应10条主合取范式，这些主合取范式可以面离中花非物四国中地 245MB84.9MB 使用矩阵形式表示，式(2)的主合取范式如表4所示。 (e)加入启发式后内存其余9条主合取范式与表4所示的主合取范式的相 1.0 似度在86.4%~90.2%，体现了结果的稳定性、可信性 0.9 和鲁棒性，说明了提升fine精度的合理性。 0.8 0.7 表4主合取范式形式 0.6 0.5 Table 4 Principal conjunctive normal form 00.10.20.30.40.50.60.70.80.91.0 编码 SubF1 SubF2 SubF3 SubF4 a值 ()α值-准确度的关系 A 0 △ △ 1 图2实验结果 A2 △ △ 1 △ Fig.2 Experiment results Ax 1 △ △ A △ △ △ 从图2(a)~(e)可以看出，加入启发式规则之 As 1 0 △ 0 1 △ 0 △ 后的方法比OCAT方法所消耗的时间与空间都大大 Ao A △ △ 1 △ 减少，图2(f)描述了不同的阈值α值对预测准确度 As △ 1 △ 的影响，体现了其重要性。最后，10次实验所得的 Ag 0 1 △ △ 关联规则之一如式(2)所示。 A1o △ △ 0 0 C=(A:V A3 V As V A VA,V A2)A...n A △ 0 △ △ (A VAs V As VAg VA V-A3 V A4)A AR △ 1 △ (A2 VA3 VAs V A7 VA0 V A VA)A An △ 0 △ (A VAs VA0 V A3) (2) A △ 1 0 该表达式为关联规则的布尔表达式，它由4条注：符号“△”表示取0和1均可，SubF1有256条，SubF2有析取范式的子式经过合取操作得到，其中每条子式 128条，SubF3有128条，SubF4有1024条均能接受所有的正样本而拒绝若干负样本，所有子 5)得到了更直观、清晰的语义解释。以子式式合取而成的关联规则能接受所有正样本并且拒绝 (A,VMsV4oVA13)为例，若某一客户数据使该

（ｄ）未加入启发式时内存（ｅ）加入启发式后内存（ｆ）α 值－准确度的关系图２实验结果Ｆｉｇ．２Ｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓ从图２（ａ）～（ｅ）可以看出，加入启发式规则之后的方法比ＯＣＡＴ方法所消耗的时间与空间都大大减少，图２（ｆ）描述了不同的阈值 α 值对预测准确度的影响，体现了其重要性。最后，１０次实验所得的关联规则之一如式（２）所示。Ｃ＝（ØＡ１ ∨ Ａ３ ∨ Ａ５ ∨ Ａ６ ∨ ØＡ９ ∨ Ａ１２） ∧ … ∧ （Ａ４ ∨ ØＡ５ ∨ Ａ８ ∨ Ａ９ ∨ ØＡ１１ ∨ ØＡ１３ ∨ Ａ１４） ∧ （Ａ２ ∨ ØＡ３ ∨ ØＡ６ ∨ Ａ７ ∨ ØＡ１０ ∨ Ａ１２ ∨ ØＡ１４） ∧ （Ａ１ ∨ ØＡ５ ∨ ØＡ１０ ∨ Ａ１３）（２）该表达式为关联规则的布尔表达式，它由４条析取范式的子式经过合取操作得到，其中每条子式均能接受所有的正样本而拒绝若干负样本，所有子式合取而成的关联规则能接受所有正样本并且拒绝所有负样本。这一结果具有如下特点：１）反映了一些新的规律。以子式（ØＡ１∨Ａ３∨Ａ５∨ Ａ６∨ØＡ９∨Ａ１２）为例，对照表１分析得出属性ｎｏｎ＿ｆｅｅ与其他属性Ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ、ｒ１、ｒ２、ｆｅ０９０２的“内在片段”的相关性，即“属性＋片段－＞片段”或“片段＋片段－＞属性”，而传统的关联规则只能发现属性与属性的相关性，即“属性＋属性－＞属性”。２）运算效率高。以子式（ ØＡ１∨Ａ３∨Ａ５∨Ａ６∨ ØＡ９∨Ａ１２）为例，其仅有６个原子项，因此运行较快。而由于上述关联规则为合取范式，以“∧”为连接词构成，因此用这种形式的规则检验海量数据时可采用高度并行计算的方法，进一步了减少时间开销。３）剖析了属性内部结构与内涵。以子式（ØＡ１∨ Ａ３∨Ａ５∨Ａ６∨ØＡ９∨Ａ１２）为例，其等价于（Ａ１∧ØＡ３∧ ØＡ５∧ØＡ６∧Ａ９） ÞＡ１２，体现的已非属性之间的关联，而是属性片段与片段的相关性，即片段Ａ１２的取值取决于片段Ａ１、Ａ３、Ａ５、Ａ６和Ａ９。这一结果有利于公司决策者制定更为精准的市场策略。４）提高了ｆｉｎｅ精度。１０次实验所得到的关联规则分别对应１０条主合取范式，这些主合取范式可以使用矩阵形式表示，式（２）的主合取范式如表４所示。其余９条主合取范式与表４所示的主合取范式的相似度在８６．４％～９０．２％，体现了结果的稳定性、可信性和鲁棒性，说明了提升ｆｉｎｅ精度的合理性。表４主合取范式形式Ｔａｂｌｅ４Ｐｒｉｎｃｉｐａｌｃｏｎｊｕｎｃｔｉｖｅｎｏｒｍａｌｆｏｒｍ编码ＳｕｂＦ１ＳｕｂＦ２ＳｕｂＦ３ＳｕｂＦ４Ａ１０ △ △ １Ａ２ △ △ １ △ Ａ３１ △ ０ △ Ａ４ △ １ △ △ Ａ５１０ △ ０Ａ６１ △ ０ △ Ａ７ △ △ １ △ Ａ８ △ １ △ △ Ａ９０１ △ △ Ａ１０ △ △ ００Ａ１１ △ ０ △ △ Ａ１２１ △ １ △ Ａ１３ △ ０ △ １Ａ１４ △ １０ △ 注：符号“△”表示取０和１均可，ＳｕｂＦ１有２５６条，ＳｕｂＦ２有１２８条，ＳｕｂＦ３有１２８条，ＳｕｂＦ４有１０２４条５）得到了更直观、清晰的语义解释。以子式（Ａ１∨ØＡ５∨ØＡ１０∨Ａ１３）为例，若某一客户数据使该第３期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·４１１·

.412 智能系统学报第10卷子式结果为0(A1、4、A0、A,取值均为0)，则的时候，得到的关联规则的准确率不够高，但在数据可以预测该用户为流失客户。根据A1、4,、40、样本足够大的情况下，关联规则预测准确率会比较 A:的取值映射到表3，可以得出在non_fee的3区理想。在今后的工作中，将努力完善本方法的各个间、year_local_fee的2,4,6区间、r2的3,4区间与环节，同时找到适用本方法的数据集特征，以应用到 f2的1,3,5,7区间共同影响客户流失，根据区间与更合适的实际问题中。属性值对应的关系可知，客户数据符合表5取值的均为流失客户。参考文献：表5流失客户的数据特征 [I]朱扬勇，熊赟.DNA序列数据挖掘技术[J].软件学报， Table 5 Data characteristics of losing customers 2007,18(11):2766-2781. 属性取值范围 ZHU Yangyong,XIONG Yun.DNA sequence data mining technique[J].Journal of Software,2007,18(11):2766- non_fee 6-12 2781. 30-50 [2]贺炜，潘泉，陈玉春，等.关联规则挖掘与因果关系发 year_local_fee 70-88 现的比较研究[J].模式识别与人工智能，2005,18(3)： 92-133 328-333. 0.320-0.416 HE Wei,PAN Quan,CHEN Yuchun,et al.A Comparison 0-20 25-29 between association rule data mining and causal discovery 2 [J].Pattern Recognition and Artificial Intelligence,2005, 34-50 18(3):328-333. 48-68 [3]毛宇星，陈彤兵，施伯乐.一种高效的多层和概化关联 Joo 6-12 规则挖掘方法[J].软件学报，2011,22(12)：2965- 2980. 3结束语 MAO Yuxing,CHEN Tongbing,SHI Bole.Efficient method 针对决策树等常规关联规则方法在电信客户流 for mining multiple-level and generalized association rules 失预测中遇到的属性相关性不够精细，处理大规模 [J].Journal of Software,2011,22(12):2965-2980. 数据运算效率低的问题，本文采用了基于逻辑的细 [4]夏国恩.客户流失预测的现状与发展研究[J].计算机应精度关联规则方法。该方法从逻辑学角度，通过与用研究，2010,27(2)：413-416. 领域相关的二进制化技术对属性进行分解，并用得 XIA Guoen.Research on current situation and development 到的二进制数据构造训练集的正负样本，再使用 of customer churn prediction[J].Application Research of OCAT方法对正负样本进行挖掘得出关联规则。然 Computers,.2010,27(2):413-416. [5]KIM H S,YOON C H.Determinants of subscriber churn 而，实验过程中耗费了极大的时间与空间，这表明直 and customer loyalty in the Korean mobile telephony market 接用该方法进行海量电信数据的挖掘是不理想的。 [J].Telecommunications Policy,2004,28(9/10):751- 因此引入了启发式规则对其进行改进，将时间复杂 765. 度从指数级别降低到多项式级别。最后通过实验结 [6]MOZER M C,WOLNIEWICZ R,GRIMES D B,et al.Pre- 果分析，验证了该方法能进一步体现属性的内在结 dicting subscriber dissatisfaction and improving retention in 构、内涵及隐藏的细粒度的相关规律，提高了关联规 the wireless telecommunications industry[J].IEEE Transac- 则的fine精度，并且这种由合取范式表示的关联规 tions on Neural Networks,2000,11(3):690-696. 则特别适合实施并行计算，有利于大规模电信数据 [7]邝涛，张倩.改进支持向量机在电信客户流失预测的应的处理，因此该方法是满足目前电信行业需求的一用J].计算机仿真.2011,28(7)：329-332. 种较理想的数据挖掘方法。 KUANG Tao,ZHANG Qian.Application of telecom custom- er churn prediction based on improved support vector ma- 尽管上述方法取得了不错的效果，但是对于不 chine[J].Computer Simulation,2011,28(7):329-332. 同数据集在具体应用时还存在一些困难，如如何更 [8]FOX C,LAPPIN S.Foundations of intensional semantics 好地结合领域知识和数学方法对属性进行分解及二 M].New York:Wiley-Blackwell,2008:78-82. 进制编码进而构造正负样本，如何寻找更好的启发 [9]TRIANTAPHYLLOU E.Data mining and knowledge discov- 式规则提高运算性能等。另外，当数据样本比较小 ery via logic-based methods:theory,algorithms,and appli-

子式结果为０（ØＡ１、ØＡ５、ØＡ１０、Ａ１３取值均为０），则可以预测该用户为流失客户。根据Ａ１、ØＡ５、ØＡ１０、Ａ１３的取值映射到表３，可以得出在ｎｏｎ＿ｆｅｅ的３区间、ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ的２，４，６区间、ｒ２的３，４区间与ｆｅ０９０２的１，３，５，７区间共同影响客户流失，根据区间与属性值对应的关系可知，客户数据符合表５取值的均为流失客户。表５流失客户的数据特征Ｔａｂｌｅ５Ｄａｔａｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｌｏｓｉｎｇｃｕｓｔｏｍｅｒｓ属性取值范围ｎｏｎ＿ｆｅｅ６～１２ｙｅａｒ＿ｌｏｃａｌ＿ｆｅｅ３０～５０７０～８８９２～１３３ｒ１０．３２０～０．４１６ｒ２０～２０２５～２９３４～５０４８～６８ｆｅ０９０２６～１２３结束语针对决策树等常规关联规则方法在电信客户流失预测中遇到的属性相关性不够精细，处理大规模数据运算效率低的问题，本文采用了基于逻辑的细精度关联规则方法。该方法从逻辑学角度，通过与领域相关的二进制化技术对属性进行分解，并用得到的二进制数据构造训练集的正负样本，再使用ＯＣＡＴ方法对正负样本进行挖掘得出关联规则。然而，实验过程中耗费了极大的时间与空间，这表明直接用该方法进行海量电信数据的挖掘是不理想的。因此引入了启发式规则对其进行改进，将时间复杂度从指数级别降低到多项式级别。最后通过实验结果分析，验证了该方法能进一步体现属性的内在结构、内涵及隐藏的细粒度的相关规律，提高了关联规则的ｆｉｎｅ精度，并且这种由合取范式表示的关联规则特别适合实施并行计算，有利于大规模电信数据的处理，因此该方法是满足目前电信行业需求的一种较理想的数据挖掘方法。尽管上述方法取得了不错的效果，但是对于不同数据集在具体应用时还存在一些困难，如如何更好地结合领域知识和数学方法对属性进行分解及二进制编码进而构造正负样本，如何寻找更好的启发式规则提高运算性能等。另外，当数据样本比较小的时候，得到的关联规则的准确率不够高，但在数据样本足够大的情况下，关联规则预测准确率会比较理想。在今后的工作中，将努力完善本方法的各个环节，同时找到适用本方法的数据集特征，以应用到更合适的实际问题中。参考文献：［１］朱扬勇，熊赟．ＤＮＡ序列数据挖掘技术［Ｊ］．软件学报，２００７，１８（１１）：２７６６⁃２７８１．ＺＨＵＹａｎｇｙｏｎｇ，ＸＩＯＮＧＹｕｎ．ＤＮＡｓｅｑｕｅｎｃｅｄａｔａｍｉｎｉｎｇｔｅｃｈｎｉｑｕｅ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ，２００７，１８（１１）：２７６６⁃ ２７８１．［２］贺炜，潘泉，陈玉春，等．关联规则挖掘与因果关系发现的比较研究［Ｊ］．模式识别与人工智能，２００５，１８（３）：３２８⁃３３３．ＨＥＷｅｉ，ＰＡＮＱｕａｎ，ＣＨＥＮＹｕｃｈｕｎ，ｅｔａｌ．ＡＣｏｍｐａｒｉｓｏｎｂｅｔｗｅｅｎａｓｓｏｃｉａｔｉｏｎｒｕｌｅｄａｔａｍｉｎｉｎｇａｎｄｃａｕｓａｌｄｉｓｃｏｖｅｒｙ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，２００５，１８（３）：３２８⁃３３３．［３］毛宇星，陈彤兵，施伯乐．一种高效的多层和概化关联规则挖掘方法［Ｊ］．软件学报，２０１１，２２（１２）：２９６５⁃ ２９８０．ＭＡＯＹｕｘｉｎｇ，ＣＨＥＮＴｏｎｇｂｉｎｇ，ＳＨＩＢｏｌｅ．Ｅｆｆｉｃｉｅｎｔｍｅｔｈｏｄｆｏｒｍｉｎｉｎｇｍｕｌｔｉｐｌｅ⁃ｌｅｖｅｌａｎｄｇｅｎｅｒａｌｉｚｅｄａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＳｏｆｔｗａｒｅ，２０１１，２２（１２）：２９６５⁃２９８０．［４］夏国恩．客户流失预测的现状与发展研究［Ｊ］．计算机应用研究，２０１０，２７（２）：４１３⁃４１６．ＸＩＡＧｕｏｅｎ．Ｒｅｓｅａｒｃｈｏｎｃｕｒｒｅｎｔｓｉｔｕａｔｉｏｎａｎｄｄｅｖｅｌｏｐｍｅｎｔｏｆｃｕｓｔｏｍｅｒｃｈｕｒｎｐｒｅｄｉｃｔｉｏｎ［Ｊ］．ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０１０，２７（２）：４１３⁃４１６．［５］ＫＩＭＨＳ，ＹＯＯＮＣＨ．ＤｅｔｅｒｍｉｎａｎｔｓｏｆｓｕｂｓｃｒｉｂｅｒｃｈｕｒｎａｎｄｃｕｓｔｏｍｅｒｌｏｙａｌｔｙｉｎｔｈｅＫｏｒｅａｎｍｏｂｉｌｅｔｅｌｅｐｈｏｎｙｍａｒｋｅｔ［Ｊ］．ＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＰｏｌｉｃｙ，２００４，２８（９／１０）：７５１⁃ ７６５．［６］ＭＯＺＥＲＭＣ，ＷＯＬＮＩＥＷＩＣＺＲ，ＧＲＩＭＥＳＤＢ，ｅｔａｌ．Ｐｒｅ⁃ ｄｉｃｔｉｎｇｓｕｂｓｃｒｉｂｅｒｄｉｓｓａｔｉｓｆａｃｔｉｏｎａｎｄｉｍｐｒｏｖｉｎｇｒｅｔｅｎｔｉｏｎｉｎｔｈｅｗｉｒｅｌｅｓｓｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓｉｎｄｕｓｔｒｙ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃ⁃ ｔｉｏｎｓｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ，２０００，１１（３）：６９０⁃６９６．［７］邝涛，张倩．改进支持向量机在电信客户流失预测的应用［Ｊ］．计算机仿真，２０１１，２８（７）：３２９⁃３３２．ＫＵＡＮＧＴａｏ，ＺＨＡＮＧＱｉａｎ．Ａｐｐｌｉｃａｔｉｏｎｏｆｔｅｌｅｃｏｍｃｕｓｔｏｍ⁃ ｅｒｃｈｕｒｎｐｒｅｄｉｃｔｉｏｎｂａｓｅｄｏｎｉｍｐｒｏｖｅｄｓｕｐｐｏｒｔｖｅｃｔｏｒｍａ⁃ ｃｈｉｎｅ［Ｊ］．ＣｏｍｐｕｔｅｒＳｉｍｕｌａｔｉｏｎ，２０１１，２８（７）：３２９⁃３３２．［８］ＦＯＸＣ，ＬＡＰＰＩＮＳ．Ｆｏｕｎｄａｔｉｏｎｓｏｆｉｎｔｅｎｓｉｏｎａｌｓｅｍａｎｔｉｃｓ［Ｍ］．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ⁃Ｂｌａｃｋｗｅｌｌ，２００８：７８⁃８２．［９］ＴＲＩＡＮＴＡＰＨＹＬＬＯＵＥ．Ｄａｔａｍｉｎｉｎｇａｎｄｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖ⁃ ｅｒｙｖｉａｌｏｇｉｃ⁃ｂａｓｅｄｍｅｔｈｏｄｓ：ｔｈｅｏｒｙ，ａｌｇｏｒｉｔｈｍｓ，ａｎｄａｐｐｌｉ⁃ ·４１２· 智能系统学报第１０卷

第3期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·413. cations[M].New York:Springer,2010. 作者简介： [10]蒋盛益，李霞，郑琪.数据挖掘原理与实践[M].北京：梁路，女，1980年生，副教授、博士，电子工业出版社，2013：211-212. 中国计算机学会协同计算专业委员会 [11]王鑫，王洪国，王珺，等.数据挖掘中聚类方法比较研委员。主要研究方向为协同计算、云计究[J].计算机技术与发展，2006,16(10)：20-22. 算和数据挖掘。主持和参与国家级、省 WANG Xin,WANG Hongguo,WANG Jun,et al.Com- 级自然科学基金及科技计划项目，以及 parison of clustering methods in data mining[]Computer 校企合作产学研项目多项。2011年获 Technology and Development,2006,16(10):20-22. 广东省科学技术二等奖。发表学术论文30余篇。 [12]张净，孙志挥，杨明，等.基于网格和密度的海量数据王彪，男，1989年生，硕士研究生，增量式离群点挖掘算法[J].计算机研究与发展，2011，主要研究方向为数据挖掘及协同计算。 48(5):823-830. ZHANG Jing,SUN Zhihui,YANG Ming,et al.Fast incre- mental outlier mining algorithm based on grid and capacity [J].Journal of Computer Research and Development, 2011,48(5):823-830. [13]胡文瑜，孙志挥，吴英杰.数据挖掘取样方法研究[J] 王剑辉，男，1990年生，硕士研究计算机研究与发展，2011,48(1)：45-54. 生，主要研究方向为数据挖掘。 HU Wenyu,SUN Zhihui,WU Yingjie.Study of sampling methods on data mining and stream mining[J.Journal of Computer Research and Development,2011,48(1):45- 54. 2015中国自动化大会 2015 Chinese Automation Congress 2015年11月27一29日，中国武汉中国自动化大会是由中国自动化学会组织召开的全国性学术会议，2015年中国自动化大会(CAC2015)将于2015年11 月27-29日在武汉召开，本次大会由华中科技大学自动化学院承办。CAC2015大会的目的是为自动化领域的研究者和工程师们提供该域内原创科学的沟通机会，其交流重点为充分沟通自动化领域的最新研究成果与进展，共享自动化领域的实践经验。热烈欢迎全国各高等院校、科研院所和企事业单位的科技工作者积极参加。 2015年中国自动化大会(CAC2015)热烈欢迎全国各高等院校、科研院所和企事业单位的从事自动化理论与技术研究的科技工作者积极投稿，特别希望征集能反映各单位在自动化领域研究特色的学术论文。主要征文领域范围（包括但不局限于)：先进控制理论及应用，高端自动化系统与技术，信息融合与故障诊断，工业系统工程，智能制造装备与测控技术，工业传感器与仪表，基于数据的建模、优化与控制，机器人与无人系统，导航、制导与控制，模式识别与图像处理，网络化控制系统，生物信息与仿生控制，复杂系统理论与方法，空间飞行器控制，脑机接口与认知计算，智能计算与机器学习，复杂系统的平行控制和管理，大数据技术和应用，智能电网基础理论与关键技术，流程工业知识自动化。重要时间节点：投稿截止日期：2015-07-10 终审通知日期：2015-09-01 终稿提交日期：2015-10-01 网t址：htp:/www.cac2015.org/zhengwen..html

ｃａｔｉｏｎｓ［Ｍ］．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，２０１０．［１０］蒋盛益，李霞，郑琪．数据挖掘原理与实践［Ｍ］．北京：电子工业出版社，２０１３：２１１⁃２１２．［１１］王鑫，王洪国，王珺，等．数据挖掘中聚类方法比较研究［Ｊ］．计算机技术与发展，２００６，１６（１０）：２０⁃２２．ＷＡＮＧＸｉｎ，ＷＡＮＧＨｏｎｇｇｕｏ，ＷＡＮＧＪｕｎ，ｅｔａｌ．Ｃｏｍ⁃ ｐａｒｉｓｏｎｏｆｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｓｉｎｄａｔａｍｉｎｉｎｇ［Ｊ］．ＣｏｍｐｕｔｅｒＴｅｃｈｎｏｌｏｇｙａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２００６，１６（１０）：２０⁃２２．［１２］张净，孙志挥，杨明，等．基于网格和密度的海量数据增量式离群点挖掘算法［Ｊ］．计算机研究与发展，２０１１，４８（５）：８２３⁃８３０．ＺＨＡＮＧＪｉｎｇ，ＳＵＮＺｈｉｈｕｉ，ＹＡＮＧＭｉｎｇ，ｅｔａｌ．Ｆａｓｔｉｎｃｒｅ⁃ ｍｅｎｔａｌｏｕｔｌｉｅｒｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｇｒｉｄａｎｄｃａｐａｃｉｔｙ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２０１１，４８（５）：８２３⁃８３０．［１３］胡文瑜，孙志挥，吴英杰．数据挖掘取样方法研究［Ｊ］．计算机研究与发展，２０１１，４８（１）：４５⁃５４．ＨＵＷｅｎｙｕ，ＳＵＮＺｈｉｈｕｉ，ＷＵＹｉｎｇｊｉｅ．Ｓｔｕｄｙｏｆｓａｍｐｌｉｎｇｍｅｔｈｏｄｓｏｎｄａｔａｍｉｎｉｎｇａｎｄｓｔｒｅａｍｍｉｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２０１１，４８（１）：４５⁃ ５４．作者简介：梁路，女，１９８０年生，副教授、博士，中国计算机学会协同计算专业委员会委员。主要研究方向为协同计算、云计算和数据挖掘。主持和参与国家级、省级自然科学基金及科技计划项目，以及校企合作产学研项目多项。２０１１年获广东省科学技术二等奖。发表学术论文３０余篇。王彪，男，１９８９年生，硕士研究生，主要研究方向为数据挖掘及协同计算。王剑辉，男，１９９０年生，硕士研究生，主要研究方向为数据挖掘。２０１５中国自动化大会２０１５ＣｈｉｎｅｓｅＡｕｔｏｍａｔｉｏｎＣｏｎｇｒｅｓｓ２０１５年１１月２７—２９日，中国武汉中国自动化大会是由中国自动化学会组织召开的全国性学术会议，２０１５年中国自动化大会（ＣＡＣ２０１５）将于２０１５年１１月２７－２９日在武汉召开，本次大会由华中科技大学自动化学院承办。ＣＡＣ２０１５大会的目的是为自动化领域的研究者和工程师们提供该域内原创科学的沟通机会，其交流重点为充分沟通自动化领域的最新研究成果与进展，共享自动化领域的实践经验。热烈欢迎全国各高等院校、科研院所和企事业单位的科技工作者积极参加。２０１５年中国自动化大会（ＣＡＣ２０１５）热烈欢迎全国各高等院校、科研院所和企事业单位的从事自动化理论与技术研究的科技工作者积极投稿，特别希望征集能反映各单位在自动化领域研究特色的学术论文。主要征文领域范围（包括但不局限于）：先进控制理论及应用，高端自动化系统与技术，信息融合与故障诊断，工业系统工程，智能制造装备与测控技术，工业传感器与仪表，基于数据的建模、优化与控制，机器人与无人系统，导航、制导与控制，模式识别与图像处理，网络化控制系统，生物信息与仿生控制，复杂系统理论与方法，空间飞行器控制，脑机接口与认知计算，智能计算与机器学习，复杂系统的平行控制和管理，大数据技术和应用，智能电网基础理论与关键技术，流程工业知识自动化。重要时间节点：投稿截止日期：２０１５－０７－１０终审通知日期：２０１５－０９－０１终稿提交日期：２０１５－１０－０１网址：ｈｔｔｐ：／／ｗｗｗ．ｃａｃ２０１５．ｏｒｇ／ｚｈｅｎｇｗｅｎ．ｈｔｍｌ第３期梁路，等：基于细精度关联规则挖掘的电信客户流失分析 ·４１３·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录