当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

机器学习:基于细精度关联规则挖掘的电信客户流失分析

资源类别:文库,文档格式:PDF,文档页数:7,文件大小:869.53KB,团购合买
点击下载完整版文档(PDF)

第10卷第3期 智能系统学报 Vol.10 No.3 2015年6月 CAAI Transactions on Intelligent Systems Jun.2015 D0:10.3969/j.issn.1673-4785.201404050 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.tp.20150527.1021.001.html 基于细精度关联规则挖掘的电信客户流失分析 梁路,王彪,王剑辉,刘冬宁 (广东工业大学计算机学院,广东广州510006) 摘要:用决策树等常规关联规则方法分析电信客户流失问题时,存在属性相关性不够精细的问题,即无法剖析属 性的内在结构、内涵及隐藏的细粒度的相关规律,同时也无法满足海量电信数据分析的需求。采用细精度关联规则 挖掘解决上述问题,从逻辑学角度提出用二进制编码的方法对属性进行分解,用其构造正负训练样本集,然后进行 OC4T关联规则挖掘,并加入启发式规则加快收敛速度,以节省时间和内存开销。实验结果表明,基于这种方法产生 的关联规则提高了细精度,同时易于实施并行计算和提高效率,能更好地满足当前电信应用需求。 关键词:电信客户流失:细精度;关联规则:逻辑方法:OCAT:启发式规则 中图分类号:TP182文献标志码:A文章编号:1673-4785(2015)03-0407-07 中文引用格式:梁路,王彪,王剑辉,等.基于细精度关联规则挖掘的电信客户流失分析[J】.智能系统学报,2015,10(3):407413. 英文引用格式:LIANG Lu,WANG Biao,WANG Jianhui,etal.Analysis of telecom customer churn based on fine-grained associa- tion rule mining[J].CAAI Transactions on Intelligent Systems,2015,10(3):407-413. Analysis of telecom customer churn based on fine-grained association rule mining LIANG Lu,WANG Biao,WANG Jianhui,LIU Dongning (Faculty of Computer Science,Guangdong University of Technology,Guangzhou 510006,China) Abstract:When using traditional association rule mining such as decision tree to analyze the problem of telecom customer churn,we always meet the problem that the dependency of attributes are not enough fine,which means traditional methods not only cannot analyze the internal structure and hidden fine-grained related rules of attributes, but also cannot satisfy the needs of analyzing massive telecom data.In this paper,we solve the above problems by using fine-grained association rule mining.We firstly design a binary coding method from logic viewpoint to break attributes to segments,and then build the positive and negative training sample sets based on segments.In experi- ment we adopt the one clause at a time (OCAT)algorithm on association rule mining for speeding up the conver- gence speed and saving the overhead of time and memory.Finally,the experimental result shows that this method improves the fine-grained of the association rule,which can be easily used in parallel computing to raise efficiency, and satisfy the requirements of current telecom application. Keywords:telecom customer churn;fine grain;association rules;logic method;one clause at a time (OCAT); heuristic rules 当前各电信企业市场竞争越演越烈,为了提高 史数据进行分析,制定更好的技术方案和营销策略。 客户忠诚度,迫切要求企业借助于对日益庞大的历 然而影响客户忠诚度的因素非常复杂,营销人员不 通晓技术,技术人员又不精于营销,且数据挖掘是目 收稿日期:2014-04-27.网络出版日期:2015-05-27. 基金项目:国家“863”计划重大项目(2013AA01A212):国家自然科学 前最有效的数据分析手段之一,用于发现大量数据 基金资助项目(61272067,61104156):广东省自然科学基 所隐含的各种规律),因此选择一种合适的数据挖 金资助项目(9451009001002777). 通信作者:王彪.E-mail:wangbiao._gut@163.com. 掘方法极为重要。目前常用的方法是关联规则挖

第 10 卷第 3 期 智 能 系 统 学 报 Vol.10 №.3 2015 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2015 DOI:10.3969 / j.issn.1673⁃4785.201404050 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.tp.20150527.1021.001.html 基于细精度关联规则挖掘的电信客户流失分析 梁路,王彪,王剑辉,刘冬宁 (广东工业大学 计算机学院,广东 广州 510006) 摘 要:用决策树等常规关联规则方法分析电信客户流失问题时,存在属性相关性不够精细的问题,即无法剖析属 性的内在结构、内涵及隐藏的细粒度的相关规律,同时也无法满足海量电信数据分析的需求。 采用细精度关联规则 挖掘解决上述问题,从逻辑学角度提出用二进制编码的方法对属性进行分解,用其构造正负训练样本集,然后进行 OCAT 关联规则挖掘,并加入启发式规则加快收敛速度,以节省时间和内存开销。 实验结果表明,基于这种方法产生 的关联规则提高了细精度,同时易于实施并行计算和提高效率,能更好地满足当前电信应用需求。 关键词:电信客户流失;细精度;关联规则;逻辑方法;OCAT;启发式规则 中图分类号:TP182 文献标志码:A 文章编号:1673⁃4785(2015)03⁃0407⁃07 中文引用格式:梁路,王彪,王剑辉,等. 基于细精度关联规则挖掘的电信客户流失分析[J]. 智能系统学报, 2015, 10(3): 407⁃413. 英文引用格式:LIANG Lu, WANG Biao, WANG Jianhui, et al. Analysis of telecom customer churn based on fine⁃grained associa⁃ tion rule mining[J]. CAAI Transactions on Intelligent Systems, 2015, 10(3): 407⁃413. Analysis of telecom customer churn based on fine⁃grained association rule mining LIANG Lu, WANG Biao, WANG Jianhui, LIU Dongning (Faculty of Computer Science, Guangdong University of Technology, Guangzhou 510006, China) Abstract:When using traditional association rule mining such as decision tree to analyze the problem of telecom customer churn, we always meet the problem that the dependency of attributes are not enough fine, which means traditional methods not only cannot analyze the internal structure and hidden fine⁃grained related rules of attributes, but also cannot satisfy the needs of analyzing massive telecom data. In this paper, we solve the above problems by using fine⁃grained association rule mining. We firstly design a binary coding method from logic viewpoint to break attributes to segments, and then build the positive and negative training sample sets based on segments. In experi⁃ ment we adopt the one clause at a time (OCAT) algorithm on association rule mining for speeding up the conver⁃ gence speed and saving the overhead of time and memory. Finally, the experimental result shows that this method improves the fine⁃grained of the association rule, which can be easily used in parallel computing to raise efficiency, and satisfy the requirements of current telecom application. Keywords:telecom customer churn; fine grain; association rules; logic method; one clause at a time (OCAT); heuristic rules 收稿日期:2014⁃04⁃27. 网络出版日期:2015⁃05⁃27. 基金项目:国家“863”计划重大项目(2013AA01A212);国家自然科学 基金资助项目(61272067, 61104156);广东省自然科学基 金资助项目(9451009001002777). 通信作者:王彪. E⁃mail: wangbiao_gdut@ 163.com. 当前各电信企业市场竞争越演越烈,为了提高 客户忠诚度,迫切要求企业借助于对日益庞大的历 史数据进行分析,制定更好的技术方案和营销策略。 然而影响客户忠诚度的因素非常复杂,营销人员不 通晓技术,技术人员又不精于营销,且数据挖掘是目 前最有效的数据分析手段之一,用于发现大量数据 所隐含的各种规律[1] ,因此选择一种合适的数据挖 掘方法极为重要。 目前常用的方法是关联规则挖

·408· 智能系统学报 第10卷 掘),因为其能够比较直观地得出各因素之间的关 某种基于逻辑的方法寻找一系列子式,再由这些子式 系,而且操作过程简单,结果的可解释性强)。但 合取得到关联规则表达式,该表达式由二进制化后的 是,现有的关联规则挖掘方法均无法进一步发现隐 “属性片段”构成,不仅能直观地展现属性的内部结构 藏在属性内部的相关规律,并且在面向海量数据挖 和内涵,而且这种由合取范式表示的关联规则特别适 掘时效率很低。 合采用并行计算进行海量数据分析,从而提高运算效 目前用于电信客户流失预测的方法主要可分为 率。图1展示了该方法的具体步骤:数据预处理(数 3类4:第1类方法以传统的统计学理论为基础,主 据清洗、数据二进制编码和正负样本构造)、关联规则 要包括聚类、贝叶斯分类器、决策树和逻辑回归等。 的挖掘、结果检验以及评估反馈。 如Kim等)曾采用逻辑回归方法对韩国部分移动 数据预处理 客户进行了流失预测分析,探讨了韩国移动电信市 数据清洗 场相关因素在客户流失和忠诚度之间的关系,为保 持客户的忠诚度提供了帮助。第2类方法以人工智 数据二进制编码 反馈 能理论为基础,主要包括人工神经网络和进化学习 构造正负样本 等。如Moz心r等[6曾采用人工神经网络方法结合数 据抽样等方法建立了客户流失预测模型,并为某电 确定阅值a的值 信公司进行了客户流失预测,通过与决策树等方法 反馈 对比,发现采用该方法产生的关联规则预测效果更 OCAT关联规则挖掘 好,准确率更高。第3类方法以统计学习理论为基 结果检验 础,其典型代表为支持向量机方法。如邝涛等[小采 用基于代价敏感学习的支持向量机模型对某电信公 评估 司的客户数据进行挖掘,并通过与神经网络等方法 图1细精度关联规则挖掘流程 对比,发现该方法能获得较高的预测精度和覆盖率, Fig.I Process of fine-grained association rule mining 并能在某种程度上解决了数据集非平衡性等问题。 尽管以上3类方法被大量使用,但它们都忽略 1.1数据预处理 了属性内在结构之间的细粒度的相关规律,即存在 文中数据集为某电信运营商某地区数据仓库中 关联规则不够精细的问题:并且在用于海量数据分 的客户原始历史数据,总共有176921条记录,其中正 析时计算量大、效率低,难以及时反映客户的流失倾 常客户记录为156885条,流失客户记录20036条。 向,因此不能完全满足当前电信应用的需求。因此, 1)数据清洗与属性变换。 本文的思路是把每个独立的属性“打碎”,即分解得 首先删除有效值较少的属性或记录,以及非法的 到细粒度的“属性片段”,以提高关联规则的f6ne精 记录。其次,在电信客户流失的应用背景下,需要研 度[),再基于属性片段采用合适的关联规则挖掘算 究能够反映客户消费承受能力、消费习惯和消费行为 法,最后得到的关联规则要易于对海量数据实施并 的属性相关性,同时用文献[10]的经验做支撑,为了 行计算提高效率,从而可以更好地及时定位影响客 能够准确地覆盖影响客户流失的因素,构建了月消费 户流失的关键因素,或发现一些隐藏的关键规律,使 比率,(上一个月与本月的消费比值)、年度本地通话 其能在电信客户流失预测中具有更大的应用空间。 费用(year_local_fee)、未消费月份数(non_fee)3个属 1 电信数据挖掘分析与改进 性。在实验中选用了t(2008年12月的消费额/2009 年1月的消费额)、,2(2009年1月的消费额/2009年 为了得到属性内在相关规律及方便实现并行运 2月的消费额),fe(2009年2月的消费额)、year_lo- 算,采用了基于逻辑的细精度关联规则挖掘方法。首 cal_fee等5个属性作为特征属性。 先提出了与领域相关的属性分解方法,即对属性值域 2)数据二进制编码。 进行合适的分类以得到“属性片段”,再对每个分类进 考虑到属性值域分类的语义差别,及其与客户 行二进制编码。而这样变化后的数据并不适合采用 流失问题的相关性差别,采用了与领域相关的二进 决策树和聚类等传统方法进行处理,于是我们结合了 制编码方法将属性“掰碎”,即根据记录的取值相关 E.Triantaphyllou提出的基于逻辑的OCAT方 性进行分类。经过分析,发现实验用到的电信用户 法[]-“进行关联规则挖掘。这种方法的核心是通过 数据集具有典型的密度特性,因此采用了基于密度

掘[2] ,因为其能够比较直观地得出各因素之间的关 系,而且操作过程简单,结果的可解释性强[3] 。 但 是,现有的关联规则挖掘方法均无法进一步发现隐 藏在属性内部的相关规律,并且在面向海量数据挖 掘时效率很低。 目前用于电信客户流失预测的方法主要可分为 3 类[4] :第 1 类方法以传统的统计学理论为基础,主 要包括聚类、贝叶斯分类器、决策树和逻辑回归等。 如 Kim 等[5]曾采用逻辑回归方法对韩国部分移动 客户进行了流失预测分析,探讨了韩国移动电信市 场相关因素在客户流失和忠诚度之间的关系,为保 持客户的忠诚度提供了帮助。 第 2 类方法以人工智 能理论为基础,主要包括人工神经网络和进化学习 等。 如 Mozer 等[6]曾采用人工神经网络方法结合数 据抽样等方法建立了客户流失预测模型,并为某电 信公司进行了客户流失预测,通过与决策树等方法 对比,发现采用该方法产生的关联规则预测效果更 好,准确率更高。 第 3 类方法以统计学习理论为基 础,其典型代表为支持向量机方法。 如邝涛等[7] 采 用基于代价敏感学习的支持向量机模型对某电信公 司的客户数据进行挖掘,并通过与神经网络等方法 对比,发现该方法能获得较高的预测精度和覆盖率, 并能在某种程度上解决了数据集非平衡性等问题。 尽管以上 3 类方法被大量使用,但它们都忽略 了属性内在结构之间的细粒度的相关规律,即存在 关联规则不够精细的问题;并且在用于海量数据分 析时计算量大、效率低,难以及时反映客户的流失倾 向,因此不能完全满足当前电信应用的需求。 因此, 本文的思路是把每个独立的属性“打碎”,即分解得 到细粒度的“属性片段”,以提高关联规则的 fine 精 度[8] ,再基于属性片段采用合适的关联规则挖掘算 法,最后得到的关联规则要易于对海量数据实施并 行计算提高效率,从而可以更好地及时定位影响客 户流失的关键因素,或发现一些隐藏的关键规律,使 其能在电信客户流失预测中具有更大的应用空间。 1 电信数据挖掘分析与改进 为了得到属性内在相关规律及方便实现并行运 算,采用了基于逻辑的细精度关联规则挖掘方法。 首 先提出了与领域相关的属性分解方法,即对属性值域 进行合适的分类以得到“属性片段”,再对每个分类进 行二进制编码。 而这样变化后的数据并不适合采用 决策树和聚类等传统方法进行处理,于是我们结合了 E. Triantaphyllou 提 出 的 基 于 逻 辑 的 OCAT 方 法[9] 35-45进行关联规则挖掘。 这种方法的核心是通过 某种基于逻辑的方法寻找一系列子式,再由这些子式 合取得到关联规则表达式,该表达式由二进制化后的 “属性片段”构成,不仅能直观地展现属性的内部结构 和内涵,而且这种由合取范式表示的关联规则特别适 合采用并行计算进行海量数据分析,从而提高运算效 率。 图 1 展示了该方法的具体步骤:数据预处理(数 据清洗、数据二进制编码和正负样本构造)、关联规则 的挖掘、结果检验以及评估反馈。 图 1 细精度关联规则挖掘流程 Fig. 1 Process of fine⁃grained association rule mining 1.1 数据预处理 文中数据集为某电信运营商某地区数据仓库中 的客户原始历史数据,总共有 176 921 条记录,其中正 常客户记录为 156 885 条,流失客户记录 20 036 条。 1)数据清洗与属性变换。 首先删除有效值较少的属性或记录,以及非法的 记录。 其次,在电信客户流失的应用背景下,需要研 究能够反映客户消费承受能力、消费习惯和消费行为 的属性相关性,同时用文献[10]的经验做支撑,为了 能够准确地覆盖影响客户流失的因素,构建了月消费 比率 ri(上一个月与本月的消费比值)、年度本地通话 费用(year_local_fee)、未消费月份数(non_fee)3 个属 性。 在实验中选用了 r1(2008 年 12 月的消费额/ 2009 年 1 月的消费额)、r2(2009 年 1 月的消费额/ 2009 年 2 月的消费额)、f e 0902(2009 年 2 月的消费额)、year_lo⁃ cal_fee 等 5 个属性作为特征属性。 2)数据二进制编码。 考虑到属性值域分类的语义差别,及其与客户 流失问题的相关性差别,采用了与领域相关的二进 制编码方法将属性“掰碎”,即根据记录的取值相关 性进行分类。 经过分析,发现实验用到的电信用户 数据集具有典型的密度特性,因此采用了基于密度 ·408· 智 能 系 统 学 报 第 10 卷

第3期 梁路,等:基于细精度关联规则挖掘的电信客户流失分析 ·409 的可以快速发现任意形状类的DBSCAN分类算 训练集数据的正负样本(用E*和E来分别表示正 法[四完成从“属性”到“属性片段”的分解。另外, 样本和负样本),剩余的数据用作检验集。最后,通 此数据集不同属性值域区间的差异较大,这可能会 过前后10次进行随机抽取得到正负样本,并分别计 影响分类的效果,因此还需要对这些属性进行常用 算结果,进一步验证数据挖掘结果的稳定性、可信性 的归一化处理。具体的步骤是:首先使用mapmin- 和鲁棒性。在构造E和E时,采用了如表3所示 max(x,min,max)函数将值域归一到区间[0,1],其 的属性排列顺序及其编码对应关系。 次以每个属性数据结合函数ones(n,1)产生的数据 表3属性与二进制编码对应关系 作为输入x(其中n为样本的个数),通过经验以及 Table 3 Binary encoding of all attributes and its representation 多次实验确定较优的参数。结果集中可能会存在孤 属性 二进制编码 立点,较优的参数能够减少孤立点的个数,并且产生 较为合理的分类。在实际应用中,孤立点的数量往 non_fee A2 往远小于正常数据)],因此其影响比较小,故本文 A 就近将孤立点分配至临近的区间(相应的孤立点处 year_local fee A. 理方法作为后续工作)。经过DBSCAN运算后,便 A 得到了属性分类,即“属性片段”,这些分类结果直 Ao 接反映了其属性值自然特有的内在规律,由事物本 A 身决定,不受人为控制,因此对后续进一步分析隐藏 As 在它们之间的相关性有重要的指导作用。最后,再 Ag 根据分类的个数,使用若干二进制位对属性片段进 A10 行二进制编码。以属性year_local_fee为例,其被划 Au 分为7个区间,包含65个孤立点,将这些孤立点按 AR 照就近原则并入7个区间内,故以3位二进制位来 foo2 An 表示,如表1所示。实验中各属性的分类数如表2 Au 所示。 1.2OCAT关联规则挖掘 表1属性year_local_fee的二进制编码对应关系 经过数据预处理得到的二进制数据不能采用决 Table 1 Classification of year local fee and its binary encoding 策树和聚类等传统方法处理,同时为了让关联规则 区间 12 3 4 5 6 > 易于实施并行计算,实验中采用了OCAT方法,该方 编码000 001010 011100101110 法每次产生一条最优子式(接受全部正样本,拒绝 尽可能多的负样本),最终将子式通过合取操作得 表2所有属性的分类数 到关联规则。但是,OCAT产生单个子式的过程中 Table 2 Classification quantity of all attributes 剪枝的数量较少,导致收敛速度缓慢,并且需要存储 属性 分类数 大量的叶子结点的限界,导致运算时耗费了极大的 non_fee 3 时间和空间。因此,实验中最终引入了启发式规 year local fee 7 则]0进行快速剪枝,将时间复杂度从指数级别 1 1 降到多项式级别,这将非常适合数据量庞大的电信 T2 5 数据挖掘。 fo 启发式方法中根据POS(a)/NEG(a:)的比值 逆序排列属性(片段)a:(a.为A:或4:)形成有序集 3)正负样本的构造。 合A,挑选A中前α(%)(阈值)的元素生成待选集 首先,根据数据集中chum标志位(标志客户流 合L。关联规则的构造过程即不断地从待选集合L 失信息的属性)的值,将整个数据集的用户划分为 中随机选出属性(片段)a加入子式的过程,该过程 已经流失的客户(chum值为0)和未流失的客户 持续到关联规则完成或集合L为空。若α值过小, (chum值为1)2类。其次,为了得到关联规则挖掘 则关联规则不完整,导致预测结果准确度下降:反 中需要的训练集和检验集,实验分别随机抽取未流 之,若α值过大,则对客户流失影响很小的属性(片 失客户和已流失客户中四分之三的数据[]来构造 段)可能会包含在关联规则中,从而导致关联规则

的可以快速发现任意形状类的 DBSCAN 分类算 法[11]完成从“属性”到“属性片段” 的分解。 另外, 此数据集不同属性值域区间的差异较大,这可能会 影响分类的效果,因此还需要对这些属性进行常用 的归一化处理。 具体的步骤是:首先使用 mapmin⁃ max(x,min,max)函数将值域归一到区间[0,1],其 次以每个属性数据结合函数 ones(n,1)产生的数据 作为输入 x(其中 n 为样本的个数),通过经验以及 多次实验确定较优的参数。 结果集中可能会存在孤 立点,较优的参数能够减少孤立点的个数,并且产生 较为合理的分类。 在实际应用中,孤立点的数量往 往远小于正常数据[12] ,因此其影响比较小,故本文 就近将孤立点分配至临近的区间(相应的孤立点处 理方法作为后续工作)。 经过 DBSCAN 运算后,便 得到了属性分类,即“属性片段”,这些分类结果直 接反映了其属性值自然特有的内在规律,由事物本 身决定,不受人为控制,因此对后续进一步分析隐藏 在它们之间的相关性有重要的指导作用。 最后,再 根据分类的个数,使用若干二进制位对属性片段进 行二进制编码。 以属性 year_local_fee 为例,其被划 分为 7 个区间,包含 65 个孤立点,将这些孤立点按 照就近原则并入 7 个区间内,故以 3 位二进制位来 表示,如表 1 所示。 实验中各属性的分类数如表 2 所示。 表 1 属性 year_local_fee 的二进制编码对应关系 Table 1 Classification of year_local_fee and its binary encoding 区间 1 2 3 4 5 6 7 编码 000 001 010 011 100 101 110 表 2 所有属性的分类数 Table 2 Classification quantity of all attributes 属性 分类数 non_fee 3 year_local_fee 7 r1 7 r2 5 f e 0902 8 3)正负样本的构造。 首先,根据数据集中 churn 标志位(标志客户流 失信息的属性) 的值,将整个数据集的用户划分为 已经流失的客户( churn 值为 0) 和未流失的客户 (churn 值为 1)2 类。 其次,为了得到关联规则挖掘 中需要的训练集和检验集,实验分别随机抽取未流 失客户和已流失客户中四分之三的数据[13] 来构造 训练集数据的正负样本(用 E + 和 E - 来分别表示正 样本和负样本),剩余的数据用作检验集。 最后,通 过前后 10 次进行随机抽取得到正负样本,并分别计 算结果,进一步验证数据挖掘结果的稳定性、可信性 和鲁棒性。 在构造 E + 和 E - 时,采用了如表 3 所示 的属性排列顺序及其编码对应关系。 表 3 属性与二进制编码对应关系 Table 3 Binary encoding of all attributes and its representation 属性 二进制编码 non_fee A1 A2 year_local_fee A3 A4 A5 r1 A6 A7 A8 r2 A9 A10 A11 f e 0902 A12 A13 A14 1.2 OCAT 关联规则挖掘 经过数据预处理得到的二进制数据不能采用决 策树和聚类等传统方法处理,同时为了让关联规则 易于实施并行计算,实验中采用了 OCAT 方法,该方 法每次产生一条最优子式(接受全部正样本,拒绝 尽可能多的负样本),最终将子式通过合取操作得 到关联规则。 但是,OCAT 产生单个子式的过程中 剪枝的数量较少,导致收敛速度缓慢,并且需要存储 大量的叶子结点的限界,导致运算时耗费了极大的 时间和空间。 因此,实验中最终引入了启发式规 则[9] 73-80进行快速剪枝,将时间复杂度从指数级别 降到多项式级别,这将非常适合数据量庞大的电信 数据挖掘。 启发式方法中根据 POS( ak) / NEG( ak)的比值 逆序排列属性(片段)ak(ak为 Ai或ØAi)形成有序集 合 A,挑选 A 中前 α(%) (阈值)的元素生成待选集 合 L。 关联规则的构造过程即不断地从待选集合 L 中随机选出属性(片段) ak加入子式的过程,该过程 持续到关联规则完成或集合 L 为空。 若 α 值过小, 则关联规则不完整,导致预测结果准确度下降;反 之,若 α 值过大,则对客户流失影响很小的属性(片 段)可能会包含在关联规则中,从而导致关联规则 第 3 期 梁路,等:基于细精度关联规则挖掘的电信客户流失分析 ·409·

·410 智能系统学报 第10卷 的子句过长、数量过多,以及属性间的相关性不够 耗的对比实验。通过多次实验,选取的负样本基数 强。由于二进制编码方法和关联规则挖掘过程的随 为50,这种大小的样本空间可以让OCAT方法的耗 机性都会影响所生成的关联规则的准确性,故需要 时不会太大,又能明显比较出2种方法在相同数据 在实验过程中进行多级反馈和修正。基于启发式的 集上的时间耗费差异。在改变正样本的基数时,分 OCAT算法流程如下。 别使用上述2种方法的运算时间对比如图2(a)所 输入:正负样本E和E。 /E、E分别是 示。同理,将正样本基数固定为10,负样本基数从 未流失和已流失客户数据集。 50开始,每次增加10条负样本记录,一直到100 输出:程序执行多次所得最优的关联规则C,其 条,此时得到的运算时间对比如图2(b)所示。此 规范形式为式(1)所示,其中析取子式由属性片段 外,在300条正样本与100条负样本情况下,对二者 析取得到,并能保证子式的数量n最少,且子式中属 的内存占用情况进行对比,其中图2(c)为未运行程 性片段的数量也是最少。 序时的内存占用,图2(d)与图2(e)分别为使用 C=(析取子式1)八析取子式2∧.个 OCAT方法与加入启发式方法后的内存占用情况。 析取子式n八… (1) 一未加入启发式 初始化E、E和C=☑ 。一加入启发式 Do While(E≠⑦) 2 重置集合A,C,=☑;/A为二进制编码 属性片段a的集合,a4为A,或-4: 1 Do While(E*≠☑) 画 1)根据POS(a)/NEG(a,)的比值逆序排 列A中的元素a4(如果NEG(a4)为零, 则将POS(a)作为它的值): 2)选择有序集A中前α(%)的元素生成 10 11 12131415 16 待选集合L; 正样本数 3)从L中随机选择属性a加入到C:中: (a)正样本数-时间关系 4)E←-E*-E(a);/E(a)为包含 a时C,所能接受的E的中的元素集合 5)A←-A-a4: /将a从集合A中别除 ·一未加入启发式 6)对所有a4∈A重新计算P0S(a)的值: 一加入启发式 Repeat 7)C-C∧C: //将子式C合取到关联 0 规则C中 8)E←-E-E(C); /E-(C)为C 目前所能拒绝的E中的元素集合 9)重置E*: 50 70 90 110 负样本数 Repeat (b)负样本数-时间的关系 2细精度关联规则挖掘 goen 内存 4.0 GB DDR2 有程地用道 110t 为了验证上述方法在预测客户流失过程中的可 航a 行性及有效性,我们设计并实现了各个过程。实验 袋occ白 环境为1)CPU/内存/硬盘:AMD Athlon(m)Ⅱ 以太同 X2215/DDR24GB/320GB7200转/min:2)平台/ 湘中 430Me 环境/语言Windows8.164bit操作系统、Microsoft 1.0 GB 27 GB Visual Studio2013/C、C#。 1.1/4.6GB1.8G6 度生有 为了验证加入启发式规则后算法的收敛效果, 245MB77.6MB 在相同正负样本和相同环境下进行了时间与空间消 (c)电脑空闲时的内存

的子句过长、数量过多,以及属性间的相关性不够 强。 由于二进制编码方法和关联规则挖掘过程的随 机性都会影响所生成的关联规则的准确性,故需要 在实验过程中进行多级反馈和修正。 基于启发式的 OCAT 算法流程如下。 输入:正负样本 E +和 E - 。 / / E + 、E -分别是 未流失和已流失客户数据集。 输出:程序执行多次所得最优的关联规则 C,其 规范形式为式(1)所示,其中析取子式由属性片段 析取得到,并能保证子式的数量 n 最少,且子式中属 性片段的数量也是最少。 C = (析取子式 1) ∧ 析取子式 2 ∧... ∧ 析取子式 n ∧ … (1) 初始化 E + 、E -和 C = ∅ Do While (E -≠ ∅ ) 重置集合 A,Ci = ∅ ; / / A 为二进制编码 属性片段 ak的集合,ak为 Ai或ØAi Do While (E +≠ ∅ ) 1)根据 POS(ak) / NEG(ak)的比值逆序排 列 A 中的元素 ak(如果 NEG(ak)为零, 则将 POS(ak)作为它的值); 2)选择有序集 A 中前α (%)的元素生成 待选集合 L; 3)从 L 中随机选择属性 ak加入到 Ci中; 4)E +←E + -E + (ak); / / E + (ak)为包含 ak时 Ci所能接受的 E +的中的元素集合 5)A←A-ak; / / 将 ak从集合 A 中剔除 6)对所有 ak∈A 重新计算 POS(ak)的值; Repeat 7)C←Ci∧C; / / 将子式 Ci合取到关联 规则 C 中 8)E -←E - -E - (C); / / E- (C)为 C 目前所能拒绝的 E -中的元素集合 9)重置 E + ; Repeat 2 细精度关联规则挖掘 为了验证上述方法在预测客户流失过程中的可 行性及有效性,我们设计并实现了各个过程。 实验 环境 为 1) CPU/ 内 存/ 硬 盘: AMD Athlon ( tm) Ⅱ X2215 / DDR2 4 GB / 320 GB 7 200 转/ min;2)平台/ 环境/ 语言 Windows 8. 1 64 bit 操作系统、Microsoft Visual Studio 2013 / C、C#。 为了验证加入启发式规则后算法的收敛效果, 在相同正负样本和相同环境下进行了时间与空间消 耗的对比实验。 通过多次实验,选取的负样本基数 为 50,这种大小的样本空间可以让 OCAT 方法的耗 时不会太大,又能明显比较出 2 种方法在相同数据 集上的时间耗费差异。 在改变正样本的基数时,分 别使用上述 2 种方法的运算时间对比如图 2(a)所 示。 同理,将正样本基数固定为 10,负样本基数从 50 开始,每次增加 10 条负样本记录,一直到 100 条,此时得到的运算时间对比如图 2( b) 所示。 此 外,在 300 条正样本与 100 条负样本情况下,对二者 的内存占用情况进行对比,其中图 2(c)为未运行程 序时的内存占用,图 2 ( d) 与图 2 ( e) 分别为使用 OCAT 方法与加入启发式方法后的内存占用情况。 (a)正样本数-时间关系 (b)负样本数-时间的关系 (c)电脑空闲时的内存 ·410· 智 能 系 统 学 报 第 10 卷

第3期 梁路,等:基于细精度关联规则挖掘的电信客户流失分析 ·411 CPU 内存 所有负样本。这一结果具有如下特点: 4.0 GB DDR2 176 1)反映了一些新的规律。以子式(-4VA3VAV 内存 2a/3.7GB70% A,V-A,VA2)为例,对照表1分析得出属性non_fee 蓝盘0C:D:E 0 与其他属性Year_local_fee、I1r2fm的“内在片段”的 以太网 内存延件 相关性,即“属性+片段->片段”或“片段+片段->属 覆法0接0kbp5 性”,而传统的关联规则只能发现属性与属性的相关 地用中 时用 逐 00M 性,即“属性+属性->属性”。 2.8GB975MB 日快阿的得 214 日皮要泰: DIMM 已交 已第存 2)运算效率高。以子式(A1VA,VA,VA6V 方件的内257M 3.2/4.6GB1022MB A,VA2)为例,其仅有6个原子项,因此运行较快。 非顶度到出 236MB77.4MB 而由于上述关联规则为合取范式,以“∧”为连接词构 (d)未加入启发式时内存 成,因此用这种形式的规则检验海量数据时可采用高 CPU 内存 度并行计算的方法,进一步了减少时间开销。 4.0 GB DDR2 内存用量 3768 3)剖析了属性内部结构与内涵。以子式(4,V 内存 13/3.7G635%则 A3VAVA.VA,VA2)为例,其等价于(A1∧A3A 磁盘0C:D:E到 AA46AAg)→A12,体现的已非属性之间的关联, 0 内骨 而是属性片段与片段的相关性,即片段A,的取值取 决于片段A143A,4,和A,。这一结果有利于公司决 策者制定更为精准的市场策略。 使同中 可用 速: 400MH 1.3GB2.4GB 已决用的播 214 阻成要来 DIMM 4)提高了fine精度。10次实验所得到的关联规 已存 1.5/4.9GB1.7GB 为年道的内257M 则分别对应10条主合取范式,这些主合取范式可以 面离中花非物四国中地 245MB84.9MB 使用矩阵形式表示,式(2)的主合取范式如表4所示。 (e)加入启发式后内存 其余9条主合取范式与表4所示的主合取范式的相 1.0 似度在86.4%~90.2%,体现了结果的稳定性、可信性 0.9 和鲁棒性,说明了提升fine精度的合理性。 0.8 0.7 表4主合取范式形式 0.6 0.5 Table 4 Principal conjunctive normal form 00.10.20.30.40.50.60.70.80.91.0 编码 SubF1 SubF2 SubF3 SubF4 a值 ()α值-准确度的关系 A 0 △ △ 1 图2实验结果 A2 △ △ 1 △ Fig.2 Experiment results Ax 1 △ △ A △ △ △ 从图2(a)~(e)可以看出,加入启发式规则之 As 1 0 △ 0 1 △ 0 △ 后的方法比OCAT方法所消耗的时间与空间都大大 Ao A △ △ 1 △ 减少,图2(f)描述了不同的阈值α值对预测准确度 As △ 1 △ 的影响,体现了其重要性。最后,10次实验所得的 Ag 0 1 △ △ 关联规则之一如式(2)所示。 A1o △ △ 0 0 C=(A:V A3 V As V A VA,V A2)A...n A △ 0 △ △ (A VAs V As VAg VA V-A3 V A4)A AR △ 1 △ (A2 VA3 VAs V A7 VA0 V A VA)A An △ 0 △ (A VAs VA0 V A3) (2) A △ 1 0 该表达式为关联规则的布尔表达式,它由4条 注:符号“△”表示取0和1均可,SubF1有256条,SubF2有 析取范式的子式经过合取操作得到,其中每条子式 128条,SubF3有128条,SubF4有1024条 均能接受所有的正样本而拒绝若干负样本,所有子 5)得到了更直观、清晰的语义解释。以子式 式合取而成的关联规则能接受所有正样本并且拒绝 (A,VMsV4oVA13)为例,若某一客户数据使该

(d)未加入启发式时内存 (e)加入启发式后内存 (f)α 值-准确度的关系 图 2 实验结果 Fig. 2 Experiment results 从图 2(a) ~ ( e)可以看出,加入启发式规则之 后的方法比 OCAT 方法所消耗的时间与空间都大大 减少,图 2(f)描述了不同的阈值 α 值对预测准确度 的影响,体现了其重要性。 最后,10 次实验所得的 关联规则之一如式(2)所示。 C = (ØA1 ∨ A3 ∨ A5 ∨ A6 ∨ ØA9 ∨ A12 ) ∧ … ∧ (A4 ∨ ØA5 ∨ A8 ∨ A9 ∨ ØA11 ∨ ØA13 ∨ A14 ) ∧ (A2 ∨ ØA3 ∨ ØA6 ∨ A7 ∨ ØA10 ∨ A12 ∨ ØA14 ) ∧ (A1 ∨ ØA5 ∨ ØA10 ∨ A13 ) (2) 该表达式为关联规则的布尔表达式,它由 4 条 析取范式的子式经过合取操作得到,其中每条子式 均能接受所有的正样本而拒绝若干负样本,所有子 式合取而成的关联规则能接受所有正样本并且拒绝 所有负样本。 这一结果具有如下特点: 1)反映了一些新的规律。 以子式(ØA1∨A3∨A5∨ A6∨ØA9∨A12 )为例,对照表 1 分析得出属性 non_fee 与其他属性 Year_local_fee、r1、r2、f e 0902的“内在片段”的 相关性,即“属性+片段->片段”或“片段+片段->属 性”,而传统的关联规则只能发现属性与属性的相关 性,即“属性+属性->属性”。 2)运算效率高。 以子式( ØA1∨A3∨A5∨A6∨ ØA9∨A12 )为例,其仅有 6 个原子项,因此运行较快。 而由于上述关联规则为合取范式,以“∧”为连接词构 成,因此用这种形式的规则检验海量数据时可采用高 度并行计算的方法,进一步了减少时间开销。 3)剖析了属性内部结构与内涵。 以子式(ØA1∨ A3∨A5∨A6∨ØA9∨A12 )为例,其等价于(A1∧ØA3∧ ØA5∧ØA6∧A9 ) ÞA12 ,体现的已非属性之间的关联, 而是属性片段与片段的相关性,即片段 A12的取值取 决于片段 A1 、A3 、A5 、A6和 A9 。 这一结果有利于公司决 策者制定更为精准的市场策略。 4)提高了 fine 精度。 10 次实验所得到的关联规 则分别对应 10 条主合取范式,这些主合取范式可以 使用矩阵形式表示,式(2)的主合取范式如表 4 所示。 其余 9 条主合取范式与表 4 所示的主合取范式的相 似度在 86.4% ~90.2%,体现了结果的稳定性、可信性 和鲁棒性,说明了提升 fine 精度的合理性。 表 4 主合取范式形式 Table 4 Principal conjunctive normal form 编码 SubF1 SubF2 SubF3 SubF4 A1 0 △ △ 1 A2 △ △ 1 △ A3 1 △ 0 △ A4 △ 1 △ △ A5 1 0 △ 0 A6 1 △ 0 △ A7 △ △ 1 △ A8 △ 1 △ △ A9 0 1 △ △ A10 △ △ 0 0 A11 △ 0 △ △ A12 1 △ 1 △ A13 △ 0 △ 1 A14 △ 1 0 △ 注:符号“△”表示取 0 和 1 均可,SubF1 有 256 条,SubF2 有 128 条,SubF3 有 128 条,SubF4 有 1 024 条 5)得到了更直观、清晰的语义解释。 以子式 (A1∨ØA5∨ØA10∨A13 )为例,若某一客户数据使该 第 3 期 梁路,等:基于细精度关联规则挖掘的电信客户流失分析 ·411·

.412 智能系统学报 第10卷 子式结果为0(A1、4、A0、A,取值均为0),则 的时候,得到的关联规则的准确率不够高,但在数据 可以预测该用户为流失客户。根据A1、4,、40、 样本足够大的情况下,关联规则预测准确率会比较 A:的取值映射到表3,可以得出在non_fee的3区 理想。在今后的工作中,将努力完善本方法的各个 间、year_local_fee的2,4,6区间、r2的3,4区间与 环节,同时找到适用本方法的数据集特征,以应用到 f2的1,3,5,7区间共同影响客户流失,根据区间与 更合适的实际问题中。 属性值对应的关系可知,客户数据符合表5取值的 均为流失客户。 参考文献: 表5流失客户的数据特征 [I]朱扬勇,熊赟.DNA序列数据挖掘技术[J].软件学报, Table 5 Data characteristics of losing customers 2007,18(11):2766-2781. 属性 取值范围 ZHU Yangyong,XIONG Yun.DNA sequence data mining technique[J].Journal of Software,2007,18(11):2766- non_fee 6-12 2781. 30-50 [2]贺炜,潘泉,陈玉春,等.关联规则挖掘与因果关系发 year_local_fee 70-88 现的比较研究[J].模式识别与人工智能,2005,18(3): 92-133 328-333. 0.320-0.416 HE Wei,PAN Quan,CHEN Yuchun,et al.A Comparison 0-20 25-29 between association rule data mining and causal discovery 2 [J].Pattern Recognition and Artificial Intelligence,2005, 34-50 18(3):328-333. 48-68 [3]毛宇星,陈彤兵,施伯乐.一种高效的多层和概化关联 Joo 6-12 规则挖掘方法[J].软件学报,2011,22(12):2965- 2980. 3结束语 MAO Yuxing,CHEN Tongbing,SHI Bole.Efficient method 针对决策树等常规关联规则方法在电信客户流 for mining multiple-level and generalized association rules 失预测中遇到的属性相关性不够精细,处理大规模 [J].Journal of Software,2011,22(12):2965-2980. 数据运算效率低的问题,本文采用了基于逻辑的细 [4]夏国恩.客户流失预测的现状与发展研究[J].计算机应 精度关联规则方法。该方法从逻辑学角度,通过与 用研究,2010,27(2):413-416. 领域相关的二进制化技术对属性进行分解,并用得 XIA Guoen.Research on current situation and development 到的二进制数据构造训练集的正负样本,再使用 of customer churn prediction[J].Application Research of OCAT方法对正负样本进行挖掘得出关联规则。然 Computers,.2010,27(2):413-416. [5]KIM H S,YOON C H.Determinants of subscriber churn 而,实验过程中耗费了极大的时间与空间,这表明直 and customer loyalty in the Korean mobile telephony market 接用该方法进行海量电信数据的挖掘是不理想的。 [J].Telecommunications Policy,2004,28(9/10):751- 因此引入了启发式规则对其进行改进,将时间复杂 765. 度从指数级别降低到多项式级别。最后通过实验结 [6]MOZER M C,WOLNIEWICZ R,GRIMES D B,et al.Pre- 果分析,验证了该方法能进一步体现属性的内在结 dicting subscriber dissatisfaction and improving retention in 构、内涵及隐藏的细粒度的相关规律,提高了关联规 the wireless telecommunications industry[J].IEEE Transac- 则的fine精度,并且这种由合取范式表示的关联规 tions on Neural Networks,2000,11(3):690-696. 则特别适合实施并行计算,有利于大规模电信数据 [7]邝涛,张倩.改进支持向量机在电信客户流失预测的应 的处理,因此该方法是满足目前电信行业需求的一 用J].计算机仿真.2011,28(7):329-332. 种较理想的数据挖掘方法。 KUANG Tao,ZHANG Qian.Application of telecom custom- er churn prediction based on improved support vector ma- 尽管上述方法取得了不错的效果,但是对于不 chine[J].Computer Simulation,2011,28(7):329-332. 同数据集在具体应用时还存在一些困难,如如何更 [8]FOX C,LAPPIN S.Foundations of intensional semantics 好地结合领域知识和数学方法对属性进行分解及二 M].New York:Wiley-Blackwell,2008:78-82. 进制编码进而构造正负样本,如何寻找更好的启发 [9]TRIANTAPHYLLOU E.Data mining and knowledge discov- 式规则提高运算性能等。另外,当数据样本比较小 ery via logic-based methods:theory,algorithms,and appli-

子式结果为 0(ØA1 、ØA5 、ØA10 、A13取值均为 0),则 可以预测该用户为流失客户。 根据 A1 、ØA5 、ØA10 、 A13的取值映射到表 3,可以得出在 non_fee 的 3 区 间、year_local_fee 的 2,4,6 区间、r2 的 3,4 区间与 f e 0902的 1,3,5,7 区间共同影响客户流失,根据区间与 属性值对应的关系可知,客户数据符合表 5 取值的 均为流失客户。 表 5 流失客户的数据特征 Table 5 Data characteristics of losing customers 属性 取值范围 non_fee 6~ 12 year_local_fee 30~ 50 70~ 88 92~ 133 r1 0.320~ 0.416 r2 0~ 20 25~ 29 34~ 50 48~ 68 f e 0902 6~ 12 3 结束语 针对决策树等常规关联规则方法在电信客户流 失预测中遇到的属性相关性不够精细,处理大规模 数据运算效率低的问题,本文采用了基于逻辑的细 精度关联规则方法。 该方法从逻辑学角度,通过与 领域相关的二进制化技术对属性进行分解,并用得 到的二进制数据构造训练集的正负样本,再使用 OCAT 方法对正负样本进行挖掘得出关联规则。 然 而,实验过程中耗费了极大的时间与空间,这表明直 接用该方法进行海量电信数据的挖掘是不理想的。 因此引入了启发式规则对其进行改进,将时间复杂 度从指数级别降低到多项式级别。 最后通过实验结 果分析,验证了该方法能进一步体现属性的内在结 构、内涵及隐藏的细粒度的相关规律,提高了关联规 则的 fine 精度,并且这种由合取范式表示的关联规 则特别适合实施并行计算,有利于大规模电信数据 的处理,因此该方法是满足目前电信行业需求的一 种较理想的数据挖掘方法。 尽管上述方法取得了不错的效果,但是对于不 同数据集在具体应用时还存在一些困难,如如何更 好地结合领域知识和数学方法对属性进行分解及二 进制编码进而构造正负样本,如何寻找更好的启发 式规则提高运算性能等。 另外,当数据样本比较小 的时候,得到的关联规则的准确率不够高,但在数据 样本足够大的情况下,关联规则预测准确率会比较 理想。 在今后的工作中,将努力完善本方法的各个 环节,同时找到适用本方法的数据集特征,以应用到 更合适的实际问题中。 参考文献: [1]朱扬勇, 熊赟. DNA 序列数据挖掘技术[ J]. 软件学报, 2007, 18(11): 2766⁃2781. ZHU Yangyong, XIONG Yun. DNA sequence data mining technique[J]. Journal of Software, 2007, 18( 11): 2766⁃ 2781. [2]贺炜, 潘泉, 陈玉春, 等. 关联规则挖掘与因果关系发 现的比较研究[J]. 模式识别与人工智能, 2005, 18(3): 328⁃333. HE Wei, PAN Quan, CHEN Yuchun, et al. A Comparison between association rule data mining and causal discovery [J]. Pattern Recognition and Artificial Intelligence, 2005, 18(3): 328⁃333. [3]毛宇星, 陈彤兵, 施伯乐. 一种高效的多层和概化关联 规则挖掘方法[ J]. 软件学报, 2011, 22 ( 12): 2965⁃ 2980. MAO Yuxing, CHEN Tongbing, SHI Bole. Efficient method for mining multiple⁃level and generalized association rules [J]. Journal of Software, 2011, 22(12): 2965⁃2980. [4]夏国恩. 客户流失预测的现状与发展研究[J]. 计算机应 用研究, 2010, 27(2): 413⁃416. XIA Guoen. Research on current situation and development of customer churn prediction [ J]. Application Research of Computers, 2010, 27(2): 413⁃416. [5] KIM H S, YOON C H. Determinants of subscriber churn and customer loyalty in the Korean mobile telephony market [J]. Telecommunications Policy, 2004, 28( 9 / 10): 751⁃ 765. [6]MOZER M C, WOLNIEWICZ R, GRIMES D B, et al. Pre⁃ dicting subscriber dissatisfaction and improving retention in the wireless telecommunications industry[J]. IEEE Transac⁃ tions on Neural Networks, 2000, 11(3): 690⁃696. [7]邝涛, 张倩. 改进支持向量机在电信客户流失预测的应 用[J]. 计算机仿真, 2011, 28(7): 329⁃332. KUANG Tao, ZHANG Qian. Application of telecom custom⁃ er churn prediction based on improved support vector ma⁃ chine[J]. Computer Simulation, 2011, 28(7): 329⁃332. [8] FOX C, LAPPIN S. Foundations of intensional semantics [M]. New York: Wiley⁃Blackwell, 2008: 78⁃82. [9]TRIANTAPHYLLOU E. Data mining and knowledge discov⁃ ery via logic⁃based methods: theory, algorithms, and appli⁃ ·412· 智 能 系 统 学 报 第 10 卷

第3期 梁路,等:基于细精度关联规则挖掘的电信客户流失分析 ·413. cations[M].New York:Springer,2010. 作者简介: [10]蒋盛益,李霞,郑琪.数据挖掘原理与实践[M].北京: 梁路,女,1980年生,副教授、博士, 电子工业出版社,2013:211-212. 中国计算机学会协同计算专业委员会 [11]王鑫,王洪国,王珺,等.数据挖掘中聚类方法比较研 委员。主要研究方向为协同计算、云计 究[J].计算机技术与发展,2006,16(10):20-22. 算和数据挖掘。主持和参与国家级、省 WANG Xin,WANG Hongguo,WANG Jun,et al.Com- 级自然科学基金及科技计划项目,以及 parison of clustering methods in data mining[]Computer 校企合作产学研项目多项。2011年获 Technology and Development,2006,16(10):20-22. 广东省科学技术二等奖。发表学术论文30余篇。 [12]张净,孙志挥,杨明,等.基于网格和密度的海量数据 王彪,男,1989年生,硕士研究生, 增量式离群点挖掘算法[J].计算机研究与发展,2011, 主要研究方向为数据挖掘及协同计算。 48(5):823-830. ZHANG Jing,SUN Zhihui,YANG Ming,et al.Fast incre- mental outlier mining algorithm based on grid and capacity [J].Journal of Computer Research and Development, 2011,48(5):823-830. [13]胡文瑜,孙志挥,吴英杰.数据挖掘取样方法研究[J] 王剑辉,男,1990年生,硕士研究 计算机研究与发展,2011,48(1):45-54. 生,主要研究方向为数据挖掘。 HU Wenyu,SUN Zhihui,WU Yingjie.Study of sampling methods on data mining and stream mining[J.Journal of Computer Research and Development,2011,48(1):45- 54. 2015中国自动化大会 2015 Chinese Automation Congress 2015年11月27一29日,中国武汉 中国自动化大会是由中国自动化学会组织召开的全国性学术会议,2015年中国自动化大会(CAC2015)将于2015年11 月27-29日在武汉召开,本次大会由华中科技大学自动化学院承办。CAC2015大会的目的是为自动化领域的研究者和工程 师们提供该域内原创科学的沟通机会,其交流重点为充分沟通自动化领域的最新研究成果与进展,共享自动化领域的实践经 验。热烈欢迎全国各高等院校、科研院所和企事业单位的科技工作者积极参加。 2015年中国自动化大会(CAC2015)热烈欢迎全国各高等院校、科研院所和企事业单位的从事自动化理论与技术 研究的科技工作者积极投稿,特别希望征集能反映各单位在自动化领域研究特色的学术论文。主要征文领域范围(包 括但不局限于): 先进控制理论及应用,高端自动化系统与技术,信息融合与故障诊断,工业系统工程,智能制造装备与测控技术,工业传 感器与仪表,基于数据的建模、优化与控制,机器人与无人系统,导航、制导与控制,模式识别与图像处理,网络化控制系统,生 物信息与仿生控制,复杂系统理论与方法,空间飞行器控制,脑机接口与认知计算,智能计算与机器学习,复杂系统的平行控 制和管理,大数据技术和应用,智能电网基础理论与关键技术,流程工业知识自动化。 重要时间节点: 投稿截止日期:2015-07-10 终审通知日期:2015-09-01 终稿提交日期:2015-10-01 网t址:htp:/www.cac2015.org/zhengwen..html

cations[M]. New York: Springer, 2010. [10]蒋盛益, 李霞, 郑琪. 数据挖掘原理与实践[M]. 北京: 电子工业出版社, 2013: 211⁃212. [11]王鑫, 王洪国, 王珺, 等. 数据挖掘中聚类方法比较研 究[J]. 计算机技术与发展, 2006, 16(10): 20⁃22. WANG Xin, WANG Hongguo, WANG Jun, et al. Com⁃ parison of clustering methods in data mining[J]. Computer Technology and Development, 2006, 16(10): 20⁃22. [12]张净, 孙志挥, 杨明, 等. 基于网格和密度的海量数据 增量式离群点挖掘算法[J]. 计算机研究与发展, 2011, 48(5): 823⁃830. ZHANG Jing, SUN Zhihui, YANG Ming, et al. Fast incre⁃ mental outlier mining algorithm based on grid and capacity [ J ]. Journal of Computer Research and Development, 2011, 48(5): 823⁃830. [13]胡文瑜, 孙志挥, 吴英杰. 数据挖掘取样方法研究[ J]. 计算机研究与发展, 2011, 48(1): 45⁃54. HU Wenyu, SUN Zhihui, WU Yingjie. Study of sampling methods on data mining and stream mining[ J]. Journal of Computer Research and Development, 2011, 48(1): 45⁃ 54. 作者简介: 梁路,女,1980 年生,副教授、博士, 中国计算机学会协同计算专业委员会 委员。 主要研究方向为协同计算、云计 算和数据挖掘。 主持和参与国家级、省 级自然科学基金及科技计划项目,以及 校企合作产学研项目多项。 2011 年获 广东省科学技术二等奖。 发表学术论文 30 余篇。 王彪,男,1989 年生,硕士研究生, 主要研究方向为数据挖掘及协同计算。 王剑辉,男,1990 年生,硕士研究 生,主要研究方向为数据挖掘。 2015 中国自动化大会 2015 Chinese Automation Congress 2015 年 11 月 27—29 日, 中国 武汉 中国自动化大会是由中国自动化学会组织召开的全国性学术会议,2015 年中国自动化大会(CAC 2015)将于 2015 年 11 月 27-29 日在武汉召开,本次大会由华中科技大学自动化学院承办。 CAC 2015 大会的目的是为自动化领域的研究者和工程 师们提供该域内原创科学的沟通机会,其交流重点为充分沟通自动化领域的最新研究成果与进展,共享自动化领域的实践经 验。 热烈欢迎全国各高等院校、科研院所和企事业单位的科技工作者积极参加。 2015 年中国自动化大会( CAC2015)热烈欢迎全国各高等院校、科研院所和企事业单位的从事自动化理论与技术 研究的科技工作者积极投稿,特别希望征集能反映各单位在自动化领域研究特色的学术论文。 主要征文领域范围( 包 括但不局限于) : 先进控制理论及应用, 高端自动化系统与技术,信息融合与故障诊断,工业系统工程, 智能制造装备与测控技术,工业传 感器与仪表,基于数据的建模、优化与控制,机器人与无人系统,导航、制导与控制,模式识别与图像处理,网络化控制系统,生 物信息与仿生控制,复杂系统理论与方法,空间飞行器控制,脑机接口与认知计算,智能计算与机器学习,复杂系统的平行控 制和管理,大数据技术和应用,智能电网基础理论与关键技术,流程工业知识自动化。 重要时间节点: 投稿截止日期:2015-07-10 终审通知日期:2015-09-01 终稿提交日期:2015-10-01 网址: http: / / www.cac2015.org / zhengwen.html 第 3 期 梁路,等:基于细精度关联规则挖掘的电信客户流失分析 ·413·

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
已到末页,全文结束
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有