数据挖掘 籐少华 广东工业大学 协同计算与知识工程
数据挖掘 滕少华 广东工业大学 协同计算与知识工程
案例四:移动业务关联规则挖掘 >概述 移动运营商提供多种适合不同客户需求的业务。客户 通常会使用一种或多种业务,这些业务之间可能存在 些有趣的潜在关系。关联规则技术可以挖掘现有客 户同时会使用什么业务,哪些业务的使用会带动新的 业务的使用,以应用于业务交叉销售。通过交叉销售 使运营商能够以较低的营销成本建立和扩展与客户的 关系、为客户提供所需的感兴趣的业务或某一特定业 务的升级或附加业务,使客户利益和价值最大化
案例四:移动业务关联规则挖掘 ➢ 概述 ◼ 移动运营商提供多种适合不同客户需求的业务。客户 通常会使用一种或多种业务,这些业务之间可能存在 一些有趣的潜在关系。关联规则技术可以挖掘现有客 户同时会使用什么业务,哪些业务的使用会带动新的 业务的使用,以应用于业务交叉销售。通过交叉销售, 使运营商能够以较低的营销成本建立和扩展与客户的 关系、为客户提供所需的感兴趣的业务或某一特定业 务的升级或附加业务,使客户利益和价值最大化
数据准备 进作业务关联规则分 字段顺 字段名 字段名称 析害要收集客户使用 序 业的撇据。本案例 Usr nbr 手机号码 使用某移动公司一个 Fetion flag 飞信 月的客户新业务使用 23456789 mms flag 彩信 数据,包括18种业务 mormal flag 139邮箱 fla 号薄管家 每种业务的值为1表 smsrtn flag 短信回执 示开通,为0表示为 gprs pkg GRPS 开通将客户手机卡号, mobnews flag 手机报 将其作为客户ID,如 timeness flag 新闻早晚报 表7-12。 10 flag 彩铃 11 wireless adv usr flag无线音乐高级会员 12 wireless mus flag 无线音乐俱乐部 ag 铃音盒 14 quang down 全曲下载 15 hotel preord call flag 酒店预定 16 aer preord flag 机票预定 17 mo call 12580 flag 百科业务 18 bpay fl 手机支付 19 mobgame flag 手机游戏 7-12客戶新业务便用表
数据准备 ◼ 进行业务关联规则分 析需要收集客户使用 业务的数据。本案例 使用某移动公司一个 月的客户新业务使用 数据,包括18种业务, 每种业务的值为1表 示开通,为0表示为 开通将客户手机卡号, 将其作为客户ID,如 表7-12。 表7-12 客户新业务使用表 字段顺 序 字段名 字段名称 1 Usr_nbr 手机号码 2 Fetion_flag 飞信 3 mms_flag 彩信 4 mobmail_flag 139邮箱 5 pim_flag 号薄管家 6 smsrtn_flag 短信回执 7 gprs_pkg GRPS 8 mobnews_flag 手机报 9 timenews_flag 新闻早晚报 10 cr_flag 彩铃 11 wireless_adv_usr_flag 无线音乐高级会员 12 wireless_mus_flag 无线音乐俱乐部 13 cr_box_flag 铃音盒 14 quanqu_down 全曲下载 15 hotel_preord_call_flag 酒店预定 16 aer_preord_flag 机票预定 17 mo_call_12580_flag 百科业务 18 mobpay_flag 手机支付 19 mobgame_flag 手机游戏
关联规则挖掘过程-1 本案例使用 SAS EM的关联规则节点进行业务关联分析。分析之前必须 用数据输入节点指定预处理后的数据集,每种业务代表一个项。由于数 据量不大故不进行抽样,流程图如图7-29: 图7-29关联规则挖掘流程图 由于本案例的数据没有关于时间的信息,所以分析模式选择‘关联模 式’。本案例使用经典的 Apro算法挖掘出所有的规则。最小支持 度和最小置信度是关联规则最主要的两个评价指标。这里以神舟行客 户的数据为例进行参数设置说明,鉴于电信行业多数新业务的使用率 都比较小,可设定项的最小比例和最小规则置信度分别为5%和50%, 如图7-30所示
关联规则挖掘过程-1 ➢ 规则的生成 ◼ 本案例使用SAS EM的关联规则节点进行业务关联分析。分析之前必须 用数据输入节点指定预处理后的数据集,每种业务代表一个项。由于数 据量不大故不进行抽样,流程图如图7-29: 图 7-29 关联规则挖掘流程图 ◼ 由于本案例的数据没有关于时间的信息,所以分析模式选择‘关联模 式’。 本案例使用经典的Apriori算法挖掘出所有的规则。最小支持 度和最小置信度是关联规则最主要的两个评价指标。这里以神舟行客 户的数据为例进行参数设置说明,鉴于电信行业多数新业务的使用率 都比较小,可设定项的最小比例和最小规则置信度分别为5%和50%, 如图7-30所示
关联规则挖掘过程-2 Data I Variables General ctr. 1 Ii as Cest i. s I Sort Output 1 Analysis mode: O By Context Associat ion O Sequences Minimum Transact ion Frequency to Support Assoc i 05% of largest single item frequency O Specify a count . centage: O Specify as a pe 「5.00 Maximum number of items in an associat ion: 18 Minimum conf idence for rule generat ion 「50X 图7-30关联规则参数设置 规则的选取
关联规则挖掘过程-2 图 7-30 关联规则参数设置 ➢规则的选取
神舟行客户数据的业务关联结果-1 在神舟行的客户数据中,本案例根据算法输出的频繁模式产生53条关 联规则:剔除提升度小于1的业务规则,确保输出结果都是有效的: 剔除部分显而易见的业务规则。经过处理后,关联规则模型共输出14 条业务规则,如表7-15所示。 「规则号 规则 支持度置信度提升度」 1新闻早晚报=>手机报 5.80%100.00%1460 2手机报=>新闻早晚报 5.80%8456%1460 新闻早晚报==>彩铃 524%9037%109 4新闻早晚报=>GRS 507%8749%103 5新闻早晚报&手机报=>彩铃 5249037 1.09 6新闻早晚报&手机报==>GRPS 5.07 87.49 1.03 手机报=>彩铃 607%8867%107 8手机报=>GRPS 596%8701%1.03 无线音乐俱乐部=>彩铃 1109%9791%1.19 10 无线音乐俱乐部==>GRPS 1003%8855%105 无线音乐俱乐部=>彩铃&GRPS981%86.61%1.27 12 飞信==>彩铃 7.06%8571%104 13飞信==GRPS 762%92.61%109 14飞信=>彩铃&GRS 656%7973%1.17 表7-15神舟行客户数据生成的规则(部分)
神舟行客户数据的业务关联结果-1 ◼ 在神舟行的客户数据中,本案例根据算法输出的频繁模式产生53条关 联规则:剔除提升度小于1的业务规则,确保输出结果都是有效的; 剔除部分显而易见的业务规则。经过处理后,关联规则模型共输出14 条业务规则,如表7-15所示。 规则号 规则 支持度 置信度 提升度 1 新闻早晚报 ==> 手机报 5.80% 100.00% 14.60 2 手机报 ==> 新闻早晚报 5.80% 84.66% 14.60 3 新闻早晚报 ==> 彩铃 5.24% 90.37% 1.09 4 新闻早晚报 ==> GRPS 5.07% 87.49% 1.03 5 新闻早晚报 & 手机报 ==> 彩铃 5.24 90.37 1.09 6 新闻早晚报 & 手机报 ==> GRPS 5.07 87.49 1.03 7 手机报 ==> 彩铃 6.07% 88.67% 1.07 8 手机报 ==> GRPS 5.96% 87.01% 1.03 9 无线音乐俱乐部 ==> 彩铃 11.09% 97.91% 1.19 10 无线音乐俱乐部 ==> GRPS 10.03% 88.55% 1.05 11 无线音乐俱乐部 ==> 彩铃 & GRPS 9.81% 86.61% 1.27 12 飞信 ==> 彩铃 7.06% 85.71% 1.04 13 飞信 ==> GRPS 7.62% 92.61% 1.09 14 飞信 ==> 彩铃 & GRPS 6.56% 79.73% 1.17 表7-15 神舟行客户数据生成的规则(部分)
神舟行客户数据的业务关联结果-2 规则的分析 通过关联分析得到增值业务的关联规则结果以后,重要的工作是分析 各个规则的特征,结合业务进行深入的分析,从市场营销的角度出发, 提出针对性的营销方案和对策,从而将数据挖掘的有效信息转化为商 业行为。移动通信企业运用关联分析结果可以得到很多的用于决策支 持的知识,这里选出一部分规则进行分析 从上表可以看出,挖掘出来的关联规则的置信度比较高,但是支持度 较低,可能是神舟行增值业务的推广力度不够导致的。从第1、2条规 则可知新闻早晚报与手机报具有密切关系,客户使用其中一种业务几 乎会同时使用另外一种业务,置信度达到84%以上,提升度高达14% 以上,说明了这些客户有阅读手机电子报的习惯
神舟行客户数据的业务关联结果-2 ➢ 规则的分析 ◼ 通过关联分析得到增值业务的关联规则结果以后,重要的工作是分析 各个规则的特征,结合业务进行深入的分析,从市场营销的角度出发, 提出针对性的营销方案和对策,从而将数据挖掘的有效信息转化为商 业行为。移动通信企业运用关联分析结果可以得到很多的用于决策支 持的知识,这里选出一部分规则进行分析。 ◼ 从上表可以看出,挖掘出来的关联规则的置信度比较高,但是支持度 较低,可能是神舟行增值业务的推广力度不够导致的。从第1、2条规 则可知新闻早晚报与手机报具有密切关系,客户使用其中一种业务几 乎会同时使用另外一种业务,置信度达到84%以上,提升度高达14% 以上,说明了这些客户有阅读手机电子报的习惯
动感地带、全球通客户数据的业务关联结 果-1 对于动感地带的客户数据,设定项的最小比例和最小 规则置信度分别为15%和55%,共生成35条规则,选 取置信度大于80%,提升度大于1的规则进行分析,如 表7-16所示。对于全球通的客户数据,设置最小比例 和最小置信度分别为10%和50%,共生成49条规则, 选择提升度大于1且置信度在75%以上的强关联规则进 行分析,如表7-17所示。然后对神舟行、动感地带和 全球通三种品牌的业务关联规则进行对比分析,得出 品牌之间业务使用的差异
动感地带、全球通客户数据的业务关联结 果-1 ◼ 对于动感地带的客户数据,设定项的最小比例和最小 规则置信度分别为15%和55%,共生成35条规则,选 取置信度大于80%,提升度大于1的规则进行分析,如 表7-16所示。对于全球通的客户数据,设置最小比例 和最小置信度分别为10%和50%,共生成49条规则, 选择提升度大于1且置信度在75%以上的强关联规则进 行分析,如表7-17所示。然后对神舟行、动感地带和 全球通三种品牌的业务关联规则进行对比分析,得出 品牌之间业务使用的差异
规则号 规则 支持度置信度提升度 1无线音乐俱乐部=>无线音乐高级会员&彩铃19.17%8350%1.04 无线音乐俱乐部==>无线音乐高级会员 19.17% 83.50% 1.04 3无线音乐俱乐部=>彩铃 22.93% 9988% 1.01 4无线音乐俱乐部&无线音乐高级会员=彩铃19%100001 5无线音乐俱乐部&彩铃=>无线音乐高级会员1917%8360%104 6无线音乐高级会员=>彩铃 8002%99.89% 1.01 7无线音乐高级会员&飞信=>彩铃 2201%9987%101 8无线音乐高级会员&飞信&GRPS=>彩铃 1521%9981% 1.01 9无线音乐高级会员&139邮箱=>彩铃 2055%100.00% 1.01 10彩信=>无线音乐高级会员&彩铃 2325%8257% 1.03 11彩信=>无线音乐高级会员 2328%8267% 1.03 12彩信&彩铃=>无线音乐高级会员 23.25% 83.16% 1.04 13彩铃=→>无线音乐高级会员 8002% 80.65% 1.01 14彩铃&GR=无线音乐高级会员 37.97% 8082% 1.01 15彩铃&139邮箱==>无线音乐高级会员 2055%8109% 1.01
表规则号7-16动感地带客户数据生成的规则 规则 (部分支持度) 置信度 提升度 1 无线音乐俱乐部 ==> 无线音乐高级会员 & 彩铃 19.17% 83.50% 1.04 2 无线音乐俱乐部 ==> 无线音乐高级会员 19.17% 83.50% 1.04 3 无线音乐俱乐部 ==> 彩铃 22.93% 99.88% 1.01 4 无线音乐俱乐部 & 无线音乐高级会员 ==> 彩铃 19.17% 100.00% 1.01 5 无线音乐俱乐部 & 彩铃 ==> 无线音乐高级会员 19.17% 83.60% 1.04 6 无线音乐高级会员 ==> 彩铃 80.02% 99.89% 1.01 7 无线音乐高级会员 & 飞信 ==> 彩铃 22.01% 99.87% 1.01 8 无线音乐高级会员 & 飞信 & GRPS ==> 彩铃 15.21% 99.81% 1.01 9 无线音乐高级会员 & 139邮箱 ==> 彩铃 20.55% 100.00% 1.01 10 彩信 ==> 无线音乐高级会员 & 彩铃 23.25% 82.57% 1.03 11 彩信 ==> 无线音乐高级会员 23.28% 82.67% 1.03 12 彩信 & 彩铃 ==> 无线音乐高级会员 23.25% 83.16% 1.04 13 彩铃 ==> 无线音乐高级会员 80.02% 80.65% 1.01 14 彩铃 & GRPS ==> 无线音乐高级会员 37.97% 80.82% 1.01 15 彩铃 & 139邮箱 ==> 无线音乐高级会员 20.55% 81.09% 1.01
规则号 规则 支持度置信度提升度 1新闻早晚报=>手机报&彩铃 7.86% 8563% 9.47 新闻早晚报==>手机报 9.18% 10000% 9.35 3新闻早晚报=>彩铃 7.86% 8563% 1.15 4新闻早晚报&手机报=→彩铃 7.86% 8563% 1.15 5新闻早晚报&手机报&GRS==>彩铃 5.80% 86.12% 1.16 6新闻早晚报&彩铃=>手机报 7.86% 10000% 9.35 7|新闻早晚报&GRPS=>彩铃 580% 86.12% 1.16 8无线音乐俱乐部=>彩铃 5.11% 97.38% 1.31 9无线音乐高级会员=>彩铃 880% 8556% 1.15 10无线音乐高级会员&GRS=>彩铃 563% 84.71% 1.14 11手机支付=>彩铃 4.40% 76.19% 1.03 12手机支付=>GRPS 4.70% 8143% 1.21 13139邮箱=>彩铃 13.91% 7994% 1.08 14彩信=>彩铃 11.41% 8185% 1.10 15彩信&GRS=→>彩铃 7.31% 80.36% 1.08
表规则号7-17 全球通客户数据生成的规则 规则 支持度 (部分)置信度 提升度 1 新闻早晚报 ==> 手机报 & 彩铃 7.86% 85.63% 9.47 2 新闻早晚报 ==> 手机报 9.18% 100.00% 9.35 3 新闻早晚报 ==> 彩铃 7.86% 85.63% 1.15 4 新闻早晚报 & 手机报 ==> 彩铃 7.86% 85.63% 1.15 5 新闻早晚报 & 手机报 & GRPS ==> 彩铃 5.80% 86.12% 1.16 6 新闻早晚报 & 彩铃 ==> 手机报 7.86% 100.00% 9.35 7 新闻早晚报 & GRPS ==> 彩铃 5.80% 86.12% 1.16 8 无线音乐俱乐部 ==> 彩铃 5.11% 97.38% 1.31 9 无线音乐高级会员 ==> 彩铃 8.80% 85.56% 1.15 10 无线音乐高级会员 & GRPS ==> 彩铃 5.63% 84.71% 1.14 11 手机支付 ==> 彩铃 4.40% 76.19% 1.03 12 手机支付 ==> GRPS 4.70% 81.43% 1.21 13 139邮箱 ==> 彩铃 13.91% 79.94% 1.08 14 彩信 ==> 彩铃 11.41% 81.85% 1.10 15 彩信 & GRPS ==> 彩铃 7.31% 80.36% 1.08