当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

基于QBC主动学习方法建立电信客户信用风险等级评估模型

资源类别:文库,文档格式:PDF,文档页数:5,文件大小:468.41KB,团购合买
电信客户信用风险等级评估是对电信客户的信用风险进行等级分类.针对建立客户信用风险等级分类模型时,大量带有类标注数据难以获得的问题,提出了基于主动学习的分类器建模方法,并对基于QBC(委员会投票选择)的主动学习算法进行改进以提高分类器的预测精度.通过对实际电信客户数据进行信用风险等级建模实验,结果表明:应用新算法,分类器使用了较少的带类标签样本数据,达到了与被动学习相同的精度,大大降低了信用专家评估数据的工作量.
点击下载完整版文档(PDF)

D0I:10.13374/i.issnl00113.2007.04.016 第29卷第4期 北京科技大学学报 Vol.29 No.4 2007年4月 Journal of University of Science and Technology Beijing Apr.2007 基于QBC主动学习方法建立电信客户 信用风险等级评估模型 赵悦)穆志纯)董洁)付冬梅) 何伟) 1)北京科技大学倍息工程学院,北京1000832)中央民族大学数学与计算机学院,北京100081 摘要电信客户信用风险等级评估是对电信客户的信用风险进行等级分类。针对建立客户信用风险等级分类模型时,大量 带有类标注数据难以获得的问题,提出了基于主动学习的分类器建模方法,并对基于QBC(委员会投票选择)的主动学习算法 进行改进以提高分类器的预测精度·通过对实际电信客户数据进行信用风险等级建模实验,结果表明:应用新算法,分类器使 用了较少的带类标签样本数据,达到了与被动学习相同的精度,大大降低了倍用专家评估数据的工作量 关键词电信客户;信用等级:主动学习:投票;相对熵 分类号TP301.6 客户信用风险等级是电信企业决策支持系统中 多的有价值数据,而导致最终的分类器精度不高,达 进行客户行为分析、经营风险分析和客户欺诈分析 不到与被动学习相同的精度, 的一个重要分析角度,准确评估客户信用风险等 本文针对电信客户信用等级评估问题,提出了 级,可以解决在复杂的用户消费群体中良莠难辨的 利用主动学习方法来建立信用等级分类模型,并提 问题, 出一种新的基于投票熵和最小相对熵相结合的 信用风险等级评估实际上是分类决策问题,为 QBC主动学习方法以提高分类器的预测精度.实 了进行分类决策,分类算法从大量的先前数据中学 验结果表明,该分类器使用了较少的带类标签样本 习分类模型,并用于决定未知客户的信用等级类 数据,达到了与被动学习分类器相同的精度. 别西.目前分类算法(如SVM、神经网络、贝叶斯网 络等)几乎都采用被动学习方式,它使用给定的大数 1基于QBC的主动学习方法 据量训练样本学习分类参数,其训练样本必须带有 主动学习基于少量的带类标注训练样本L建 类别标注 立初始分类器,每次学习过程中分类器可以主动在 我国电信行业开展客户信用评估工作刚刚开 未带类标注的候选样本集U中选择最有利于分类 始,大量带有信用风险等级类标注的历史客户数据 器性能的样本e,并将这些样本以一定的方式加入 并不存在,因此分类算法通过被动学习方式建立信 到训练集中来进一步训练分类器](如图1),选择 用风险等级评估模型并不可行.为了评价客户的信 样本的基本思路就是考虑到不同样本其实对最后分 用风险等级,只能由领域专家手工评价标注,这是件 类器的作用是不一样的,即样本含有的信息量越大, 极其耗时和费力的事情。最近几年,一些分类算法 对分举界面的确定战重要 引入主动学习(active learning),其目的是使用尽可 训练数据集( 能少的训练数据来获得较高的分类性能,以减少人 (带类标签数据集 分类器 候选数据集(U) 工标注样本的代价] 1{e} (木带类标签 数据集) 基于委员会投票选择算法(query-by-commit- e tee,QBC)是一种计算复杂度低且容易实现的主动 已标注数据 学习方法,但是由于其样本评价函数不能选择足够 送择策略 用户 收稿日期:2005-12-20修回日期:2006-04-19 基金项目:北京市教委重点学科共建项目资助和国家民委“十一五” 科研项目(No.072Y07) 图1主动学习的基本原理 作者简介:赵悦(1974一),女,博士研究生:穆志纯(1952一),男, Fig.I Principle of active learning 教授,博士生导师

基于 QBC 主动学习方法建立电信客户 信用风险等级评估模型 赵 悦1‚2) 穆志纯1) 董 洁1) 付冬梅1) 何 伟2) 1) 北京科技大学信息工程学院‚北京100083 2) 中央民族大学数学与计算机学院‚北京100081 摘 要 电信客户信用风险等级评估是对电信客户的信用风险进行等级分类.针对建立客户信用风险等级分类模型时‚大量 带有类标注数据难以获得的问题‚提出了基于主动学习的分类器建模方法‚并对基于 QBC(委员会投票选择)的主动学习算法 进行改进以提高分类器的预测精度.通过对实际电信客户数据进行信用风险等级建模实验‚结果表明:应用新算法‚分类器使 用了较少的带类标签样本数据‚达到了与被动学习相同的精度‚大大降低了信用专家评估数据的工作量. 关键词 电信客户;信用等级;主动学习;投票;相对熵 分类号 TP301∙6 收稿日期:20051220 修回日期:20060419 基金项目:北京市教委重点学科共建项目资助和国家民委“十一五” 科研项目(No.07ZY07) 作者简介:赵 悦(1974—)‚女‚博士研究生;穆志纯(1952—)‚男‚ 教授‚博士生导师 客户信用风险等级是电信企业决策支持系统中 进行客户行为分析、经营风险分析和客户欺诈分析 的一个重要分析角度.准确评估客户信用风险等 级‚可以解决在复杂的用户消费群体中良莠难辨的 问题. 信用风险等级评估实际上是分类决策问题.为 了进行分类决策‚分类算法从大量的先前数据中学 习分类模型‚并用于决定未知客户的信用等级类 别[1].目前分类算法(如 SVM、神经网络、贝叶斯网 络等)几乎都采用被动学习方式‚它使用给定的大数 据量训练样本学习分类参数‚其训练样本必须带有 类别标注. 我国电信行业开展客户信用评估工作刚刚开 始‚大量带有信用风险等级类标注的历史客户数据 并不存在‚因此分类算法通过被动学习方式建立信 用风险等级评估模型并不可行.为了评价客户的信 用风险等级‚只能由领域专家手工评价标注‚这是件 极其耗时和费力的事情.最近几年‚一些分类算法 引入主动学习(active learning)‚其目的是使用尽可 能少的训练数据来获得较高的分类性能‚以减少人 工标注样本的代价[2]. 基于委员会投票选择算法(query-by-commit￾tee‚QBC)是一种计算复杂度低且容易实现的主动 学习方法‚但是由于其样本评价函数不能选择足够 多的有价值数据‚而导致最终的分类器精度不高‚达 不到与被动学习相同的精度. 本文针对电信客户信用等级评估问题‚提出了 利用主动学习方法来建立信用等级分类模型‚并提 出一种新的基于投票熵和最小相对熵相结合的 QBC 主动学习方法以提高分类器的预测精度.实 验结果表明‚该分类器使用了较少的带类标签样本 数据‚达到了与被动学习分类器相同的精度. 1 基于 QBC 的主动学习方法 主动学习基于少量的带类标注训练样本 L 建 立初始分类器‚每次学习过程中分类器可以主动在 未带类标注的候选样本集 U 中选择最有利于分类 器性能的样本 ei‚并将这些样本以一定的方式加入 到训练集中来进一步训练分类器[3] (如图1).选择 样本的基本思路就是考虑到不同样本其实对最后分 类器的作用是不一样的‚即样本含有的信息量越大‚ 对分类界面的确定越重要. 图1 主动学习的基本原理 Fig.1 Principle of active learning 第29卷 第4期 2007年 4月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.29No.4 Apr.2007 DOI:10.13374/j.issn1001-053x.2007.04.016

第4期 赵悦等:基于QBC主动学习方法建立电信客户信用风险等级评估模型 .443. Cohn选择样本的策略是选择使得当前分类器 样委员会成员类投票不一致的样本,这样的样本正 对测试集分类误差最小的例子作为候选样本,这 是QBC算法原理所要选择的例子, 种算法在选择样本之前需要搜索整个样本空间,对 表1委员会成员对样本的类投票结果 于大数据量的未带类标注样本集,其计算的复杂度 Table 1 Results of committee's class vote for unlabeled examples 相当高,实际并不可行.Lewis使用了一个分类器选 委员会成员 e2 e3 择类后验概率接近0.5的样本加入训练集],即每 1 0.52(c1) 0.72(c2) 0.60(c2) 次选择分类器最不确定的样本加入训练集,由于该 2 0.58(c2) 0.60(c1) 0.70(c2) 方法易于选择奇异点(outlier)数据,使得分类器的 分类误差加大.为了更好地评价样本价值,Seung6] 表2样本的类投票熵和相对熵 和Freund[门提出了委员会投票选择算法,该方法并 Table 2 KL-divergence and vote entropy (VE)of examples 样本 VE KL d 不直接计算分类误差,而是首先根据已有的类标签 数据建立两个或多个分类器,组成“委员会”,利用这 e1 1 0.005(漏选) e2 1 0.052 个委员会对预测样本进行标注投票,然后选择投票 0 0.006 最不一致的样本作为候选样本,这种方法能够把含 信息量丰富的样本加入到训练集中,不需要检测整 然而,投票熵(VE)虽然选择了投票不一致的例 个样本空间,因此计算复杂度相对较低,学习速度 子,但是并未考虑成员对样本的类条件概率值,即 快,能够使用很少的训练样本达到给定的分类精度, Pm(C;e:),这同样会导致漏选一些信息量丰富的 目前有两种QBC方法,一种是基于相对熵来 度量委员会投票差异⑧]D(e),计算公式为: 样本数据,这些样本包含有助于分类的信息,因此, 以上两种度量都会导致最后的分类器分类精度不 pe)kgp[P.(cle)lPcle】 高,达不到与被动学习相同的精度, 为了进一步提高QBC算法学习的准确性,笔者 (1) 提出了一种新的基于投票嫡和最小相对熵相结合的 其中,C是样本e:的所有可能的类别集合C=ic}, K是委员会成员的数目,Pmg(Ce:)是所有委员会 QBC算法. 成员类条件概率的平均值: 2一种新的基于QBC的主动学习方 Pxa(Cle)= ∑Pn(cle)/K (2) 法 D(·‖·)是两个条件概率分布的信息度量,计算公 首先分析用投票熵度量委员会成员投票不一致 式为: 性可能导致漏选的样本,假设有4个委员会成员, D(P1(C)‖P2(C))= 兰P(ghc) 对4个未带类标注的样本进行预测,预测的类别有 两个. 另一种是使用投票熵来度量D(e)),其计算 利用式(4)计算投票熵,度量类投票的不一致性 公式为: D(e:)·同时,考虑成员对样本的类条件概率值 D(e)= Pm(ce:),重新定义相对熵,使其度量成员对样本 分类的不确定性程度,相对熵越小,说明成员对样 In min(K,I cl) v(e.ein y(c (4) K In K 本分类的不确定程度越高,取成员中对样本分类相 其中,V(c,e:)为委员会成员对样本e:的类别c投 对熵的最小值,得到KL dmin(e:),其计算公式如下: 票的数目· KL dmin(ei)= 用表1和表2说明两种度量方法对样本的评价 Pm(ce) 言P.()n P) (5) 结果,其中委员会成员2个,样本数据3个,两类分 问题,表1中的数据为委员会成员(model)对样本 其中, (example)的类投票结果,表2是每个样本的类投票 熵(VE)和相对熵(KLd)的比较.从表2中可以看 到,e1和e3的KLd值较接近,但是e1的VE值为 2.max[P(cilei)]=1 l(投票最不一致),KLd度量方法漏选了像e1这 (cl-num-zero),max[P(cilei)]1

Cohn 选择样本的策略是选择使得当前分类器 对测试集分类误差最小的例子作为候选样本[4]‚这 种算法在选择样本之前需要搜索整个样本空间‚对 于大数据量的未带类标注样本集‚其计算的复杂度 相当高‚实际并不可行.Lewis 使用了一个分类器选 择类后验概率接近0∙5的样本加入训练集[5]‚即每 次选择分类器最不确定的样本加入训练集.由于该 方法易于选择奇异点(outlier)数据‚使得分类器的 分类误差加大.为了更好地评价样本价值‚Seung [6] 和 Freund [7]提出了委员会投票选择算法.该方法并 不直接计算分类误差‚而是首先根据已有的类标签 数据建立两个或多个分类器‚组成“委员会”‚利用这 个委员会对预测样本进行标注投票‚然后选择投票 最不一致的样本作为候选样本.这种方法能够把含 信息量丰富的样本加入到训练集中‚不需要检测整 个样本空间‚因此计算复杂度相对较低‚学习速度 快‚能够使用很少的训练样本达到给定的分类精度. 目前有两种 QBC 方法.一种是基于相对熵来 度量委员会投票差异[8] D(ei)‚计算公式为: D(ei)= 1 K ∑ K m=1 D[ Pm(C|ei)‖Pavg(C|ei)] (1) 其中‚C 是样本 ei 的所有可能的类别集合 C={cj}‚ K 是委员会成员的数目‚Pavg ( C|ei)是所有委员会 成员类条件概率的平均值: Pavg(C|ei)= ∑m Pm(C|ei) /K (2) D(·‖·)是两个条件概率分布的信息度量‚计算公 式为: D(P1(C)‖P2(C))= ∑ |C| j=1 P1( cj)ln P1( cj) P2( cj) (3) 另一种是使用投票熵来度量 D( ei) [9]‚其计算 公式为: D(ei)= — 1 ln min( K‚|C|) ∑C V ( c‚ei) K ln V ( c‚ei) K (4) 其中‚V ( c‚ei)为委员会成员对样本 ei 的类别 c 投 票的数目. 用表1和表2说明两种度量方法对样本的评价 结果.其中委员会成员2个‚样本数据3个‚两类分 问题.表1中的数据为委员会成员(model)对样本 (example)的类投票结果‚表2是每个样本的类投票 熵(VE)和相对熵(KL—d)的比较.从表2中可以看 到‚e1 和 e3 的 KL—d 值较接近‚但是 e1 的 VE 值为 1(投票最不一致)‚KL—d 度量方法漏选了像 e1 这 样委员会成员类投票不一致的样本‚这样的样本正 是 QBC 算法原理所要选择的例子. 表1 委员会成员对样本的类投票结果 Table1 Results of committee’s class vote for unlabeled examples 委员会成员 e1 e2 e3 1 0∙52( c1) 0∙72( c2) 0∙60( c2) 2 0∙58( c2) 0∙60( c1) 0∙70( c2) 表2 样本的类投票熵和相对熵 Table2 KL-divergence and vote entropy (VE) of examples 样本 VE KL—d e1 1 0∙005(漏选) e2 1 0∙052 e3 0 0∙006 然而‚投票熵(VE)虽然选择了投票不一致的例 子‚但是并未考虑成员对样本的类条件概率值‚即 Pm(Cj|ei).这同样会导致漏选一些信息量丰富的 样本数据‚这些样本包含有助于分类的信息.因此‚ 以上两种度量都会导致最后的分类器分类精度不 高‚达不到与被动学习相同的精度. 为了进一步提高 QBC 算法学习的准确性‚笔者 提出了一种新的基于投票熵和最小相对熵相结合的 QBC 算法. 2 一种新的基于 QBC 的主动学习方 法 首先分析用投票熵度量委员会成员投票不一致 性可能导致漏选的样本.假设有4个委员会成员‚ 对4个未带类标注的样本进行预测‚预测的类别有 两个. 利用式(4)计算投票熵‚度量类投票的不一致性 D( ei).同时‚考虑成员对样本的类条件概率值 Pm( cj|ei)‚重新定义相对熵‚使其度量成员对样本 分类的不确定性程度.相对熵越小‚说明成员对样 本分类的不确定程度越高‚取成员中对样本分类相 对熵的最小值‚得到 KL—dmin(ei)‚其计算公式如下: KL—dmin(ei)= min K m=1 ∑ |c| j=1 Pm( cj|ei)ln Pm( cj|ei) Pm— avg(C|ei) (5) 其中‚ Pm— avg(C|ei)= ∑ |c| j=1 Pm( cj|ei) /l‚ l= 2‚max [ Pm( cj|ei)]=1 (|c|—num—zero)‚max [ Pm( cj|ei)]≠1 ‚ 第4期 赵 悦等: 基于 QBC 主动学习方法建立电信客户信用风险等级评估模型 ·443·

.444 北京科技大学学报 第29卷 Pm-awg(Ce)为样本的类条件概率分布的平均值, c)1; num-zero为Pm(ce:)为0的数目 未带类别标注的候选样本集:U= 表3中的数据为委员会成员对样本的类投票结 {e:(M《N); 果,表4是每个样本的类投票熵和最小相对熵的比 选择停止的条件:S; 较,从表4中可以看到,e1和e4的投票熵都为0(投 投票嫡的阈值:0; 票一致),但是前者的KL一dmim值与e2和e3的值相 KL一dmin(e:)的阈值:a. 当,即委员会中有对e1的分类不确定性程度相当高 While not s 的成员,Lewis和Gale在基于不确定性抽样选择 的主动学习研究中指出,被分类器分类不确定的样 (1)在L上使用Bagging方法,得到K个子 本所含的信息量是丰富的,有利于分类器的构建,应 集L1,L2,…,L,分别在L1,L2,…,L运行A,获 当被选入训练集中,但是,基于投票熵的QBC算法 得K个分类器{h1,,hx{; 漏选了这样的样本数据 (2)对于e∈U用{h1,…,hk预测其类标 表3委员会成员对样本的类投票结果 注iC1,…,Ch}; Table 3 Results of committee's class vote for unlabeled examples (3)利用式(4)计算D(e:): 委员会成员 e2 e3 es (4)如果D(e)>0,从U中选择e,获得 1 0.55(c1)0.45(c2)0.48(c1)0.80(c2) e的真实类别c:,并加入到L中,使L= 2 0.55(c1) 0.45(c2)0.75(c2) 0.90(c2) L (ei,ci): 3 0.60(c1)0.55(c1) 0.85(c2)0.75(c2) (5)如果D(e)≤6,利用式(5)计算KL 0.60(c1)0.55(c1)0.95(c2)0.85(c2) dmin(ei); 表4每个样本的类投票熵和最小相对熵 (6)如果KL dmin满足a,从U中选择e,获 Table 4 Minimum KL-divergence and vote entropy of examples 得e:的真实类别ci,并加入到L中,使L={L, 样本 VE KL一dmia 样本 VE KL一dna (ei,ci): 0.0(漏选) 0.005 es 0.81 0 (7)在L上学习分类器H,在测试集上计算 e2 1.0 0.005 e4 0.0 0.1308 其分类精度 因此,结合投票熵和最小相对熵,笔者提出了新 Output:最终分类器H. 的QBC算法,算法首先根据已标注样本集L学习 K个初始分类器,在每次迭代过程中K个初始分类 3 实验结果 器对任一未标注样本预测其类别并得到其类条件概 使用某省移动通信公司2001年1一5月份的 率分布Pm(C|e:),根据式(4)计算D(e:),如果 33512条客户数据进行信用等级分类的建模,电信 D(e:)大于某阈值,则把该未标注样本提交用户进 专家根据客户的基本情况、缴欠费记录和呼叫行为 行标定并将其加入到L;否则,根据式(5)计算KL一 记录对客户的信用等级进行了评估,信用等级分为 dmin(ei),如果KL一dmin(ei)满足某阈值条件,则把该 4个级别.把其中4755条数据作为训练数据,把这 未标注样本提交用户进行标定并将其加入到L·重 个数据集再分为两个部分,其中3743条记录看作 复以上过程,直到分类器达到预定精度或未带类标 主动学习过程中的未带类别标注的候选样本集,另 注的候选样本集U为空. 外1012条记录看作少量带有类别标注的样本集, 新算法不但考虑了投票不一致的样本数据,而 用这个数据集学习两个初始分类器.测试数据集为 且对投票一致的样本数据进一步评价,把其中含有 28757条客户记录,可用的样本数据属性共有 分类信息丰富的样本数据也选入训练集中,避免了 23个,使用双变量统计选取了付费方式、性别、年 漏选有用的样本,这提高了分类器的精度,其具体算 龄、在网时长、欠费状态、地区、月租费、市话费、漫游 法如下 费、长话费等16个字段参与建模,并且对连续字段 Input:分类算法:A; 进行了离散化, 委员会成员数目:K; 委员会成员为2个,底层分类算法采用TAN 少量带有类别标注的样本集:L={(e, 贝叶斯网络分类器,对于4类分问题且2个委员会

Pm— avg(C|ei)为样本的类条件概率分布的平均值‚ num—zero为 Pm( cj|ei)为0的数目. 表3中的数据为委员会成员对样本的类投票结 果‚表4是每个样本的类投票熵和最小相对熵的比 较.从表4中可以看到‚e1 和 e4 的投票熵都为0(投 票一致)‚但是前者的 KL—dmin值与 e2 和 e3 的值相 当‚即委员会中有对 e1 的分类不确定性程度相当高 的成员.Lewis 和 Gale [5]在基于不确定性抽样选择 的主动学习研究中指出‚被分类器分类不确定的样 本所含的信息量是丰富的‚有利于分类器的构建‚应 当被选入训练集中.但是‚基于投票熵的 QBC 算法 漏选了这样的样本数据. 表3 委员会成员对样本的类投票结果 Table3 Results of committee’s class vote for unlabeled examples 委员会成员 e1 e2 e3 e4 1 0∙55( c1) 0∙45( c2) 0∙48( c1) 0∙80( c2) 2 0∙55( c1) 0∙45( c2) 0∙75( c2) 0∙90( c2) 3 0∙60( c1) 0∙55( c1) 0∙85( c2) 0∙75( c2) 4 0∙60( c1) 0∙55( c1) 0∙95( c2) 0∙85( c2) 表4 每个样本的类投票熵和最小相对熵 Table4 Minimum KL-divergence and vote entropy of examples 样本 VE KL—dmin e1 0∙0(漏选) 0∙005 e2 1∙0 0∙005 样本 VE KL—dmin e3 0∙81 0 e4 0∙0 0∙1308 因此‚结合投票熵和最小相对熵‚笔者提出了新 的 QBC 算法.算法首先根据已标注样本集 L 学习 K 个初始分类器‚在每次迭代过程中 K 个初始分类 器对任一未标注样本预测其类别并得到其类条件概 率分布 Pm ( C|ei)‚根据式(4)计算 D( ei).如果 D(ei)大于某阈值‚则把该未标注样本提交用户进 行标定并将其加入到 L;否则‚根据式(5)计算 KL— dmin(ei)‚如果 KL—dmin(ei)满足某阈值条件‚则把该 未标注样本提交用户进行标定并将其加入到 L.重 复以上过程‚直到分类器达到预定精度或未带类标 注的候选样本集 U 为空. 新算法不但考虑了投票不一致的样本数据‚而 且对投票一致的样本数据进一步评价‚把其中含有 分类信息丰富的样本数据也选入训练集中‚避免了 漏选有用的样本‚这提高了分类器的精度‚其具体算 法如下. Input:分类算法:A; 委员会成员数目:K; 少量带有类别标注的样本集:L ={( e′i‚ c′i)}M ′i =1; 未带 类 别 标 注 的 候 选 样 本 集:U = {ei}N i=1( M≪ N)); 选择停止的条件:ζ; 投票熵的阈值:θ; KL—dmin(ei)的阈值:α. While not ζ { (1) 在 L 上使用 Bagging 方法‚得到 K 个子 集 L 1‚L 2‚…‚L K‚分别在 L 1‚L 2‚…‚L K 运行 A‚获 得 K 个分类器{h1‚…‚hK}; (2) 对于 e ∗ i ∈ U 用{h1‚…‚hK}预测其类标 注{C1‚…‚Ch}; (3) 利用式(4)计算 D(e ∗ i ); (4) 如果 D(e ∗ i )>θ‚从 U 中选择 e ∗ i ‚获得 e ∗ i 的 真 实 类 别 c ∗ i ‚并 加 入 到 L 中‚使 L = {L‚(e ∗ i ‚c ∗ i )}; (5) 如果 D(e ∗ i )≤θ‚利用式(5)计算 KL— dmin(e ∗ i ); (6) 如果 KL—dmin满足α‚从 U 中选择e ∗ i ‚获 得 e ∗ i 的真实类别 c ∗ i ‚并加入到 L 中‚使 L ={L‚ (e ∗ i ‚c ∗ i )}; (7) 在 L 上学习分类器 H‚在测试集上计算 其分类精度. } Output:最终分类器 H. 3 实验结果 使用某省移动通信公司2001年1—5月份的 33512条客户数据进行信用等级分类的建模.电信 专家根据客户的基本情况、缴欠费记录和呼叫行为 记录对客户的信用等级进行了评估‚信用等级分为 4个级别.把其中4755条数据作为训练数据‚把这 个数据集再分为两个部分‚其中3743条记录看作 主动学习过程中的未带类别标注的候选样本集‚另 外1012条记录看作少量带有类别标注的样本集‚ 用这个数据集学习两个初始分类器.测试数据集为 28757条客 户 记 录.可 用 的 样 本 数 据 属 性 共 有 23个‚使用双变量统计选取了付费方式、性别、年 龄、在网时长、欠费状态、地区、月租费、市话费、漫游 费、长话费等16个字段参与建模‚并且对连续字段 进行了离散化. 委员会成员为2个‚底层分类算法采用 TAN 贝叶斯网络分类器‚对于4类分问题且2个委员会 ·444· 北 京 科 技 大 学 学 报 第29卷

第4期 赵悦等:基于QBC主动学习方法建立电信客户信用风险等级评估模型 .445 成员,其投票熵取值为[0,0.5,1],其中0为投票一 基于投票熵与最小相对熵相结合的QBC方法所建 致,0.5为一个投票一个弃权,1为投票不一致,故本 的信用等级评估模型结构如图3,图中结点16为信 实验投票熵阈值取大于0.5,a>一0.0031并且 用等级,其余结点分别代表付费方式、性别、年龄、在 a84%或 实验结果显示,基于投票熵与最小相对熵相结 U为空 合的QBC方法比基于投票熵的QBC方法更好,能 为了验证本文提出的基于投票熵与最小相对熵 够达到与被动学习相同的分类准确性,增加的少量 相结合(VE&KL一dmim)的QBC方法对分类器性能 样本数据有助于分类器性能的提高,其使用的训练 的影响,实验比较了基于VE&KL一dmin的QBC方 数据量远远比被动学习要少,这极大地降低了人为 法、基于VE的QBC方法和基于被动学习的分类器 标注样本标签的工作量 的分类准确性.其中基于VE的QBC方法选择了 476条样本数据,分类精度达到81%:基于VE&KL 4结论 dmin的QBC方法选择了947条样本数据,分类精 本文根据电信客户信用等级评估的实际情况, 度达到84%:被动学习方法使用了所有的3743条 提出了采用主动学习方法建立模型,并提出基于投 样本数据,分类精度达到84%.三者的比较见图2. 票熵与最小相对熵相结合的QBC方法,实验结果 0.90 显示,新算法提高了分类器的分类精度,并且可以大 0.85 大减少所需带信用等级类标签的训练样本数量,有 0.80 效地减少电信专家的评估工作量, 0.75 0.10 -·VE 参考文献 一VE&KL-dmm 一被动学习 0.65 [1]中国移动通信集团公司·中国移动经营分析系统业务规范 2.0.北京:中国移动通信集团公司,2002 0.60 0.550 [2]宫秀军,孙建平,史忠植·主动贝叶斯网络分类器.计算机研究 1000 2000 30004000 与发展,2002,39(5):574 样本数据条数 [3]Riccardi G.Active learning:theory and applications to automatic speech recognition.IEEE Trans Speech Audio Process.2005. 图2三种学习方法的分类准确率比较图 13(4):504 Fig.2 Comparison of the classification accuracy of three learning [4]Cohn D A,Ghahramani Z,Jordan M I.Active learning with sta- methods tistical models.J Artif Intell Res,1996,4:129 [5]Lewis DD.Gale W A.A sequential algorithm for training text classifiers//Proceedings of 17th (ACM)International Confer- 15 ence on Research and Development in Information Retrieval. Dublin:Springer Verlag.1994:3 13 [6]Seung HS,Opper M,Sompolinsky H.Query by committee// Proceedings of the 15th Annual ACM Workshop on Computation al Learning Theory.California:Morgan Kaufmann,1992:287 [7]Freund Y,Seung HS,Samir E,et al.Selective sampling using the query-by committee algorithm.Mach Learn.1997,28:133 ① [8]McCallum A K,Nigam K.Employing EM and pool-based active learning for text classification//Proceeding of the 15th Interna ⑩ tional Conference on Machine Learning Madison:Morgan Kauf- mann,1998,350 图3信用等级评估模型结构 [9]Argamon-Engleson S,Dagan I.Committee-based sample selection Fig.3 Structure of the credit rating evaluation model for probabilistic classifiers.J Artif Intell Res.1999,11:335

成员‚其投票熵取值为[0‚0∙5‚1]‚其中0为投票一 致‚0∙5为一个投票一个弃权‚1为投票不一致‚故本 实验投票熵阈值取大于0∙5‚α>—0∙0031并且 α<0∙05(α值接近于零‚即最小相对熵越小‚分类不 确定性越高)‚停止条件 ζ为分类器精度>84%或 U 为空. 为了验证本文提出的基于投票熵与最小相对熵 相结合(VE&KL—dmin)的 QBC 方法对分类器性能 的影响‚实验比较了基于 VE&KL—dmin的 QBC 方 法、基于 VE 的 QBC 方法和基于被动学习的分类器 的分类准确性.其中基于 VE 的 QBC 方法选择了 476条样本数据‚分类精度达到81%;基于 VE&KL —dmin的 QBC 方法选择了947条样本数据‚分类精 度达到84%;被动学习方法使用了所有的3743条 样本数据‚分类精度达到84%.三者的比较见图2. 图2 三种学习方法的分类准确率比较图 Fig.2 Comparison of the classification accuracy of three learning methods 图3 信用等级评估模型结构 Fig.3 Structure of the credit rating evaluation model 基于投票熵与最小相对熵相结合的 QBC 方法所建 的信用等级评估模型结构如图3‚图中结点16为信 用等级‚其余结点分别代表付费方式、性别、年龄、在 网时长等其余15个字段. 实验结果显示‚基于投票熵与最小相对熵相结 合的 QBC 方法比基于投票熵的 QBC 方法更好‚能 够达到与被动学习相同的分类准确性‚增加的少量 样本数据有助于分类器性能的提高‚其使用的训练 数据量远远比被动学习要少‚这极大地降低了人为 标注样本标签的工作量. 4 结论 本文根据电信客户信用等级评估的实际情况‚ 提出了采用主动学习方法建立模型‚并提出基于投 票熵与最小相对熵相结合的 QBC 方法.实验结果 显示‚新算法提高了分类器的分类精度‚并且可以大 大减少所需带信用等级类标签的训练样本数量‚有 效地减少电信专家的评估工作量. 参 考 文 献 [1] 中国移动通信集团公司.中国移动经营分析系统业务规范 v2∙0.北京:中国移动通信集团公司‚2002 [2] 宫秀军‚孙建平‚史忠植.主动贝叶斯网络分类器.计算机研究 与发展‚2002‚39(5):574 [3] Riccardi G.Active learning:theory and applications to automatic speech recognition.IEEE Trans Speech Audio Process‚2005‚ 13(4):504 [4] Cohn D A‚Ghahramani Z‚Jordan M I.Active learning with sta￾tistical models.J Artif Intell Res‚1996‚4:129 [5] Lewis D D‚Gale W A.A sequential algorithm for training text classifiers∥ Proceedings of 17th {ACM} International Confer￾ence on Research and Development in Information Retrieval. Dublin:Springer Verlag‚1994:3 [6] Seung H S‚Opper M‚Sompolinsky H.Query by committee∥ Proceedings of the15th Annual ACM Workshop on Computation￾al Learning Theory.California:Morgan Kaufmann‚1992:287 [7] Freund Y‚Seung H S‚Samir E‚et al.Selective sampling using the query-by-committee algorithm.Mach Learn‚1997‚28:133 [8] McCallum A K‚Nigam K.Employing EM and poo-l based active learning for text classification∥Proceeding of the 15th Interna￾tional Conference on Machine Learning.Madison:Morgan Kauf￾mann‚1998:350 [9] Argamon-Engleson S‚Dagan I.Committee-based sample selection for probabilistic classifiers.J Artif Intell Res‚1999‚11:335 第4期 赵 悦等: 基于 QBC 主动学习方法建立电信客户信用风险等级评估模型 ·445·

.446. 北京科技大学学报 第29卷 A credit risk evaluation model for telecom clients based on query-by-committee method of active learning ZHAO Yue),MU Zhichun,DONG Jie,FU Dongmei,HE Wei) 1)Information Engineering School.University of Seience and Technology Beijing.Beijing 100083.China 2)Mathematics and Computer Science School.Central University for Nationality.Beijing 100081,China ABSTRACI Evaluating telecom clients'credit risk rate is classifying their credit risk level.An approach based on active learning was proposed for solving the insufficient labeled data problem in building a credit risk rate clas- sifier.The new QBC(query-by-committee,QBC)method of active learning was presented to improve the clas- sifier s accuracy.By applying the actual telecom clients data in the experiment,the results show that the model built by the new algorithm with less labeled training data can reach the same accuracy as passive learning.This can reduce annotation cost for credit evaluation experts. KEY WORDS telecom clients;credit rating:active learning:vote;Kullback-Leibler divergence (上接第385页) Anisotropic effect of equiaxed dendritic growth in a undercooled molten metal SHAN Hongbin,WA NG Jianguo,HUI Xidong The State Key Laboratory for Advanced Metals and Materials,University of Science and Technology Beijing.Beijing 100083.China ABSTRACT Based on the Karma-Rappel phase field model,the equiaxed dendritic growth and change in tem- perature field in a pure molten metal were numerically simulated at an initial dimensionless supercooling of 0.45. Morphological evolvement of dendrites at various anisotropic coefficients was investigated.The result shows that anisot ropic coefficient significantly affects the dendrite morphology.During dendritic growth,obvious necking phenomenon appears as the anisotropic coefficient is 0.05.The preferred growth direction of dendrites is always kept consistent with that of the highest temperature gradient. KEY WORDS molten metal:dendritic growth;anisotropy;phase field;numerical simulation (上接第412页) Research on the process of diamond coatings containing Si LIU Sutian,LIU Wei,HEI Lifu,TANG Weizhong,LV Fanxiu Materials Science and Engineering School.University of Science and Technology Beijing.Beijing 100083.China ABSTRACT A new process of diamond coatings was explored with H2,CH and D4 as precursors by using mi- crowave plasma chemical vapor deposition technique.The diamond coating containing Si element was deposited on a cemented carbide substrate.This process was attempted to enhance the adhesion of the diamond coating to the substrate.The results reveal that when the flow of D4 is larger than that of CH4 the cellular structure is ob- tained,and the diamond coating with good quality and good adhesion is deposited with a little Si in it only when the flow of D4 is equivalent to that of CH4. KEY WORDS diamond coatings;microwave plasma chemical vapor deposition (MPCVD);octamethylcy- clotetrasiloxane;cemented carbide;adhesion

A credit risk evaluation model for telecom clients based on query-by-committee method of active learning ZHAO Y ue 1‚2)‚MU Zhichun 1)‚DONG Jie 1)‚FU Dongmei 1)‚HE Wei 2) 1) Information Engineering School‚University of Science and Technology Beijing‚Beijing100083‚China 2) Mathematics and Computer Science School‚Central University for Nationality‚Beijing100081‚China ABSTRACT Evaluating telecom clients’credit risk rate is classifying their credit risk level.An approach based on active learning was proposed for solving the insufficient labeled data problem in building a credit risk rate clas￾sifier.The new QBC (query-by-committee‚QBC) method of active learning was presented to improve the clas￾sifier’s accuracy.By applying the actual telecom clients data in the experiment‚the results show that the model built by the new algorithm with less labeled training data can reach the same accuracy as passive learning.This can reduce annotation cost for credit evaluation experts. KEY WORDS telecom clients;credit rating;active learning;vote;Kullback-Leibler divergence (上接第385页) Anisotropic effect of equiaxed dendritic growth in a undercooled molten metal SHA N Hongbin‚WA NG Jianguo‚HUI Xidong The State Key Laboratory for Advanced Metals and Materials‚University of Science and Technology Beijing‚Beijing100083‚China ABSTRACT Based on the Karma-Rappel phase field model‚the equiaxed dendritic growth and change in tem￾perature field in a pure molten metal were numerically simulated at an initial dimensionless supercooling of0∙45. Morphological evolvement of dendrites at various anisotropic coefficients was investigated.The result shows that anisotropic coefficient significantly affects the dendrite morphology.During dendritic growth‚obvious necking phenomenon appears as the anisotropic coefficient is0∙05.The preferred growth direction of dendrites is always kept consistent with that of the highest temperature gradient. KEY WORDS molten metal;dendritic growth;anisotropy;phase field;numerical simulation (上接第412页) Research on the process of diamond coatings containing Si LIU Sutian‚LIU Wei‚HEI L if u‚TA NG Weiz hong‚LV Fanxiu Materials Science and Engineering School‚University of Science and Technology Beijing‚Beijing100083‚China ABSTRACT A new process of diamond coatings was explored with H2‚CH4and D4as precursors by using mi￾crowave plasma chemical vapor deposition technique.The diamond coating containing Si element was deposited on a cemented carbide substrate.This process was attempted to enhance the adhesion of the diamond coating to the substrate.The results reveal that when the flow of D4is larger than that of CH4the cellular structure is ob￾tained‚and the diamond coating with good quality and good adhesion is deposited with a little Si in it only when the flow of D4is equivalent to that of CH4. KEY WORDS diamond coatings;microwave plasma chemical vapor deposition (MPCVD);octamethylcy￾clotetrasiloxane;cemented carbide;adhesion ·446· 北 京 科 技 大 学 学 报 第29卷

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
已到末页,全文结束
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有