基于QBC主动学习方法建立电信客户信用风险等级评估模型

电信客户信用风险等级评估是对电信客户的信用风险进行等级分类.针对建立客户信用风险等级分类模型时,大量带有类标注数据难以获得的问题,提出了基于主动学习的分类器建模方法,并对基于QBC(委员会投票选择)的主动学习算法进行改进以提高分类器的预测精度.通过对实际电信客户数据进行信用风险等级建模实验,结果表明:应用新算法,分类器使用了较少的带类标签样本数据,达到了与被动学习相同的精度,大大降低了信用专家评估数据的工作量.

团购合买资源类别：文库，文档格式：PDF，文档页数：5，文件大小：468.41KB

D0I:10.13374/i.issnl00113.2007.04.016 第29卷第4期北京科技大学学报 Vol.29 No.4 2007年4月 Journal of University of Science and Technology Beijing Apr.2007 基于QBC主动学习方法建立电信客户信用风险等级评估模型赵悦)穆志纯)董洁)付冬梅) 何伟) 1)北京科技大学倍息工程学院，北京1000832)中央民族大学数学与计算机学院，北京100081 摘要电信客户信用风险等级评估是对电信客户的信用风险进行等级分类。针对建立客户信用风险等级分类模型时，大量带有类标注数据难以获得的问题，提出了基于主动学习的分类器建模方法，并对基于QBC(委员会投票选择)的主动学习算法进行改进以提高分类器的预测精度·通过对实际电信客户数据进行信用风险等级建模实验，结果表明：应用新算法，分类器使用了较少的带类标签样本数据，达到了与被动学习相同的精度，大大降低了倍用专家评估数据的工作量关键词电信客户；信用等级：主动学习：投票；相对熵分类号TP301.6 客户信用风险等级是电信企业决策支持系统中多的有价值数据，而导致最终的分类器精度不高，达进行客户行为分析、经营风险分析和客户欺诈分析不到与被动学习相同的精度，的一个重要分析角度，准确评估客户信用风险等本文针对电信客户信用等级评估问题，提出了级，可以解决在复杂的用户消费群体中良莠难辨的利用主动学习方法来建立信用等级分类模型，并提问题，出一种新的基于投票熵和最小相对熵相结合的信用风险等级评估实际上是分类决策问题，为 QBC主动学习方法以提高分类器的预测精度.实了进行分类决策，分类算法从大量的先前数据中学验结果表明，该分类器使用了较少的带类标签样本习分类模型，并用于决定未知客户的信用等级类数据，达到了与被动学习分类器相同的精度. 别西.目前分类算法（如SVM、神经网络、贝叶斯网络等)几乎都采用被动学习方式，它使用给定的大数 1基于QBC的主动学习方法据量训练样本学习分类参数，其训练样本必须带有主动学习基于少量的带类标注训练样本L建类别标注立初始分类器，每次学习过程中分类器可以主动在我国电信行业开展客户信用评估工作刚刚开未带类标注的候选样本集U中选择最有利于分类始，大量带有信用风险等级类标注的历史客户数据器性能的样本e,并将这些样本以一定的方式加入并不存在，因此分类算法通过被动学习方式建立信到训练集中来进一步训练分类器]（如图1），选择用风险等级评估模型并不可行.为了评价客户的信样本的基本思路就是考虑到不同样本其实对最后分用风险等级，只能由领域专家手工评价标注，这是件类器的作用是不一样的，即样本含有的信息量越大，极其耗时和费力的事情。最近几年，一些分类算法对分举界面的确定战重要引入主动学习(active learning),其目的是使用尽可训练数据集( 能少的训练数据来获得较高的分类性能，以减少人 (带类标签数据集分类器候选数据集(U) 工标注样本的代价] 1{e} (木带类标签数据集) 基于委员会投票选择算法(query-by-commit- e tee,QBC)是一种计算复杂度低且容易实现的主动已标注数据学习方法，但是由于其样本评价函数不能选择足够送择策略用户收稿日期：2005-12-20修回日期：2006-04-19 基金项目：北京市教委重点学科共建项目资助和国家民委“十一五” 科研项目(No.072Y07) 图1主动学习的基本原理作者简介：赵悦(1974一)，女，博士研究生：穆志纯(1952一)，男， Fig.I Principle of active learning 教授，博士生导师

基于 QBC 主动学习方法建立电信客户信用风险等级评估模型赵悦12）穆志纯1）董洁1）付冬梅1）何伟2） 1）北京科技大学信息工程学院北京100083 2）中央民族大学数学与计算机学院北京100081 摘要电信客户信用风险等级评估是对电信客户的信用风险进行等级分类．针对建立客户信用风险等级分类模型时大量带有类标注数据难以获得的问题提出了基于主动学习的分类器建模方法并对基于 QBC（委员会投票选择）的主动学习算法进行改进以提高分类器的预测精度．通过对实际电信客户数据进行信用风险等级建模实验结果表明：应用新算法分类器使用了较少的带类标签样本数据达到了与被动学习相同的精度大大降低了信用专家评估数据的工作量．关键词电信客户；信用等级；主动学习；投票；相对熵分类号 TP301∙6 收稿日期：20051220 修回日期：20060419 基金项目：北京市教委重点学科共建项目资助和国家民委“十一五” 科研项目（No．07ZY07）作者简介：赵悦（1974—）女博士研究生；穆志纯（1952—）男教授博士生导师客户信用风险等级是电信企业决策支持系统中进行客户行为分析、经营风险分析和客户欺诈分析的一个重要分析角度．准确评估客户信用风险等级可以解决在复杂的用户消费群体中良莠难辨的问题．信用风险等级评估实际上是分类决策问题．为了进行分类决策分类算法从大量的先前数据中学习分类模型并用于决定未知客户的信用等级类别［1］．目前分类算法（如 SVM、神经网络、贝叶斯网络等）几乎都采用被动学习方式它使用给定的大数据量训练样本学习分类参数其训练样本必须带有类别标注．我国电信行业开展客户信用评估工作刚刚开始大量带有信用风险等级类标注的历史客户数据并不存在因此分类算法通过被动学习方式建立信用风险等级评估模型并不可行．为了评价客户的信用风险等级只能由领域专家手工评价标注这是件极其耗时和费力的事情．最近几年一些分类算法引入主动学习（active learning）其目的是使用尽可能少的训练数据来获得较高的分类性能以减少人工标注样本的代价［2］．基于委员会投票选择算法（query-by-committeeQBC）是一种计算复杂度低且容易实现的主动学习方法但是由于其样本评价函数不能选择足够多的有价值数据而导致最终的分类器精度不高达不到与被动学习相同的精度．本文针对电信客户信用等级评估问题提出了利用主动学习方法来建立信用等级分类模型并提出一种新的基于投票熵和最小相对熵相结合的 QBC 主动学习方法以提高分类器的预测精度．实验结果表明该分类器使用了较少的带类标签样本数据达到了与被动学习分类器相同的精度． 1 基于 QBC 的主动学习方法主动学习基于少量的带类标注训练样本 L 建立初始分类器每次学习过程中分类器可以主动在未带类标注的候选样本集 U 中选择最有利于分类器性能的样本 ei并将这些样本以一定的方式加入到训练集中来进一步训练分类器［3］（如图1）．选择样本的基本思路就是考虑到不同样本其实对最后分类器的作用是不一样的即样本含有的信息量越大对分类界面的确定越重要．图1 主动学习的基本原理 Fig．1 Principle of active learning 第29卷第4期 2007年 4月北京科技大学学报 Journal of University of Science and Technology Beijing Vol．29No．4 Apr．2007 DOI:10．13374／j．issn1001－053x．2007．04．016

第4期赵悦等：基于QBC主动学习方法建立电信客户信用风险等级评估模型 .443. Cohn选择样本的策略是选择使得当前分类器样委员会成员类投票不一致的样本，这样的样本正对测试集分类误差最小的例子作为候选样本，这是QBC算法原理所要选择的例子，种算法在选择样本之前需要搜索整个样本空间，对表1委员会成员对样本的类投票结果于大数据量的未带类标注样本集，其计算的复杂度 Table 1 Results of committee's class vote for unlabeled examples 相当高，实际并不可行.Lewis使用了一个分类器选委员会成员 e2 e3 择类后验概率接近0.5的样本加入训练集]，即每 1 0.52(c1) 0.72(c2) 0.60(c2) 次选择分类器最不确定的样本加入训练集，由于该 2 0.58(c2) 0.60(c1) 0.70(c2) 方法易于选择奇异点(outlier)数据，使得分类器的分类误差加大.为了更好地评价样本价值，Seung6] 表2样本的类投票熵和相对熵和Freund[门提出了委员会投票选择算法，该方法并 Table 2 KL-divergence and vote entropy (VE)of examples 样本 VE KL d 不直接计算分类误差，而是首先根据已有的类标签数据建立两个或多个分类器，组成“委员会”，利用这 e1 1 0.005(漏选) e2 1 0.052 个委员会对预测样本进行标注投票，然后选择投票 0 0.006 最不一致的样本作为候选样本，这种方法能够把含信息量丰富的样本加入到训练集中，不需要检测整然而，投票熵(VE)虽然选择了投票不一致的例个样本空间，因此计算复杂度相对较低，学习速度子，但是并未考虑成员对样本的类条件概率值，即快，能够使用很少的训练样本达到给定的分类精度， Pm(C;e:),这同样会导致漏选一些信息量丰富的目前有两种QBC方法，一种是基于相对熵来度量委员会投票差异⑧]D(e),计算公式为：样本数据，这些样本包含有助于分类的信息，因此，以上两种度量都会导致最后的分类器分类精度不 pe)kgp[P.(cle)lPcle】高，达不到与被动学习相同的精度，为了进一步提高QBC算法学习的准确性，笔者 (1) 提出了一种新的基于投票嫡和最小相对熵相结合的其中，C是样本e:的所有可能的类别集合C=ic}, K是委员会成员的数目，Pmg(Ce:)是所有委员会 QBC算法. 成员类条件概率的平均值： 2一种新的基于QBC的主动学习方 Pxa(Cle)= ∑Pn(cle)/K (2) 法 D(·‖·)是两个条件概率分布的信息度量，计算公首先分析用投票熵度量委员会成员投票不一致式为：性可能导致漏选的样本，假设有4个委员会成员， D(P1(C)‖P2(C))= 兰P(ghc) 对4个未带类标注的样本进行预测，预测的类别有两个. 另一种是使用投票熵来度量D(e)),其计算利用式(4)计算投票熵，度量类投票的不一致性公式为： D(e:)·同时，考虑成员对样本的类条件概率值 D(e)= Pm(ce:),重新定义相对熵，使其度量成员对样本分类的不确定性程度，相对熵越小，说明成员对样 In min(K,I cl) v(e.ein y(c (4) K In K 本分类的不确定程度越高，取成员中对样本分类相其中，V(c,e:)为委员会成员对样本e:的类别c投对熵的最小值，得到KL dmin(e:),其计算公式如下：票的数目· KL dmin（ei)= 用表1和表2说明两种度量方法对样本的评价 Pm(ce）言P.()n P) (5) 结果，其中委员会成员2个，样本数据3个，两类分问题，表1中的数据为委员会成员(model)对样本其中， (example)的类投票结果，表2是每个样本的类投票熵(VE)和相对熵(KLd)的比较.从表2中可以看到，e1和e3的KLd值较接近，但是e1的VE值为 2.max[P(cilei)]=1 l(投票最不一致)，KLd度量方法漏选了像e1这 (cl-num-zero),max[P(cilei)]1

Cohn 选择样本的策略是选择使得当前分类器对测试集分类误差最小的例子作为候选样本［4］这种算法在选择样本之前需要搜索整个样本空间对于大数据量的未带类标注样本集其计算的复杂度相当高实际并不可行．Lewis 使用了一个分类器选择类后验概率接近0∙5的样本加入训练集［5］即每次选择分类器最不确定的样本加入训练集．由于该方法易于选择奇异点（outlier）数据使得分类器的分类误差加大．为了更好地评价样本价值Seung ［6］和 Freund ［7］提出了委员会投票选择算法．该方法并不直接计算分类误差而是首先根据已有的类标签数据建立两个或多个分类器组成“委员会”利用这个委员会对预测样本进行标注投票然后选择投票最不一致的样本作为候选样本．这种方法能够把含信息量丰富的样本加入到训练集中不需要检测整个样本空间因此计算复杂度相对较低学习速度快能够使用很少的训练样本达到给定的分类精度．目前有两种 QBC 方法．一种是基于相对熵来度量委员会投票差异［8］ D（ei）计算公式为： D（ei）＝ 1 K ∑ K m＝1 D［ Pm（C｜ei）‖Pavg（C｜ei）］（1）其中C 是样本 ei 的所有可能的类别集合 C＝｛cj｝ K 是委员会成员的数目Pavg （ C｜ei）是所有委员会成员类条件概率的平均值： Pavg（C｜ei）＝ ∑m Pm（C｜ei）／K （2） D（·‖·）是两个条件概率分布的信息度量计算公式为： D（P1（C）‖P2（C））＝ ∑ |C| j＝1 P1（ cj）ln P1（ cj） P2（ cj）（3）另一种是使用投票熵来度量 D（ ei）［9］其计算公式为： D（ei）＝ — 1 ln min（ K｜C｜） ∑C V （ cei） K ln V （ cei） K （4）其中V （ cei）为委员会成员对样本 ei 的类别 c 投票的数目．用表1和表2说明两种度量方法对样本的评价结果．其中委员会成员2个样本数据3个两类分问题．表1中的数据为委员会成员（model）对样本（example）的类投票结果表2是每个样本的类投票熵（VE）和相对熵（KL—d）的比较．从表2中可以看到e1 和 e3 的 KL—d 值较接近但是 e1 的 VE 值为 1（投票最不一致）KL—d 度量方法漏选了像 e1 这样委员会成员类投票不一致的样本这样的样本正是 QBC 算法原理所要选择的例子．表1 委员会成员对样本的类投票结果 Table1 Results of committee’s class vote for unlabeled examples 委员会成员 e1 e2 e3 1 0∙52（ c1） 0∙72（ c2） 0∙60（ c2） 2 0∙58（ c2） 0∙60（ c1） 0∙70（ c2）表2 样本的类投票熵和相对熵 Table2 KL－divergence and vote entropy （VE） of examples 样本 VE KL—d e1 1 0∙005（漏选） e2 1 0∙052 e3 0 0∙006 然而投票熵（VE）虽然选择了投票不一致的例子但是并未考虑成员对样本的类条件概率值即 Pm（Cj｜ei）．这同样会导致漏选一些信息量丰富的样本数据这些样本包含有助于分类的信息．因此以上两种度量都会导致最后的分类器分类精度不高达不到与被动学习相同的精度．为了进一步提高 QBC 算法学习的准确性笔者提出了一种新的基于投票熵和最小相对熵相结合的 QBC 算法． 2 一种新的基于 QBC 的主动学习方法首先分析用投票熵度量委员会成员投票不一致性可能导致漏选的样本．假设有4个委员会成员对4个未带类标注的样本进行预测预测的类别有两个．利用式（4）计算投票熵度量类投票的不一致性 D（ ei）．同时考虑成员对样本的类条件概率值 Pm（ cj｜ei）重新定义相对熵使其度量成员对样本分类的不确定性程度．相对熵越小说明成员对样本分类的不确定程度越高取成员中对样本分类相对熵的最小值得到 KL—dmin（ei）其计算公式如下： KL—dmin（ei）＝ min K m＝1 ∑ |c| j＝1 Pm（ cj｜ei）ln Pm（ cj｜ei） Pm— avg（C｜ei）（5）其中 Pm— avg（C｜ei）＝ ∑ |c| j＝1 Pm（ cj｜ei）／l l＝ 2max ［ Pm（ cj｜ei）］＝1 （｜c｜—num—zero）max ［ Pm（ cj｜ei）］≠1 第4期赵悦等：基于 QBC 主动学习方法建立电信客户信用风险等级评估模型 ·443·

.444 北京科技大学学报第29卷 Pm-awg(Ce)为样本的类条件概率分布的平均值， c)1; num-zero为Pm(ce:)为0的数目未带类别标注的候选样本集：U= 表3中的数据为委员会成员对样本的类投票结 {e:(M《N); 果，表4是每个样本的类投票熵和最小相对熵的比选择停止的条件：S; 较，从表4中可以看到，e1和e4的投票熵都为0（投投票嫡的阈值：0；票一致)，但是前者的KL一dmim值与e2和e3的值相 KL一dmin(e:)的阈值：a. 当，即委员会中有对e1的分类不确定性程度相当高 While not s 的成员，Lewis和Gale在基于不确定性抽样选择的主动学习研究中指出，被分类器分类不确定的样 (1)在L上使用Bagging方法，得到K个子本所含的信息量是丰富的，有利于分类器的构建，应集L1,L2,…,L,分别在L1,L2,…,L运行A,获当被选入训练集中，但是，基于投票熵的QBC算法得K个分类器{h1,,hx{; 漏选了这样的样本数据 (2)对于e∈U用{h1,…,hk预测其类标表3委员会成员对样本的类投票结果注iC1,…,Ch}; Table 3 Results of committee's class vote for unlabeled examples (3)利用式(4)计算D(e:): 委员会成员 e2 e3 es (4)如果D(e)>0,从U中选择e,获得 1 0.55(c1)0.45(c2)0.48(c1)0.80(c2) e的真实类别c:,并加入到L中，使L= 2 0.55(c1) 0.45(c2）0.75(c2) 0.90(c2) L (ei,ci): 3 0.60(c1）0.55(c1) 0.85(c2）0.75(c2) (5)如果D(e)≤6，利用式(5)计算KL 0.60(c1)0.55(c1)0.95(c2)0.85(c2) dmin(ei); 表4每个样本的类投票熵和最小相对熵 (6)如果KL dmin满足a,从U中选择e,获 Table 4 Minimum KL-divergence and vote entropy of examples 得e:的真实类别ci,并加入到L中，使L={L, 样本 VE KL一dmia 样本 VE KL一dna (ei,ci): 0.0(漏选) 0.005 es 0.81 0 (7)在L上学习分类器H,在测试集上计算 e2 1.0 0.005 e4 0.0 0.1308 其分类精度因此，结合投票熵和最小相对熵，笔者提出了新 Output:最终分类器H. 的QBC算法，算法首先根据已标注样本集L学习 K个初始分类器，在每次迭代过程中K个初始分类 3 实验结果器对任一未标注样本预测其类别并得到其类条件概使用某省移动通信公司2001年1一5月份的率分布Pm(C|e:),根据式(4)计算D(e:),如果 33512条客户数据进行信用等级分类的建模，电信 D(e:)大于某阈值，则把该未标注样本提交用户进专家根据客户的基本情况、缴欠费记录和呼叫行为行标定并将其加入到L;否则，根据式(5)计算KL一记录对客户的信用等级进行了评估，信用等级分为 dmin(ei),如果KL一dmin(ei)满足某阈值条件，则把该 4个级别.把其中4755条数据作为训练数据，把这未标注样本提交用户进行标定并将其加入到L·重个数据集再分为两个部分，其中3743条记录看作复以上过程，直到分类器达到预定精度或未带类标主动学习过程中的未带类别标注的候选样本集，另注的候选样本集U为空. 外1012条记录看作少量带有类别标注的样本集，新算法不但考虑了投票不一致的样本数据，而用这个数据集学习两个初始分类器.测试数据集为且对投票一致的样本数据进一步评价，把其中含有 28757条客户记录，可用的样本数据属性共有分类信息丰富的样本数据也选入训练集中，避免了 23个，使用双变量统计选取了付费方式、性别、年漏选有用的样本，这提高了分类器的精度，其具体算龄、在网时长、欠费状态、地区、月租费、市话费、漫游法如下费、长话费等16个字段参与建模，并且对连续字段 Input:分类算法：A; 进行了离散化，委员会成员数目：K; 委员会成员为2个，底层分类算法采用TAN 少量带有类别标注的样本集：L={(e, 贝叶斯网络分类器，对于4类分问题且2个委员会

Pm— avg（C｜ei）为样本的类条件概率分布的平均值 num—zero为 Pm（ cj｜ei）为0的数目．表3中的数据为委员会成员对样本的类投票结果表4是每个样本的类投票熵和最小相对熵的比较．从表4中可以看到e1 和 e4 的投票熵都为0（投票一致）但是前者的 KL—dmin值与 e2 和 e3 的值相当即委员会中有对 e1 的分类不确定性程度相当高的成员．Lewis 和 Gale ［5］在基于不确定性抽样选择的主动学习研究中指出被分类器分类不确定的样本所含的信息量是丰富的有利于分类器的构建应当被选入训练集中．但是基于投票熵的 QBC 算法漏选了这样的样本数据．表3 委员会成员对样本的类投票结果 Table3 Results of committee’s class vote for unlabeled examples 委员会成员 e1 e2 e3 e4 1 0∙55（ c1） 0∙45（ c2） 0∙48（ c1） 0∙80（ c2） 2 0∙55（ c1） 0∙45（ c2） 0∙75（ c2） 0∙90（ c2） 3 0∙60（ c1） 0∙55（ c1） 0∙85（ c2） 0∙75（ c2） 4 0∙60（ c1） 0∙55（ c1） 0∙95（ c2） 0∙85（ c2）表4 每个样本的类投票熵和最小相对熵 Table4 Minimum KL－divergence and vote entropy of examples 样本 VE KL—dmin e1 0∙0（漏选） 0∙005 e2 1∙0 0∙005 样本 VE KL—dmin e3 0∙81 0 e4 0∙0 0∙1308 因此结合投票熵和最小相对熵笔者提出了新的 QBC 算法．算法首先根据已标注样本集 L 学习 K 个初始分类器在每次迭代过程中 K 个初始分类器对任一未标注样本预测其类别并得到其类条件概率分布 Pm （ C｜ei）根据式（4）计算 D（ ei）．如果 D（ei）大于某阈值则把该未标注样本提交用户进行标定并将其加入到 L；否则根据式（5）计算 KL— dmin（ei）如果 KL—dmin（ei）满足某阈值条件则把该未标注样本提交用户进行标定并将其加入到 L．重复以上过程直到分类器达到预定精度或未带类标注的候选样本集 U 为空．新算法不但考虑了投票不一致的样本数据而且对投票一致的样本数据进一步评价把其中含有分类信息丰富的样本数据也选入训练集中避免了漏选有用的样本这提高了分类器的精度其具体算法如下． Input：分类算法：A；委员会成员数目：K；少量带有类别标注的样本集：L ＝｛（ e′i c′i）｝M ′i ＝1；未带类别标注的候选样本集：U ＝｛ei｝N i＝1（ M≪ N））；选择停止的条件：ζ；投票熵的阈值：θ； KL—dmin（ei）的阈值：α． While not ζ ｛（1）在 L 上使用 Bagging 方法得到 K 个子集 L 1L 2…L K分别在 L 1L 2…L K 运行 A获得 K 个分类器｛h1…hK｝；（2）对于 e ∗ i ∈ U 用｛h1…hK｝预测其类标注｛C1…Ch｝；（3）利用式（4）计算 D（e ∗ i ）；（4）如果 D（e ∗ i ）＞θ从 U 中选择 e ∗ i 获得 e ∗ i 的真实类别 c ∗ i 并加入到 L 中使 L ＝｛L（e ∗ i c ∗ i ）｝；（5）如果 D（e ∗ i ）≤θ利用式（5）计算 KL— dmin（e ∗ i ）；（6）如果 KL—dmin满足α从 U 中选择e ∗ i 获得 e ∗ i 的真实类别 c ∗ i 并加入到 L 中使 L ＝｛L （e ∗ i c ∗ i ）｝；（7）在 L 上学习分类器 H在测试集上计算其分类精度．｝ Output：最终分类器 H． 3 实验结果使用某省移动通信公司2001年1—5月份的 33512条客户数据进行信用等级分类的建模．电信专家根据客户的基本情况、缴欠费记录和呼叫行为记录对客户的信用等级进行了评估信用等级分为 4个级别．把其中4755条数据作为训练数据把这个数据集再分为两个部分其中3743条记录看作主动学习过程中的未带类别标注的候选样本集另外1012条记录看作少量带有类别标注的样本集用这个数据集学习两个初始分类器．测试数据集为 28757条客户记录．可用的样本数据属性共有 23个使用双变量统计选取了付费方式、性别、年龄、在网时长、欠费状态、地区、月租费、市话费、漫游费、长话费等16个字段参与建模并且对连续字段进行了离散化．委员会成员为2个底层分类算法采用 TAN 贝叶斯网络分类器对于4类分问题且2个委员会 ·444· 北京科技大学学报第29卷

第4期赵悦等：基于QBC主动学习方法建立电信客户信用风险等级评估模型 .445 成员，其投票熵取值为[0,0.5,1]，其中0为投票一基于投票熵与最小相对熵相结合的QBC方法所建致，0.5为一个投票一个弃权，1为投票不一致，故本的信用等级评估模型结构如图3，图中结点16为信实验投票熵阈值取大于0.5，a>一0.0031并且用等级，其余结点分别代表付费方式、性别、年龄、在 a84%或实验结果显示，基于投票熵与最小相对熵相结 U为空合的QBC方法比基于投票熵的QBC方法更好，能为了验证本文提出的基于投票熵与最小相对熵够达到与被动学习相同的分类准确性，增加的少量相结合(VE&KL一dmim)的QBC方法对分类器性能样本数据有助于分类器性能的提高，其使用的训练的影响，实验比较了基于VE&KL一dmin的QBC方数据量远远比被动学习要少，这极大地降低了人为法、基于VE的QBC方法和基于被动学习的分类器标注样本标签的工作量的分类准确性.其中基于VE的QBC方法选择了 476条样本数据，分类精度达到81%：基于VE&KL 4结论 dmin的QBC方法选择了947条样本数据，分类精本文根据电信客户信用等级评估的实际情况，度达到84%：被动学习方法使用了所有的3743条提出了采用主动学习方法建立模型，并提出基于投样本数据，分类精度达到84%.三者的比较见图2. 票熵与最小相对熵相结合的QBC方法，实验结果 0.90 显示，新算法提高了分类器的分类精度，并且可以大 0.85 大减少所需带信用等级类标签的训练样本数量，有 0.80 效地减少电信专家的评估工作量， 0.75 0.10 -·VE 参考文献一VE&KL-dmm 一被动学习 0.65 [1]中国移动通信集团公司·中国移动经营分析系统业务规范 2.0.北京：中国移动通信集团公司，2002 0.60 0.550 [2]宫秀军，孙建平，史忠植·主动贝叶斯网络分类器.计算机研究 1000 2000 30004000 与发展，2002,39(5)：574 样本数据条数 [3]Riccardi G.Active learning:theory and applications to automatic speech recognition.IEEE Trans Speech Audio Process.2005. 图2三种学习方法的分类准确率比较图 13(4):504 Fig.2 Comparison of the classification accuracy of three learning [4]Cohn D A,Ghahramani Z,Jordan M I.Active learning with sta- methods tistical models.J Artif Intell Res,1996,4:129 [5]Lewis DD.Gale W A.A sequential algorithm for training text classifiers//Proceedings of 17th (ACM)International Confer- 15 ence on Research and Development in Information Retrieval. Dublin:Springer Verlag.1994:3 13 [6]Seung HS,Opper M,Sompolinsky H.Query by committee// Proceedings of the 15th Annual ACM Workshop on Computation al Learning Theory.California:Morgan Kaufmann,1992:287 [7]Freund Y,Seung HS,Samir E,et al.Selective sampling using the query-by committee algorithm.Mach Learn.1997,28:133 ① [8]McCallum A K,Nigam K.Employing EM and pool-based active learning for text classification//Proceeding of the 15th Interna ⑩ tional Conference on Machine Learning Madison:Morgan Kauf- mann,1998,350 图3信用等级评估模型结构 [9]Argamon-Engleson S,Dagan I.Committee-based sample selection Fig.3 Structure of the credit rating evaluation model for probabilistic classifiers.J Artif Intell Res.1999,11:335

成员其投票熵取值为［00∙51］其中0为投票一致0∙5为一个投票一个弃权1为投票不一致故本实验投票熵阈值取大于0∙5α＞—0∙0031并且 α＜0∙05（α值接近于零即最小相对熵越小分类不确定性越高）停止条件 ζ为分类器精度＞84％或 U 为空．为了验证本文提出的基于投票熵与最小相对熵相结合（VE＆KL—dmin）的 QBC 方法对分类器性能的影响实验比较了基于 VE＆KL—dmin的 QBC 方法、基于 VE 的 QBC 方法和基于被动学习的分类器的分类准确性．其中基于 VE 的 QBC 方法选择了 476条样本数据分类精度达到81％；基于 VE＆KL —dmin的 QBC 方法选择了947条样本数据分类精度达到84％；被动学习方法使用了所有的3743条样本数据分类精度达到84％．三者的比较见图2．图2 三种学习方法的分类准确率比较图 Fig．2 Comparison of the classification accuracy of three learning methods 图3 信用等级评估模型结构 Fig．3 Structure of the credit rating evaluation model 基于投票熵与最小相对熵相结合的 QBC 方法所建的信用等级评估模型结构如图3图中结点16为信用等级其余结点分别代表付费方式、性别、年龄、在网时长等其余15个字段．实验结果显示基于投票熵与最小相对熵相结合的 QBC 方法比基于投票熵的 QBC 方法更好能够达到与被动学习相同的分类准确性增加的少量样本数据有助于分类器性能的提高其使用的训练数据量远远比被动学习要少这极大地降低了人为标注样本标签的工作量． 4 结论本文根据电信客户信用等级评估的实际情况提出了采用主动学习方法建立模型并提出基于投票熵与最小相对熵相结合的 QBC 方法．实验结果显示新算法提高了分类器的分类精度并且可以大大减少所需带信用等级类标签的训练样本数量有效地减少电信专家的评估工作量．参考文献［1］中国移动通信集团公司．中国移动经营分析系统业务规范 v2∙0．北京：中国移动通信集团公司2002 ［2］宫秀军孙建平史忠植．主动贝叶斯网络分类器．计算机研究与发展200239（5）：574 ［3］ Riccardi G．Active learning：theory and applications to automatic speech recognition．IEEE Trans Speech Audio Process2005 13（4）：504 ［4］ Cohn D AGhahramani ZJordan M I．Active learning with statistical models．J Artif Intell Res19964：129 ［5］ Lewis D DGale W A．A sequential algorithm for training text classifiers∥ Proceedings of 17th ｛ACM｝ International Conference on Research and Development in Information Retrieval． Dublin：Springer Verlag1994：3 ［6］ Seung H SOpper MSompolinsky H．Query by committee∥ Proceedings of the15th Annual ACM Workshop on Computational Learning Theory．California：Morgan Kaufmann1992：287 ［7］ Freund YSeung H SSamir Eet al．Selective sampling using the query-by-committee algorithm．Mach Learn199728：133 ［8］ McCallum A KNigam K．Employing EM and poo-l based active learning for text classification∥Proceeding of the 15th International Conference on Machine Learning．Madison：Morgan Kaufmann1998：350 ［9］ Argamon-Engleson SDagan I．Committee-based sample selection for probabilistic classifiers．J Artif Intell Res199911：335 第4期赵悦等：基于 QBC 主动学习方法建立电信客户信用风险等级评估模型 ·445·

.446. 北京科技大学学报第29卷 A credit risk evaluation model for telecom clients based on query-by-committee method of active learning ZHAO Yue),MU Zhichun,DONG Jie,FU Dongmei,HE Wei) 1)Information Engineering School.University of Seience and Technology Beijing.Beijing 100083.China 2)Mathematics and Computer Science School.Central University for Nationality.Beijing 100081,China ABSTRACI Evaluating telecom clients'credit risk rate is classifying their credit risk level.An approach based on active learning was proposed for solving the insufficient labeled data problem in building a credit risk rate clas- sifier.The new QBC(query-by-committee,QBC)method of active learning was presented to improve the clas- sifier s accuracy.By applying the actual telecom clients data in the experiment,the results show that the model built by the new algorithm with less labeled training data can reach the same accuracy as passive learning.This can reduce annotation cost for credit evaluation experts. KEY WORDS telecom clients;credit rating:active learning:vote;Kullback-Leibler divergence (上接第385页) Anisotropic effect of equiaxed dendritic growth in a undercooled molten metal SHAN Hongbin,WA NG Jianguo,HUI Xidong The State Key Laboratory for Advanced Metals and Materials,University of Science and Technology Beijing.Beijing 100083.China ABSTRACT Based on the Karma-Rappel phase field model,the equiaxed dendritic growth and change in tem- perature field in a pure molten metal were numerically simulated at an initial dimensionless supercooling of 0.45. Morphological evolvement of dendrites at various anisotropic coefficients was investigated.The result shows that anisot ropic coefficient significantly affects the dendrite morphology.During dendritic growth,obvious necking phenomenon appears as the anisotropic coefficient is 0.05.The preferred growth direction of dendrites is always kept consistent with that of the highest temperature gradient. KEY WORDS molten metal:dendritic growth;anisotropy;phase field;numerical simulation (上接第412页) Research on the process of diamond coatings containing Si LIU Sutian,LIU Wei,HEI Lifu,TANG Weizhong,LV Fanxiu Materials Science and Engineering School.University of Science and Technology Beijing.Beijing 100083.China ABSTRACT A new process of diamond coatings was explored with H2,CH and D4 as precursors by using mi- crowave plasma chemical vapor deposition technique.The diamond coating containing Si element was deposited on a cemented carbide substrate.This process was attempted to enhance the adhesion of the diamond coating to the substrate.The results reveal that when the flow of D4 is larger than that of CH4 the cellular structure is ob- tained,and the diamond coating with good quality and good adhesion is deposited with a little Si in it only when the flow of D4 is equivalent to that of CH4. KEY WORDS diamond coatings;microwave plasma chemical vapor deposition (MPCVD);octamethylcy- clotetrasiloxane;cemented carbide;adhesion

A credit risk evaluation model for telecom clients based on query-by-committee method of active learning ZHAO Y ue 12）MU Zhichun 1）DONG Jie 1）FU Dongmei 1）HE Wei 2） 1） Information Engineering SchoolUniversity of Science and Technology BeijingBeijing100083China 2） Mathematics and Computer Science SchoolCentral University for NationalityBeijing100081China ABSTRACT Evaluating telecom clients’credit risk rate is classifying their credit risk level．An approach based on active learning was proposed for solving the insufficient labeled data problem in building a credit risk rate classifier．The new QBC （query-by-committeeQBC） method of active learning was presented to improve the classifier’s accuracy．By applying the actual telecom clients data in the experimentthe results show that the model built by the new algorithm with less labeled training data can reach the same accuracy as passive learning．This can reduce annotation cost for credit evaluation experts． KEY WORDS telecom clients；credit rating；active learning；vote；Kullback-Leibler divergence （上接第385页） Anisotropic effect of equiaxed dendritic growth in a undercooled molten metal SHA N HongbinWA NG JianguoHUI Xidong The State Key Laboratory for Advanced Metals and MaterialsUniversity of Science and Technology BeijingBeijing100083China ABSTRACT Based on the Karma-Rappel phase field modelthe equiaxed dendritic growth and change in temperature field in a pure molten metal were numerically simulated at an initial dimensionless supercooling of0∙45． Morphological evolvement of dendrites at various anisotropic coefficients was investigated．The result shows that anisotropic coefficient significantly affects the dendrite morphology．During dendritic growthobvious necking phenomenon appears as the anisotropic coefficient is0∙05．The preferred growth direction of dendrites is always kept consistent with that of the highest temperature gradient． KEY WORDS molten metal；dendritic growth；anisotropy；phase field；numerical simulation （上接第412页） Research on the process of diamond coatings containing Si LIU SutianLIU WeiHEI L if uTA NG Weiz hongLV Fanxiu Materials Science and Engineering SchoolUniversity of Science and Technology BeijingBeijing100083China ABSTRACT A new process of diamond coatings was explored with H2CH4and D4as precursors by using microwave plasma chemical vapor deposition technique．The diamond coating containing Si element was deposited on a cemented carbide substrate．This process was attempted to enhance the adhesion of the diamond coating to the substrate．The results reveal that when the flow of D4is larger than that of CH4the cellular structure is obtainedand the diamond coating with good quality and good adhesion is deposited with a little Si in it only when the flow of D4is equivalent to that of CH4． KEY WORDS diamond coatings；microwave plasma chemical vapor deposition （MPCVD）；octamethylcyclotetrasiloxane；cemented carbide；adhesion ·446· 北京科技大学学报第29卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录