基于 QBC 主动学习方法建立电信客户信用风险等级评估模型赵悦12

正在加载图片...

D0I:10.13374/i.issnl00113.2007.04.016 第29卷第4期北京科技大学学报 Vol.29 No.4 2007年4月 Journal of University of Science and Technology Beijing Apr.2007 基于QBC主动学习方法建立电信客户信用风险等级评估模型赵悦)穆志纯)董洁)付冬梅) 何伟) 1)北京科技大学倍息工程学院，北京1000832)中央民族大学数学与计算机学院，北京100081 摘要电信客户信用风险等级评估是对电信客户的信用风险进行等级分类。针对建立客户信用风险等级分类模型时，大量带有类标注数据难以获得的问题，提出了基于主动学习的分类器建模方法，并对基于QBC(委员会投票选择)的主动学习算法进行改进以提高分类器的预测精度·通过对实际电信客户数据进行信用风险等级建模实验，结果表明：应用新算法，分类器使用了较少的带类标签样本数据，达到了与被动学习相同的精度，大大降低了倍用专家评估数据的工作量关键词电信客户；信用等级：主动学习：投票；相对熵分类号TP301.6 客户信用风险等级是电信企业决策支持系统中多的有价值数据，而导致最终的分类器精度不高，达进行客户行为分析、经营风险分析和客户欺诈分析不到与被动学习相同的精度，的一个重要分析角度，准确评估客户信用风险等本文针对电信客户信用等级评估问题，提出了级，可以解决在复杂的用户消费群体中良莠难辨的利用主动学习方法来建立信用等级分类模型，并提问题，出一种新的基于投票熵和最小相对熵相结合的信用风险等级评估实际上是分类决策问题，为 QBC主动学习方法以提高分类器的预测精度.实了进行分类决策，分类算法从大量的先前数据中学验结果表明，该分类器使用了较少的带类标签样本习分类模型，并用于决定未知客户的信用等级类数据，达到了与被动学习分类器相同的精度. 别西.目前分类算法（如SVM、神经网络、贝叶斯网络等)几乎都采用被动学习方式，它使用给定的大数 1基于QBC的主动学习方法据量训练样本学习分类参数，其训练样本必须带有主动学习基于少量的带类标注训练样本L建类别标注立初始分类器，每次学习过程中分类器可以主动在我国电信行业开展客户信用评估工作刚刚开未带类标注的候选样本集U中选择最有利于分类始，大量带有信用风险等级类标注的历史客户数据器性能的样本e,并将这些样本以一定的方式加入并不存在，因此分类算法通过被动学习方式建立信到训练集中来进一步训练分类器]（如图1），选择用风险等级评估模型并不可行.为了评价客户的信样本的基本思路就是考虑到不同样本其实对最后分用风险等级，只能由领域专家手工评价标注，这是件类器的作用是不一样的，即样本含有的信息量越大，极其耗时和费力的事情。最近几年，一些分类算法对分举界面的确定战重要引入主动学习(active learning),其目的是使用尽可训练数据集( 能少的训练数据来获得较高的分类性能，以减少人 (带类标签数据集分类器候选数据集(U) 工标注样本的代价] 1{e} (木带类标签数据集) 基于委员会投票选择算法(query-by-commit- e tee,QBC)是一种计算复杂度低且容易实现的主动已标注数据学习方法，但是由于其样本评价函数不能选择足够送择策略用户收稿日期：2005-12-20修回日期：2006-04-19 基金项目：北京市教委重点学科共建项目资助和国家民委“十一五” 科研项目(No.072Y07) 图1主动学习的基本原理作者简介：赵悦(1974一)，女，博士研究生：穆志纯(1952一)，男， Fig.I Principle of active learning 教授，博士生导师基于 QBC 主动学习方法建立电信客户信用风险等级评估模型赵悦12）穆志纯1）董洁1）付冬梅1）何伟2） 1）北京科技大学信息工程学院北京100083 2）中央民族大学数学与计算机学院北京100081 摘要电信客户信用风险等级评估是对电信客户的信用风险进行等级分类．针对建立客户信用风险等级分类模型时大量带有类标注数据难以获得的问题提出了基于主动学习的分类器建模方法并对基于 QBC（委员会投票选择）的主动学习算法进行改进以提高分类器的预测精度．通过对实际电信客户数据进行信用风险等级建模实验结果表明：应用新算法分类器使用了较少的带类标签样本数据达到了与被动学习相同的精度大大降低了信用专家评估数据的工作量．关键词电信客户；信用等级；主动学习；投票；相对熵分类号 TP301∙6 收稿日期：20051220 修回日期：20060419 基金项目：北京市教委重点学科共建项目资助和国家民委“十一五” 科研项目（No．07ZY07）作者简介：赵悦（1974—）女博士研究生；穆志纯（1952—）男教授博士生导师客户信用风险等级是电信企业决策支持系统中进行客户行为分析、经营风险分析和客户欺诈分析的一个重要分析角度．准确评估客户信用风险等级可以解决在复杂的用户消费群体中良莠难辨的问题．信用风险等级评估实际上是分类决策问题．为了进行分类决策分类算法从大量的先前数据中学习分类模型并用于决定未知客户的信用等级类别［1］．目前分类算法（如 SVM、神经网络、贝叶斯网络等）几乎都采用被动学习方式它使用给定的大数据量训练样本学习分类参数其训练样本必须带有类别标注．我国电信行业开展客户信用评估工作刚刚开始大量带有信用风险等级类标注的历史客户数据并不存在因此分类算法通过被动学习方式建立信用风险等级评估模型并不可行．为了评价客户的信用风险等级只能由领域专家手工评价标注这是件极其耗时和费力的事情．最近几年一些分类算法引入主动学习（active learning）其目的是使用尽可能少的训练数据来获得较高的分类性能以减少人工标注样本的代价［2］．基于委员会投票选择算法（query-by-committeeQBC）是一种计算复杂度低且容易实现的主动学习方法但是由于其样本评价函数不能选择足够多的有价值数据而导致最终的分类器精度不高达不到与被动学习相同的精度．本文针对电信客户信用等级评估问题提出了利用主动学习方法来建立信用等级分类模型并提出一种新的基于投票熵和最小相对熵相结合的 QBC 主动学习方法以提高分类器的预测精度．实验结果表明该分类器使用了较少的带类标签样本数据达到了与被动学习分类器相同的精度． 1 基于 QBC 的主动学习方法主动学习基于少量的带类标注训练样本 L 建立初始分类器每次学习过程中分类器可以主动在未带类标注的候选样本集 U 中选择最有利于分类器性能的样本 ei并将这些样本以一定的方式加入到训练集中来进一步训练分类器［3］（如图1）．选择样本的基本思路就是考虑到不同样本其实对最后分类器的作用是不一样的即样本含有的信息量越大对分类界面的确定越重要．图1 主动学习的基本原理 Fig．1 Principle of active learning 第29卷第4期 2007年 4月北京科技大学学报 Journal of University of Science and Technology Beijing Vol．29No．4 Apr．2007 DOI:10．13374／j．issn1001－053x．2007．04．016

向下翻页>>

点击下载：基于QBC主动学习方法建立电信客户信用风险等级评估模型