正在加载图片...
D0I:10.13374/i.issnl00113.2007.04.016 第29卷第4期 北京科技大学学报 Vol.29 No.4 2007年4月 Journal of University of Science and Technology Beijing Apr.2007 基于QBC主动学习方法建立电信客户 信用风险等级评估模型 赵悦)穆志纯)董洁)付冬梅) 何伟) 1)北京科技大学倍息工程学院,北京1000832)中央民族大学数学与计算机学院,北京100081 摘要电信客户信用风险等级评估是对电信客户的信用风险进行等级分类。针对建立客户信用风险等级分类模型时,大量 带有类标注数据难以获得的问题,提出了基于主动学习的分类器建模方法,并对基于QBC(委员会投票选择)的主动学习算法 进行改进以提高分类器的预测精度·通过对实际电信客户数据进行信用风险等级建模实验,结果表明:应用新算法,分类器使 用了较少的带类标签样本数据,达到了与被动学习相同的精度,大大降低了倍用专家评估数据的工作量 关键词电信客户;信用等级:主动学习:投票;相对熵 分类号TP301.6 客户信用风险等级是电信企业决策支持系统中 多的有价值数据,而导致最终的分类器精度不高,达 进行客户行为分析、经营风险分析和客户欺诈分析 不到与被动学习相同的精度, 的一个重要分析角度,准确评估客户信用风险等 本文针对电信客户信用等级评估问题,提出了 级,可以解决在复杂的用户消费群体中良莠难辨的 利用主动学习方法来建立信用等级分类模型,并提 问题, 出一种新的基于投票熵和最小相对熵相结合的 信用风险等级评估实际上是分类决策问题,为 QBC主动学习方法以提高分类器的预测精度.实 了进行分类决策,分类算法从大量的先前数据中学 验结果表明,该分类器使用了较少的带类标签样本 习分类模型,并用于决定未知客户的信用等级类 数据,达到了与被动学习分类器相同的精度. 别西.目前分类算法(如SVM、神经网络、贝叶斯网 络等)几乎都采用被动学习方式,它使用给定的大数 1基于QBC的主动学习方法 据量训练样本学习分类参数,其训练样本必须带有 主动学习基于少量的带类标注训练样本L建 类别标注 立初始分类器,每次学习过程中分类器可以主动在 我国电信行业开展客户信用评估工作刚刚开 未带类标注的候选样本集U中选择最有利于分类 始,大量带有信用风险等级类标注的历史客户数据 器性能的样本e,并将这些样本以一定的方式加入 并不存在,因此分类算法通过被动学习方式建立信 到训练集中来进一步训练分类器](如图1),选择 用风险等级评估模型并不可行.为了评价客户的信 样本的基本思路就是考虑到不同样本其实对最后分 用风险等级,只能由领域专家手工评价标注,这是件 类器的作用是不一样的,即样本含有的信息量越大, 极其耗时和费力的事情。最近几年,一些分类算法 对分举界面的确定战重要 引入主动学习(active learning),其目的是使用尽可 训练数据集( 能少的训练数据来获得较高的分类性能,以减少人 (带类标签数据集 分类器 候选数据集(U) 工标注样本的代价] 1{e} (木带类标签 数据集) 基于委员会投票选择算法(query-by-commit- e tee,QBC)是一种计算复杂度低且容易实现的主动 已标注数据 学习方法,但是由于其样本评价函数不能选择足够 送择策略 用户 收稿日期:2005-12-20修回日期:2006-04-19 基金项目:北京市教委重点学科共建项目资助和国家民委“十一五” 科研项目(No.072Y07) 图1主动学习的基本原理 作者简介:赵悦(1974一),女,博士研究生:穆志纯(1952一),男, Fig.I Principle of active learning 教授,博士生导师基于 QBC 主动学习方法建立电信客户 信用风险等级评估模型 赵 悦1‚2) 穆志纯1) 董 洁1) 付冬梅1) 何 伟2) 1) 北京科技大学信息工程学院‚北京100083 2) 中央民族大学数学与计算机学院‚北京100081 摘 要 电信客户信用风险等级评估是对电信客户的信用风险进行等级分类.针对建立客户信用风险等级分类模型时‚大量 带有类标注数据难以获得的问题‚提出了基于主动学习的分类器建模方法‚并对基于 QBC(委员会投票选择)的主动学习算法 进行改进以提高分类器的预测精度.通过对实际电信客户数据进行信用风险等级建模实验‚结果表明:应用新算法‚分类器使 用了较少的带类标签样本数据‚达到了与被动学习相同的精度‚大大降低了信用专家评估数据的工作量. 关键词 电信客户;信用等级;主动学习;投票;相对熵 分类号 TP301∙6 收稿日期:20051220 修回日期:20060419 基金项目:北京市教委重点学科共建项目资助和国家民委“十一五” 科研项目(No.07ZY07) 作者简介:赵 悦(1974—)‚女‚博士研究生;穆志纯(1952—)‚男‚ 教授‚博士生导师 客户信用风险等级是电信企业决策支持系统中 进行客户行为分析、经营风险分析和客户欺诈分析 的一个重要分析角度.准确评估客户信用风险等 级‚可以解决在复杂的用户消费群体中良莠难辨的 问题. 信用风险等级评估实际上是分类决策问题.为 了进行分类决策‚分类算法从大量的先前数据中学 习分类模型‚并用于决定未知客户的信用等级类 别[1].目前分类算法(如 SVM、神经网络、贝叶斯网 络等)几乎都采用被动学习方式‚它使用给定的大数 据量训练样本学习分类参数‚其训练样本必须带有 类别标注. 我国电信行业开展客户信用评估工作刚刚开 始‚大量带有信用风险等级类标注的历史客户数据 并不存在‚因此分类算法通过被动学习方式建立信 用风险等级评估模型并不可行.为了评价客户的信 用风险等级‚只能由领域专家手工评价标注‚这是件 极其耗时和费力的事情.最近几年‚一些分类算法 引入主动学习(active learning)‚其目的是使用尽可 能少的训练数据来获得较高的分类性能‚以减少人 工标注样本的代价[2]. 基于委员会投票选择算法(query-by-commit￾tee‚QBC)是一种计算复杂度低且容易实现的主动 学习方法‚但是由于其样本评价函数不能选择足够 多的有价值数据‚而导致最终的分类器精度不高‚达 不到与被动学习相同的精度. 本文针对电信客户信用等级评估问题‚提出了 利用主动学习方法来建立信用等级分类模型‚并提 出一种新的基于投票熵和最小相对熵相结合的 QBC 主动学习方法以提高分类器的预测精度.实 验结果表明‚该分类器使用了较少的带类标签样本 数据‚达到了与被动学习分类器相同的精度. 1 基于 QBC 的主动学习方法 主动学习基于少量的带类标注训练样本 L 建 立初始分类器‚每次学习过程中分类器可以主动在 未带类标注的候选样本集 U 中选择最有利于分类 器性能的样本 ei‚并将这些样本以一定的方式加入 到训练集中来进一步训练分类器[3] (如图1).选择 样本的基本思路就是考虑到不同样本其实对最后分 类器的作用是不一样的‚即样本含有的信息量越大‚ 对分类界面的确定越重要. 图1 主动学习的基本原理 Fig.1 Principle of active learning 第29卷 第4期 2007年 4月 北 京 科 技 大 学 学 报 Journal of University of Science and Technology Beijing Vol.29No.4 Apr.2007 DOI:10.13374/j.issn1001-053x.2007.04.016
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有