正在加载图片...
.264 智能系统学报 第6卷 分类器性能的样本来进一步训练分类器,这样它能 本进行分类,根据分类结果,删除其中表现差的一个 有效地减少评价样本数量;而被动学习只是随机地 类别,由剩下的类别形成新的队列; 选择训练样本,被动地接受这些样本的信息进行学 While(队列中所剩下的类别非单一类别) 习.引入主动学习目的主要是从减少评价样本所需 3 的代价,最大的优点是通过仔细、合理地选择训练样 取新队列的首个和最后一个类别对未知样本进行 本后,需要的实际训练样本数量将大大减少,评价样 分类,保留较优的结果类别,删除次优的结果类别; 本所需的代价也就随之减少. 针对哈萨克文文本的预处理的复杂性和SVM 队列中所剩下的最后一个类别就是得到的最优 方法只与支持向量有关这2个因素,对SVM算法进 类别 行了改进,用主动学习方法9o处理SVM分类器的 算法结束。 训练文本.为了更好地满足分类要求,文本分类模型 1.2,3.4 4 采用多分类模式山 非1 非4 主动学习从形式上是一个循环反复的过程,应 2,34 2.4 1.2.3 用SVM方法实现主动学习,采用何种算法有效地筛 选训练样本,以便快速进入训练阶段是研究的关键 非2 非4 非3 主动学习首先根据先验知识或者随机地从未带类别 3.4 标注的所有候选样本集中选择少量样本并标注它们 3 2.3 1.2 的类别,构造初始训练样本集,确保初始训练样本集 中至少包含有一个正例样本和一个负例样本.利用 初始训练样本集中这些带类别标注的样本训练一个 图44个单分类器用DAGSVM融合 分类器,在该分类器下,采用某种采样算法,从候选 Fig.4 Four single sorters fused with DAGSVM 样本集中选择最有利分类器性能的样本,标注类别 并加入到训练样本集中,重新训练分类器,再次选择 3 实验结果 最有利分类器性能的样本.重复以上过程,直到候选 通常分类器所选的训练文本集和测试文本集的 样本集为空或达到某种指标「2] 质量是最直接影响分类精度的因素之一,一般要选 文献[13]提出一种新的多类学习模型,即决策 择公认的、通用的语料集,而且数据集中所选类别应 有向无环图(directed acyclic graph,DAG).每条边都 是典型的、含有明显类别信息的文本类别,并且所选 有方向、且不存在任何回路的图称为有向无环图,图 文本应该是客观存在的各个类别中的实际文本.但 中惟一没有人度的节点则是DAG的根.在分类任务 是,对于哈萨克文文本分类器来说,目前还没有公认 中,可以引入此种数据结构构造SVM分类模型,即 的标准语料集,本文所构建的语料集尽管没有达到 有向无环图SVM(DAGSVM).对于DAGSVM,输入 上述标准,但作为初期研究哈萨克文文本分类处理 一个样本,从根节点开始判决,一直访问到叶子结点 尚有研究意义.通过人工翻译等方法,笔者收集了一 就是要得到的结果类别,这样对于N类的问题,要 部分哈萨克语文本的内容,并做了人工分类.实验的 进行N-1次判别.DAGSVM最大的优势在于能够 圳练集中共有5个类别,分别是交通、体育、医药、艺 准确定位结果类别,具有准确性较高的特点[4.如 术、政治,其中交通包含8篇文章、体育包含12篇文 图4是具有4个类别的DAG 章、医药包含10篇文章、艺术包含10篇文章、政治 有向无环图SVM算法的中心思想如下. 包含10篇文章. 输入:未知类别信息文本。 3.1词统计及文档的向量化表示 输出:最优的结果类别 图5为每类文档词频统计结果,即分别在交通 算法: 类、体育类、医药类、政治类、艺术类文档里词的总出 首先对未知文本采用主动学习SVM进行类别 现次数. 的分类; 图6为词权重计算结果,词前数字表示各个词 C排成队列,i=1,2,…,n;/将所有的类别 的权重,词的权重表明该词在判别文档类别所属过 按任意顺序排成队列 程中的重要程度 取首个和最后一个类别对应的分类器对未知样
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有