.264 智能系统学报第6卷分类器性能的样本来进一步训练分类器，这样它

正在加载图片...

.264 智能系统学报第6卷分类器性能的样本来进一步训练分类器，这样它能本进行分类，根据分类结果，删除其中表现差的一个有效地减少评价样本数量；而被动学习只是随机地类别，由剩下的类别形成新的队列；选择训练样本，被动地接受这些样本的信息进行学 While(队列中所剩下的类别非单一类别) 习.引入主动学习目的主要是从减少评价样本所需 3 的代价，最大的优点是通过仔细、合理地选择训练样取新队列的首个和最后一个类别对未知样本进行本后，需要的实际训练样本数量将大大减少，评价样分类，保留较优的结果类别，删除次优的结果类别；本所需的代价也就随之减少. 针对哈萨克文文本的预处理的复杂性和SVM 队列中所剩下的最后一个类别就是得到的最优方法只与支持向量有关这2个因素，对SVM算法进类别行了改进，用主动学习方法9o处理SVM分类器的算法结束。训练文本.为了更好地满足分类要求，文本分类模型 1.2,3.4 4 采用多分类模式山非1 非4 主动学习从形式上是一个循环反复的过程，应 2,34 2.4 1.2.3 用SVM方法实现主动学习，采用何种算法有效地筛选训练样本，以便快速进入训练阶段是研究的关键非2 非4 非3 主动学习首先根据先验知识或者随机地从未带类别 3.4 标注的所有候选样本集中选择少量样本并标注它们 3 2.3 1.2 的类别，构造初始训练样本集，确保初始训练样本集中至少包含有一个正例样本和一个负例样本.利用初始训练样本集中这些带类别标注的样本训练一个图44个单分类器用DAGSVM融合分类器，在该分类器下，采用某种采样算法，从候选 Fig.4 Four single sorters fused with DAGSVM 样本集中选择最有利分类器性能的样本，标注类别并加入到训练样本集中，重新训练分类器，再次选择 3 实验结果最有利分类器性能的样本.重复以上过程，直到候选通常分类器所选的训练文本集和测试文本集的样本集为空或达到某种指标「2] 质量是最直接影响分类精度的因素之一，一般要选文献[13]提出一种新的多类学习模型，即决策择公认的、通用的语料集，而且数据集中所选类别应有向无环图(directed acyclic graph,DAG).每条边都是典型的、含有明显类别信息的文本类别，并且所选有方向、且不存在任何回路的图称为有向无环图，图文本应该是客观存在的各个类别中的实际文本.但中惟一没有人度的节点则是DAG的根.在分类任务是，对于哈萨克文文本分类器来说，目前还没有公认中，可以引入此种数据结构构造SVM分类模型，即的标准语料集，本文所构建的语料集尽管没有达到有向无环图SVM(DAGSVM).对于DAGSVM,输入上述标准，但作为初期研究哈萨克文文本分类处理一个样本，从根节点开始判决，一直访问到叶子结点尚有研究意义.通过人工翻译等方法，笔者收集了一就是要得到的结果类别，这样对于N类的问题，要部分哈萨克语文本的内容，并做了人工分类.实验的进行N-1次判别.DAGSVM最大的优势在于能够圳练集中共有5个类别，分别是交通、体育、医药、艺准确定位结果类别，具有准确性较高的特点[4.如术、政治，其中交通包含8篇文章、体育包含12篇文图4是具有4个类别的DAG 章、医药包含10篇文章、艺术包含10篇文章、政治有向无环图SVM算法的中心思想如下. 包含10篇文章. 输入：未知类别信息文本。 3.1词统计及文档的向量化表示输出：最优的结果类别图5为每类文档词频统计结果，即分别在交通算法：类、体育类、医药类、政治类、艺术类文档里词的总出首先对未知文本采用主动学习SVM进行类别现次数. 的分类；图6为词权重计算结果，词前数字表示各个词 C排成队列，i=1,2,…,n;/将所有的类别的权重，词的权重表明该词在判别文档类别所属过按任意顺序排成队列程中的重要程度取首个和最后一个类别对应的分类器对未知样

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】一种基于主动学习支持向量机哈萨克文文本分类方法