正在加载图片...
第3期 古丽娜孜,等:一种基于主动学习支持向量机哈萨克文文本分类方法 ·263· 词,0:表示特征项t在文本中的权重,其计算公 SVM解决分类问题时根据数据集的来源特征 式3]为 将分类问题分为线性可分状态和线性不可分状态, f(t,d)log(n/n,+0.01) 针对训练样本集(1),线性可分问题可以用式(2)所 0:= /∑[ft,d)log(n/n,+0.01)]2 示的SVM数学模型来解决. N S={(xy),i=1,2,…,rf, 式中:f(t,d)为特征项t在文本d中的词频;n为训 x:∈R",y:∈{+1,-1}; (1) 练文本总数;n,为训练文本集中包含特征项t的文 本数. min(w)=子Iw2, 1.3特征处理 s.t.y(wx:+b)-1≥0,i=1,2,…,1.(2) 对训练样本集进行预处理所得到的关键词的集 n维空间中分界面为wx+b=0,能使到该分界 合构成了初始特征项(词)集合,简称特征集,通常 该集合中特征项数目过多是制约分类的重要因素, 面最近的2类样本之间的距离品最大,也就是 即使是一个小规模的样本集,经过预处理也会得到 ‖w‖最小,该分类界面就称为最优分类界面.从而 一定数量的特征词,其中有些特征词对文本内容和 最终可得到所求的最优分类函数为 类别的贡献很小,及时消除这些特征词会有效地控 制向量空间的维数.因此,必须通过降维处理去除弱 fx)=8ign(∑ay:(x·x)+b): 关联词,抽取强关联词构成用于学习的特征集。 式中:对应a:不为0的样本就是支持向量.最优化 特征就是区分类别的尺度,不同的模式分类问 问题的解a:的每一个分量都与一个训练点相对应, 题有不同的特征选择方法,在文本分类中所用到的 显然以上算法所构造的划分超平面,仅仅依赖于那 方法有文档频率(DF)、信息增益(IG)、互信息 些相应于a:不为零的训练点(x:·x),而与相应于 (MI)、X统计量(CHⅢ)、卡方统计量、期望交叉嫡、 a;为零的那些训练点无关.相应于a;不为零的训练 文本证据权以及几率比等. 点(x:·x)中的输入x:为支持向量,显然,只有支持 上述评判函数是目前用的比较多的特征抽取评 向量对最终求得的划分超平面的法方向有影响, 估函数,它们各有各的优缺点,IG、MI、CHⅡ侧重于低 而它与非支持向量无关,这种方法就是支持向量机 频词,而DF侧重于高频词.目前,研究者分别对这 对于非线性问题,支持向量机通过选择适当的 些方法做了不同的优化改进,达到了各自的理想效 非线性变换,将输入空间中的训练样本集映射到某 果,其中文本频率比值法DFR(document frequency 个高维特征空间中,使得在目标高维空间中这些样 ratio)4以简单、快捷等优点克服了以上几种方法目 本集线性可分,然后再构造一个最优分界面来逼近 前所存在的缺点,综合考虑了类内外文本频率,其计 理想分类结果8.为此,需要在式(2)中增加一个松 算公式为 弛变量专:和惩罚因子C,从而式(2)变为: fD(6,C)=(W-:)xN(6,C) n×N'(t,C:) minwE)=w+C 式中:N为训练集中的总文本数;是C:类中的文 8.t.y:(wx:+b)-1+专:≥0, 本数;W(t,C:)表示类别C:中包含词t的文本数;而 5≥0,i=1,2,…,1. N'(t,C:)表示除去C:以外的其他类别中包含词t的 式中:C为某个指定的常数,控制对错分样本惩罚的 文本数, 程度,C值越大,惩罚越重。 2基于主动学习支持向量机的文本分类 SVM采用不同的核函数K(x,y),可以实现输 人空间中的不同类型的非线性分类问题转化为线性 2.1支持向量机 分类情况,进而产生不同的支持向量算法,引进核函 支持向量机(support vector machines,SVM)是 数以后的最优分类函数为 由Vapnik]提出的一种基于结构风险最小化原理 的机器学习方法[61.在最简单的情形中,线性SVM fx)=sigm(∑a:K(x·y)+b). 通过学习得到一个超平面,该超平面以最大分类间 2.2主动学习算法 隔将正样本集合与负样本集合分离开,此处的间隔 根据对训练样本处理方式的不同,可将学习方 (margin)是指超平面与距离它最近的正样本和负样 法分为主动学习和被动学习2类.主动学习在学习 本之间的距离。 过程中可以根据学习机推进的情况,选择最有利于
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有