第3期古丽娜孜，等：一种基于主动学习支持向量机哈萨克文文本分类方法 &#

正在加载图片...

第3期古丽娜孜，等：一种基于主动学习支持向量机哈萨克文文本分类方法 ·263· 词，0：表示特征项t在文本中的权重，其计算公 SVM解决分类问题时根据数据集的来源特征式3]为将分类问题分为线性可分状态和线性不可分状态， f(t,d)log(n/n,+0.01) 针对训练样本集(1)，线性可分问题可以用式(2)所 0:= /∑[ft,d)log(n/n,+0.01)]2 示的SVM数学模型来解决. N S={(xy),i=1,2,…,rf, 式中：f(t,d)为特征项t在文本d中的词频；n为训 x:∈R",y:∈{+1，-1}； (1) 练文本总数；n,为训练文本集中包含特征项t的文本数. min(w)=子Iw2, 1.3特征处理 s.t.y(wx:+b)-1≥0，i=1,2,…,1.(2) 对训练样本集进行预处理所得到的关键词的集 n维空间中分界面为wx+b=0,能使到该分界合构成了初始特征项（词）集合，简称特征集，通常该集合中特征项数目过多是制约分类的重要因素，面最近的2类样本之间的距离品最大，也就是即使是一个小规模的样本集，经过预处理也会得到 ‖w‖最小，该分类界面就称为最优分类界面.从而一定数量的特征词，其中有些特征词对文本内容和最终可得到所求的最优分类函数为类别的贡献很小，及时消除这些特征词会有效地控制向量空间的维数.因此，必须通过降维处理去除弱 fx)=8ign(∑ay:(x·x)+b): 关联词，抽取强关联词构成用于学习的特征集。式中：对应a:不为0的样本就是支持向量.最优化特征就是区分类别的尺度，不同的模式分类问问题的解a:的每一个分量都与一个训练点相对应，题有不同的特征选择方法，在文本分类中所用到的显然以上算法所构造的划分超平面，仅仅依赖于那方法有文档频率(DF)、信息增益(IG)、互信息些相应于a:不为零的训练点(x:·x),而与相应于 (MI)、X统计量(CHⅢ)、卡方统计量、期望交叉嫡、 a;为零的那些训练点无关.相应于a;不为零的训练文本证据权以及几率比等. 点(x:·x)中的输入x:为支持向量，显然，只有支持上述评判函数是目前用的比较多的特征抽取评向量对最终求得的划分超平面的法方向有影响，估函数，它们各有各的优缺点，IG、MI、CHⅡ侧重于低而它与非支持向量无关，这种方法就是支持向量机频词，而DF侧重于高频词.目前，研究者分别对这对于非线性问题，支持向量机通过选择适当的些方法做了不同的优化改进，达到了各自的理想效非线性变换，将输入空间中的训练样本集映射到某果，其中文本频率比值法DFR(document frequency 个高维特征空间中，使得在目标高维空间中这些样 ratio)4以简单、快捷等优点克服了以上几种方法目本集线性可分，然后再构造一个最优分界面来逼近前所存在的缺点，综合考虑了类内外文本频率，其计理想分类结果8.为此，需要在式(2)中增加一个松算公式为弛变量专：和惩罚因子C,从而式(2)变为： fD(6,C)=（W-:)xN(6,C) n×N'(t,C:) minwE)=w+C 式中：N为训练集中的总文本数；是C:类中的文 8.t.y:(wx:+b)-1+专：≥0，本数；W(t,C:)表示类别C:中包含词t的文本数；而 5≥0，i=1,2,…,1. N'(t,C:)表示除去C:以外的其他类别中包含词t的式中：C为某个指定的常数，控制对错分样本惩罚的文本数，程度，C值越大，惩罚越重。 2基于主动学习支持向量机的文本分类 SVM采用不同的核函数K(x,y),可以实现输人空间中的不同类型的非线性分类问题转化为线性 2.1支持向量机分类情况，进而产生不同的支持向量算法，引进核函支持向量机(support vector machines,SVM)是数以后的最优分类函数为由Vapnik]提出的一种基于结构风险最小化原理的机器学习方法[61.在最简单的情形中，线性SVM fx)=sigm(∑a:K(x·y)+b). 通过学习得到一个超平面，该超平面以最大分类间 2.2主动学习算法隔将正样本集合与负样本集合分离开，此处的间隔根据对训练样本处理方式的不同，可将学习方 (margin)是指超平面与距离它最近的正样本和负样法分为主动学习和被动学习2类.主动学习在学习本之间的距离。过程中可以根据学习机推进的情况，选择最有利于

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】一种基于主动学习支持向量机哈萨克文文本分类方法