.394. 智能系统学报 第9卷 习所解决的分类问题中,测试集中的样本是属于多 1多观测样本二分类问题的描述 个类别的。因此,经典的半监督学习分类算法并不 多观测样本形成示意图如图1所示。在多观测 适合解决多观测样本二分类问题。同时,目前已有 样本的二分类问题中,若假设测试模式为s,则该问 的多观测样本算法都存在着一定的不足。针对上问 题就是将测试模式的多观测样本确定为2种类别中 题,本文提出了一种新的算法,即基于SVM的多观 的一类。 测样本二分类算法。 11 2基于SVM的多观测样本二分类 2.1支持向量机 支持向量机(support vector machine,.SVM)是一 种基于结构风险最小化(structural risk minimization, SRM)原理,在统计学习理论的基础上发展起来的机 器学习方法[6。SVM的基本实现方法就是在原空 间或者经过投影后的高维空间中构造最优分类面, 并将此分类面作为分类决策面进行数据分类。 SVM最基本的理论是用来解决二分类问题的, SVM的目标就是构造线性最优分类超平面,使其将 图1多观测样本形成示意图 2类样本完全正确地分开,同时使分类间隔最大。 Fig.1 Schematic diagram of producing multiple observations 对于给定的样本集,(x,y),i=1,2,,l,:∈ 假定测试模式s的多测样本为 R,y:=±1,当样本集线性可分时,对应的线性判别 x0=o(s),i=1,2,…,m (1) 函数的一般形式为:g(x)=(w'x)+b,其中w、b为 式中:上标()表示各个观测样本是未标记的,m n维向量,对判别函数作归一化处理,使离分类面最 表示观测样本的数目,(s)表示模式s的第i个单 近的样本满足g(x)=1,则分类间隔等于 观测样本,它可能是模式s经过平移、旋转、缩放或 2/‖wI,使分类间隔最大等价于使Iw‖2最小: 者是透视投影得到的,也可能是模式s在某一特定 要求分类面能将所有样本正确分类,也就是要求它 时刻的观察记录。 满足: 多观测样本二分类问题的数据集可表示为X= y(w'x:+b)≥1,i=1,2,…,n (2) {XD,X@},其中X0={x1,x2,…,x}CR,d为 且使‖w‖2最小的分类面就是最优分类面。 样本维数,X0表示已知标签的样本集,含有1个样 综上所述,最优分类面的求解问题等价于在式 本,X0涵盖了所有类别的数据。X={x+1,+2, (2)的约束下最小化式(3): …,xn}CR,n=l+m,Xm表示未知标签的样本 w)=IwI2=之w (3) 集,含有m个样本,并且所有样本属于同一类别,其 而这一问题可以通过定义拉格朗日函数(式 对应于式(1)的多观测样本,即X={x+1,x1+2,…, (4))来求解: xn}△{x,x,…,x四!。因为二分类问题中的 所用数据样本只属于2个类别,所以可以将数据的 L(w,b,a)=‖wI2/2- ∑a[(wx:+b)-1刂 标签集表示为:Y={-1,+1}。 (4) 综上所述,多观测样本二分类问题可正式定义 式中:a:≥0为Lagrange系数,则问题转换成对w 为:给定已知标签的样本集X和未知标签的样本 和b求Lagrange函数的最小值。式(4)分别对w、b 集X,而X对应于模式s的多观测样本,即 求偏微分,并令结果为零,则有 Xm△{xm=o,(s),j=1,2,…,m},问题就是确定 aL 未知标签的多观测样本的正确类别。其实,多观测 =0→w= ow ∑y (5) 样本二分类问题就是一种特殊的半监督学习,限制 aL 测试集中的所有样本属于同一类别,进而把多观测 b =0=2aX=0 样本作为一个整体进行测试。而在一般的半监督学 将式(5)代入式(4),则原问题可以进一步转化为凸员摇 多观测样本二分类问题的描述 多观测样本形成示意图如图 员 所示遥 在多观测 样本的二分类问题中袁若假设测试模式为 泽袁 则该问 题就是将测试模式的多观测样本确定为 圆 种类别中 的一类遥 图 员摇 多观测样本形成示意图 云蚤早援员摇 杂糟澡藻皂葬贼蚤糟 凿蚤葬早则葬皂 燥枣 责则燥凿怎糟蚤灶早 皂怎造贼蚤责造藻 燥遭泽藻则增葬贼蚤燥灶泽 摇 摇 假定测试模式 泽 的多测样本为 曾渊怎冤 蚤 越 燥蚤 渊泽冤 袁蚤 越 员袁圆袁噎袁皂 渊员冤 式中院上标 渊怎冤 表示各个观测样本是未标记的袁 皂 表示观测样本的数目袁 燥蚤 渊泽冤 表示模式 泽 的第 蚤 个单 观测样本袁它可能是模式 泽 经过平移尧旋转尧缩放或 者是透视投影得到的袁也可能是模式 泽 在某一特定 时刻的观察记录遥 多观测样本二分类问题的数据集可表示为 载 越 喳载渊造冤 袁载渊怎冤 札 袁其中 载渊造冤 越 喳曾员 袁曾圆 袁噎袁曾造札 奂 砸凿 袁 凿 为 样本维数袁 载渊造冤 表示已知标签的样本集袁含有 造 个样 本袁 载渊造冤 涵盖了所有类别的数据遥 载渊怎冤 越 喳曾造 垣员 袁曾造垣圆 袁 噎袁曾灶 札 奂 砸凿 袁 灶 越 造 垣 皂 袁 载渊怎冤 表示未知标签的样本 集袁含有 皂 个样本袁并且所有样本属于同一类别袁其 对应于式渊员冤的多观测样本袁即 载渊怎冤 越 喳曾造 垣员 袁曾造垣圆 袁噎袁 曾灶 札勖喳曾渊怎冤 员 袁曾渊怎冤 圆 袁噎袁曾渊怎冤 皂 札 遥 因为二分类问题中的 所用数据样本只属于 圆 个类别袁所以可以将数据的 标签集表示为院 再 越 原 员袁 垣 员 遥 综上所述袁多观测样本二分类问题可正式定义 为院给定已知标签的样本集 载渊造冤 和未知标签的样本 集 载渊怎冤 袁而 载渊怎冤 对应于模式 泽 的多观测样本袁 即 载渊怎冤 勖 喳曾躁 渊怎冤 越 燥躁 渊泽冤 袁躁 越 员袁圆袁噎袁皂札 袁问题就是确定 未知标签的多观测样本的正确类别遥 其实袁多观测 样本二分类问题就是一种特殊的半监督学习袁限制 测试集中的所有样本属于同一类别袁进而把多观测 样本作为一个整体进行测试遥 而在一般的半监督学 习所解决的分类问题中袁测试集中的样本是属于多 个类别的遥 因此袁经典的半监督学习分类算法并不 适合解决多观测样本二分类问题遥 同时袁目前已有 的多观测样本算法都存在着一定的不足遥 针对上问 题袁本文提出了一种新的算法袁即基于 杂灾酝 的多观 测样本二分类算法遥 圆摇 基于 杂灾酝 的多观测样本二分类 圆援员摇 支持向量机 支持向量机渊 泽怎责责燥则贼 增藻糟贼燥则 皂葬糟澡蚤灶藻袁 杂灾酝冤是一 种基于结构风险最小化渊 泽贼则怎糟贼怎则葬造 则蚤泽噪 皂蚤灶蚤皂蚤扎葬贼蚤燥灶袁 杂砸酝冤原理袁在统计学习理论的基础上发展起来的机 器学习方法咱员远暂 遥 杂灾酝 的基本实现方法就是在原空 间或者经过投影后的高维空间中构造最优分类面袁 并将此分类面作为分类决策面进行数据分类遥 杂灾酝 最基本的理论是用来解决二分类问题的袁 杂灾酝 的目标就是构造线性最优分类超平面袁使其将 圆 类样本完全正确地分开袁同时使分类间隔最大遥 对于给定的样本集袁 渊曾蚤袁赠蚤冤 袁蚤 越 员袁圆袁噎袁造 袁 曾蚤 沂 砸凿 袁赠蚤 越 依 员袁当样本集线性可分时袁对应的线性判别 函数的一般形式为院 早渊曾冤 越 渊憎栽 曾冤 垣 遭 袁其中 憎尧遭 为 灶 维向量袁对判别函数作归一化处理袁使离分类面最 近的样本满足 早渊曾冤 越 员袁 则分类间隔等于 圆 辕 椰憎椰袁 使分类间隔最大等价于使 椰憎椰圆 最小曰 要求分类面能将所有样本正确分类袁也就是要求它 满足院 赠蚤 渊憎栽 曾蚤 垣 遭冤 逸 员袁蚤 越 员袁圆袁噎袁灶 渊圆冤 且使 椰憎椰圆 最小的分类面就是最优分类面遥 综上所述袁最优分类面的求解问题等价于在式 渊圆冤的约束下最小化式渊猿冤院 椎渊憎冤 越 员 圆 椰憎椰圆 越 员 圆 憎栽 憎 渊猿冤 摇 摇 而这一问题可以通过定义拉格朗日函数渊式 渊源冤冤来求解院 蕴渊憎袁遭袁葬冤 越 椰憎椰圆 辕 圆 原 移 灶 蚤 越 员 琢蚤咱赠蚤 渊憎栽 曾蚤 垣 遭冤 原 员暂 渊源冤 式中院 琢蚤 逸 园 为 蕴葬早则葬灶早藻 系数袁则问题转换成对 憎 和 遭 求 蕴葬早则葬灶早藻 函数的最小值遥 式渊源冤分别对 憎尧遭 求偏微分袁并令结果为零袁则有 鄣蕴 鄣憎 越 园圯憎 越 移 灶 蚤 越 员 琢蚤赠蚤曾蚤 鄣蕴 鄣遭 越 园圯移 灶 蚤 越 员 琢蚤赠蚤 越 园 渊缘冤 将式渊缘冤代入式渊源冤袁则原问题可以进一步转化为凸 窑猿怨源窑 智 能 系 统 学 报摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇摇 第 怨 卷