正在加载图片...
第16卷 智能系统学报 ·100· 特征空间中可以实现具有相同标记信息的数据点 CL={(x,x≠l(x)≠1(x川 互相靠近,而标号不同的数据点彼此分离,达到 分别构造同类样本项偏差和异类样本项偏差: 更好的特征提取效果。 ha=∑aa d(yy)=yyl 假设X是一个半监督数据集,其中少部分数 据样本带有标记(类别标签)。记X是有标签的 Ja.= ∑waaf6.)=-yf 数据组成的集合,1(x)e{1,2…,f是X中各数据 式中d(,y)表示低维特征y:与y之间的欧氏距离。 点所对应的标签,L=l(x),lx2),…,l(x)》,f是数据 本文的目的是要求同类样本项偏差尽量小, 集的类数。 同时确保异类样本项偏差尽可能的大。 一般情况下,X中的样本量较少。在流形学 构造半监督数据集X中每一个数据样本点的 习中,少量监督样本不能全面描述和刻画数据的 线性重构权值。利用数据中已有的标记信息以及 局部和全局流形结构,致使学习到的特征不能准 新标记的标记信息来重新调整距离矩阵,从而使 确反映数据的内在特性。本文给出一种近邻伪标 得构造的数据点的邻域更加有利于提取优质的特征。 签赋予的方法,给部分未标记样本赋予伪标签, (1-r)g,1(x)=l(x) 增大标记样本量。 (1+r)g,1(x)≠x) (4) 将所有标记样本X的各自近邻中的未标记 点设置与标记点相同的初标签,然后对这些初标 g,x和x至少一个无标号 签点进行筛选。如果这个未标记点只赋予了一个 式中0<1。 标签,则将此标签设定为这个点的伪标签。如果 从式(4)可以看出,如果2个样本有相同的类 这个未标记点有2个以上的伪标签,把这个点的 标,则将其距离缩小。如果2个样本有不同的类 所有初标签都去掉,该点依然设定为未标记点, 标,则将其距离扩大。在其他情况下,样本点间 如图1所示。 的距离保持不变。 重置式(2)中的距离矩阵为G=(g),其中 g0=8l8T。 再由(2)计算样本点的邻域局部线性重构权 矩阵由此利用标记信息得到改进后的新重构权矩 阵w=(w)0 基于以上分析,构造如下优化问题: 2 图1近邻伪标签赋值方法示意 minp(Y)= Fig.1 Schematic diagram of nearest neighbor pseudo la- 11 bel assignment method d(yi.yj)- 在图1的左图中,红色和绿色的点分别代表 (xT))eML (5) 标记点(2类),蓝色是无标签的点。经过上述近 (1-∑(yy) (t-)eCL 邻伪标签赋值方法后,只有一类标记信息的近邻 点保留赋予的标签(右图新增加的红色点和绿色 s.t. ∑=0,2=1 点),而有2种(或多种)标记的近邻点则依旧标为 该优化问题式(5)的目标函数由3部分组 无标记点,保持其蓝色不变(右图大圆中的2个蓝 成。第1项形式上虽然和LLE相同,但其中的重 色点)。得到的新标签数据为X,则有标签的数 构权矩阵包含了样本点的半监督信息,能够确保 据组成的集合为X=[X,X],对应的新标签集合为 提取出的特征既保持数据的局部线性结构不变 L={),1(x2),…,1(x),l(x+i…lx*}o 又能在局部上使类内(同类)数据更紧密,并对类 新增加的伪标签虽然不是真实的标签,但由 间(异类)数据进行分离的效果。第2项和第3项 于其与被标注样本具有很好的近邻关系,通过这 分别是全局同类样本偏差和全局异类样本偏差, 样的扩充可增加标记信息的量,有利于更好地描 目的是确保同类样本偏差最小,同时确保全局异 述数据的内在结构,发现样本中隐藏的鉴别能力。 类样本偏差最大,参数α∈(0,1)是2个偏差项的 为了构造出利用全局信息进行调整的优化问 平衡系数,权衡同类样本项和异类样本项对目标 题,首先定义同类数据点对集合: 函数的影响。B也是一个平衡参数,用于调节局 ML={(x,xi≠方l(x)=l(x》 部线性重构对于目标函数的影响。 和异类数据点对集合: 式(⑤)的约束条件与LLE相同,确保提取出特征空间中可以实现具有相同标记信息的数据点 互相靠近,而标号不同的数据点彼此分离,达到 更好的特征提取效果。 X Xc l(x) ∈ {1,2,··· , f} Xc L = {l(x1),l(x2),··· ,l(xs)} 假设 是一个半监督数据集,其中少部分数 据样本带有标记 (类别标签)。记 是有标签的 数据组成的集合, 是 中各数据 点所对应的标签, ,f 是数据 集的类数。 一般情况下, Xc 中的样本量较少。在流形学 习中,少量监督样本不能全面描述和刻画数据的 局部和全局流形结构,致使学习到的特征不能准 确反映数据的内在特性。本文给出一种近邻伪标 签赋予的方法,给部分未标记样本赋予伪标签, 增大标记样本量。 将所有标记样本 Xc 的各自近邻中的未标记 点设置与标记点相同的初标签,然后对这些初标 签点进行筛选。如果这个未标记点只赋予了一个 标签,则将此标签设定为这个点的伪标签。如果 这个未标记点有 2 个以上的伪标签,把这个点的 所有初标签都去掉,该点依然设定为未标记点, 如图 1 所示。 图 1 近邻伪标签赋值方法示意 Fig. 1 Schematic diagram of nearest neighbor pseudo la￾bel assignment method Xw Xz = [Xc ,Xw] L = {l(x1),l(x2),··· ,l(xs),l(xs+1),···l(xs+t)} 在图 1 的左图中,红色和绿色的点分别代表 标记点 (2 类),蓝色是无标签的点。经过上述近 邻伪标签赋值方法后,只有一类标记信息的近邻 点保留赋予的标签 (右图新增加的红色点和绿色 点),而有 2 种 (或多种) 标记的近邻点则依旧标为 无标记点,保持其蓝色不变 (右图大圆中的 2 个蓝 色点)。得到的新标签数据为 ,则有标签的数 据组成的集合为 ,对应的新标签集合为 。 新增加的伪标签虽然不是真实的标签,但由 于其与被标注样本具有很好的近邻关系,通过这 样的扩充可增加标记信息的量,有利于更好地描 述数据的内在结构,发现样本中隐藏的鉴别能力。 为了构造出利用全局信息进行调整的优化问 题,首先定义同类数据点对集合: ML = { (xi , xj)|i , j,l(xi) = l(xj) } 和异类数据点对集合: CL = { (xi , xj)|i , j,l(xi) , l(xj) } 分别构造同类样本项偏差和异类样本项偏差: JML = ∑ (xi,xj)∈ML d 2 (yi , yj) = yi − yj 2 JCL = ∑ (xi,xj)∈CL d 2 (yi , yj) = yi − yj 2 d ( yi , yj ) 式中 表示低维特征 yi 与 yj 之间的欧氏距离。 本文的目的是要求同类样本项偏差尽量小, 同时确保异类样本项偏差尽可能的大。 构造半监督数据集 X 中每一个数据样本点的 线性重构权值。利用数据中已有的标记信息以及 新标记的标记信息来重新调整距离矩阵,从而使 得构造的数据点的邻域更加有利于提取优质的特征。 gi j ′ =    (1−r)gi j, l(xi) = l(xj) (1+r)gi j, l(xi) , l(xj) gi j, xi和xj至少一个无标号 (4) 式中 0<r<1。 从式 (4) 可以看出,如果 2 个样本有相同的类 标,则将其距离缩小。如果 2 个样本有不同的类 标,则将其距离扩大。在其他情况下,样本点间 的距离保持不变。 Gi ′ = (g i′ l j) g i′ l j = gil ′ gi j ′T 重置式 (2) 中的距离矩阵为 ,其中 。 w = (wi j) 再由 (2) 计算样本点的邻域局部线性重构权 矩阵由此利用标记信息得到改进后的新重构权矩 阵 。 基于以上分析,构造如下优化问题: minρ(Y) = β ∑n i=1 yi − ∑n j=1 wi jyj 2 + α ∑ (xi,xj)∈ML d 2 (yi , yj)− (1−α) ∑ (xi,xj)∈CL d 2 (yi , yj) s.t. ∑n i=1 yi = 0 , ∑n i=1 y T i yi = I (5) α ∈ (0,1) 该优化问题式 (5) 的目标函数由 3 部分组 成。第 1 项形式上虽然和 LLE 相同,但其中的重 构权矩阵包含了样本点的半监督信息,能够确保 提取出的特征既保持数据的局部线性结构不变, 又能在局部上使类内 (同类) 数据更紧密,并对类 间 (异类) 数据进行分离的效果。第 2 项和第 3 项 分别是全局同类样本偏差和全局异类样本偏差, 目的是确保同类样本偏差最小,同时确保全局异 类样本偏差最大,参数 是 2 个偏差项的 平衡系数,权衡同类样本项和异类样本项对目标 函数的影响。β 也是一个平衡参数,用于调节局 部线性重构对于目标函数的影响。 式 (5) 的约束条件与 LLE 相同,确保提取出 第 16 卷 智 能 系 统 学 报 ·100·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有