【知识工程】半监督类保持局部线性嵌入方法

团购合买资源类别：文库，文档格式：PDF，文档页数：10，文件大小：3.78MB

第16卷第1期智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0:10.11992tis.202003007 半监督类保持局部线性嵌入方法邓廷权，王强 (哈尔滨工程大学数学科学学院，黑龙江哈尔滨150001) 摘要：为使局部线性嵌入(local linear embedding,LLE)这一无监督高维数据的非线性特征提取方法提取出的特征在分类或聚类学习上更优，提出一种半监督类保持局部线性嵌入(semi-supervised class preserving local lin- ear embedding,SSCLLE)的非线性特征提取方法。该方法将半监督信息融入到LLE中，首先对标记样本近邻赋予伪标签，增大标记样本数量。其次，对标记样本之间的距离进行局部调整，缩小同类样本间距，扩大异类样本间距。同时在局部线性嵌入优化目标函数中增加全局同类样本间距和异类样本间距的约束项，使得提取出的低维特征可以确保同类样本点互相靠近，而异类样本点彼此分离。在一系列实验中，其聚类精确度以及可视化效果明显高于无监督LLE和现有半监督流特征提取方法，表明该方法提取出的特征具有很好的类保持特性。关键词：非线性特征提取；流形学习；半监督：标记信息；聚类；可视化中图分类号：TP181文献标志码：A文章编号：1673-4785(2021)01-0098-10 中文引用格式：邓廷权，王强.半监督类保持局部线性嵌入方法几.智能系统学报，2021,16(1)：98-107. 英文引用格式：DENGTingquan,WANG Qiang.Semi-supervised class preserving locally linear embedding.CAAItransactions on intelligent systems,2021,16(1):98-107. Semi-supervised class preserving locally linear embedding DENG Tingquan,WANG Qiang (College of Mathematical Sciences,Harbin engineering university,Harbin 150001,China) Abstract:To make local linear embedding(LLE),the nonlinear feature extraction method for unsupervised high-dimen- sional data,more optimal in classification or clustering learning,we propose a nonlinear semi-supervised class pre- serving local linear embedding (SSCLLE)feature extraction method.This method integrates semi-supervised informa- tion into LLE.First,pseudo-labels are assigned to the nearby neighbors of the labeled samples to increase the number of labeled samples.Second,the distance between the labeled samples is partially adjusted to reduce the distance between similar samples and expand the distance between heterogeneous samples.Simultaneously,the constraints of the glob- ally same sample spacing and heterogeneous sample spacing are added in the local linear embedding optimization ob- jective function so that the extracted low-dimensional features can ensure that the same sample points are near each oth- er,whereas the heterogeneous sample points are separated from each other.In a series of experiments,the clustering ac- curacy and visualization effect of the proposed method are significantly higher than those of unsupervised LLE and the existing semi-supervised flow feature extraction methods,indicating that the features extracted by this method have good class retention characteristics. Keywords:nonlinear feature extraction;manifold learning;semi-supervised;labeled information;clustering;visualiza- tion 随着信息科技的迅速发展，数据规模的爆炸点，为数据挖掘带来了空前的挑战。特征提取作式增长成为了大数据时代的主要特征之一。在此为处理高维数据的有效手段，通过提取数据的低时代背景下，数据通常具有维数高和稀疏性等特维特性，可以将高维特征空间映射到低维特征空间中进行数据的分析和处理，通常分为线性特征收稿日期：2020-03-04. 基金项目：国家自然科学基金项目(11471001,61872104). 提取和非线性特征提取2种方式。非线性特征提通信作者：王强.E-mail:1005834631@qq.com, 取不依赖于线性假设，对于处理非线性结构的数

DOI: 10.11992/tis.202003007 半监督类保持局部线性嵌入方法邓廷权，王强（哈尔滨工程大学数学科学学院，黑龙江哈尔滨 150001）摘要：为使局部线性嵌入（local linear embedding, LLE）这一无监督高维数据的非线性特征提取方法提取出的特征在分类或聚类学习上更优，提出一种半监督类保持局部线性嵌入 (semi-supervised class preserving local linear embedding, SSCLLE) 的非线性特征提取方法。该方法将半监督信息融入到 LLE 中，首先对标记样本近邻赋予伪标签，增大标记样本数量。其次，对标记样本之间的距离进行局部调整，缩小同类样本间距，扩大异类样本间距。同时在局部线性嵌入优化目标函数中增加全局同类样本间距和异类样本间距的约束项，使得提取出的低维特征可以确保同类样本点互相靠近，而异类样本点彼此分离。在一系列实验中，其聚类精确度以及可视化效果明显高于无监督 LLE 和现有半监督流特征提取方法，表明该方法提取出的特征具有很好的类保持特性。关键词：非线性特征提取；流形学习；半监督；标记信息；聚类；可视化中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2021)01−0098−10 中文引用格式：邓廷权, 王强. 半监督类保持局部线性嵌入方法 [J]. 智能系统学报, 2021, 16(1): 98–107. 英文引用格式：DENG Tingquan, WANG Qiang. Semi-supervised class preserving locally linear embedding[J]. CAAI transactions on intelligent systems, 2021, 16(1): 98–107. Semi-supervised class preserving locally linear embedding DENG Tingquan，WANG Qiang (College of Mathematical Sciences, Harbin engineering university, Harbin 150001, China) Abstract: To make local linear embedding (LLE), the nonlinear feature extraction method for unsupervised high-dimensional data, more optimal in classification or clustering learning, we propose a nonlinear semi-supervised class preserving local linear embedding (SSCLLE) feature extraction method. This method integrates semi-supervised information into LLE. First, pseudo-labels are assigned to the nearby neighbors of the labeled samples to increase the number of labeled samples. Second, the distance between the labeled samples is partially adjusted to reduce the distance between similar samples and expand the distance between heterogeneous samples. Simultaneously, the constraints of the globally same sample spacing and heterogeneous sample spacing are added in the local linear embedding optimization objective function so that the extracted low-dimensional features can ensure that the same sample points are near each other, whereas the heterogeneous sample points are separated from each other. In a series of experiments, the clustering accuracy and visualization effect of the proposed method are significantly higher than those of unsupervised LLE and the existing semi-supervised flow feature extraction methods, indicating that the features extracted by this method have good class retention characteristics. Keywords: nonlinear feature extraction; manifold learning; semi-supervised; labeled information; clustering; visualization 随着信息科技的迅速发展，数据规模的爆炸式增长成为了大数据时代的主要特征之一。在此时代背景下，数据通常具有维数高和稀疏性等特点，为数据挖掘带来了空前的挑战。特征提取作为处理高维数据的有效手段，通过提取数据的低维特性，可以将高维特征空间映射到低维特征空间中进行数据的分析和处理，通常分为线性特征提取和非线性特征提取 2 种方式。非线性特征提取不依赖于线性假设，对于处理非线性结构的数收稿日期：2020−03−04. 基金项目：国家自然科学基金项目 (11471001，61872104). 通信作者：王强. E-mail: 1005834631@qq.com. 第 16 卷第 1 期智能系统学报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021

·99· 邓廷权，等：半监督类保持局部线性嵌入方法第1期据效果较好，成为当前数据挖掘的热门方向之低维特征矩阵，Y=yy…yT,y:∈R,dm。一。流形学习6作为一种非线性特征提取方法，对于每个数据点，计算每一个数据点x到其应用了流形在局部结构上与欧氏空间同胚的性它点的欧氏距离，找到最近的k个点作为该数据质。通过对高维数据样本的分析来挖掘隐藏的本样本的近邻，确定数据的k近邻域。也可采用ε 质结构，从而提取有效的低维特征。然而，流形邻域方法确定数据的近邻点。学习方法仍然存在一些不足，例如：流形学习方假设任一点x都可用它的k近邻通过线性权值法忽略了数据的类别标记信息，提取的特征并不 wj=1,2,…,k加权来得到，由以下优化问题求解是分类上的最优特征。因此，忽略标记信息而提取线性重构的权矩阵w=wTw…w]下=(wm,为到的特征在进行数据聚类或分类时，结果往往与实际存在较大差异。所以希望可以使用半监督 mins(w 的方法进行学习，即少量标记信息来指导特征提 (1) 取，同时又使用大量无标记信息的数据点来刻画 S.t. =1 =1 并保持样本的局部或全局几何、线性等结构。容易获得优化问题式(1)的最优解：局部线性嵌入(LLE)是一种无监督的流 rG 形学习方法，直接用它提取的特征进行数据挖掘 w:-MTG.T (2) 如聚类或分类得到的结果并不是很理想。因此我式中：G:=(gy)是一个k×k的Gram矩阵（距离矩们希望将数据集的标记信息引入到LLE方法中阵)；g=(G-xax-);T=(1,1,…,1)F是一个用以提高特征提取效果。而已有的一些半监督方 k×1的全1矩阵；x表示样本x的第I个近邻点。法，例如半监督局部线性嵌人方法(semi-super- 记g1=x-x,则g5=gag。 vised locally linear embedding,SSLLE)虽然利用了基于局部线性重构矩阵式(2)，构造优化问题：标记信息对特征提取进行一定的改进，但它只考虑了近邻点的标记信息做局部调整，因此当整体 mino(Y 标记信息较低时每个近邻中将有可能出现没有标 (3) 记点的情况。这时SSLLE将失去作用并且由于 st.∑yy=∑y=0 它只考虑近邻的这种调整，当标记信息很多时它获得高维数据X的低维嵌入Y。们整体的区分度也不大。本文在LLE的基础上根据样本的邻域点分布将k维行向量w:扩利用近邻伪标签赋予得到的标记信息作局部调充成n维行向量W,记W=[WW灯…W]P,M= 整，同时从全局角度对同类数据点和异类数据 (I-W'(I-W,则优化问题式(3)的目标函数可化点进行全局调整，使得重构数据低维特征空间简为r(YTMY) 时，既保持局部线性结构，又能使提取后的数据采用拉格朗日乘子法求解优化问题式(3)，可在低维特征空间中可以实现具有相同标记信息的得MY=AY。即式(3)可转化为求特征值问题。数据点互相靠近，而标记不同的数据点彼此分实对称半正定矩阵M的最小d个非0特征值对离，从而达到更好的特征提取结果。最后通过聚应的特征向量按列排列时，每行做成的向量的就类分析及可视化证明本文方法的有效性。是对应数据的低维特征：。 1局部线性嵌入 2半监督类保持局部线性嵌入方法由Roweis等提出的LLE是一个经典的保持在数据挖掘任务中，监督信息为用户提供强局部线性特性的流形学习方法，可以有效提取高有力的数据分析基础。然而，众多实际问题只能维数据的低维特征。其基本原理为：假设数据是获得少量样本的监督标记。半监督机器学习方法分布在一个流形上的，任一点均可用它的近邻点应运而生。经由线性重构而得到。基于局部线性表示系数， LLE是一种经典的无监督高维数据特征提取构造优化问题使得数据在高维原始空间到低维特方法。本文在LLE基础上提出一种半监督类保征空间的过程中局部线性重构权值不发生变化，持局部线性嵌入方法(SSCLLE)。该方法不仅利获得高维数据的低维特征。用近邻伪标签赋予得到的标记信息调整近邻数据假设数据集X={x,2,…,x}中有n个样本点间的距离，而且从全局角度加入了同类数据点和 x,x:∈Rm,ie[l,川，YeRd为特征提取后获得的n个异类数据点的全局约束，使提取后的数据在低维

据效果较好，成为当前数据挖掘的热门方向之一。流形学习[1-6] 作为一种非线性特征提取方法，应用了流形在局部结构上与欧氏空间同胚的性质。通过对高维数据样本的分析来挖掘隐藏的本质结构，从而提取有效的低维特征。然而，流形学习方法仍然存在一些不足，例如：流形学习方法忽略了数据的类别标记信息，提取的特征并不是分类上的最优特征。因此，忽略标记信息而提取到的特征在进行数据聚类或分类时，结果往往与实际存在较大差异。所以希望可以使用半监督[7-14] 的方法进行学习，即少量标记信息来指导特征提取，同时又使用大量无标记信息的数据点来刻画并保持样本的局部或全局几何、线性等结构。局部线性嵌入 (LLE)[15] 是一种无监督[16] 的流形学习方法，直接用它提取的特征进行数据挖掘如聚类或分类得到的结果并不是很理想。因此我们希望将数据集的标记信息引入到 LLE 方法中用以提高特征提取效果。而已有的一些半监督方法，例如半监督局部线性嵌入方法 (semi-supervised locally linear embedding, SSLLE) 虽然利用了标记信息对特征提取进行一定的改进，但它只考虑了近邻点的标记信息做局部调整，因此当整体标记信息较低时每个近邻中将有可能出现没有标记点的情况。这时 SSLLE 将失去作用并且由于它只考虑近邻的这种调整，当标记信息很多时它们整体的区分度也不大。本文在 LLE 的基础上利用近邻伪标签赋予得到的标记信息作局部调整，同时从全局[17] 角度对同类数据点和异类数据点进行全局调整，使得重构数据低维特征空间时，既保持局部线性结构，又能使提取后的数据在低维特征空间中可以实现具有相同标记信息的数据点互相靠近，而标记不同的数据点彼此分离，从而达到更好的特征提取结果。最后通过聚类分析及可视化证明本文方法的有效性。 1 局部线性嵌入由 Roweis 等提出的 LLE 是一个经典的保持局部线性特性的流形学习方法，可以有效提取高维数据的低维特征。其基本原理为：假设数据是分布在一个流形上的，任一点均可用它的近邻点经由线性重构而得到。基于局部线性表示系数，构造优化问题使得数据在高维原始空间到低维特征空间的过程中局部线性重构权值不发生变化，获得高维数据的低维特征。 X = {x1, x2,··· , xn} xi xi ∈ R m i ∈ [1,n] Y ∈ R n×d n 假设数据集中有 n 个样本点 , , , 为特征提取后获得的个 Y = [y T 1 y T 2 ··· y T n ] T yi ∈ R d 低维特征矩阵，， ,d ≪ m 。 xi ε 对于每个数据点，计算每一个数据点到其它点的欧氏距离，找到最近的 k 个点作为该数据样本的近邻，确定数据的 k 近邻域。也可采用邻域方法确定数据的近邻点。 xi wi j, j = 1,2,··· , k w = [w T 1 w T 2 ··· w T n ] T = (wi j)k×n 假设任一点都可用它的 k 近邻通过线性权值加权来得到，由以下优化问题求解线性重构的权矩阵，为 minε(w) = ∑n i=1 xi − ∑k j=1 wi jxj 2 s.t. ∑k j=1 wi j = 1 (1) 容易获得优化问题式 (1) 的最优解： wi = Γ TG −1 i ΓTG−1 i Γ (2) Gi = (g i l j) k×k Gram g i l j = (xi − xil)(xi − xi j) T Γ = (1,1,··· ,1)T k×1 xil xi gil = xi − xil g i l j = gil g T i j 式中：是一个的矩阵 (距离矩阵 )；；是一个的全 1 矩阵；表示样本的第 l 个近邻点。记，则。基于局部线性重构矩阵式 (2)，构造优化问题： minσ(Y) = ∑n i=1 yi − ∑k j=1 wi jyj 2 s.t. ∑n i=1 y T i yi = I, ∑n i=1 yi = 0 (3) 获得高维数据 X 的低维嵌入 Y。 wi Wi W = [WT 1 WT 2 ··· WT n ] T M = (I−W) T (I−W) tr( Y TMY) 根据样本的邻域点分布将 k 维行向量扩充成 n 维行向量，记，，则优化问题式 (3) 的目标函数可化简为。 MY = λY yi 采用拉格朗日乘子法求解优化问题式 (3)，可得。即式 (3) 可转化为求特征值问题。实对称半正定矩阵 M 的最小 d 个非 0 特征值对应的特征向量按列排列时，每行做成的向量的就是对应数据的低维特征。 2 半监督类保持局部线性嵌入方法在数据挖掘任务中，监督信息为用户提供强有力的数据分析基础。然而，众多实际问题只能获得少量样本的监督标记。半监督机器学习方法应运而生。 LLE 是一种经典的无监督高维数据特征提取方法。本文在 LLE 基础上提出一种半监督类保持局部线性嵌入方法 (SSCLLE)。该方法不仅利用近邻伪标签赋予得到的标记信息调整近邻数据间的距离，而且从全局角度加入了同类数据点和异类数据点的全局约束，使提取后的数据在低维 ·99· 邓廷权，等：半监督类保持局部线性嵌入方法第 1 期

第16卷智能系统学报 ·100· 特征空间中可以实现具有相同标记信息的数据点 CL={(x,x≠l(x)≠1(x川互相靠近，而标号不同的数据点彼此分离，达到分别构造同类样本项偏差和异类样本项偏差：更好的特征提取效果。 ha=∑aa d(yy)=yyl 假设X是一个半监督数据集，其中少部分数据样本带有标记（类别标签）。记X是有标签的 Ja.= ∑waaf6.）=-yf 数据组成的集合，1(x)e{1,2…,f是X中各数据式中d(,y)表示低维特征y:与y之间的欧氏距离。点所对应的标签，L=l(x),lx2),…,l(x)》,f是数据本文的目的是要求同类样本项偏差尽量小，集的类数。同时确保异类样本项偏差尽可能的大。一般情况下，X中的样本量较少。在流形学构造半监督数据集X中每一个数据样本点的习中，少量监督样本不能全面描述和刻画数据的线性重构权值。利用数据中已有的标记信息以及局部和全局流形结构，致使学习到的特征不能准新标记的标记信息来重新调整距离矩阵，从而使确反映数据的内在特性。本文给出一种近邻伪标得构造的数据点的邻域更加有利于提取优质的特征。签赋予的方法，给部分未标记样本赋予伪标签， (1-r）g,1(x）=l(x) 增大标记样本量。 (1+r)g,1(x)≠x） (4) 将所有标记样本X的各自近邻中的未标记点设置与标记点相同的初标签，然后对这些初标 g,x和x至少一个无标号签点进行筛选。如果这个未标记点只赋予了一个式中0<1。标签，则将此标签设定为这个点的伪标签。如果从式(4)可以看出，如果2个样本有相同的类这个未标记点有2个以上的伪标签，把这个点的标，则将其距离缩小。如果2个样本有不同的类所有初标签都去掉，该点依然设定为未标记点，标，则将其距离扩大。在其他情况下，样本点间如图1所示。的距离保持不变。重置式(2)中的距离矩阵为G=(g),其中 g0=8l8T。再由(2)计算样本点的邻域局部线性重构权矩阵由此利用标记信息得到改进后的新重构权矩阵w=(w)0 基于以上分析，构造如下优化问题： 2 图1近邻伪标签赋值方法示意 minp(Y)= Fig.1 Schematic diagram of nearest neighbor pseudo la- 11 bel assignment method d(yi.yj)- 在图1的左图中，红色和绿色的点分别代表 (xT))eML (5) 标记点(2类)，蓝色是无标签的点。经过上述近 (1-∑(yy） (t-)eCL 邻伪标签赋值方法后，只有一类标记信息的近邻点保留赋予的标签（右图新增加的红色点和绿色 s.t. ∑=0,2=1 点)，而有2种（或多种）标记的近邻点则依旧标为该优化问题式(5)的目标函数由3部分组无标记点，保持其蓝色不变（右图大圆中的2个蓝成。第1项形式上虽然和LLE相同，但其中的重色点)。得到的新标签数据为X,则有标签的数构权矩阵包含了样本点的半监督信息，能够确保据组成的集合为X=[X,X],对应的新标签集合为提取出的特征既保持数据的局部线性结构不变 L={),1(x2),…,1(x),l(x+i…lx*}o 又能在局部上使类内（同类）数据更紧密，并对类新增加的伪标签虽然不是真实的标签，但由间（异类）数据进行分离的效果。第2项和第3项于其与被标注样本具有很好的近邻关系，通过这分别是全局同类样本偏差和全局异类样本偏差，样的扩充可增加标记信息的量，有利于更好地描目的是确保同类样本偏差最小，同时确保全局异述数据的内在结构，发现样本中隐藏的鉴别能力。类样本偏差最大，参数α∈(0,1)是2个偏差项的为了构造出利用全局信息进行调整的优化问平衡系数，权衡同类样本项和异类样本项对目标题，首先定义同类数据点对集合：函数的影响。B也是一个平衡参数，用于调节局 ML={(x,xi≠方l(x)=l(x》部线性重构对于目标函数的影响。和异类数据点对集合：式（⑤）的约束条件与LLE相同，确保提取出

特征空间中可以实现具有相同标记信息的数据点互相靠近，而标号不同的数据点彼此分离，达到更好的特征提取效果。 X Xc l(x) ∈ {1,2,··· , f} Xc L = {l(x1),l(x2),··· ,l(xs)} 假设是一个半监督数据集，其中少部分数据样本带有标记 (类别标签)。记是有标签的数据组成的集合，是中各数据点所对应的标签，，f 是数据集的类数。一般情况下， Xc 中的样本量较少。在流形学习中，少量监督样本不能全面描述和刻画数据的局部和全局流形结构，致使学习到的特征不能准确反映数据的内在特性。本文给出一种近邻伪标签赋予的方法，给部分未标记样本赋予伪标签，增大标记样本量。将所有标记样本 Xc 的各自近邻中的未标记点设置与标记点相同的初标签，然后对这些初标签点进行筛选。如果这个未标记点只赋予了一个标签，则将此标签设定为这个点的伪标签。如果这个未标记点有 2 个以上的伪标签，把这个点的所有初标签都去掉，该点依然设定为未标记点，如图 1 所示。图 1 近邻伪标签赋值方法示意 Fig. 1 Schematic diagram of nearest neighbor pseudo label assignment method Xw Xz = [Xc ,Xw] L = {l(x1),l(x2),··· ,l(xs),l(xs+1),···l(xs+t)} 在图 1 的左图中，红色和绿色的点分别代表标记点 (2 类)，蓝色是无标签的点。经过上述近邻伪标签赋值方法后，只有一类标记信息的近邻点保留赋予的标签 (右图新增加的红色点和绿色点)，而有 2 种 (或多种) 标记的近邻点则依旧标为无标记点，保持其蓝色不变 (右图大圆中的 2 个蓝色点)。得到的新标签数据为，则有标签的数据组成的集合为 ,对应的新标签集合为。新增加的伪标签虽然不是真实的标签，但由于其与被标注样本具有很好的近邻关系，通过这样的扩充可增加标记信息的量，有利于更好地描述数据的内在结构，发现样本中隐藏的鉴别能力。为了构造出利用全局信息进行调整的优化问题，首先定义同类数据点对集合： ML = { (xi , xj)|i , j,l(xi) = l(xj) } 和异类数据点对集合： CL = { (xi , xj)|i , j,l(xi) , l(xj) } 分别构造同类样本项偏差和异类样本项偏差： JML = ∑ (xi,xj)∈ML d 2 (yi , yj) = yi − yj 2 JCL = ∑ (xi,xj)∈CL d 2 (yi , yj) = yi − yj 2 d ( yi , yj ) 式中表示低维特征 yi 与 yj 之间的欧氏距离。本文的目的是要求同类样本项偏差尽量小，同时确保异类样本项偏差尽可能的大。构造半监督数据集 X 中每一个数据样本点的线性重构权值。利用数据中已有的标记信息以及新标记的标记信息来重新调整距离矩阵，从而使得构造的数据点的邻域更加有利于提取优质的特征。 gi j ′ =    (1−r)gi j, l(xi) = l(xj) (1+r)gi j, l(xi) , l(xj) gi j, xi和xj至少一个无标号 (4) 式中 0<r<1。从式 (4) 可以看出，如果 2 个样本有相同的类标，则将其距离缩小。如果 2 个样本有不同的类标，则将其距离扩大。在其他情况下，样本点间的距离保持不变。 Gi ′ = (g i′ l j) g i′ l j = gil ′ gi j ′T 重置式 (2) 中的距离矩阵为，其中。 w = (wi j) 再由 (2) 计算样本点的邻域局部线性重构权矩阵由此利用标记信息得到改进后的新重构权矩阵。基于以上分析，构造如下优化问题： minρ(Y) = β ∑n i=1 yi − ∑n j=1 wi jyj 2 + α ∑ (xi,xj)∈ML d 2 (yi , yj)− (1−α) ∑ (xi,xj)∈CL d 2 (yi , yj) s.t. ∑n i=1 yi = 0 , ∑n i=1 y T i yi = I (5) α ∈ (0,1) 该优化问题式 (5) 的目标函数由 3 部分组成。第 1 项形式上虽然和 LLE 相同，但其中的重构权矩阵包含了样本点的半监督信息，能够确保提取出的特征既保持数据的局部线性结构不变，又能在局部上使类内 (同类) 数据更紧密，并对类间 (异类) 数据进行分离的效果。第 2 项和第 3 项分别是全局同类样本偏差和全局异类样本偏差，目的是确保同类样本偏差最小，同时确保全局异类样本偏差最大，参数是 2 个偏差项的平衡系数，权衡同类样本项和异类样本项对目标函数的影响。β 也是一个平衡参数，用于调节局部线性重构对于目标函数的影响。式 (5) 的约束条件与 LLE 相同，确保提取出第 16 卷智能系统学报 ·100·

·101· 邓廷权，等：半监督类保持局部线性嵌入方法第1期的特征在低维空间中旋转平移伸缩都具有平移和的第i行向量即为高维数据：的低维特征。缩放不变性，其中I为d阶单位矩阵。简记式（⑤）的目标函数为 3实验及结果分析 (Y)=Bo(Y)+aJML-(1-a)JcL (6) 为了证明本文提出的SSCLLE的性能，在加这样，式(6)的第1部分形式上与LLE相同，州大学欧文分校(university of california irvine,. 仍可表示为 UCI)数据集、实物数据集coil20和手写数字 -2 t(YMY) MNIST数据集上进行实验。实验结果分别与经典的无监督流形学习方法LLE、半监督SSLLE 式中的M由式(2)、(4)确定。方法，半监督拉普拉斯特征映射(semi-supervised 为了简化第2部分和第3部分，给定矩阵 laplacian eigenmap,SSLE)I和分类约束降维方法 Y=yy…y]T∈Rm,Z=[zz对…z]T∈Rd,则 (classification constrained dimensionality reduction. 对任意y:∈R4和zeR4,均有： CCDR)2o进行实验对比。从聚类精度和数据可 -y4-0=2-ya-2=r4z 视化角度对它们进行实验比较和分析。在这里简单介绍3种半监督方法。基于LLE 其中A=(A)网)为n×n矩阵，则提出的SSLLE,它的思想是结合数据拥有的部分 1, p=i,q=i 标记信息调整近邻样本点之间的距离，再利用调 1, p=j.q=j 整后的距离来重构权值矩阵。虽然SSLLE可以 (Ap -1,p=i,q=j -1,p=j.q=i 利用部分标签信息使得近邻中同类数据点距离更 0. 其他近，异类数据点更远从而实现更好的分类以及聚令类效果。但由于SSLLE方法仅对近邻点之间的 (x,x)∈M 距离做调整，缺乏对全局同类异类点的考虑。当其他标记点较少时近邻中可能出现没有同类或异类的 (x,x)∈CL 点的情况，这时SSLLE将失去作用。而且由于它其他只考虑近邻的调整，当标记信息很多时它们整体则有：的区分度也不大。 2F》 SSLE和CCDR都是在拉普拉斯特征映射 (laplacian eigenmap,LE)的基a础上提出的半监督会m4m-r24 方法。在这里SSLE也是一种利用信息在局部做调凋整的方法，缺点和SSLLE类似。而CCDR是 r(YVMLY) 一种全局的调整，相较于SSLE有较好的提取和效果。本文S$CLLE方法在保持局部线性结构的同 = 时，不仅利用标记信息对局部做调整，同时利用 ∑u(AY)=rYr2哈Ay (7 全局项对全局做调整。使类内数据更紧密，而对类间数据进行分离。从而达到更好的特征提取效 tr(YVeLY) 果，以下是相关的实验验证。因此，优化问题（⑤）的矩阵表示形式为统一对各方法设定参数，进行特征提取。这 minp(Y)=tr(YHY) 里用聚类精度作为评判方法有效性的指标之一， s.t.Yy=I,ITY=0 利用模糊C均值(fuzzy c-means,FCM)聚类方法式中：H=BM+aVm-(1-a)Vc;1=(1,1,…,1)T是进行聚类分析。关于样本标签个数做以下设置：一个n×1的全1矩阵。采用拉格朗日乘子法求从数据集的每类样本中随机抽取S(S=5%, 解，优化问题(7)的解转化为求解HY=λY的特征 10%,…,50%)比例的数据作为已知标签样本。取值问题。 20次实验的平均值作为最终的聚类精度。参数计算矩阵H的前d个最小非零特征值(0≠ 表示：近邻个数为k,低维特征维度为d,SSLLE ≤2≤…≤)所对应的特征向量（列向量）P,p= 方法调节参数用r表示，SSLE方法中的参数用 1,2,…,d,将其构成矩阵Y=[12…vl,则矩阵Y v表示，CCDR方法中的参数用u表示，本文

的特征在低维空间中旋转平移伸缩都具有平移和缩放不变性，其中 I 为 d 阶单位矩阵。简记式 (5) 的目标函数为 ρ(Y) = βσ(Y)+αJML −(1−α)JCL (6) 这样，式 (6) 的第 1 部分形式上与 LLE 相同，仍可表示为 σ(Y) = ∑n i=1 yi − ∑n j=1 Wi jyj 2 = tr(Y TMY) 式中的 M 由式 (2)、(4) 确定。 Y = [y T 1 y T 2 ··· y T n ] T ∈ R n×d Z = [z T 1 z T 2 ··· z T n ] T ∈ R n×d yi ∈ R d和zj ∈ R d 为了简化第 2 部分和第 3 部分，给定矩阵[10] , ，则对任意，均有： (yi − yj) T (zi − zj) = ∑d l=1 (yil −yjl)(zil −zjl) = tr(Y TA i jZ) A i j = ((A i j 其中 )pq) 为 n×n 矩阵，则 (A i j)pq =    1, p = i,q = i 1, p = j,q = j −1, p = i,q = j −1, p = j,q = i 0, 其他令 w ML i j = { 1, (xi , xj) ∈ ML 0, 其他 w CL i j = { 1, (xi , xj) ∈ CL 0, 其他则有： JML = ∑ (xi,xj)∈ML d 2 (yi , yj) = ∑n i, j=1 w ML i j d 2 (yi , yj) = ∑n i, j=1 w ML i j tr(Y TA i jY) = tr   Y T ( ∑n i, j=1 w ML i j A i j)Y   = tr(Y TVMLY) 和 JCL = ∑ (xi,xj)∈CL d 2 (yi , yj) = ∑n i, j=1 w CL i j d 2 (yi , yj) = ∑n i, j=1 w CL i j tr(Y TA i jY) = tr   Y T ( ∑n i, j=1 w CL i j A i j)Y   = tr(Y TVCLY) (7) 因此，优化问题 (5) 的矩阵表示形式为 minρ(Y) = tr(Y THY) s.t. Y TY = I, 1 TY = 0 H = βM +αVML −(1−α)VCL 1 = (1,1,··· ,1)T n×1 HY = λY 式中：；是一个的全 1 矩阵。采用拉格朗日乘子法求解，优化问题 (7) 的解转化为求解的特征值问题。 0 , λ1 ⩽ λ2 ⩽ ··· ⩽ λd vp, p = 1,2,··· ,d Y = [v1 v2 ··· vp] Y 计算矩阵 H 的前 d 个最小非零特征值 ( ) 所对应的特征向量 (列向量) ，将其构成矩阵，则矩阵的第 i 行向量即为高维数据 xi 的低维特征 yi。 3 实验及结果分析为了证明本文提出的 SSCLLE 的性能，在加州大学欧文分校 (university of california irvine, UCI) 数据集、实物数据集 coil_20 和手写数字 MNIST 数据集上进行实验。实验结果分别与经典的无监督流形学习方法 LLE、半监督 SSLLE[18] 方法，半监督拉普拉斯特征映射 (semi-supervised laplacian eigenmap, SSLE)[19] 和分类约束降维方法 (classification constrained dimensionality reduction, CCDR)[20] 进行实验对比。从聚类精度和数据可视化角度对它们进行实验比较和分析。在这里简单介绍 3 种半监督方法。基于 LLE 提出的 SSLLE，它的思想是结合数据拥有的部分标记信息调整近邻样本点之间的距离，再利用调整后的距离来重构权值矩阵。虽然 SSLLE 可以利用部分标签信息使得近邻中同类数据点距离更近，异类数据点更远从而实现更好的分类以及聚类效果。但由于 SSLLE 方法仅对近邻点之间的距离做调整，缺乏对全局同类异类点的考虑。当标记点较少时近邻中可能出现没有同类或异类的点的情况，这时 SSLLE 将失去作用。而且由于它只考虑近邻的调整，当标记信息很多时它们整体的区分度也不大。 SSLE 和 CCDR 都是在拉普拉斯特征映射（laplacian eigenmap，LE）的基础上提出的半监督方法。在这里 SSLE 也是一种利用信息在局部做调整的方法，缺点和 SSLLE 类似。而 CCDR 是一种全局的调整，相较于 SSLE 有较好的提取效果。本文 SSCLLE 方法在保持局部线性结构的同时，不仅利用标记信息对局部做调整，同时利用全局项对全局做调整。使类内数据更紧密，而对类间数据进行分离。从而达到更好的特征提取效果，以下是相关的实验验证。 S (S = 5%, 10%,··· ,50%) 统一对各方法设定参数，进行特征提取。这里用聚类精度作为评判方法有效性的指标之一，利用模糊 C 均值（fuzzy c-means，FCM）聚类方法进行聚类分析。关于样本标签个数做以下设置：从数据集的每类样本中随机抽取比例的数据作为已知标签样本。取 20 次实验的平均值作为最终的聚类精度。参数表示：近邻个数为 k，低维特征维度为 d，SSLLE 方法调节参数用 r 表示，SSLE方法中的参数用 v 表示， CCDR 方法中的参数用 u 表示，本文 ·101· 邓廷权，等：半监督类保持局部线性嵌入方法第 1 期

第16卷智能系统学报 ·102· SSCLLE方法中a和B分别用a和b表示，r与之间聚类精度各有高低。而当d为2时，虽然 SSLLE中设置相同。 SSCLLE方法在Seeds数据集的实验中的聚类精 3.1UCI中几个数据集度并不是全部保持最高，当标记比例为5%时实验中从UCI数据库里选3个数据集，分别 S$LLE方法仅仅略高于本文方法，在标记比例为为Wine数据集、Seeds数据集和WDBC(wisconsin 15%以及另外2个数据集时SSCLLE的聚类精度 diagnostic breast cancer) 最高。总体实验分析可知，本文提出的半监督流然后，分别用5种方法进行实验比较和分形学习方法SSCLLE相比无监督方法LLE与其析。根据特征提取的维数d做3组实验，分别设他3种半监督方法聚类精度最高，体现出本文方置d的值为2、3和4。每类数据随机标记5%，每法的优势。组实验进行20次，求聚类精度的平均值来评判表4d=4时5种方法的平均聚类精度 5种方法的特征提取效果。表1~3分别是d值为 Table 4 Average clustering accuracy of the five 2、3和4时，各方法对3个数据集进行特征提取 methods when d=4 % 后得到的平均聚类精度。实验中，将参数设置数据集 Wine Seeds WDBC 为：k=6,r=0.8,v=0.5,u=1,a=0.9,b=10。比例% 5 15 5 15 5 15 LLE 92.1392.1372.4872.4884.3684.36 表1数据集信息 93.3894.2783.3183.52 Table 1 Data set information SSLLE 86.8986.87 SSLE 87.6487.7580.5780.48 79.3778.87 数据集数据个数属性个数类别 CCDR 88.290.1180.4382.3875.4876.94 Wine 178 3 SSCLLE 94.1894.2783.8183.7686.9687.99 Seeds 210 7 3 对于半监督方法来说标记信息的多少会影响 WDBC 569 30 聚类的结果。这里把3组UCI数据中的每一个类标记信息比例设置为5%、20%和40%，提取特征表2d=2时5种方法的平均聚类精度维数=2。图2为3个数据集在4种半监督方法 Table 2 Average clustering accuracy of the five methods when d=2 % 下的实验结果。由图2的实验结果可以看出：3个数据集的数据集 Wine Seeds WDBC 柱状分析图，随着数据的标记比例的增加，各个比例% 15 15 15 半监督方法的聚类精度也在增加，符合半监督方 LLE 93.4493.44 76.23 76.23 84.7184.71 法利用越多标记信息就会提高聚类精度的设想。 SSLLE 95.1796.63 91.19191.22 89.0989.96 但明显可以看出2种基于局部标记信息进行调整的方法SSLLE和SSLE,随着标记信息的增加聚 SSLE 95.7397.19 87.70387.91 89.75 90.9 类精度提升，相对考虑全局信息的SSCLLE与CCDR CCDR 95.6296.97 88.17190.01 85.2 90.11 不明显。而SSCLLE方法的聚类精度已经达到了 SSCLLE 96.2997.53 91.10592.19 91.5392.09 一个很高的值，明显高于CCDR,所以相对没有 CCDR提升比率那么高。总体实验分析中可以看表3d=3时5种方法的平均聚类精度到，在每组实验里SSCLLE方法的聚类精度基本 Table 3 Average clustering accuracy of the five methods when d=3 % 都能保持最高，证明了本方法在UCI数据上的优势。数据集 Wine Seeds WDBC 100 ■5%☐20%☐40% 比例/% 15 15 5 15 90 LLE 94.9493.9464.7664.7676.7776.77 80 SSLLE 94.3894.49.89.0589.1 78.0382.39 70 SSLE 93.2693.2383.8184.19 63.5175.04 50 CCDR92.9293.8186.1489.0563.6979.3 SSCLLE95.0695.3889.0590.178.2286.53 30 由表2~4数据可知：当特征空间的维数d为 3和4时，在3个数据集上SSCLLE方法的聚类精 SSLLE SSLE CCDR SSCLLE 度都比其他4种方法高，其他方法在不同数据集 (a)Wine数据集

SSCLLE 方法中 α 和 β 分别用 a 和 b 表示，r 与 SSLLE 中设置相同。 3.1 UCI 中几个数据集实验中从 UCI 数据库里选 3 个数据集，分别为 Wine 数据集、Seeds 数据集和 WDBC(wisconsin diagnostic breast cancer)。 k = 6,r = 0.8, v = 0.5,u = 1,a = 0.9,b = 10 然后，分别用 5 种方法进行实验比较和分析。根据特征提取的维数 d 做 3 组实验，分别设置 d 的值为 2、3 和 4。每类数据随机标记 5%，每组实验进行 20 次，求聚类精度的平均值来评判 5 种方法的特征提取效果。表 1~3 分别是 d 值为 2、3 和 4 时，各方法对 3 个数据集进行特征提取后得到的平均聚类精度。实验中，将参数设置为：。表 1 数据集信息 Table 1 Data set information 数据集数据个数属性个数类别 Wine 178 13 3 Seeds 210 7 3 WDBC 569 30 2 表 2 d = 2 时 5 种方法的平均聚类精度 Table 2 Average clustering accuracy of the five methods when d=2 % 数据集 Wine Seeds WDBC 比例/% 5 15 5 15 5 15 LLE 93.44 93.44 76.23 76.23 84.71 84.71 SSLLE 95.17 96.63 91.191 91.22 89.09 89.96 SSLE 95.73 97.19 87.703 87.91 89.75 90.9 CCDR 95.62 96.97 88.171 90.01 85.2 90.11 SSCLLE 96.29 97.53 91.105 92.19 91.53 92.09 表 3 d = 3 时 5 种方法的平均聚类精度 Table 3 Average clustering accuracy of the five methods when d =3 % 数据集 Wine Seeds WDBC 比例/% 5 15 5 15 5 15 LLE 94.94 93.94 64.76 64.76 76.77 76.77 SSLLE 94.38 94.49 89.05 89.1 78.03 82.39 SSLE 93.26 93.23 83.81 84.19 63.51 75.04 CCDR 92.92 93.81 86.14 89.05 63.69 79.3 SSCLLE 95.06 95.38 89.05 90.1 78.22 86.53 由表 2~4 数据可知：当特征空间的维数 d 为 3 和 4 时，在 3 个数据集上 SSCLLE 方法的聚类精度都比其他 4 种方法高，其他方法在不同数据集之间聚类精度各有高低。而当 d 为 2 时，虽然 SSCLLE 方法在 Seeds 数据集的实验中的聚类精度并不是全部保持最高，当标记比例为 5% 时 SSLLE 方法仅仅略高于本文方法，在标记比例为 15% 以及另外 2 个数据集时 SSCLLE 的聚类精度最高。总体实验分析可知，本文提出的半监督流形学习方法 SSCLLE 相比无监督方法 LLE 与其他 3 种半监督方法聚类精度最高，体现出本文方法的优势。表 4 d = 4 时 5 种方法的平均聚类精度 Table 4 Average clustering accuracy of the five methods when d=4 % 数据集 Wine Seeds WDBC 比例/% 5 15 5 15 5 15 LLE 92.13 92.13 72.48 72.48 84.36 84.36 SSLLE 93.38 94.27 83.31 83.52 86.89 86.87 SSLE 87.64 87.75 80.57 80.48 79.37 78.87 CCDR 88.2 90.11 80.43 82.38 75.48 76.94 SSCLLE 94.18 94.27 83.81 83.76 86.96 87.99 对于半监督方法来说标记信息的多少会影响聚类的结果。这里把 3 组 UCI 数据中的每一个类标记信息比例设置为 5%、20% 和 40%，提取特征维数 d=2。图 2 为 3 个数据集在 4 种半监督方法下的实验结果。由图 2 的实验结果可以看出：3 个数据集的柱状分析图，随着数据的标记比例的增加，各个半监督方法的聚类精度也在增加，符合半监督方法利用越多标记信息就会提高聚类精度的设想。但明显可以看出 2 种基于局部标记信息进行调整的方法 SSLLE 和 SSLE，随着标记信息的增加聚类精度提升，相对考虑全局信息的 SSCLLE 与 CCDR 不明显。而 SSCLLE 方法的聚类精度已经达到了一个很高的值，明显高于 CCDR，所以相对没有 CCDR 提升比率那么高。总体实验分析中可以看到，在每组实验里 SSCLLE 方法的聚类精度基本都能保持最高，证明了本方法在 UCI 数据上的优势。 SSLLE SSLE CCDR SSCLLE 0 10 20 30 40 50 60 70 80 90 100 5% 20% 40% 聚类精度/% (a) Wine 数据集第 16 卷智能系统学报 ·102·

·103· 邓廷权，等：半监督类保持局部线性嵌人方法第1期 100 ■5%☐20%☐40% 度考虑标记信息的方法较局部效果要好，充分说 90 明SSCLLE方法基于全局考虑的正确性。除在第6组数据中SSLLE方法的聚类精度最高外，其 60 它组中都是本文中提出的SSCLLE方法精度最高。 0000 表5C0L20数据集在不同方法下的平均聚类精度 Table 5 Average clustering accuracy of COIL 20 10 dataset under different methods % 0 LLE SSLLE SSLE CCDR SSCLLE SSLLE SSLE CCDR SSCLLE Dataset b)WDBC数据集 Group 62.96 63.57 54.17 54.77 93.52 100 ■5%☐20%☐40% Group2 49.07 51.39 48.19 52.27 80.56 90 70.85 71.99 43.56 51.99 88.89 000 Group3 Group4 49.35 52.18 48.94 51.16 80.09 50 Groups 51.39 51.85 47.22 48.80 74.54 4 Groupe 75.00 78.03 44.21 59.17 77.63 Group 81.53 86.11 46.71 63.29 20 87.50 10 Groups 63.98 63.10 51.02 71.16 81.02 SSLLE SSLE CCDR SSCLLE Groupo 74.93 75.00 55.93 69.54 89.81 (c)Seeds数据集接下来随机选出一组数据为{7,3,9；，来做在图2标记样本的比例对聚类精度的影响，作2 不同标签比例下不同方法聚类精度的折线图，参 Fig.2 Influence of proportion of labeled samples on clus- tering accuracy,d-2 数设置为：k=7,d=8,a=1,b=10,r=0.5,u=1,v=0.5。 3.2实物数据集COL20 100 ★一★一★一★一一★ 这里采用哥伦比亚大学(COL-20)数据集中第2种（背景被丢弃，图像由包含物体的最小正方 90 形组成)，数据集共有20种不同的物体，每种有 72张图片。每个图片都是50×50的灰度图像，在 80 实验中将每张图片以行拉成一个2500的向量。 oLLE·SSLLE+SSLE -·CCDR-◆SSCLLE 最后以向量集的形式进行处理与分析。 705 -0--0-0-0--0-0-0-0--0 从数据集中按顺序选取6组数据，每组3类 65 5101520253035404550 不同的物体。分组分别是{1,2,3}，{4,5,6}，标签比例% {7,8,9},10,11,12:,{13,14,15}和{16,17,18}，然后再图3不同标记比例C0L20数据集聚类精度随机选取3组不同的数据{9,7,10}，{7,3,5}， Fig.3 The clustering accuracy of COIL 20 dataset under {4,10,1},每组运行20次计算聚类精度。其中 different labeling ratios Group~Group,分别对应以上9组数据，用不同方由图3可看出在这组数据中随着标记比例的法做实验得到聚类精度。参数设置为：k=8,d=8, 增加无监督LLE方法精度保持不变，而SSLLE r=0.5,a=1,b=10,u=1,v=0.5,标记比例为15%，与SSLE方法的聚类精度随着标记比例的增加只实验结果如表5所示。发生了波动，基本没有体现出上升趋势，说明这由表5实验结果可以看到，在这9组数据中 2种利用类信息只调节近邻关系的方法对一些数据由于SSLLE和本文方法SSCLLE都是在LLE方提取到的特征不能很好地提高可分性。而SSCLLE 法上进行的一种改进，所以它们的聚类精度都高和CCDR方法都是考虑全局的调整，可看到聚类于LLE。且本方法利用了全局标记信息进行调精度呈上升趋势，且高于其他方法，除在5%的情整，聚类精度明显高于SSLLE。SSLE与CCDR 况下略低于CCDR方法外，其余比例下均高于其都是一种在LE基础上做的改进，分析数据可以他方法。体现出SSCLLE方法对近邻及全局做调看出整体上它们略低于LLE的改进。且由于CCDR 整的优势。也是一种基于全局考虑标记信息的方法，基本上 3.3数据可视化聚类精度都高于SSLE。由此体现出基于全局角数据可视化作为一种重要的数据分析方式

3.2 实物数据集 COIL _20 这里采用哥伦比亚大学 (COIL-20) 数据集中第 2 种 (背景被丢弃，图像由包含物体的最小正方形组成)，数据集共有 20 种不同的物体，每种有 72 张图片。每个图片都是 50×50 的灰度图像，在实验中将每张图片以行拉成一个 2 500 的向量。最后以向量集的形式进行处理与分析。 k = 8,d = 8, r = 0.5,a = 1,b = 10,u = 1, v = 0.5 从数据集中按顺序选取 6 组数据，每组 3 类不同的物体。分组分别是 {1,2,3} ， {4,5,6} ， {7,8,9}，{10,11,12},{13,14,15}和{16,17,18}，然后再随机选取 3 组不同的数据 {9,7,10}， {7,3,5}， {4,10,1}，每组运行 20 次计算聚类精度。其中 Group1~Group9 分别对应以上 9 组数据，用不同方法做实验得到聚类精度。参数设置为：，标记比例为 15%，实验结果如表 5 所示。由表 5 实验结果可以看到，在这 9 组数据中由于 SSLLE 和本文方法 SSCLLE 都是在 LLE 方法上进行的一种改进，所以它们的聚类精度都高于 LLE。且本方法利用了全局标记信息进行调整，聚类精度明显高于 SSLLE。SSLE 与 CCDR 都是一种在 LE 基础上做的改进，分析数据可以看出整体上它们略低于 LLE 的改进。且由于 CCDR 也是一种基于全局考虑标记信息的方法，基本上聚类精度都高于 SSLE。由此体现出基于全局角度考虑标记信息的方法较局部效果要好，充分说明 SSCLLE 方法基于全局考虑的正确性。除在第 6 组数据中 SSLLE 方法的聚类精度最高外，其它组中都是本文中提出的 SSCLLE 方法精度最高。表 5 COIL_20 数据集在不同方法下的平均聚类精度 Table 5 Average clustering accuracy of COIL_20 dataset under different methods % Dataset LLE SSLLE SSLE CCDR SSCLLE Group1 62.96 63.57 54.17 54.77 93.52 Group2 49.07 51.39 48.19 52.27 80.56 Group3 70.85 71.99 43.56 51.99 88.89 Group4 49.35 52.18 48.94 51.16 80.09 Group5 51.39 51.85 47.22 48.80 74.54 Group6 75.00 78.03 44.21 59.17 77.63 Group7 81.53 86.11 46.71 63.29 87.50 Group8 63.98 63.10 51.02 71.16 81.02 Group9 74.93 75.00 55.93 69.54 89.81 k = 7,d = 8,a = 1,b = 10,r = 0.5,u = 1, v = 0.5 接下来随机选出一组数据为{7，3，9}，来做在不同标签比例下不同方法聚类精度的折线图，参数设置为：。 5 10 15 20 25 30 35 40 45 50 标签比例/% 65 70 75 80 85 90 95 100 LLE SSLLE SSLE CCDR SSCLLE 聚类精度/% 图 3 不同标记比例 COIL_20 数据集聚类精度 Fig. 3 The clustering accuracy of COIL_20 dataset under different labeling ratios 由图 3 可看出在这组数据中随着标记比例的增加无监督 LLE 方法精度保持不变，而 SSLLE 与 SSLE 方法的聚类精度随着标记比例的增加只发生了波动，基本没有体现出上升趋势，说明这 2 种利用类信息只调节近邻关系的方法对一些数据提取到的特征不能很好地提高可分性。而 SSCLLE 和 CCDR 方法都是考虑全局的调整，可看到聚类精度呈上升趋势，且高于其他方法，除在 5% 的情况下略低于 CCDR 方法外，其余比例下均高于其他方法。体现出 SSCLLE 方法对近邻及全局做调整的优势。 3.3 数据可视化数据可视化作为一种重要的数据分析方式， SSLLE SSLE CCDR SSCLLE SSLLE SSLE CCDR SSCLLE 5% 20% 40% 5% 20% 40% 0 10 20 30 40 50 60 70 80 90 100 聚类精度/% 0 10 20 30 40 50 60 70 80 90 100 聚类精度/% (b) WDBC 数据集 (c) Seeds 数据集图 2 标记样本的比例对聚类精度的影响，d=2 Fig. 2 Influence of proportion of labeled samples on clustering accuracy, d=2 ·103· 邓廷权，等：半监督类保持局部线性嵌入方法第 1 期

第16卷智能系统学报 ·104· 相对于单纯的数据表格等，可更加直观、形象地取至2维特征空间中，利用MATLAB画图工具进感知或理解高维数据集的结构分布。为验证行画图，同类数据点的颜色和形状一样，分别观 SSCLLE方法在可视化上的优势，下面随机选取察5种不同的方法提取数据点的低维特征分布情 MNIST数据集中的3个手写数字做可视化实况。手写数字选取的是{5,6,8}每类500个点分别验。分别用LLE方法、半监督：SSLLE、SSLE和将标记比例设为15%，参数设置为：k=8,d=2, CCDR方法，将选取的手写数据集中3个数字提 a=1,b=10,r=0.8,u=1,y=0.5。 2.0 2.5 1.5 2.0 1.5 1.0 1.0 0.5 0.5 0 。数字5 -0.5 0.5 数字5 ·数字6 数字6 -1.0 数字8 -1.0 口数字8 -1.5 -15 -2.0 3 -10 2 3 7-6 -5 -4-3-2-10123 (a)LLE (b)SSLLE 0.020 0.025「。数字 0.015 0.020 ·数字6 数字8 0.010 0.015 0.010 0.005 0.005 0 0 -0.005 。数字5 -0.005 -0.010. 数字6 :数字8 -0.010 -0.015 -0.015 -0.020 -0.020 -002 -001 0.01 -001 0 001 0.02 0.03 (c)CCDR (d)SSLE 1.5 1.0 889 os -0.5 。数字5 -1.0 .数字6 口数字8 -15 -2.0 2.5 -1.5 -0.50.5 1.52.5 (e)SSCLLE 图4手写数字可视化 Fig.4 Visualization of Handwritten digital 在图4中手写数字的5个可视化图可以看监督方法在数据可视化方面较无监督方法优势明到，无监督的LLE中有2类数据重合部分较大区显，而本文方法的可视化效果相对其他半监督方分度小，因而不利于数据的聚类分析。而基于标法效果最好，证明了本文方法的优势。记信息局部调整的SSLLE和SSLE的方法相对 4参数影响分析 LLE的分离度明显有所提升，不过依然存在重叠区域。而基于标记信息全局调整的CCDR和本文本方法中参数k、d、a、B和r对特征提取都方法SSCLLE明显3类区分开了，SSCLLE相比有影响。k、d参数的选取很多学者都做过讨论 CCDR的区分度更高重叠区域最小，可明显区分这里不再赘述。本文主要讨论参数、B和r对出3类数据的分布。通过实验可视化的分析，半特征提取的影响。a和r取0,1]的实数，α用来

相对于单纯的数据表格等，可更加直观、形象地感知或理解高维数据集的结构分布。为验证 SSCLLE 方法在可视化上的优势，下面随机选取 MNIST 数据集中的 3 个手写数字做可视化实验。分别用 LLE 方法、半监督：SSLLE、SSLE 和 CCDR 方法，将选取的手写数据集中 3 个数字提 k = 8,d = 2, a = 1,b = 10,r = 0.8,u = 1, v = 0.5 取至 2 维特征空间中，利用 MATLAB 画图工具进行画图，同类数据点的颜色和形状一样，分别观察 5 种不同的方法提取数据点的低维特征分布情况。手写数字选取的是{5,6,8}每类 500 个点分别将标记比例设为 15%，参数设置为：。 −4 −3 −2 −1 0 1 2 3 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 −1.5 −2.0 −1.0 −0.5 0 0.5 1.0 1.5 2.0 2.5 (a) LLE 数字5 数字6 数字8 数字5 数字6 数字8 数字5 数字6 数字8 数字5 数字6 数字8 数字5 数字6 数字8 −7 −6 −5 −4 −3 −2 −1 0 1 2 3 (b) SSLLE −0.02 −0.01 −0.01 0 0.01 0 0.01 0.02 0.03 −0.020 −0.015 −0.010 −0.005 0.005 0 0.010 0.015 0.020 −0.020 −0.015 −0.010 −0.005 0.005 0 0.010 0.015 0.020 0.025 (c) CCDR (d) SSLE −1.5 −2.0 −1.0 −0.5 0 0.5 1.0 1.5 −2.5 −1.5 −0.5 0.5 1.5 2.5 (e) SSCLLE 图 4 手写数字可视化 Fig. 4 Visualization of Handwritten digital 在图 4 中手写数字的 5 个可视化图可以看到，无监督的 LLE 中有 2 类数据重合部分较大区分度小，因而不利于数据的聚类分析。而基于标记信息局部调整的 SSLLE 和 SSLE 的方法相对 LLE 的分离度明显有所提升，不过依然存在重叠区域。而基于标记信息全局调整的 CCDR 和本文方法 SSCLLE 明显 3 类区分开了，SSCLLE 相比 CCDR 的区分度更高重叠区域最小，可明显区分出 3 类数据的分布。通过实验可视化的分析，半监督方法在数据可视化方面较无监督方法优势明显，而本文方法的可视化效果相对其他半监督方法效果最好，证明了本文方法的优势。 4 参数影响分析 α β r α β r α r [0,1] α 本方法中参数 k、d、、和对特征提取都有影响。k、d 参数的选取很多学者都做过讨论，这里不再赘述。本文主要讨论参数、和对特征提取的影响。和取的实数，用来第 16 卷智能系统学报 ·104·

·105· 邓廷权，等：半监督类保持局部线性嵌入方法第1期权衡同类样本项和异类样本项对目标函数的影从图5可以看出，同类数据样本项比异类样响；B取大于0的值，用于调节局部线性结构对于本项对聚类精度起到的作用更大。标记比例越高，目标函数的影响；r的作用是为了调整标记信息异类标记的作用会逐渐增加。在一定的标记比例在局部所起到的影响。图5展示了随着α，B和r 下，α一般需要取一个较大的值。在COL20数据参数值变化，SSCLLE方法对于COIL20中的集中当a值为1时特征提取效果最好，而在WDBC {7,3,9}和UCI中WCBC数据集特征提取后聚类中取值为0.99附近时效果最好。B的取值在2个精度的结果。图5中分别用a、b表示a、B。标数据集中基本都为10时，得到的聚类精度最高记比例为15%，参数设置为：在C0L20数据中特征提取效果最好。作为局部调整参数的r,相对设定a=1,b=10,=0.8;在WCBC数据集中低于另2个参数，对特征提取的效果也有很大的 =0.99,b=10,r=0.7。同时固定其中2个参数调整影响。在COL20数据集中r的取值为0.8时效另一个参数，记录聚类精度的变化。果最好，在WDBC数据集中取0.9时效果最好。 100 95 9%j 9 65 50 MWUY 50 3 00.10.20.30.40.50.60.70.80.910 00.1020.30.40.50.60.70.80.910 (a)a对C0L20聚类精度的影响 (b)a对WDBC聚类精度的影响 95 78 77 鬟&mymu 74 月80 72 71 70 70 0102030405060708090100 0102030405060708090100 6 (c)B对COL20聚类精度的影响 (d)B对WDBC聚类精度的影响 93 80.5 80.0 79.5 79.0 78.5 8 78.0 00.1020.30.40.50.60.70.80.91.0 00.10.20.30.40.50.60.70.80.91.0 (e)r对COL20聚类精度的影响 (⑨r对WDBC聚类精度的影响图5参数α、B和r对聚类精度的影响 Fig.5 The influence of parametersa,B and ron clustering accuracy 5t检验 3个不同的数字组成。对这30组数据分别用5种从手写数字中选取30组不同的数据，每组由方法进行特征提取得到相应的聚类精度

β r α β r a b α β α=1 b = 10 r=0.8 α=0.99 b = 10 r=0.7 权衡同类样本项和异类样本项对目标函数的影响；取大于 0 的值，用于调节局部线性结构对于目标函数的影响；的作用是为了调整标记信息在局部所起到的影响。图 5 展示了随着 , 和参数值变化，SSCLLE 方法对于 COIL_20 中的 {7,3,9}和 UCI 中 WCBC 数据集特征提取后聚类精度的结果。图 5 中分别用、表示、。标记比例为 15%，参数设置为：在 COIL_20 数据中设定 , , ；在 WCB C 数据集中 , , 。同时固定其中 2 个参数调整另一个参数，记录聚类精度的变化。 α α β r r 从图 5 可以看出，同类数据样本项比异类样本项对聚类精度起到的作用更大。标记比例越高，异类标记的作用会逐渐增加。在一定的标记比例下，一般需要取一个较大的值。在 COIL_20 数据集中当值为 1 时特征提取效果最好，而在 WDBC 中取值为 0.99 附近时效果最好。的取值在 2 个数据集中基本都为 10 时，得到的聚类精度最高、特征提取效果最好。作为局部调整参数的，相对低于另 2 个参数，对特征提取的效果也有很大的影响。在 COIL_20 数据集中的取值为 0.8 时效果最好，在 WDBC 数据集中取 0.9 时效果最好。 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 30 40 50 60 70 80 90 100 COIL_20 聚类精度/% a b 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 a 45 50 55 60 65 70 75 80 85 90 95 WDBC 聚类精度/% 0 10 20 30 40 50 60 70 80 90 100 b 0 10 20 30 40 50 60 70 80 90 100 70 75 80 85 90 95 COIL_20 聚类精度/% 70 71 72 73 74 75 76 77 78 WDBC 聚类精度/% WDBC 聚类精度/% 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 86 87 88 89 90 91 92 93 COIL_20 聚类精度/% r 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 r 78.0 78.5 79.0 79.5 80.0 80.5 (a) α 对 COIL_20 聚类精度的影响 (b) α 对 WDBC 聚类精度的影响 (c) β 对 COIL_20 聚类精度的影响 (d) β 对 WDBC 聚类精度的影响 (e) r 对 COIL_20 聚类精度的影响 (f) r 对 WDBC 聚类精度的影响图 5 参数 α、β 和 r 对聚类精度的影响 Fig. 5 The influence of parametersα、β and ron clustering accuracy 5 t 检验从手写数字中选取 30 组不同的数据，每组由 3 个不同的数字组成。对这 30 组数据分别用 5 种方法进行特征提取得到相应的聚类精度。 ·105· 邓廷权，等：半监督类保持局部线性嵌入方法第 1 期

第16卷智能系统学报 ·106· 为了对比SSCLLE与其他方法的优劣，利用表7配对样本相关性 SPSS工具对SSCLLE方法得到的聚类精度与其他 Table 7 Correlation of paired samples 方法得到的聚类精度做成对1检验，得到以下结配对序号方法个案数相关性显著性果如表68所示。配对1 LLE SSCLLE 30 0.677 0.000 表6配对样本统计配对2 SSLLE SSCLLE 30 0.542 0.002 Table 6 Paired sample statistics 配对3 SSLE SSCLLE 30 0.703 0.000 配对序号方法平均值个案数标准差标准误差平均值配对4 CCDR SSCLLE 30 0.667 0.000 LLE0.8995300.09354 0.01708 配对1 SSCLLE0.9760300.01262 0.00230 6结束语 SSLLE0.9022300.13321 0.02432 配对2 SSCLLE 0.9760 30 0.01262 0.00230 本文在LLE基础上，提出了一种半监督类保持局部线性嵌入方法(SSCLLE)。方法中不单考 SSLE0.9071300.08525 0.01556 配对3 虑了利用近邻伪标签赋予的标记信息对局部近邻 SSCLLE0.9760300.01262 0.00230 做调整，还对样本的全局距离做进一步约束，使 CCDR0.9368300.08690 0.01587 配对4 其达到既能保持数据的局部线性结构又能使类内 SSCLLE0.9760300.01262 0.00230 数据更紧密，类间数据进行分离，得到很好的特征提取效果。在UCI数据集、实物数据集COL20 通过表8可以看到SSCLLE与其他4种方法和手写数据集MNIST上对各方法进行实验对比，的显著性均小于0.05，说明各对比组聚类精度有得到SSCLLE方法在聚类精度以及可视化上的结显著差异。再对比均值，可见本文S$CLLE方法果均高于无监督学习LLE方法和半监督学习SSLLE、相对其他方法能够有效地提高特征提取的效果。 SSLE、CCDR方法。表8配对样本检验 Table 8 Paired sample test 配对差值配对序号方法差值95%置信区间自由度平均值标准差标准误差平均值下限上限配对1 LLE-SSCLLE -0.076460.08550 0.01561 -0.10839-0.04454-4.898 29 0.000 配对2 SSLLE-SSCLLE -0.07385 0.12681 0.02315 -0.12120 -0.02649 -3.190 29 0.003 配对3 SSLE-SSCLLE -0.068880.07689 0.01404 -0.09759 -0.04016 -4.906 29 0.000 配对4 CCDR-SSCLLE -0.039180.07904 0.01443 -0.06869-0.00967 -2.715 29 0.011 参考文献： vised local multi-manifold Isomap by linear embedding for feature extraction[J].Pattern recognition,2018,76: [1]LIU Feng,ZHANG Weijie,GU Suicheng.Local linear 622-678. laplacian eigenmaps:a direct extension of LLE[J].Pat- tern recognition letters,2016.75:30-35. [6]LIU Zhonghua,WANG Xiaohong,PU Jiexin,et a.Non- [2]JIANG Bo,DING C,LUO Bin.Robust data representa- negative low-rank representation based manifold embed- tion using locally linear embedding guided PCA[J] ding for semi-supervised learning[J].Knowledge-based Neurocomputing,2018,275:523-532. systems,2017,136:121-129. [3]WANG Qian,WANG Weiguo,NIAN Rui,et al.Mani- [7]CHEN Lin,YANG Meng.Semi-supervised dictionary fold learning in local tangent space via extreme learning learning with label propagation for image machine[J].Neurocomputing,2016,174:18-30. classification[J].Computational visual media,2017,3(1): [4]TANG Z,LAO H.Robust image hashing via DCT and 83-94. LLE[J].Computers and security,2016,62:133-148. [8] MIKALSEN K O.SOGUERO-RUIZ C,BIANCHI F M. [5]ZHANG Yan,ZHANG Zhao,QIN Jie,et al.Semi-super- et al.Noisy multi-label semi-supervised dimensionality

为了对比 SSCLLE 与其他方法的优劣，利用 SPSS 工具对 SSCLLE 方法得到的聚类精度与其他方法得到的聚类精度做成对 t 检验，得到以下结果如表 6~8 所示。表 6 配对样本统计 Table 6 Paired sample statistics 配对序号方法平均值个案数标准差标准误差平均值配对 1 LLE 0.899 5 30 0.093 54 0.017 08 SSCLLE 0.976 0 30 0.012 62 0.002 30 配对 2 SSLLE 0.902 2 30 0.133 21 0.024 32 SSCLLE 0.976 0 30 0.012 62 0.002 30 配对 3 SSLE 0.907 1 30 0.085 25 0.015 56 SSCLLE 0.976 0 30 0.012 62 0.002 30 配对 4 CCDR 0.936 8 30 0.086 90 0.015 87 SSCLLE 0.976 0 30 0.012 62 0.002 30 通过表 8 可以看到 SSCLLE 与其他 4 种方法的显著性均小于 0.05，说明各对比组聚类精度有显著差异。再对比均值，可见本文 SSCLLE 方法相对其他方法能够有效地提高特征提取的效果。表 7 配对样本相关性 Table 7 Correlation of paired samples 配对序号方法个案数相关性显著性配对 1 LLE & SSCLLE 30 0.677 0.000 配对 2 SSLLE & SSCLLE 30 0.542 0.002 配对 3 SSLE & SSCLLE 30 0.703 0.000 配对 4 CCDR & SSCLLE 30 0.667 0.000 6 结束语本文在 LLE 基础上，提出了一种半监督类保持局部线性嵌入方法 (SSCLLE)。方法中不单考虑了利用近邻伪标签赋予的标记信息对局部近邻做调整，还对样本的全局距离做进一步约束，使其达到既能保持数据的局部线性结构又能使类内数据更紧密，类间数据进行分离，得到很好的特征提取效果。在 UCI 数据集、实物数据集 COIL_20 和手写数据集 MNIST 上对各方法进行实验对比，得到 SSCLLE 方法在聚类精度以及可视化上的结果均高于无监督学习 LLE 方法和半监督学习 SSLLE、 SSLE、CCDR 方法。表 8 配对样本检验 Table 8 Paired sample test 配对序号方法配对差值 t 自由度平均值标准差标准误差平均值差值 95% 置信区间下限上限配对 1 LLE-SSCLLE −0.076 46 0.0855 0 0.0156 1 −0.1083 9 −0.044 54 −4.898 29 0.000 配对 2 SSLLE-SSCLLE −0.073 85 0.1268 1 0.0231 5 −0.1212 0 −0.026 49 −3.190 29 0.003 配对 3 SSLE-SSCLLE −0.068 88 0.0768 9 0.0140 4 −0.0975 9 −0.040 16 −4.906 29 0.000 配对 4 CCDR-SSCLLE −0.039 18 0.0790 4 0.0144 3 −0.0686 9 −0.009 67 −2.715 29 0.011 参考文献： LIU Feng, ZHANG Weijie, GU Suicheng. Local linear laplacian eigenmaps: a direct extension of LLE[J]. Pattern recognition letters, 2016, 75: 30–35. [1] JIANG Bo, DING C, LUO Bin. Robust data representation using locally linear embedding guided PCA[J]. Neurocomputing, 2018, 275: 523–532. [2] WANG Qian, WANG Weiguo, NIAN Rui, et al. Manifold learning in local tangent space via extreme learning machine[J]. Neurocomputing, 2016, 174: 18–30. [3] TANG Z, LAO H. Robust image hashing via DCT and LLE[J]. Computers and security, 2016, 62: 133–148. [4] [5] ZHANG Yan, ZHANG Zhao, QIN Jie, et al. Semi-supervised local multi-manifold Isomap by linear embedding for feature extraction[J]. Pattern recognition, 2018, 76: 622–678. LIU Zhonghua, WANG Xiaohong, PU Jiexin, et a. Nonnegative low-rank representation based manifold embedding for semi-supervised learning[J]. Knowledge-based systems, 2017, 136: 121–129. [6] CHEN Lin, YANG Meng. Semi-supervised dictionary learning with label propagation for image classification[J]. Computational visual media, 2017, 3(1): 83–94. [7] MIKALSEN K O, SOGUERO-RUIZ C, BIANCHI F M, et al. Noisy multi-label semi-supervised dimensionality [8] 第 16 卷智能系统学报 ·106·

·107· 邓廷权，等：半监督类保持局部线性嵌入方法第1期 reduction[J].Pattern recognition,2019,90:257-270. [17]KIM K,LEE J.Sentiment visualization and classifica- [9]PARK S H.KIM S B.Active semi-supervised learning tion via semi-supervised nonlinear dimensionality reduc- with multiple complementary information[J].Expert sys- tion[J].Pattern recognition,2014,47(2):758-768 tems with applications,2019,126:30-40. [18]COSTA J A,HERO III A O.Classification constrained [10]ZHENG Feng,SONG Zhan,SHAO Ling,et al.A semi- dimensionality reduction[Cl//Proceedings of IEEE Inter- supervised approach for dimensionality reduction with national Conference on Acoustics,Speech,and Signal distributional similarity[J].Neurocomputing,2013,103: Processing.Philadelphia,USA,2005:1077-1080. 210-221 [19]MARCILLA A,REYES-LABARTA J A,OLAYA M [11]SUN Shiliang,HUSSAIN Z,SHAWE-TAYLOR J. M.Should we trust all the published LLE correlation Manifold-preserving graph reduction for sparse semi-su- parameters in phase equilibria?Necessity of their assess pervised learning[J].Neurocomputing,2014,124: ment prior to publication[J].Fluid phase equilibria. 13-21. 2017,433:243-252 [12]KIM K.An improved semi-supervised dimensionality [20]BEZDEK JC.Pattern recognition with fuzzy objective reduction using feature weighting:application to senti- function algorithms[M].New York:Plenum,1981: ment analysis[J].Expert systems with applications, 2018.109:49-65. 35-36. [13]ROWEIS S T.SAUL L J.Nonlinear dimensionality re- 作者简介： duction by locally linear embedding[J].Science,2000, 邓廷权，教授，博士生导师，中国 290(5500:2323-2326 人工智能学会粒计算与知识发现专业 [14]LANGLEY P,PAZZANI M J,FISHER D H.Concept 委员会委员、黑龙江省工业与应用数学学会副理事长，主要研究方向为不 formation:knowledge and experience in unsupervised 确定性信息分析理论与方法、机器学 learning[M].San Mateo:Morgan Kaufmann Publishers, 习与数据挖掘、模式识别与人工智 1991 能。主持和参与国家自然科学基金面 [15]YANG Bo,XIANG Ming,ZHANG Yupei.Multi-mani- 上项目各2项、主持多项省部级、国家重点实验室基金和横 fold discriminant isomap for visualization and classifica- 向项目。发表学术论文100余篇。 tion[J].Pattern recognition,2016:215-230. 王强，硕土研究生，主要研究方向 [16]张长帅，周大可，杨欣.一种基于核的半监督局部线性为数据分析理论与方法。嵌入方法.计算机工程，2011,37(20)：157-159. ZHANG Changshuai,ZHOU Dake,YANG Xin.Meth- od of kernel-based semi-supervised local linear embedd- ing[J].Computer engineering,2011,37(20):157-159

reduction[J]. Pattern recognition, 2019, 90: 257–270. PARK S H, KIM S B. Active semi-supervised learning with multiple complementary information[J]. Expert systems with applications, 2019, 126: 30–40. [9] ZHENG Feng, SONG Zhan, SHAO Ling, et al. A semisupervised approach for dimensionality reduction with distributional similarity[J]. Neurocomputing, 2013, 103: 210–221. [10] SUN Shiliang, HUSSAIN Z, SHAWE-TAYLOR J. Manifold-preserving graph reduction for sparse semi-supervised learning[J]. Neurocomputing, 2014, 124: 13–21. [11] KIM K. An improved semi-supervised dimensionality reduction using feature weighting: application to sentiment analysis[J]. Expert systems with applications, 2018, 109: 49–65. [12] ROWEIS S T, SAUL L J. Nonlinear dimensionality reduction by locally linear embedding[J]. Science, 2000, 290(5500): 2323–2326. [13] LANGLEY P, PAZZANI M J, FISHER D H. Concept formation: knowledge and experience in unsupervised learning[M]. San Mateo: Morgan Kaufmann Publishers, 1991. [14] YANG Bo, XIANG Ming, ZHANG Yupei. Multi-manifold discriminant isomap for visualization and classification[J]. Pattern recognition, 2016: 215–230. [15] 张长帅, 周大可, 杨欣. 一种基于核的半监督局部线性嵌入方法 [J]. 计算机工程, 2011, 37(20): 157–159. ZHANG Changshuai, ZHOU Dake, YANG Xin. Method of kernel-based semi-supervised local linear embedding[J]. Computer engineering, 2011, 37(20): 157–159. [16] KIM K, LEE J. Sentiment visualization and classification via semi-supervised nonlinear dimensionality reduction[J]. Pattern recognition, 2014, 47(2): 758–768. [17] COSTA J A, HERO III A O. Classification constrained dimensionality reduction[C]//Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing. Philadelphia, USA, 2005: 1077–1080. [18] MARCILLA A, REYES-LABARTA J A, OLAYA M M. Should we trust all the published LLE correlation parameters in phase equilibria? Necessity of their assessment prior to publication[J]. Fluid phase equilibria, 2017, 433: 243–252. [19] BEZDEK J C. Pattern recognition with fuzzy objective function algorithms[M]. New York: Plenum, 1981: 35–36. [20] 作者简介：邓廷权，教授，博士生导师，中国人工智能学会粒计算与知识发现专业委员会委员、黑龙江省工业与应用数学学会副理事长，主要研究方向为不确定性信息分析理论与方法、机器学习与数据挖掘、模式识别与人工智能。主持和参与国家自然科学基金面上项目各 2 项、主持多项省部级、国家重点实验室基金和横向项目。发表学术论文 100 余篇。王强，硕士研究生，主要研究方向为数据分析理论与方法。 ·107· 邓廷权，等：半监督类保持局部线性嵌入方法第 1 期

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录