正在加载图片...
第16卷 智能系统学报 ·104· 相对于单纯的数据表格等,可更加直观、形象地 取至2维特征空间中,利用MATLAB画图工具进 感知或理解高维数据集的结构分布。为验证 行画图,同类数据点的颜色和形状一样,分别观 SSCLLE方法在可视化上的优势,下面随机选取 察5种不同的方法提取数据点的低维特征分布情 MNIST数据集中的3个手写数字做可视化实 况。手写数字选取的是{5,6,8}每类500个点分别 验。分别用LLE方法、半监督:SSLLE、SSLE和 将标记比例设为15%,参数设置为:k=8,d=2, CCDR方法,将选取的手写数据集中3个数字提 a=1,b=10,r=0.8,u=1,y=0.5。 2.0 2.5 1.5 2.0 1.5 1.0 1.0 0.5 0.5 0 。数字5 -0.5 0.5 数字5 ·数字6 数字6 -1.0 数字8 -1.0 口数字8 -1.5 -15 -2.0 3 -10 2 3 7-6 -5 -4-3-2-10123 (a)LLE (b)SSLLE 0.020 0.025「。数字 0.015 0.020 ·数字6 数字8 0.010 0.015 0.010 0.005 0.005 0 0 -0.005 。数字5 -0.005 -0.010. 数字6 :数字8 -0.010 -0.015 -0.015 -0.020 -0.020 -002 -001 0.01 -001 0 001 0.02 0.03 (c)CCDR (d)SSLE 1.5 1.0 889 os -0.5 。数字5 -1.0 .数字6 口数字8 -15 -2.0 2.5 -1.5 -0.50.5 1.52.5 (e)SSCLLE 图4手写数字可视化 Fig.4 Visualization of Handwritten digital 在图4中手写数字的5个可视化图可以看 监督方法在数据可视化方面较无监督方法优势明 到,无监督的LLE中有2类数据重合部分较大区 显,而本文方法的可视化效果相对其他半监督方 分度小,因而不利于数据的聚类分析。而基于标 法效果最好,证明了本文方法的优势。 记信息局部调整的SSLLE和SSLE的方法相对 4参数影响分析 LLE的分离度明显有所提升,不过依然存在重叠 区域。而基于标记信息全局调整的CCDR和本文 本方法中参数k、d、a、B和r对特征提取都 方法SSCLLE明显3类区分开了,SSCLLE相比 有影响。k、d参数的选取很多学者都做过讨论 CCDR的区分度更高重叠区域最小,可明显区分 这里不再赘述。本文主要讨论参数、B和r对 出3类数据的分布。通过实验可视化的分析,半 特征提取的影响。a和r取0,1]的实数,α用来相对于单纯的数据表格等,可更加直观、形象地 感知或理解高维数据集的结构分布。为验证 SSCLLE 方法在可视化上的优势,下面随机选取 MNIST 数据集中的 3 个手写数字做可视化实 验。分别用 LLE 方法、半监督:SSLLE、SSLE 和 CCDR 方法,将选取的手写数据集中 3 个数字提 k = 8,d = 2, a = 1,b = 10,r = 0.8,u = 1, v = 0.5 取至 2 维特征空间中,利用 MATLAB 画图工具进 行画图,同类数据点的颜色和形状一样,分别观 察 5 种不同的方法提取数据点的低维特征分布情 况。手写数字选取的是{5,6,8}每类 500 个点分别 将标记比例设为 15%,参数设置为: 。 −4 −3 −2 −1 0 1 2 3 −1.5 −1.0 −0.5 0 0.5 1.0 1.5 2.0 −1.5 −2.0 −1.0 −0.5 0 0.5 1.0 1.5 2.0 2.5 (a) LLE 数字5 数字6 数字8 数字5 数字6 数字8 数字5 数字6 数字8 数字5 数字6 数字8 数字5 数字6 数字8 −7 −6 −5 −4 −3 −2 −1 0 1 2 3 (b) SSLLE −0.02 −0.01 −0.01 0 0.01 0 0.01 0.02 0.03 −0.020 −0.015 −0.010 −0.005 0.005 0 0.010 0.015 0.020 −0.020 −0.015 −0.010 −0.005 0.005 0 0.010 0.015 0.020 0.025 (c) CCDR (d) SSLE −1.5 −2.0 −1.0 −0.5 0 0.5 1.0 1.5 −2.5 −1.5 −0.5 0.5 1.5 2.5 (e) SSCLLE 图 4 手写数字可视化 Fig. 4 Visualization of Handwritten digital 在图 4 中手写数字的 5 个可视化图可以看 到,无监督的 LLE 中有 2 类数据重合部分较大区 分度小,因而不利于数据的聚类分析。而基于标 记信息局部调整的 SSLLE 和 SSLE 的方法相对 LLE 的分离度明显有所提升,不过依然存在重叠 区域。而基于标记信息全局调整的 CCDR 和本文 方法 SSCLLE 明显 3 类区分开了,SSCLLE 相比 CCDR 的区分度更高重叠区域最小,可明显区分 出 3 类数据的分布。通过实验可视化的分析,半 监督方法在数据可视化方面较无监督方法优势明 显,而本文方法的可视化效果相对其他半监督方 法效果最好,证明了本文方法的优势。 4 参数影响分析 α β r α β r α r [0,1] α 本方法中参数 k、d、 、 和 对特征提取都 有影响。k、d 参数的选取很多学者都做过讨论, 这里不再赘述。本文主要讨论参数 、 和 对 特征提取的影响。 和 取 的实数, 用来 第 16 卷 智 能 系 统 学 报 ·104·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有