及聚类信息等．然而，在对海量数据进行可视化时，情况更为复杂，应用传统的

正在加载图片...

·300. 智能系统学报第8卷及聚类信息等然而，在对海量数据进行可视化时，情况更为复 1 均分K-means++:一种多维数据可杂，应用传统的数据可视化技术及流程时，往往会出现图像叠加严重、可视化图像质量低、辨识性差等现视化中的数据聚合方法实问题，数据聚合是解决该问题的一种有效方法，也 K-means算法具有简单、聚类速度快的优点.在就是在数据可视化之前先进行数据抽象.现有的数大量的实验中发现，在进行海量数据的聚合运算中，据聚合方法往往没有为数据可视化进行专门的优化 K-means算法具有以下缺，点：和改进，更为重要的是，缺少针对可视化所作的数据 1)在聚合运算，特别是海量数据的聚合运算聚合质量度量，对数据聚合的质量没有量化和理论中，K值往往较大，这种情况下，传统的K-means算支撑，本文研究的质量度量指标驱动的数据聚合弥法会出现迭代次数过大的情况，极大地影响了聚合补了上述不足速度为了弥补人类视觉感知能力的不足，帮助人们理 2)传统的K-means-+算法[]虽然改进了初始点解多维数据，研究人员提出了相当数量的数据可视化的选择，但仍然以最小化近邻点距离之和为目的，往方法，这些方法将多维数据通过降维转换并映射到三往会出现各个聚簇的点数分布极不均匀的情况，某维或者二维可视空间来实现多维信息的可视化根据其些聚簇只有几个点，某些聚簇则有成百上千个点.但可视化的原理不同可以划分为基于几何的技术、面向是，在数据聚合中，往往希望聚合前的数据能在聚合像素的技术、基于图标的技术、基于层次的技术、基于后的各个中心点上均匀分布，使聚合后的数据更好图形的技术和基于降维映射的技术等2]」地反映原数据的分布。在数据量较大时，为了提高数据可视化的图像鉴于现有的K-means及其改进算法在数据聚合质量，降低图像叠加的问题，通常会对数据进行抽中存在的缺陷，本文提出了均分K-means++的数据象，数据抽象的目的是在数据精简的同时，保持原数聚合方法，仿真实验证明，该算法大大减少了迭代次据的各种特性，提高数据抽象后可视化的图像质量. 数，在分布上与原数据更加吻合，从而更加适用于数抽样和聚合是2种常用的数据抽象方法.Bertini 据可视化中的数据聚合运算，等)提出了利用聚类聚合的方法在散点图中自动算法1均分K-means 降低图像叠加；Johansson等提出了基于距离变化 1)输入d维空间[0,1]的n个点P1,P2,…, 的数据抽样方法，并在屏幕空间对图像质量进行了 pn,随机选择k个初始点C={c1,c2,…,cz} 度量质量度量的研究由来已久，随着数据可视化技 2)设a=cei(),ceil(·)为向上取整函数将每术的发展，数据可视化中的质量度量越来越引起学个样本点P:划分到最近的中心点c:所在的集合S,如者们的注意，越来越多的成果发表在数据可视化领果数目IS,|≥α，则表示该集合已满，继续寻找次近的中域的重要期刊和会议上，这些方法也极大地促进了心点所在的集合，直至找到一个未满（集合现有点数小数据可视化技术本身的发展.根据数据可视化度量于α)的较近的中心点所在的集合.用以上方法将样本指标所实施的对象不同，现有的质量度量方法可以集合{P:}划分成S,S2,…,S 被分成两大类：实施于数据空间和图像空间[).在数 3)对于1≤j≤k,计算集合S,内点之和sum= 据空间方面，C等[6)研究了在抽象和聚合2种不 ∑：es:和数目num=1S,l,S,=sum/num为集合S,新同的数据抽象方法下计算数据抽象质量，权衡如何的中心点在数据精简和数据损失方面取得平衡：在图像空间 4)重复2)~3)，直至C不再变化或迭代次数达方面，Tatu等)使用Hough变换对感兴趣的散点图到上限进行分级，以提高可视化图像质量.但是，图像空间算法2均分K-means+ 的质量度量存在着受限于某种单个数据可视化方法令D(x)表示一个数据点到离它最近的已经选出的缺点的中心点的距离.则均分K-means+算法定义如下：本文提出一种数据空间质量度量驱动下的数据 1)输入d维空间[0,1]4的n个点P1P2,…Pn 聚合方法均分K-means+-+,这一方法面向多维数据， ①均匀随机地在X中选出第1个中心点. 广泛适用于大部分数据可视化方法，在质量度量指标的驱动下进行多维数据的可视化. ②以D(x)2 ∑eD(x) 的概率选择x∈X作为新的中及聚类信息等．然而，在对海量数据进行可视化时，情况更为复杂，应用传统的数据可视化技术及流程时，往往会出现图像叠加严重、可视化图像质量低、辨识性差等现实问题，数据聚合是解决该问题的一种有效方法，也就是在数据可视化之前先进行数据抽象．现有的数据聚合方法往往没有为数据可视化进行专门的优化和改进，更为重要的是，缺少针对可视化所作的数据聚合质量度量，对数据聚合的质量没有量化和理论支撑，本文研究的质量度量指标驱动的数据聚合弥补了上述不足．为了弥补人类视觉感知能力的不足，帮助人们理解多维数据，研究人员提出了相当数量的数据可视化方法，这些方法将多维数据通过降维转换并映射到三维或者二维可视空间来实现多维信息的可视化．根据其可视化的原理不同可以划分为基于几何的技术、面向像素的技术、基于图标的技术、基于层次的技术、基于图形的技术和基于降维映射的技术等［１⁃２］．在数据量较大时，为了提高数据可视化的图像质量，降低图像叠加的问题，通常会对数据进行抽象，数据抽象的目的是在数据精简的同时，保持原数据的各种特性，提高数据抽象后可视化的图像质量．抽样和聚合是２种常用的数据抽象方法．Ｂｅｒｔｉｎｉ等［３］提出了利用聚类聚合的方法在散点图中自动降低图像叠加；Ｊｏｈａｎｓｓｏｎ等［４］提出了基于距离变化的数据抽样方法，并在屏幕空间对图像质量进行了度量．质量度量的研究由来已久，随着数据可视化技术的发展，数据可视化中的质量度量越来越引起学者们的注意，越来越多的成果发表在数据可视化领域的重要期刊和会议上，这些方法也极大地促进了数据可视化技术本身的发展．根据数据可视化度量指标所实施的对象不同，现有的质量度量方法可以被分成两大类：实施于数据空间和图像空间［５］．在数据空间方面，Ｃｕｉ等［６］研究了在抽象和聚合２种不同的数据抽象方法下计算数据抽象质量，权衡如何在数据精简和数据损失方面取得平衡；在图像空间方面，Ｔａｔｕ等［７］使用Ｈｏｕｇｈ变换对感兴趣的散点图进行分级，以提高可视化图像质量．但是，图像空间的质量度量存在着受限于某种单个数据可视化方法的缺点．本文提出一种数据空间质量度量驱动下的数据聚合方法均分Ｋ⁃ｍｅａｎｓ＋＋，这一方法面向多维数据，广泛适用于大部分数据可视化方法，在质量度量指标的驱动下进行多维数据的可视化．１均分Ｋ⁃ｍｅａｎｓ＋＋：一种多维数据可视化中的数据聚合方法Ｋ⁃ｍｅａｎｓ算法具有简单、聚类速度快的优点．在大量的实验中发现，在进行海量数据的聚合运算中，Ｋ⁃ｍｅａｎｓ算法具有以下缺点：１）在聚合运算，特别是海量数据的聚合运算中，Ｋ值往往较大，这种情况下，传统的Ｋ⁃ｍｅａｎｓ算法会出现迭代次数过大的情况，极大地影响了聚合速度．２）传统的Ｋ⁃ｍｅａｎｓ＋＋算法［８］虽然改进了初始点的选择，但仍然以最小化近邻点距离之和为目的，往往会出现各个聚簇的点数分布极不均匀的情况，某些聚簇只有几个点，某些聚簇则有成百上千个点．但是，在数据聚合中，往往希望聚合前的数据能在聚合后的各个中心点上均匀分布，使聚合后的数据更好地反映原数据的分布．鉴于现有的Ｋ⁃ｍｅａｎｓ及其改进算法在数据聚合中存在的缺陷，本文提出了均分Ｋ⁃ｍｅａｎｓ＋＋的数据聚合方法，仿真实验证明，该算法大大减少了迭代次数，在分布上与原数据更加吻合，从而更加适用于数据可视化中的数据聚合运算．算法１均分Ｋ⁃ｍｅａｎｓ１）输入ｄ维空间［０，１］ｄ的ｎ个点ｐ１，ｐ２，…，ｐｎ，随机选择ｋ个初始点Ｃ＝｛ｃ１，ｃ２，…，ｃｋ｝．２）设 α＝ｃｅｉｌ（ｎｋ），ｃｅｉｌ（·）为向上取整函数．将每个样本点ｐｉ划分到最近的中心点ｃｊ所在的集合Ｓｊ，如果数目｜Ｓｊ｜≥α，则表示该集合已满，继续寻找次近的中心点所在的集合，直至找到一个未满（集合现有点数小于 α）的较近的中心点所在的集合．用以上方法将样本集合｛ｐｉ｝划分成Ｓ１，Ｓ２，…，Ｓｋ．３）对于１≤ｊ≤ｋ，计算集合Ｓｊ内点之和ｓｕｍ＝ ∑ｉ∈Ｓｊｐｉ和数目ｎｕｍ＝｜Ｓｊ｜，ｃｊ＝ｓｕｍ／ｎｕｍ为集合Ｓｊ新的中心点．４）重复２）～３），直至Ｃ不再变化或迭代次数达到上限．算法２均分Ｋ⁃ｍｅａｎｓ＋＋令Ｄ（ｘ）表示一个数据点到离它最近的已经选出的中心点的距离．则均分Ｋ⁃ｍｅａｎｓ＋＋算法定义如下：１）输入ｄ维空间［０，１］ｄ的ｎ个点ｐ１，ｐ２，…，ｐｎ． ①均匀随机地在Ｘ中选出第１个中心点． ②以Ｄ（ｘ）２ ∑ｘ∈ＸＤ（ｘ）２的概率选择ｘ∈Ｘ作为新的中 ·３００· 智能系统学报第８卷

<<向上翻页向下翻页>>

点击下载：机器学习：质量度量指标驱动的数据聚合与多维数据可视化