机器学习：质量度量指标驱动的数据聚合与多维数据可视化

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：1.17MB

第8卷第4期智能系统学报 Vol.8 No.4 2013年8月 CAAI Transactions on Intelligent Systems Aug.2013 D0I:10.3969/i.issn.1673-4785.201304039 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20130603.1601.004.html 质量度量指标驱动的数据聚合与多维数据可视化李杨2，郝志峰23，谢光强2，袁淦钊3 (1.广东工业大学自动化学院，广东广州510006：2.广东工业大学计算机学院，广东广州510006：3.华南理工大学计算机科学与工程学院，广东广州510006) 摘要：以多维数据可视化为研究对象，在质量度量模型下，采用数据聚合为基本手段，来提高多维数据可视化的图像质量.在质量度量指标驱动的框架下提出了均分K-means-++数据聚合算法，在传统K-means算法的基础上，专门以数据可视化为目的对算法进行了改进，使得算法聚合得到的数据既能够较好地保持原数据的大部分特性，又能显著地提高可视化后的图像质量仿真实验证明，在不同的数据抽象级别DAL下，无论是图像质量指标还是质量度量指标HDM(直方图差值度量)、NNM(最近邻距离度量)，算法都表现出了较好的仿真结果关键词：质量度量：数据空间：数据聚合：K均值：多维数据可视化中图分类号：TP391文献标志码：A文章编号：1673-4785(2013)04-0299-06 中文引用格式：李杨，郝志峰，谢光强等.质量度量指标驱动的数据聚合与多维数据可视化[J].智能系统学报，2013,8(4)：299304. 英文引用格式：LI Yang,HAO Zhifeng,XIE Guangqiang,etal.Quality-metrics driven multi-dimensional data aggregation and visu- alization[J].CAAI Transactions on Intelligent Systems,2013,8(4):299-304. Quality-metrics driven multi-dimensional data aggregation and visualization LI Yang'2,HAO Zhifeng23,XIE Guangqiang'2,YUAN Ganzhao (1.School of Automation,Guangdong University of Technology,Guangzhou 510006,China;2.School of Computers,Guangdong Uni- versity of Technology.Guangzhou 510006,China;3.School of Computer Science and Engineering,South China University of Technolo- gy,Guangzhou 510006,China) Abstract:For the purpose of this research paper,we examined multi-dimensional data visualization with the quality metrics model;taking data aggregation as a basic means in order to improve the multi-dimensional visualization im- age quality.Under the quality-metrics driven framework,we put forward a data aggregation algorithm called equi- partition K-means++based on conventional K-means,and thus,were able to improve the algorithm especially as it pertains to data visualization.The aggregated data obtained by equipartition K-means++may not only preserve most features of the original data,but also improve the image quality after visualization.Our simulation experiments show that at each value of data abstraction level (DAL),equipartition K-means++get good results,not only in visualiza- tion image quality but also quality metrics of histogram difference measure (HDM)and nearest neighbor measure (NNM). Keywords:quality-metrics;data space;data aggregation;K-means;multi-dimensional data visualization 随着信息化社会的全面到来，面向高维海量数高维数据的认知能力有限，在知识发现、信息决策的据的应用变得越来越普遍，因此，如何分析和使用这过程中，多维数据可视化技术成为一种辅助人们理些数据是一个亟待解决的问题，鉴于人类对于海量解与直观地掌握数据特性的有效手段.多维可视化技术的目的是尽量反映多维信息及其各属性之间的收稿日期：2013-04-15.网络出版日期：2013-0603. 基金项目：国家自然科学基金资助项目(61070033)：广东省自然科学关系信息，帮助数据工程师准确快速地发现数据集基金资助项目(9251009001000005)：广东省科技计划资助项目(2010B050400011). 中隐藏的特征信息、关系信息、模式信息、趋势信息通信作者：李杨.E-mail:kity_lyy@163.com

第８卷第４期智能系统学报Ｖｏｌ．８ №．４２０１３年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１３ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０４０３９网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１３０６０３．１６０１．００４．ｈｔｍｌ质量度量指标驱动的数据聚合与多维数据可视化李杨１，２，郝志峰２，３，谢光强１，２，袁淦钊３（１．广东工业大学自动化学院，广东广州５１０００６；２．广东工业大学计算机学院，广东广州５１０００６；３．华南理工大学计算机科学与工程学院，广东广州５１０００６）摘要：以多维数据可视化为研究对象，在质量度量模型下，采用数据聚合为基本手段，来提高多维数据可视化的图像质量．在质量度量指标驱动的框架下提出了均分Ｋ⁃ｍｅａｎｓ＋＋数据聚合算法，在传统Ｋ⁃ｍｅａｎｓ算法的基础上，专门以数据可视化为目的对算法进行了改进，使得算法聚合得到的数据既能够较好地保持原数据的大部分特性，又能显著地提高可视化后的图像质量．仿真实验证明，在不同的数据抽象级别ＤＡＬ下，无论是图像质量指标还是质量度量指标ＨＤＭ（直方图差值度量）、ＮＮＭ（最近邻距离度量），算法都表现出了较好的仿真结果．关键词：质量度量；数据空间；数据聚合；Ｋ⁃均值；多维数据可视化中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１３）０４⁃０２９９⁃０６中文引用格式：李杨，郝志峰，谢光强等．质量度量指标驱动的数据聚合与多维数据可视化［Ｊ］．智能系统学报，２０１３，８（４）：２９９⁃３０４．英文引用格式：ＬＩＹａｎｇ，ＨＡＯＺｈｉｆｅｎｇ，ＸＩＥＧｕａｎｇｑｉａｎｇ，ｅｔａｌ．Ｑｕａｌｉｔｙ⁃ｍｅｔｒｉｃｓｄｒｉｖｅｎｍｕｌｔｉ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａａｇｇｒｅｇａｔｉｏｎａｎｄｖｉｓｕ⁃ ａｌｉｚａｔｉｏｎ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１３，８（４）：２９９⁃３０４．Ｑｕａｌｉｔｙ⁃ｍｅｔｒｉｃｓｄｒｉｖｅｎｍｕｌｔｉ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａａｇｇｒｅｇａｔｉｏｎａｎｄｖｉｓｕａｌｉｚａｔｉｏｎＬＩＹａｎｇ１，２，ＨＡＯＺｈｉｆｅｎｇ２，３，ＸＩＥＧｕａｎｇｑｉａｎｇ１，２，ＹＵＡＮＧａｎｚｈａｏ３（１．ＳｃｈｏｏｌｏｆＡｕｔｏｍａｔｉｏｎ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒｓ，ＧｕａｎｇｄｏｎｇＵｎｉ⁃ ｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ；３．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＳｏｕｔｈＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏ⁃ ｇｙ，Ｇｕａｎｇｚｈｏｕ５１０００６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｆｏｒｔｈｅｐｕｒｐｏｓｅｏｆｔｈｉｓｒｅｓｅａｒｃｈｐａｐｅｒ，ｗｅｅｘａｍｉｎｅｄｍｕｌｔｉ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａｖｉｓｕａｌｉｚａｔｉｏｎｗｉｔｈｔｈｅｑｕａｌｉｔｙｍｅｔｒｉｃｓｍｏｄｅｌ；ｔａｋｉｎｇｄａｔａａｇｇｒｅｇａｔｉｏｎａｓａｂａｓｉｃｍｅａｎｓｉｎｏｒｄｅｒｔｏｉｍｐｒｏｖｅｔｈｅｍｕｌｔｉ⁃ｄｉｍｅｎｓｉｏｎａｌｖｉｓｕａｌｉｚａｔｉｏｎｉｍ⁃ ａｇｅｑｕａｌｉｔｙ．Ｕｎｄｅｒｔｈｅｑｕａｌｉｔｙ⁃ｍｅｔｒｉｃｓｄｒｉｖｅｎｆｒａｍｅｗｏｒｋ，ｗｅｐｕｔｆｏｒｗａｒｄａｄａｔａａｇｇｒｅｇａｔｉｏｎａｌｇｏｒｉｔｈｍｃａｌｌｅｄｅｑｕｉ⁃ ｐａｒｔｉｔｉｏｎＫ⁃ｍｅａｎｓ＋＋ｂａｓｅｄｏｎｃｏｎｖｅｎｔｉｏｎａｌＫ⁃ｍｅａｎｓ，ａｎｄｔｈｕｓ，ｗｅｒｅａｂｌｅｔｏｉｍｐｒｏｖｅｔｈｅａｌｇｏｒｉｔｈｍｅｓｐｅｃｉａｌｌｙａｓｉｔｐｅｒｔａｉｎｓｔｏｄａｔａｖｉｓｕａｌｉｚａｔｉｏｎ．ＴｈｅａｇｇｒｅｇａｔｅｄｄａｔａｏｂｔａｉｎｅｄｂｙｅｑｕｉｐａｒｔｉｔｉｏｎＫ⁃ｍｅａｎｓ＋＋ｍａｙｎｏｔｏｎｌｙｐｒｅｓｅｒｖｅｍｏｓｔｆｅａｔｕｒｅｓｏｆｔｈｅｏｒｉｇｉｎａｌｄａｔａ，ｂｕｔａｌｓｏｉｍｐｒｏｖｅｔｈｅｉｍａｇｅｑｕａｌｉｔｙａｆｔｅｒｖｉｓｕａｌｉｚａｔｉｏｎ．Ｏｕｒｓｉｍｕｌａｔｉｏｎｅｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔａｔｅａｃｈｖａｌｕｅｏｆｄａｔａａｂｓｔｒａｃｔｉｏｎｌｅｖｅｌ（ＤＡＬ），ｅｑｕｉｐａｒｔｉｔｉｏｎＫ⁃ｍｅａｎｓ＋＋ｇｅｔｇｏｏｄｒｅｓｕｌｔｓ，ｎｏｔｏｎｌｙｉｎｖｉｓｕａｌｉｚａ⁃ ｔｉｏｎｉｍａｇｅｑｕａｌｉｔｙｂｕｔａｌｓｏｑｕａｌｉｔｙｍｅｔｒｉｃｓｏｆｈｉｓｔｏｇｒａｍｄｉｆｆｅｒｅｎｃｅｍｅａｓｕｒｅ（ＨＤＭ）ａｎｄｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｍｅａｓｕｒｅ（ＮＮＭ）．Ｋｅｙｗｏｒｄｓ：ｑｕａｌｉｔｙ⁃ｍｅｔｒｉｃｓ；ｄａｔａｓｐａｃｅ；ｄａｔａａｇｇｒｅｇａｔｉｏｎ；Ｋ⁃ｍｅａｎｓ；ｍｕｌｔｉ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａｖｉｓｕａｌｉｚａｔｉｏｎ收稿日期：２０１３⁃０４⁃１５．网络出版日期：２０１３⁃０６⁃０３．基金项目：国家自然科学基金资助项目（６１０７００３３）；广东省自然科学基金资助项目（９２５１００９００１０００００５）；广东省科技计划资助项目（２０１０Ｂ０５０４０００１１）．通信作者：李杨．Ｅ⁃ｍａｉｌ：ｋｉｔｔｙ＿ｌｌｙｙ＠１６３．ｃｏｍ．随着信息化社会的全面到来，面向高维海量数据的应用变得越来越普遍，因此，如何分析和使用这些数据是一个亟待解决的问题，鉴于人类对于海量高维数据的认知能力有限，在知识发现、信息决策的过程中，多维数据可视化技术成为一种辅助人们理解与直观地掌握数据特性的有效手段．多维可视化技术的目的是尽量反映多维信息及其各属性之间的关系信息，帮助数据工程师准确快速地发现数据集中隐藏的特征信息、关系信息、模式信息、趋势信息

·300. 智能系统学报第8卷及聚类信息等然而，在对海量数据进行可视化时，情况更为复 1 均分K-means++:一种多维数据可杂，应用传统的数据可视化技术及流程时，往往会出现图像叠加严重、可视化图像质量低、辨识性差等现视化中的数据聚合方法实问题，数据聚合是解决该问题的一种有效方法，也 K-means算法具有简单、聚类速度快的优点.在就是在数据可视化之前先进行数据抽象.现有的数大量的实验中发现，在进行海量数据的聚合运算中，据聚合方法往往没有为数据可视化进行专门的优化 K-means算法具有以下缺，点：和改进，更为重要的是，缺少针对可视化所作的数据 1)在聚合运算，特别是海量数据的聚合运算聚合质量度量，对数据聚合的质量没有量化和理论中，K值往往较大，这种情况下，传统的K-means算支撑，本文研究的质量度量指标驱动的数据聚合弥法会出现迭代次数过大的情况，极大地影响了聚合补了上述不足速度为了弥补人类视觉感知能力的不足，帮助人们理 2)传统的K-means-+算法[]虽然改进了初始点解多维数据，研究人员提出了相当数量的数据可视化的选择，但仍然以最小化近邻点距离之和为目的，往方法，这些方法将多维数据通过降维转换并映射到三往会出现各个聚簇的点数分布极不均匀的情况，某维或者二维可视空间来实现多维信息的可视化根据其些聚簇只有几个点，某些聚簇则有成百上千个点.但可视化的原理不同可以划分为基于几何的技术、面向是，在数据聚合中，往往希望聚合前的数据能在聚合像素的技术、基于图标的技术、基于层次的技术、基于后的各个中心点上均匀分布，使聚合后的数据更好图形的技术和基于降维映射的技术等2]」地反映原数据的分布。在数据量较大时，为了提高数据可视化的图像鉴于现有的K-means及其改进算法在数据聚合质量，降低图像叠加的问题，通常会对数据进行抽中存在的缺陷，本文提出了均分K-means++的数据象，数据抽象的目的是在数据精简的同时，保持原数聚合方法，仿真实验证明，该算法大大减少了迭代次据的各种特性，提高数据抽象后可视化的图像质量. 数，在分布上与原数据更加吻合，从而更加适用于数抽样和聚合是2种常用的数据抽象方法.Bertini 据可视化中的数据聚合运算，等)提出了利用聚类聚合的方法在散点图中自动算法1均分K-means 降低图像叠加；Johansson等提出了基于距离变化 1)输入d维空间[0,1]的n个点P1,P2,…, 的数据抽样方法，并在屏幕空间对图像质量进行了 pn,随机选择k个初始点C={c1,c2,…,cz} 度量质量度量的研究由来已久，随着数据可视化技 2)设a=cei(),ceil(·)为向上取整函数将每术的发展，数据可视化中的质量度量越来越引起学个样本点P:划分到最近的中心点c:所在的集合S,如者们的注意，越来越多的成果发表在数据可视化领果数目IS,|≥α，则表示该集合已满，继续寻找次近的中域的重要期刊和会议上，这些方法也极大地促进了心点所在的集合，直至找到一个未满（集合现有点数小数据可视化技术本身的发展.根据数据可视化度量于α)的较近的中心点所在的集合.用以上方法将样本指标所实施的对象不同，现有的质量度量方法可以集合{P:}划分成S,S2,…,S 被分成两大类：实施于数据空间和图像空间[).在数 3)对于1≤j≤k,计算集合S,内点之和sum= 据空间方面，C等[6)研究了在抽象和聚合2种不 ∑：es:和数目num=1S,l,S,=sum/num为集合S,新同的数据抽象方法下计算数据抽象质量，权衡如何的中心点在数据精简和数据损失方面取得平衡：在图像空间 4)重复2)~3)，直至C不再变化或迭代次数达方面，Tatu等)使用Hough变换对感兴趣的散点图到上限进行分级，以提高可视化图像质量.但是，图像空间算法2均分K-means+ 的质量度量存在着受限于某种单个数据可视化方法令D(x)表示一个数据点到离它最近的已经选出的缺点的中心点的距离.则均分K-means+算法定义如下：本文提出一种数据空间质量度量驱动下的数据 1)输入d维空间[0,1]4的n个点P1P2,…Pn 聚合方法均分K-means+-+,这一方法面向多维数据， ①均匀随机地在X中选出第1个中心点. 广泛适用于大部分数据可视化方法，在质量度量指标的驱动下进行多维数据的可视化. ②以D(x)2 ∑eD(x) 的概率选择x∈X作为新的中

及聚类信息等．然而，在对海量数据进行可视化时，情况更为复杂，应用传统的数据可视化技术及流程时，往往会出现图像叠加严重、可视化图像质量低、辨识性差等现实问题，数据聚合是解决该问题的一种有效方法，也就是在数据可视化之前先进行数据抽象．现有的数据聚合方法往往没有为数据可视化进行专门的优化和改进，更为重要的是，缺少针对可视化所作的数据聚合质量度量，对数据聚合的质量没有量化和理论支撑，本文研究的质量度量指标驱动的数据聚合弥补了上述不足．为了弥补人类视觉感知能力的不足，帮助人们理解多维数据，研究人员提出了相当数量的数据可视化方法，这些方法将多维数据通过降维转换并映射到三维或者二维可视空间来实现多维信息的可视化．根据其可视化的原理不同可以划分为基于几何的技术、面向像素的技术、基于图标的技术、基于层次的技术、基于图形的技术和基于降维映射的技术等［１⁃２］．在数据量较大时，为了提高数据可视化的图像质量，降低图像叠加的问题，通常会对数据进行抽象，数据抽象的目的是在数据精简的同时，保持原数据的各种特性，提高数据抽象后可视化的图像质量．抽样和聚合是２种常用的数据抽象方法．Ｂｅｒｔｉｎｉ等［３］提出了利用聚类聚合的方法在散点图中自动降低图像叠加；Ｊｏｈａｎｓｓｏｎ等［４］提出了基于距离变化的数据抽样方法，并在屏幕空间对图像质量进行了度量．质量度量的研究由来已久，随着数据可视化技术的发展，数据可视化中的质量度量越来越引起学者们的注意，越来越多的成果发表在数据可视化领域的重要期刊和会议上，这些方法也极大地促进了数据可视化技术本身的发展．根据数据可视化度量指标所实施的对象不同，现有的质量度量方法可以被分成两大类：实施于数据空间和图像空间［５］．在数据空间方面，Ｃｕｉ等［６］研究了在抽象和聚合２种不同的数据抽象方法下计算数据抽象质量，权衡如何在数据精简和数据损失方面取得平衡；在图像空间方面，Ｔａｔｕ等［７］使用Ｈｏｕｇｈ变换对感兴趣的散点图进行分级，以提高可视化图像质量．但是，图像空间的质量度量存在着受限于某种单个数据可视化方法的缺点．本文提出一种数据空间质量度量驱动下的数据聚合方法均分Ｋ⁃ｍｅａｎｓ＋＋，这一方法面向多维数据，广泛适用于大部分数据可视化方法，在质量度量指标的驱动下进行多维数据的可视化．１均分Ｋ⁃ｍｅａｎｓ＋＋：一种多维数据可视化中的数据聚合方法Ｋ⁃ｍｅａｎｓ算法具有简单、聚类速度快的优点．在大量的实验中发现，在进行海量数据的聚合运算中，Ｋ⁃ｍｅａｎｓ算法具有以下缺点：１）在聚合运算，特别是海量数据的聚合运算中，Ｋ值往往较大，这种情况下，传统的Ｋ⁃ｍｅａｎｓ算法会出现迭代次数过大的情况，极大地影响了聚合速度．２）传统的Ｋ⁃ｍｅａｎｓ＋＋算法［８］虽然改进了初始点的选择，但仍然以最小化近邻点距离之和为目的，往往会出现各个聚簇的点数分布极不均匀的情况，某些聚簇只有几个点，某些聚簇则有成百上千个点．但是，在数据聚合中，往往希望聚合前的数据能在聚合后的各个中心点上均匀分布，使聚合后的数据更好地反映原数据的分布．鉴于现有的Ｋ⁃ｍｅａｎｓ及其改进算法在数据聚合中存在的缺陷，本文提出了均分Ｋ⁃ｍｅａｎｓ＋＋的数据聚合方法，仿真实验证明，该算法大大减少了迭代次数，在分布上与原数据更加吻合，从而更加适用于数据可视化中的数据聚合运算．算法１均分Ｋ⁃ｍｅａｎｓ１）输入ｄ维空间［０，１］ｄ的ｎ个点ｐ１，ｐ２，…，ｐｎ，随机选择ｋ个初始点Ｃ＝｛ｃ１，ｃ２，…，ｃｋ｝．２）设 α＝ｃｅｉｌ（ｎｋ），ｃｅｉｌ（·）为向上取整函数．将每个样本点ｐｉ划分到最近的中心点ｃｊ所在的集合Ｓｊ，如果数目｜Ｓｊ｜≥α，则表示该集合已满，继续寻找次近的中心点所在的集合，直至找到一个未满（集合现有点数小于 α）的较近的中心点所在的集合．用以上方法将样本集合｛ｐｉ｝划分成Ｓ１，Ｓ２，…，Ｓｋ．３）对于１≤ｊ≤ｋ，计算集合Ｓｊ内点之和ｓｕｍ＝ ∑ｉ∈Ｓｊｐｉ和数目ｎｕｍ＝｜Ｓｊ｜，ｃｊ＝ｓｕｍ／ｎｕｍ为集合Ｓｊ新的中心点．４）重复２）～３），直至Ｃ不再变化或迭代次数达到上限．算法２均分Ｋ⁃ｍｅａｎｓ＋＋令Ｄ（ｘ）表示一个数据点到离它最近的已经选出的中心点的距离．则均分Ｋ⁃ｍｅａｎｓ＋＋算法定义如下：１）输入ｄ维空间［０，１］ｄ的ｎ个点ｐ１，ｐ２，…，ｐｎ． ①均匀随机地在Ｘ中选出第１个中心点． ②以Ｄ（ｘ）２ ∑ｘ∈ＸＤ（ｘ）２的概率选择ｘ∈Ｘ作为新的中 ·３００· 智能系统学报第８卷

第4期李杨，等：质量度量指标驱动的数据聚合与多维数据可视化 ·301· 心点c 2.2质量度量对象 ③重复②，直至选出k个中心点. 根据数据可视化度量指标所实施的对象不同， 2)继续算法1的2)~4)步. 现有的质量度量方法可以被分成两大类：实施于数 2质量度量指标驱动的数据可视化据空间或图像空间 1)数据空间数据可视化中的质量度量通常基于以下目的：在数据空间计算的度量指标只使用可视化前后寻找感兴趣的预测结果、降低图像叠加、发现有意义的数据进行计算，不涉及到任何视图信息，的模式等.近年来，虽然数据可视化中的质量度量研 2)图像空间. 究发展很快，但很少有人将这些成果总结，并指出它面向图像空间的度量指标计算则绕过数据，直们之间的联系，本文建立一个多维数据可视化质量接对输出的图像信息进行计算，这类方法通常需要评价模型，用来量化数据可视化中的聚合数据质量，辅助复杂的图像处理方法。从而驱动数据可视化图像质量的改善 2.3质量度量指标 2.1质量度量模型 1)聚类质量可视化质量评价模型如图1所示.图中描述了聚类质量指标用于度量可视化后的数据，保持质量评价模型下的数据可视化过程，包括3个阶段：分组信息的程度，对于明显分组的数据是否比较容 1)数据转换（源数据→转换后数据）.数据转换易识别列的主要目的是改变数据形式为更利于可视化的格 2)相关性指标。式，例如对于一些高维数据，需要进行特征选择、投相关性指标用于度量可视化后的数据保持原数影等降维操作，对于海量数据，常见的操作是聚合和据二维或多维之间相关性的程度.二维数据之间的采样 Pearson相关性和多维数据之间的全局相关性都在 2)数据映射（转换后数据→可视化结构）.数据映射是整个模型的核心部分，这一步将数据的每一该指标考虑的范围之内[© 维表现为可视化结构中的可视特征同样的数据可 3)离群点指标。离群点指标用于度量可视化后的数据保持那些能映射为多种不同的可视化结构，质量评价指标需要对这些过程进行评价.例如，不同的维序对应不同与大部分其他数据明显不同的数据（即离群点）的的可视化结构，相应的质量度量评价也是不同的. 能力) 3)视图转换（可视化结构→视图）.视图转换将 4)复杂模式指标可视化结构翻译为特定的图像形式（如像素），这样 Wilkinson等提出一种度量发现复杂模式能做的目的是为了突出图像空间的作用，因为某些质力的指标，这些复杂模式不能在之前提出的分类中量评价指标直接以可视化结构所对应的像素为计算被发现，如“某种针织质地”、“某种身材指标”等对象，不过，相对于数据空间质量评价而言，直接对 5)图像质量指标图像空间进行的质量评价相对较少图像质量指标不关心各种模式被保持的程度，而是度量可视化后的图像质量，例如图形是否大量重叠等质量驱动的多维数据可视化 6)特征保持指标特征保持指标度量可视化后的数据保持原数据源数据聚合数据数据工程师特征的程度这些特征包括原数据的分类信息[7,1)] 可视化中的抽象数据相对于原数据而言的信息损图1总体框架 Fig.1 Overall framework 失[34]等用户感兴趣的特征信息质量评价模型可以帮助数据分析者选择一个 2.4数据空间质量度量指标可靠的过程组合.通常在一种情况下会有一个或者图像空间中的质量度量对具体的数据可视化方多个解决方案供数据分析者选择，整个选择过程都法敏感，因此，本文选择的抽象数据级别(data ab- 是由质量评价指标驱动的，因为质量评价指标可以 straction level,.DAL)、直方图差值度量(histogram 量化每个阶段的数据或视图质量（向上箭头），计算 difference measure,HDM)、最近邻距离度量(nearest 结果最终影响整个处理过程（向下箭头） neighbor measure,NNM)3个指标是数据空间中的

心点ｃｉ． ③重复②，直至选出ｋ个中心点．２）继续算法１的２）～４）步．２质量度量指标驱动的数据可视化数据可视化中的质量度量通常基于以下目的：寻找感兴趣的预测结果、降低图像叠加、发现有意义的模式等．近年来，虽然数据可视化中的质量度量研究发展很快，但很少有人将这些成果总结，并指出它们之间的联系，本文建立一个多维数据可视化质量评价模型，用来量化数据可视化中的聚合数据质量，从而驱动数据可视化图像质量的改善．２．１质量度量模型可视化质量评价模型如图１所示．图中描述了质量评价模型下的数据可视化过程，包括３个阶段：１）数据转换（源数据→转换后数据）．数据转换的主要目的是改变数据形式为更利于可视化的格式，例如对于一些高维数据，需要进行特征选择、投影等降维操作，对于海量数据，常见的操作是聚合和采样．２）数据映射（转换后数据→可视化结构）．数据映射是整个模型的核心部分，这一步将数据的每一维表现为可视化结构中的可视特征．同样的数据可能映射为多种不同的可视化结构，质量评价指标需要对这些过程进行评价．例如，不同的维序对应不同的可视化结构，相应的质量度量评价也是不同的．３）视图转换（可视化结构→视图）．视图转换将可视化结构翻译为特定的图像形式（如像素），这样做的目的是为了突出图像空间的作用，因为某些质量评价指标直接以可视化结构所对应的像素为计算对象，不过，相对于数据空间质量评价而言，直接对图像空间进行的质量评价相对较少．图１总体框架Ｆｉｇ．１Ｏｖｅｒａｌｌｆｒａｍｅｗｏｒｋ质量评价模型可以帮助数据分析者选择一个可靠的过程组合．通常在一种情况下会有一个或者多个解决方案供数据分析者选择，整个选择过程都是由质量评价指标驱动的，因为质量评价指标可以量化每个阶段的数据或视图质量（向上箭头），计算结果最终影响整个处理过程（向下箭头）．２．２质量度量对象根据数据可视化度量指标所实施的对象不同，现有的质量度量方法可以被分成两大类：实施于数据空间或图像空间．１）数据空间．在数据空间计算的度量指标只使用可视化前后的数据进行计算，不涉及到任何视图信息．２）图像空间．面向图像空间的度量指标计算则绕过数据，直接对输出的图像信息进行计算，这类方法通常需要辅助复杂的图像处理方法．２．３质量度量指标１）聚类质量．聚类质量指标用于度量可视化后的数据，保持分组信息的程度，对于明显分组的数据是否比较容易识别［９］．２）相关性指标．相关性指标用于度量可视化后的数据保持原数据二维或多维之间相关性的程度．二维数据之间的Ｐｅａｒｓｏｎ相关性和多维数据之间的全局相关性都在该指标考虑的范围之内［１０］．３）离群点指标．离群点指标用于度量可视化后的数据保持那些与大部分其他数据明显不同的数据（即离群点）的能力［１１］．４）复杂模式指标．Ｗｉｌｋｉｎｓｏｎ等［１２］提出一种度量发现复杂模式能力的指标，这些复杂模式不能在之前提出的分类中被发现，如“某种针织质地”、“某种身材指标”等．５）图像质量指标．图像质量指标不关心各种模式被保持的程度，而是度量可视化后的图像质量，例如图形是否大量重叠等．６）特征保持指标．特征保持指标度量可视化后的数据保持原数据特征的程度．这些特征包括原数据的分类信息［７，１３］、可视化中的抽象数据相对于原数据而言的信息损失［３⁃４］等用户感兴趣的特征信息．２．４数据空间质量度量指标图像空间中的质量度量对具体的数据可视化方法敏感，因此，本文选择的抽象数据级别（ｄａｔａａｂ⁃ ｓｔｒａｃｔｉｏｎｌｅｖｅｌ，ＤＡＬ）、直方图差值度量（ｈｉｓｔｏｇｒａｍｄｉｆｆｅｒｅｎｃｅｍｅａｓｕｒｅ，ＨＤＭ）、最近邻距离度量（ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｍｅａｓｕｒｅ，ＮＮＭ）３个指标是数据空间中的第４期李杨，等：质量度量指标驱动的数据聚合与多维数据可视化 ·３０１·

·302· 智能系统学报第8卷质量度量指标，能够较好地验证算法2在聚类质量 ③)标准化所有最小距离的平均值为NNM表图像质量和特征保持指标上的表现示抽象前数据集的大小 1)DAL. ∑D DAL是数据抽象级别的缩写，用来表示数据抽 NNM=1 i=1 象的程度，计算公式如式(1)： R DAL=N./N。 (1) 3 仿真实验式中：N表示抽象后的数据集大小，N。表示原数据集的大小在几大类数据可视化方法中，基于几何的技术、 2)HDM. 面向像素的技术、基于层次的技术和基于图形的技 HDM定义为抽象前后2个直方图的标准差，取术均适用于本文提出的方法.基于几何技术的基本值范围是[0,1]，0表示2个直方图所对应的每一对思想是以点、线等几何画法将多维数据展现在二维、桶都有其中一个是空的，1则表示2个直方图所对三维空间，适合于维数高但数据量相对不多的数据应的每一对桶都完全一致，用式(2)来表示2个直集，其代表方法为平行坐标法[4，其他方法还包括方图第i个桶的差值：放射坐标系[us)、散点图矩阵[16]、Andrews曲线法[ P=P。-P (2) 等.面向像素的技术利用像素的颜色代表数据的值，式中：P。是抽象前数据落入第i个桶的比例，P,是抽空间被分割成多个子窗口，每个子窗口对应多维数象后数据落入第i个桶的比例，P。是2个桶的差值. 据中的一维，比较有代表性的方法包括VisDB18] 圆形分段法[等.基于层次的技术可以对数据进行 P= ∑P,=∑Ip,-P,l. 层次划分，将数据以层次结构的方式组织并以图形式中：P。是2个直方图的差值，N是直方图中桶的表示出来，在不同层次上表示不同维度的元素值，适数量用于每一维数据之间具有层次关系的多维数据.包 HDM =1-P..- (3) 括维堆[20]、嵌套坐标系[2)等方法.基于图形的技术利用图形的大小、颜色等属性表示数据，代表方法包如式(3)定义，HDM是直方图标准差，P,是P最括多线图、Survey Plot!2],这2种方法都是在平行坐大值标法的基础上发展而来的. 对于n维数据集的HDM定义为n个一维HDM 上述的数据可视化方法的共同点是其可视化图平均值默认的桶宽使用式(4)计算：像质量容易受到数据集大小的影响，因此，在应用本 W=3.49×S×Num3. (4) 文提出的数据聚合方法时，既能够提高可视化图像式中：S为某一维数据的标准差，um为数据集的大小质量，又能保持原数据的大部分特性.限于篇幅，本 3)NNM. 文只展示了2种最具代表性的数据可视化方法：平 NNM定义为每条记录与其抽象后代表它的记行坐标法和散点图法录之间的标准化距离平均值，计算公式如下：文中涉及的算法实现编程环境为MATLAB7.1, ①n维空间内2条记录U、V之间的欧氏距离为数据可视化工具为XmdvTool],实验环境为Win- ∑(U-V)2 dows XP3.6GHz,2.00GB,实验中的所有数据都被规 D(U.= 范化至[O,1]6,3个质量评价指标DAL、HDM、NNM n 的取值范围均为[0,1].数据基本信息如表1所示. ②对抽象前数据集中的第i条记录，计算它与表1实验数据信息抽象后数据集中每一条记录之间的距离，选择其中 Table 1 Experimental data 距离最小的值作为D 数据集属性数据集 D:minD(X:,Y). 属性数记录数 = 名称数据类型别名式中：X,是抽象前数据集中的第i条记录，y是抽象后数据集中的第j条记录，A表示抽象后数据集的 AAUP(25] 14 real 1161 DS 大小，D,代表第i条记录的距离. out5d[2s] 5 real 16384 DS

质量度量指标，能够较好地验证算法２在聚类质量、图像质量和特征保持指标上的表现．１）ＤＡＬ．ＤＡＬ是数据抽象级别的缩写，用来表示数据抽象的程度，计算公式如式（１）：ＤＡＬ＝Ｎａ／Ｎｏ．（１）式中：Ｎａ表示抽象后的数据集大小，Ｎｏ表示原数据集的大小．２）ＨＤＭ．ＨＤＭ定义为抽象前后２个直方图的标准差，取值范围是［０，１］，０表示２个直方图所对应的每一对桶都有其中一个是空的，１则表示２个直方图所对应的每一对桶都完全一致，用式（２）来表示２个直方图第ｉ个桶的差值：Ｐｂｉ＝｜Ｐｏｉ－Ｐｓｉ｜．（２）式中：Ｐｏｉ是抽象前数据落入第ｉ个桶的比例，Ｐｓｉ是抽象后数据落入第ｉ个桶的比例，Ｐｂｉ是２个桶的差值．Ｐｈ＝ ∑ Ｎｉ＝１Ｐｂｉ＝ ∑ Ｎｉ＝１｜Ｐｏｉ－Ｐｓｉ｜．式中：Ｐｈ是２个直方图的差值，Ｎ是直方图中桶的数量．ＨＤＭ＝１－ＰｈＰｈ，ｍａｘ．（３）如式（３）定义，ＨＤＭ是直方图标准差，Ｐｈ，ｍａｘ是Ｐｈ最大值．对于ｎ维数据集的ＨＤＭ定义为ｎ个一维ＨＤＭ平均值．默认的桶宽使用式（４）计算：Ｗ＝３．４９ × Ｓ × Ｎｕｍ１３．（４）式中：Ｓ为某一维数据的标准差，Ｎｕｍ为数据集的大小．３）ＮＮＭ．ＮＮＭ定义为每条记录与其抽象后代表它的记录之间的标准化距离平均值，计算公式如下： ①ｎ维空间内２条记录Ｕ、Ｖ之间的欧氏距离为Ｄ（Ｕ，Ｖ）＝ ∑ ｎｋ＝１（Ｕｋ－Ｖｋ）２ｎ． ②对抽象前数据集中的第ｉ条记录，计算它与抽象后数据集中每一条记录之间的距离，选择其中距离最小的值作为Ｄｉ．Ｄｉ＝ｍｉｎＡｊ＝１Ｄ（Ｘｉ，Ｙｊ）．式中：Ｘｉ是抽象前数据集中的第ｉ条记录，Ｙｊ是抽象后数据集中的第ｊ条记录，Ａ表示抽象后数据集的大小，Ｄｉ代表第ｉ条记录的距离． ③）标准化所有最小距离的平均值为ＮＮＭ表示抽象前数据集的大小．ＮＮＭ＝１－ ∑ Ｒｉ＝１ＤｉＲ．３仿真实验在几大类数据可视化方法中，基于几何的技术、面向像素的技术、基于层次的技术和基于图形的技术均适用于本文提出的方法．基于几何技术的基本思想是以点、线等几何画法将多维数据展现在二维、三维空间，适合于维数高但数据量相对不多的数据集，其代表方法为平行坐标法［１４］，其他方法还包括放射坐标系［１５］、散点图矩阵［１６］、Ａｎｄｒｅｗｓ曲线法［１７］等．面向像素的技术利用像素的颜色代表数据的值，空间被分割成多个子窗口，每个子窗口对应多维数据中的一维，比较有代表性的方法包括ＶｉｓＤＢ［１８］、圆形分段法［１９］等．基于层次的技术可以对数据进行层次划分，将数据以层次结构的方式组织并以图形表示出来，在不同层次上表示不同维度的元素值，适用于每一维数据之间具有层次关系的多维数据．包括维堆［２０］、嵌套坐标系［２１］等方法．基于图形的技术利用图形的大小、颜色等属性表示数据，代表方法包括多线图、ＳｕｒｖｅｙＰｌｏｔ［２２］，这２种方法都是在平行坐标法的基础上发展而来的．上述的数据可视化方法的共同点是其可视化图像质量容易受到数据集大小的影响，因此，在应用本文提出的数据聚合方法时，既能够提高可视化图像质量，又能保持原数据的大部分特性．限于篇幅，本文只展示了２种最具代表性的数据可视化方法：平行坐标法和散点图法．文中涉及的算法实现编程环境为ＭＡＴＬＡＢ７．１，数据可视化工具为ＸｍｄｖＴｏｏｌ［２３］，实验环境为Ｗｉｎ⁃ ｄｏｗｓＸＰ３．６ＧＨｚ，２．００ＧＢ，实验中的所有数据都被规范化至［０，１］６，３个质量评价指标ＤＡＬ、ＨＤＭ、ＮＮＭ的取值范围均为［０，１］．数据基本信息如表１所示．表１实验数据信息Ｔａｂｌｅ１Ｅｘｐｅｒｉｍｅｎｔａｌｄａｔａ数据集名称属性数属性数据类型记录数数据集别名ＡＡＵＰ［２５］１４ｒｅａｌ１１６１ＤＳ１ｏｕｔ５ｄ［２５］５ｒｅａｌ１６３８４ＤＳ２ ·３０２· 智能系统学报第８卷

第4期李杨，等：质量度量指标驱动的数据聚合与多维数据可视化 ·303- 3.1质量度量驱动的平行坐标图聚合前后对比数据集DS,采用算法2分别以数据抽象级别 DAL=0.07,0.04,0.02时进行数据聚合.图2包含了数据聚合前后的平行坐标图，可以发现，在DAL=1, 即数据聚合前，数据叠加严重，难以辨识其中任何的 (a)DAL=1 (b)DAL=0.07 数据，而聚合后的数据不仅保持了较高的质量度量指标（如图3所示），图像质量也有了明显的提高。 (c)DAL=0.04 (d)DAL=0.02 图4不同DAL下DS2的散点图 Fig.4 Scatter plots of DS,at different DAL (a)DAL=I (b)DAL=0.07 触 1.0 0.8 0.6 (c)DAL=0.04 (d)DAL=0.02 图2不同DAL下DS,的平行坐标图 Fig.2 Parallel coordinates of DS,at different DALS 0.2 0.02 .04 0.07 DAL 图5不同DAL下DS,的质量度量指标 Fig.5 Quality metrics of DS,at different DAL 0.8 0.6 4结束语 0.4 质量度量指标驱动下的数据聚合加入了质量量化指标，聚合数据的质量可以被精确量化，可以帮助 0.2 数据工程师在数据可视化的过程中根据实际需求调整度量指标参数，以获取聚合数据质量与可视化图 0.02 0.04 0.07 DAL 像质量之间的平衡.本文提出了一种均分K-means++ 图3不同DAL下DS,的质量度量指标数据聚合算法，仿真实验表明，与传统的聚类算法相 Fig.3 Quality metrics of DS,at different DAL 比，均分K-means-++更适用于以提高数据可视化图 3.2质量度量驱动的散点图聚合前后对比像质量为目的的数据聚合.目前，均分K-means++数图4是数据集DS,用算法2进行数据聚合前据聚合算法存在的问题是当K增大到一定程度时， (DAL=1)及聚合后(DAL为0.02,0.04,0.07)的散初始点的计算效率较低，下一步将研究如何在海量点图矩阵.不难发现，在DAL=1时，各个数据，点叠加数据集上提高算法效率，严重，很难辨识其中的任何有用信息，也难以发现两维属性之间的关系，而聚合后的数据即使在DAL= 参考文献： 0.02时，也能很容易地发现其中存在的属性关联信 [1]孙扬，封孝生，唐九阳，等.多维可视化技术综述[J刀].计息.图5展示了聚合后的DS2同样保持了较高的质算机科学，2008,35(11)：1-7. 量度量指标.当数据维度较小时，聚合后的数据在散 SUN Yang,FENG Xiaosheng,TANG Jiuyang,et al.Survey 点图上的表现更好 on the research of multidimensional and multivariate data vi- sualization[]].Computer Science,2008.35(11):1-7

３．１质量度量驱动的平行坐标图聚合前后对比数据集ＤＳ１采用算法２分别以数据抽象级别ＤＡＬ＝０．０７，０．０４，０．０２时进行数据聚合．图２包含了数据聚合前后的平行坐标图，可以发现，在ＤＡＬ＝１，即数据聚合前，数据叠加严重，难以辨识其中任何的数据，而聚合后的数据不仅保持了较高的质量度量指标（如图３所示），图像质量也有了明显的提高．图２不同ＤＡＬ下ＤＳ１的平行坐标图Ｆｉｇ．２ＰａｒａｌｌｅｌｃｏｏｒｄｉｎａｔｅｓｏｆＤＳ１ａｔｄｉｆｆｅｒｅｎｔＤＡＬＳ图３不同ＤＡＬ下ＤＳ１的质量度量指标Ｆｉｇ．３ＱｕａｌｉｔｙｍｅｔｒｉｃｓｏｆＤＳ１ａｔｄｉｆｆｅｒｅｎｔＤＡＬ３．２质量度量驱动的散点图聚合前后对比图４是数据集ＤＳ２用算法２进行数据聚合前（ＤＡＬ＝１）及聚合后（ＤＡＬ为０．０２，０．０４，０．０７）的散点图矩阵．不难发现，在ＤＡＬ＝１时，各个数据点叠加严重，很难辨识其中的任何有用信息，也难以发现两维属性之间的关系，而聚合后的数据即使在ＤＡＬ＝０．０２时，也能很容易地发现其中存在的属性关联信息．图５展示了聚合后的ＤＳ２同样保持了较高的质量度量指标．当数据维度较小时，聚合后的数据在散点图上的表现更好．图４不同ＤＡＬ下ＤＳ２的散点图Ｆｉｇ．４ＳｃａｔｔｅｒｐｌｏｔｓｏｆＤＳ２ａｔｄｉｆｆｅｒｅｎｔＤＡＬ图５不同ＤＡＬ下ＤＳ２的质量度量指标Ｆｉｇ．５ＱｕａｌｉｔｙｍｅｔｒｉｃｓｏｆＤＳ２ａｔｄｉｆｆｅｒｅｎｔＤＡＬ４结束语质量度量指标驱动下的数据聚合加入了质量量化指标，聚合数据的质量可以被精确量化，可以帮助数据工程师在数据可视化的过程中根据实际需求调整度量指标参数，以获取聚合数据质量与可视化图像质量之间的平衡．本文提出了一种均分Ｋ⁃ｍｅａｎｓ＋＋数据聚合算法，仿真实验表明，与传统的聚类算法相比，均分Ｋ⁃ｍｅａｎｓ＋＋更适用于以提高数据可视化图像质量为目的的数据聚合．目前，均分Ｋ⁃ｍｅａｎｓ＋＋数据聚合算法存在的问题是当Ｋ增大到一定程度时，初始点的计算效率较低，下一步将研究如何在海量数据集上提高算法效率．参考文献：［１］孙扬，封孝生，唐九阳，等．多维可视化技术综述［Ｊ］．计算机科学，２００８，３５（１１）：１⁃７．ＳＵＮＹａｎｇ，ＦＥＮＧＸｉａｏｓｈｅｎｇ，ＴＡＮＧＪｉｕｙａｎｇ，ｅｔａｌ．Ｓｕｒｖｅｙｏｎｔｈｅｒｅｓｅａｒｃｈｏｆｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌａｎｄｍｕｌｔｉｖａｒｉａｔｅｄａｔａｖｉ⁃ ｓｕａｌｉｚａｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２００８，３５（１１）：１⁃７．第４期李杨，等：质量度量指标驱动的数据聚合与多维数据可视化 ·３０３·

·304. 智能系统学报第8卷 [2]KEIM D A,ANKERST M.Visual data mining and explora- [16]MATRIX S.Scatter plot matrics[EB/OL].[2012-09-20]. tion of large databases[C]//PKDD.Freiburg,Germany, http://www.itl.nist.Gov/div898/hand book/eda/section3/ 2001:104-109. eda33qb.html. [3]BERTINI E,SANTUCCI G.Quality metrics for 2D scatter- [17]ANDREWS D F.Plots of high-dimensional data[J].Bio- plot graphics:automatically reducing visual clutter[C] metrics.1972.28(1):125-136. Smart Graphics 4th International Symposium.Banff,Cana- [18]KEIM D A,KRIEGEL H P.VisDB:database exploration da,2004:10-15. using multidimensional visualization[J].Computer Graph- [4]JOHANSSON J,COOPER M.A screen space quality meth- ics Applications,1994,14(5):40-49. od for data abstraction[J].Computer Graphics Forum, [19]HOFMAN P E.Table visualizations:a formal model and 2008,27(3):1039-1046. its applications[D].Lowell,USA:University of Massa- [5]BERTINI E,TATU A,KEIM D.Quality metrics in high-di- chusetts,1999:25. mensional data visualization:an overview and systematiza- [20]WARD M O,LEBLANC J,TIPNIS R.N-Land:a graph- tion[J].IEEE Trans on Visualization and Computer Graph- ical tool for exploring n-dimensional data[C]//Computer ics,2011,17(12):2203-2212. Graphics International Conference.Melbourne,Australia, [6]CUI Q,WARD M,RUNDENSTEINER E,et al.Measuring 1994:1-14. data abstraction quality in multiresolution visualizations[]. [21]FEINER S,BESHERS C.Worlds within worlds:meta- IEEE Trans on Visualization and Computer Graphics,2006, phors for exploring n-dimensional virtual worlds [C]// 23(12):709-716. ACM Proceedings Conference on User Interface Software [7]ALBUQUERQUE T A,EISEMANN G.Combining automa- Design.New York,USA,1990:76-83. ted analysis and visualization techniques for effective explo- [22]LOHNINGER H.INSPECT,a program system to visualize ration of high-dimensional data C]//Proc IEEE Symp Vis- and interpret chemical data[J].Chemometrics and Intelli- ual Analytics Science and Technology.Atlantic City,USA, gent Laboratory Systems,1994,22(1):147-153. 2009:59-66. [23]WARD M0.“Xmdvtool"[EB/0L].[2012-09-23].Xmw [8]ARTHUR D,VASSILVITSKII S.K-means++:the advanta- Users Group.http://davis.wpi.edu/xmdv/datasets.html. ges of careful seeding[C]//Symposium on Discrete Algo- 作者简介： rithms.Philadelphia,USA,2007:1027-1035. 李杨，女，1980年生，讲师，博士研 [9]FERDOSI B J,BERNOULLI J.Finding and visualizing rele- 究生，主要研究方向为数据可视化、机 vant subspaces for clustering high-dimensional astronomical 器学习.获云浮市科技进步奖二等奖1 data using connected morphological operators [C]//IEEE 项，发明专利授权1项，实用新型专利1 Conf Visual Analytics Science and Technology.Salt Lake 项发表学术论文8篇。 City,USA,2010:35-42. [10]JOHANSSON S,JOHANSSON J.Interactive dimensionali- ty reduction through user-defined combinations of quality 郝志峰，男，1968年生，教授，博士 metrics[J].IEEE Trans on Visualization and Computer 生导师，主要研究方向为机器学习、仿 Graphics,2009,15(6):993-1000. 生算法、生物信息学.共主持国家自然 [11]PENG W,WARD M O,RUNDENSTEINER E A.Clutter 科学基金、教育部霍英东基金、广东省 reduction in multi-dimensional data visualization using di- 自然科学基金、广东省科技攻关项目、 mension reordering C//IEEE Symp Information Visual- 广东省省部产学研项目等省部级以上 ization.Austin,USA,2004:89-96. 项目22项.获国家、省部级各类奖项20余项，广东省科技最 [12]WILKINSON L,ANAND A,GROSSMAN R.Graph-theo- 高个人荣誉“丁颖科技奖”，发表学术论文60余篇。 retic scagnostics[C]//IEEE Symp Information Visualiza- tion.Chicago,USA,2005:157-164. 谢光强，男，1979年生，副教授，硕 [13]SIPS M,NEUBERT B,LEWIS J P,et al.Selecting good 士生导师，主要研究方向为多智能体、 views of high-dimensional data using class consistency[]. 智能控制.主持省部产学研等科研项目 Computer Graphics Forum,2009,28(3):30-41. 11项，获得专利和软件著作权10项，指 [14]INSELBERG A.The plane with parallel coordinates [J]. 导学生获各类国家、省级奖项30余项， The Visual Computer,1985,1(2):69-91. 发表学术论文11篇，其中被I和ISTP [15]HOFFMAN P E,GRINSTEIN GG,MARX K,et al. 检索4篇。 DNA visual and analytic data mining[C]//IEEE Visual- ization Phoenix.Phoenix,USA,1997:437-441

高个人荣誉 “丁颖科技奖” ，发表学术论文６０余篇．科学基金、教育部霍英东基金、广东省［２］ＫＥＩＭＤＡ，ＡＮＫＥＲＳＴＭ．Ｖｉｓｕａｌｄａｔａｍｉｎｉｎｇａｎｄｅｘｐｌｏｒａ⁃ ｔｉｏｎｏｆｌａｒｇｅｄａｔａｂａｓｅｓ［Ｃ］／／ＰＫＤＤ．Ｆｒｅｉｂｕｒｇ，Ｇｅｒｍａｎｙ，２００１：１０４⁃１０９．［３］ＢＥＲＴＩＮＩＥ，ＳＡＮＴＵＣＣＩＧ．Ｑｕａｌｉｔｙｍｅｔｒｉｃｓｆｏｒ２Ｄｓｃａｔｔｅｒ⁃ ｐｌｏｔｇｒａｐｈｉｃｓ：ａｕｔｏｍａｔｉｃａｌｌｙｒｅｄｕｃｉｎｇｖｉｓｕａｌｃｌｕｔｔｅｒ［Ｃ］／／ＳｍａｒｔＧｒａｐｈｉｃｓ４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍ．Ｂａｎｆｆ，Ｃａｎａ⁃ ｄａ，２００４：１０⁃１５．［４］ＪＯＨＡＮＳＳＯＮＪ，ＣＯＯＰＥＲＭ．Ａｓｃｒｅｅｎｓｐａｃｅｑｕａｌｉｔｙｍｅｔｈ⁃ ｏｄｆｏｒｄａｔａａｂｓｔｒａｃｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓＦｏｒｕｍ，２００８，２７（３）：１０３９⁃１０４６．［５］ＢＥＲＴＩＮＩＥ，ＴＡＴＵＡ，ＫＥＩＭＤ．Ｑｕａｌｉｔｙｍｅｔｒｉｃｓｉｎｈｉｇｈ⁃ｄｉ⁃ ｍｅｎｓｉｏｎａｌｄａｔａｖｉｓｕａｌｉｚａｔｉｏｎ：ａｎｏｖｅｒｖｉｅｗａｎｄｓｙｓｔｅｍａｔｉｚａ⁃ ｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＶｉｓｕａｌｉｚａｔｉｏｎａｎｄＣｏｍｐｕｔｅｒＧｒａｐｈ⁃ ｉｃｓ，２０１１，１７（１２）：２２０３⁃２２１２．［６］ＣＵＩＱ，ＷＡＲＤＭ，ＲＵＮＤＥＮＳＴＥＩＮＥＲＥ，ｅｔａｌ．Ｍｅａｓｕｒｉｎｇｄａｔａａｂｓｔｒａｃｔｉｏｎｑｕａｌｉｔｙｉｎｍｕｌｔｉｒｅｓｏｌｕｔｉｏｎｖｉｓｕａｌｉｚａｔｉｏｎｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＶｉｓｕａｌｉｚａｔｉｏｎａｎｄＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ，２００６，２３（１２）：７０９⁃７１６．［７］ＡＬＢＵＱＵＥＲＱＵＥＴＡ，ＥＩＳＥＭＡＮＮＧ．Ｃｏｍｂｉｎｉｎｇａｕｔｏｍａ⁃ ｔｅｄａｎａｌｙｓｉｓａｎｄｖｉｓｕａｌｉｚａｔｉｏｎｔｅｃｈｎｉｑｕｅｓｆｏｒｅｆｆｅｃｔｉｖｅｅｘｐｌｏ⁃ ｒａｔｉｏｎｏｆｈｉｇｈ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａ［Ｃ］／／ＰｒｏｃＩＥＥＥＳｙｍｐＶｉｓ⁃ ｕａｌＡｎａｌｙｔｉｃｓＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ．ＡｔｌａｎｔｉｃＣｉｔｙ，ＵＳＡ，２００９：５９⁃６６．［８］ＡＲＴＨＵＲＤ，ＶＡＳＳＩＬＶＩＴＳＫＩＩＳ．Ｋ⁃ｍｅａｎｓ＋＋：ｔｈｅａｄｖａｎｔａ⁃ ｇｅｓｏｆｃａｒｅｆｕｌｓｅｅｄｉｎｇ［Ｃ］／／ＳｙｍｐｏｓｉｕｍｏｎＤｉｓｃｒｅｔｅＡｌｇｏ⁃ ｒｉｔｈｍｓ．Ｐｈｉｌａｄｅｌｐｈｉａ，ＵＳＡ，２００７：１０２７⁃１０３５．［９］ＦＥＲＤＯＳＩＢＪ，ＢＥＲＮＯＵＬＬＩＪ．Ｆｉｎｄｉｎｇａｎｄｖｉｓｕａｌｉｚｉｎｇｒｅｌｅ⁃ ｖａｎｔｓｕｂｓｐａｃｅｓｆｏｒｃｌｕｓｔｅｒｉｎｇｈｉｇｈ⁃ｄｉｍｅｎｓｉｏｎａｌａｓｔｒｏｎｏｍｉｃａｌｄａｔａｕｓｉｎｇｃｏｎｎｅｃｔｅｄｍｏｒｐｈｏｌｏｇｉｃａｌｏｐｅｒａｔｏｒｓ［Ｃ］／／ＩＥＥＥＣｏｎｆＶｉｓｕａｌＡｎａｌｙｔｉｃｓＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ．ＳａｌｔＬａｋｅＣｉｔｙ，ＵＳＡ，２０１０：３５⁃４２．［１０］ＪＯＨＡＮＳＳＯＮＳ，ＪＯＨＡＮＳＳＯＮＪ．Ｉｎｔｅｒａｃｔｉｖｅｄｉｍｅｎｓｉｏｎａｌｉ⁃ ｔｙｒｅｄｕｃｔｉｏｎｔｈｒｏｕｇｈｕｓｅｒ⁃ｄｅｆｉｎｅｄｃｏｍｂｉｎａｔｉｏｎｓｏｆｑｕａｌｉｔｙｍｅｔｒｉｃｓ［Ｊ］．ＩＥＥＥＴｒａｎｓｏｎＶｉｓｕａｌｉｚａｔｉｏｎａｎｄＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓ，２００９，１５（６）：９９３⁃１０００．［１１］ＰＥＮＧＷ，ＷＡＲＤＭＯ，ＲＵＮＤＥＮＳＴＥＩＮＥＲＥＡ．Ｃｌｕｔｔｅｒｒｅｄｕｃｔｉｏｎｉｎｍｕｌｔｉ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａｖｉｓｕａｌｉｚａｔｉｏｎｕｓｉｎｇｄｉ⁃ ｍｅｎｓｉｏｎｒｅｏｒｄｅｒｉｎｇ［Ｃ］／／ＩＥＥＥＳｙｍｐＩｎｆｏｒｍａｔｉｏｎＶｉｓｕａｌ⁃ ｉｚａｔｉｏｎ．Ａｕｓｔｉｎ，ＵＳＡ，２００４：８９⁃９６．［１２］ＷＩＬＫＩＮＳＯＮＬ，ＡＮＡＮＤＡ，ＧＲＯＳＳＭＡＮＲ．Ｇｒａｐｈ⁃ｔｈｅｏ⁃ ｒｅｔｉｃｓｃａｇｎｏｓｔｉｃｓ［Ｃ］／／ＩＥＥＥＳｙｍｐＩｎｆｏｒｍａｔｉｏｎＶｉｓｕａｌｉｚａ⁃ ｔｉｏｎ．Ｃｈｉｃａｇｏ，ＵＳＡ，２００５：１５７⁃１６４．［１３］ＳＩＰＳＭ，ＮＥＵＢＥＲＴＢ，ＬＥＷＩＳＪＰ，ｅｔａｌ．Ｓｅｌｅｃｔｉｎｇｇｏｏｄｖｉｅｗｓｏｆｈｉｇｈ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａｕｓｉｎｇｃｌａｓｓｃｏｎｓｉｓｔｅｎｃｙ［Ｊ］．ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓＦｏｒｕｍ，２００９，２８（３）：３０⁃４１．［１４］ＩＮＳＥＬＢＥＲＧＡ．Ｔｈｅｐｌａｎｅｗｉｔｈｐａｒａｌｌｅｌｃｏｏｒｄｉｎａｔｅｓ［Ｊ］．ＴｈｅＶｉｓｕａｌＣｏｍｐｕｔｅｒ，１９８５，１（２）：６９⁃９１．［１５］ＨＯＦＦＭＡＮＰＥ，ＧＲＩＮＳＴＥＩＮＧＧ，ＭＡＲＸＫ，ｅｔａ１．ＤＮＡｖｉｓｕａｌａｎｄａｎａｌｙｔｉｃｄａｔａｍｉｎｉｎｇ［Ｃ］／／ＩＥＥＥＶｉｓｕａｌ⁃ ｉｚａｔｉｏｎＰｈｏｅｎｉｘ．Ｐｈｏｅｎｉｘ，ＵＳＡ，１９９７：４３７⁃４４１．［１６］ＭＡＴＲＩＸＳ．Ｓｃａｔｔｅｒｐｌｏｔｍａｔｒｉｃｓ［ＥＢ／ＯＬ］．［２０１２⁃０９⁃２０］．ｈｔｔｐ：／／ｗｗｗ．ｉｔｌ．ｎｉｓｔ．Ｇｏｖ／ｄｉｖ８９８／ｈａｎｄｂｏｏｋ／ｅｄａ／ｓｅｃｔｉｏｎ３／ｅｄａ３３ｑｂ．ｈｔｍｌ．［１７］ＡＮＤＲＥＷＳＤＦ．Ｐｌｏｔｓｏｆｈｉｇｈ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａ［Ｊ］．Ｂｉｏ⁃ ｍｅｔｒｉｃｓ，１９７２，２８（１）：１２５⁃１３６．［１８］ＫＥＩＭＤＡ，ＫＲＩＥＧＥＬＨＰ．ＶｉｓＤＢ：ｄａｔａｂａｓｅｅｘｐｌｏｒａｔｉｏｎｕｓｉｎｇｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌｖｉｓｕａｌｉｚａｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＧｒａｐｈ⁃ ｉｃｓＡｐｐｌｉｃａｔｉｏｎｓ，１９９４，１４（５）：４０⁃４９．［１９］ＨＯＦＭＡＮＰＥ．Ｔａｂｌｅｖｉｓｕａｌｉｚａｔｉｏｎｓ：ａｆｏｒｍａｌｍｏｄｅｌａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｓ［Ｄ］．Ｌｏｗｅｌｌ，ＵＳＡ：ＵｎｉｖｅｒｓｉｔｙｏｆＭａｓｓａ⁃ ｃｈｕｓｅｔｔｓ，１９９９：２５．［２０］ＷＡＲＤＭＯ，ＬＥＢＬＡＮＣＪ，ＴＩＰＮＩＳＲ．Ｎ⁃Ｌａｎｄ：ａｇｒａｐｈ⁃ ｉｃａｌｔｏｏｌｆｏｒｅｘｐｌｏｒｉｎｇｎ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａ［Ｃ］／／ＣｏｍｐｕｔｅｒＧｒａｐｈｉｃｓＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅ．Ｍｅｌｂｏｕｒｎｅ，Ａｕｓｔｒａｌｉａ，１９９４：１⁃１４．［２１］ＦＥＩＮＥＲＳ，ＢＥＳＨＥＲＳＣ．Ｗｏｒｌｄｓｗｉｔｈｉｎｗｏｒｌｄｓ：ｍｅｔａ⁃ ｐｈｏｒｓｆｏｒｅｘｐｌｏｒｉｎｇｎ⁃ｄｉｍｅｎｓｉｏｎａｌｖｉｒｔｕａｌｗｏｒｌｄｓ［Ｃ］／／ＡＣＭＰｒｏｃｅｅｄｉｎｇｓＣｏｎｆｅｒｅｎｃｅｏｎＵｓｅｒＩｎｔｅｒｆａｃｅＳｏｆｔｗａｒｅＤｅｓｉｇｎ．ＮｅｗＹｏｒｋ，ＵＳＡ，１９９０：７６⁃８３．［２２］ＬＯＨＮＩＮＧＥＲＨ．ＩＮＳＰＥＣＴ，ａｐｒｏｇｒａｍｓｙｓｔｅｍｔｏｖｉｓｕａｌｉｚｅａｎｄｉｎｔｅｒｐｒｅｔｃｈｅｍｉｃａｌｄａｔａ［Ｊ］．ＣｈｅｍｏｍｅｔｒｉｃｓａｎｄＩｎｔｅｌｌｉ⁃ ｇｅｎｔＬａｂｏｒａｔｏｒｙＳｙｓｔｅｍｓ，１９９４，２２（１）：１４７⁃１５３．［２３］ＷＡＲＤＭＯ． “Ｘｍｄｖｔｏｏｌ” ［ＥＢ／ＯＬ］．［２０１２⁃０９⁃２３］．ＸｍｄｖＵｓｅｒｓＧｒｏｕｐ．ｈｔｔｐ：／／ｄａｖｉｓ．ｗｐｉ．ｅｄｕ／ｘｍｄｖ／ｄａｔａｓｅｔｓ．ｈｔｍｌ．作者简介：李杨，女，１９８０年生，讲师，博士研究生，主要研究方向为数据可视化、机器学习．获云浮市科技进步奖二等奖１项，发明专利授权１项，实用新型专利１项．发表学术论文８篇．郝志峰，男，１９６８年生，教授，博士生导师，主要研究方向为机器学习、仿生算法、生物信息学．共主持国家自然自然科学基金、广东省科技攻关项目、广东省省部产学研项目等省部级以上项目２２项．获国家、省部级各类奖项２０余项，广东省科技最３０４· 谢光强，男，１９７９年生，副教授，硕士生导师，主要研究方向为多智能体、智能控制．主持省部产学研等科研项目１１项，获得专利和软件著作权１０项，指导学生获各类国家、省级奖项３０余项，发表学术论文１１篇，其中被ＥＩ和ＩＳＴＰ检索４篇． · 智能系统学报第８卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录