３．１质量度量驱动的平行坐标图聚合前后对比数据集ＤＳ１采用算法２

正在加载图片...

第4期李杨，等：质量度量指标驱动的数据聚合与多维数据可视化 ·303- 3.1质量度量驱动的平行坐标图聚合前后对比数据集DS,采用算法2分别以数据抽象级别 DAL=0.07,0.04,0.02时进行数据聚合.图2包含了数据聚合前后的平行坐标图，可以发现，在DAL=1, 即数据聚合前，数据叠加严重，难以辨识其中任何的 (a)DAL=1 (b)DAL=0.07 数据，而聚合后的数据不仅保持了较高的质量度量指标（如图3所示），图像质量也有了明显的提高。 (c)DAL=0.04 (d)DAL=0.02 图4不同DAL下DS2的散点图 Fig.4 Scatter plots of DS,at different DAL (a)DAL=I (b)DAL=0.07 触 1.0 0.8 0.6 (c)DAL=0.04 (d)DAL=0.02 图2不同DAL下DS,的平行坐标图 Fig.2 Parallel coordinates of DS,at different DALS 0.2 0.02 .04 0.07 DAL 图5不同DAL下DS,的质量度量指标 Fig.5 Quality metrics of DS,at different DAL 0.8 0.6 4结束语 0.4 质量度量指标驱动下的数据聚合加入了质量量化指标，聚合数据的质量可以被精确量化，可以帮助 0.2 数据工程师在数据可视化的过程中根据实际需求调整度量指标参数，以获取聚合数据质量与可视化图 0.02 0.04 0.07 DAL 像质量之间的平衡.本文提出了一种均分K-means++ 图3不同DAL下DS,的质量度量指标数据聚合算法，仿真实验表明，与传统的聚类算法相 Fig.3 Quality metrics of DS,at different DAL 比，均分K-means-++更适用于以提高数据可视化图 3.2质量度量驱动的散点图聚合前后对比像质量为目的的数据聚合.目前，均分K-means++数图4是数据集DS,用算法2进行数据聚合前据聚合算法存在的问题是当K增大到一定程度时， (DAL=1)及聚合后(DAL为0.02,0.04,0.07)的散初始点的计算效率较低，下一步将研究如何在海量点图矩阵.不难发现，在DAL=1时，各个数据，点叠加数据集上提高算法效率，严重，很难辨识其中的任何有用信息，也难以发现两维属性之间的关系，而聚合后的数据即使在DAL= 参考文献： 0.02时，也能很容易地发现其中存在的属性关联信 [1]孙扬，封孝生，唐九阳，等.多维可视化技术综述[J刀].计息.图5展示了聚合后的DS2同样保持了较高的质算机科学，2008,35(11)：1-7. 量度量指标.当数据维度较小时，聚合后的数据在散 SUN Yang,FENG Xiaosheng,TANG Jiuyang,et al.Survey 点图上的表现更好 on the research of multidimensional and multivariate data vi- sualization[]].Computer Science,2008.35(11):1-7.３．１质量度量驱动的平行坐标图聚合前后对比数据集ＤＳ１采用算法２分别以数据抽象级别ＤＡＬ＝０．０７，０．０４，０．０２时进行数据聚合．图２包含了数据聚合前后的平行坐标图，可以发现，在ＤＡＬ＝１，即数据聚合前，数据叠加严重，难以辨识其中任何的数据，而聚合后的数据不仅保持了较高的质量度量指标（如图３所示），图像质量也有了明显的提高．图２不同ＤＡＬ下ＤＳ１的平行坐标图Ｆｉｇ．２ＰａｒａｌｌｅｌｃｏｏｒｄｉｎａｔｅｓｏｆＤＳ１ａｔｄｉｆｆｅｒｅｎｔＤＡＬＳ图３不同ＤＡＬ下ＤＳ１的质量度量指标Ｆｉｇ．３ＱｕａｌｉｔｙｍｅｔｒｉｃｓｏｆＤＳ１ａｔｄｉｆｆｅｒｅｎｔＤＡＬ３．２质量度量驱动的散点图聚合前后对比图４是数据集ＤＳ２用算法２进行数据聚合前（ＤＡＬ＝１）及聚合后（ＤＡＬ为０．０２，０．０４，０．０７）的散点图矩阵．不难发现，在ＤＡＬ＝１时，各个数据点叠加严重，很难辨识其中的任何有用信息，也难以发现两维属性之间的关系，而聚合后的数据即使在ＤＡＬ＝０．０２时，也能很容易地发现其中存在的属性关联信息．图５展示了聚合后的ＤＳ２同样保持了较高的质量度量指标．当数据维度较小时，聚合后的数据在散点图上的表现更好．图４不同ＤＡＬ下ＤＳ２的散点图Ｆｉｇ．４ＳｃａｔｔｅｒｐｌｏｔｓｏｆＤＳ２ａｔｄｉｆｆｅｒｅｎｔＤＡＬ图５不同ＤＡＬ下ＤＳ２的质量度量指标Ｆｉｇ．５ＱｕａｌｉｔｙｍｅｔｒｉｃｓｏｆＤＳ２ａｔｄｉｆｆｅｒｅｎｔＤＡＬ４结束语质量度量指标驱动下的数据聚合加入了质量量化指标，聚合数据的质量可以被精确量化，可以帮助数据工程师在数据可视化的过程中根据实际需求调整度量指标参数，以获取聚合数据质量与可视化图像质量之间的平衡．本文提出了一种均分Ｋ⁃ｍｅａｎｓ＋＋数据聚合算法，仿真实验表明，与传统的聚类算法相比，均分Ｋ⁃ｍｅａｎｓ＋＋更适用于以提高数据可视化图像质量为目的的数据聚合．目前，均分Ｋ⁃ｍｅａｎｓ＋＋数据聚合算法存在的问题是当Ｋ增大到一定程度时，初始点的计算效率较低，下一步将研究如何在海量数据集上提高算法效率．参考文献：［１］孙扬，封孝生，唐九阳，等．多维可视化技术综述［Ｊ］．计算机科学，２００８，３５（１１）：１⁃７．ＳＵＮＹａｎｇ，ＦＥＮＧＸｉａｏｓｈｅｎｇ，ＴＡＮＧＪｉｕｙａｎｇ，ｅｔａｌ．Ｓｕｒｖｅｙｏｎｔｈｅｒｅｓｅａｒｃｈｏｆｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌａｎｄｍｕｌｔｉｖａｒｉａｔｅｄａｔａｖｉ⁃ ｓｕａｌｉｚａｔｉｏｎ［Ｊ］．ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２００８，３５（１１）：１⁃７．第４期李杨，等：质量度量指标驱动的数据聚合与多维数据可视化 ·３０３·

<<向上翻页向下翻页>>

点击下载：机器学习：质量度量指标驱动的数据聚合与多维数据可视化