心点ｃｉ． ③重复②，直至选出ｋ个中心点．２）继续算法１的

正在加载图片...

第4期李杨，等：质量度量指标驱动的数据聚合与多维数据可视化 ·301· 心点c 2.2质量度量对象 ③重复②，直至选出k个中心点. 根据数据可视化度量指标所实施的对象不同， 2)继续算法1的2)~4)步. 现有的质量度量方法可以被分成两大类：实施于数 2质量度量指标驱动的数据可视化据空间或图像空间 1)数据空间数据可视化中的质量度量通常基于以下目的：在数据空间计算的度量指标只使用可视化前后寻找感兴趣的预测结果、降低图像叠加、发现有意义的数据进行计算，不涉及到任何视图信息，的模式等.近年来，虽然数据可视化中的质量度量研 2)图像空间. 究发展很快，但很少有人将这些成果总结，并指出它面向图像空间的度量指标计算则绕过数据，直们之间的联系，本文建立一个多维数据可视化质量接对输出的图像信息进行计算，这类方法通常需要评价模型，用来量化数据可视化中的聚合数据质量，辅助复杂的图像处理方法。从而驱动数据可视化图像质量的改善 2.3质量度量指标 2.1质量度量模型 1)聚类质量可视化质量评价模型如图1所示.图中描述了聚类质量指标用于度量可视化后的数据，保持质量评价模型下的数据可视化过程，包括3个阶段：分组信息的程度，对于明显分组的数据是否比较容 1)数据转换（源数据→转换后数据）.数据转换易识别列的主要目的是改变数据形式为更利于可视化的格 2)相关性指标。式，例如对于一些高维数据，需要进行特征选择、投相关性指标用于度量可视化后的数据保持原数影等降维操作，对于海量数据，常见的操作是聚合和据二维或多维之间相关性的程度.二维数据之间的采样 Pearson相关性和多维数据之间的全局相关性都在 2)数据映射（转换后数据→可视化结构）.数据映射是整个模型的核心部分，这一步将数据的每一该指标考虑的范围之内[© 维表现为可视化结构中的可视特征同样的数据可 3)离群点指标。离群点指标用于度量可视化后的数据保持那些能映射为多种不同的可视化结构，质量评价指标需要对这些过程进行评价.例如，不同的维序对应不同与大部分其他数据明显不同的数据（即离群点）的的可视化结构，相应的质量度量评价也是不同的. 能力) 3)视图转换（可视化结构→视图）.视图转换将 4)复杂模式指标可视化结构翻译为特定的图像形式（如像素），这样 Wilkinson等提出一种度量发现复杂模式能做的目的是为了突出图像空间的作用，因为某些质力的指标，这些复杂模式不能在之前提出的分类中量评价指标直接以可视化结构所对应的像素为计算被发现，如“某种针织质地”、“某种身材指标”等对象，不过，相对于数据空间质量评价而言，直接对 5)图像质量指标图像空间进行的质量评价相对较少图像质量指标不关心各种模式被保持的程度，而是度量可视化后的图像质量，例如图形是否大量重叠等质量驱动的多维数据可视化 6)特征保持指标特征保持指标度量可视化后的数据保持原数据源数据聚合数据数据工程师特征的程度这些特征包括原数据的分类信息[7,1)] 可视化中的抽象数据相对于原数据而言的信息损图1总体框架 Fig.1 Overall framework 失[34]等用户感兴趣的特征信息质量评价模型可以帮助数据分析者选择一个 2.4数据空间质量度量指标可靠的过程组合.通常在一种情况下会有一个或者图像空间中的质量度量对具体的数据可视化方多个解决方案供数据分析者选择，整个选择过程都法敏感，因此，本文选择的抽象数据级别(data ab- 是由质量评价指标驱动的，因为质量评价指标可以 straction level,.DAL)、直方图差值度量(histogram 量化每个阶段的数据或视图质量（向上箭头），计算 difference measure,HDM)、最近邻距离度量(nearest 结果最终影响整个处理过程（向下箭头） neighbor measure,NNM)3个指标是数据空间中的心点ｃｉ． ③重复②，直至选出ｋ个中心点．２）继续算法１的２）～４）步．２质量度量指标驱动的数据可视化数据可视化中的质量度量通常基于以下目的：寻找感兴趣的预测结果、降低图像叠加、发现有意义的模式等．近年来，虽然数据可视化中的质量度量研究发展很快，但很少有人将这些成果总结，并指出它们之间的联系，本文建立一个多维数据可视化质量评价模型，用来量化数据可视化中的聚合数据质量，从而驱动数据可视化图像质量的改善．２．１质量度量模型可视化质量评价模型如图１所示．图中描述了质量评价模型下的数据可视化过程，包括３个阶段：１）数据转换（源数据→转换后数据）．数据转换的主要目的是改变数据形式为更利于可视化的格式，例如对于一些高维数据，需要进行特征选择、投影等降维操作，对于海量数据，常见的操作是聚合和采样．２）数据映射（转换后数据→可视化结构）．数据映射是整个模型的核心部分，这一步将数据的每一维表现为可视化结构中的可视特征．同样的数据可能映射为多种不同的可视化结构，质量评价指标需要对这些过程进行评价．例如，不同的维序对应不同的可视化结构，相应的质量度量评价也是不同的．３）视图转换（可视化结构→视图）．视图转换将可视化结构翻译为特定的图像形式（如像素），这样做的目的是为了突出图像空间的作用，因为某些质量评价指标直接以可视化结构所对应的像素为计算对象，不过，相对于数据空间质量评价而言，直接对图像空间进行的质量评价相对较少．图１总体框架Ｆｉｇ．１Ｏｖｅｒａｌｌｆｒａｍｅｗｏｒｋ质量评价模型可以帮助数据分析者选择一个可靠的过程组合．通常在一种情况下会有一个或者多个解决方案供数据分析者选择，整个选择过程都是由质量评价指标驱动的，因为质量评价指标可以量化每个阶段的数据或视图质量（向上箭头），计算结果最终影响整个处理过程（向下箭头）．２．２质量度量对象根据数据可视化度量指标所实施的对象不同，现有的质量度量方法可以被分成两大类：实施于数据空间或图像空间．１）数据空间．在数据空间计算的度量指标只使用可视化前后的数据进行计算，不涉及到任何视图信息．２）图像空间．面向图像空间的度量指标计算则绕过数据，直接对输出的图像信息进行计算，这类方法通常需要辅助复杂的图像处理方法．２．３质量度量指标１）聚类质量．聚类质量指标用于度量可视化后的数据，保持分组信息的程度，对于明显分组的数据是否比较容易识别［９］．２）相关性指标．相关性指标用于度量可视化后的数据保持原数据二维或多维之间相关性的程度．二维数据之间的Ｐｅａｒｓｏｎ相关性和多维数据之间的全局相关性都在该指标考虑的范围之内［１０］．３）离群点指标．离群点指标用于度量可视化后的数据保持那些与大部分其他数据明显不同的数据（即离群点）的能力［１１］．４）复杂模式指标．Ｗｉｌｋｉｎｓｏｎ等［１２］提出一种度量发现复杂模式能力的指标，这些复杂模式不能在之前提出的分类中被发现，如“某种针织质地”、“某种身材指标”等．５）图像质量指标．图像质量指标不关心各种模式被保持的程度，而是度量可视化后的图像质量，例如图形是否大量重叠等．６）特征保持指标．特征保持指标度量可视化后的数据保持原数据特征的程度．这些特征包括原数据的分类信息［７，１３］、可视化中的抽象数据相对于原数据而言的信息损失［３⁃４］等用户感兴趣的特征信息．２．４数据空间质量度量指标图像空间中的质量度量对具体的数据可视化方法敏感，因此，本文选择的抽象数据级别（ｄａｔａａｂ⁃ ｓｔｒａｃｔｉｏｎｌｅｖｅｌ，ＤＡＬ）、直方图差值度量（ｈｉｓｔｏｇｒａｍｄｉｆｆｅｒｅｎｃｅｍｅａｓｕｒｅ，ＨＤＭ）、最近邻距离度量（ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｍｅａｓｕｒｅ，ＮＮＭ）３个指标是数据空间中的第４期李杨，等：质量度量指标驱动的数据聚合与多维数据可视化 ·３０１·

<<向上翻页向下翻页>>

点击下载：机器学习：质量度量指标驱动的数据聚合与多维数据可视化