正在加载图片...
第4期 李杨,等:质量度量指标驱动的数据聚合与多维数据可视化 ·301· 心点c 2.2质量度量对象 ③重复②,直至选出k个中心点. 根据数据可视化度量指标所实施的对象不同, 2)继续算法1的2)~4)步. 现有的质量度量方法可以被分成两大类:实施于数 2质量度量指标驱动的数据可视化 据空间或图像空间 1)数据空间 数据可视化中的质量度量通常基于以下目的: 在数据空间计算的度量指标只使用可视化前后 寻找感兴趣的预测结果、降低图像叠加、发现有意义 的数据进行计算,不涉及到任何视图信息, 的模式等.近年来,虽然数据可视化中的质量度量研 2)图像空间. 究发展很快,但很少有人将这些成果总结,并指出它 面向图像空间的度量指标计算则绕过数据,直 们之间的联系,本文建立一个多维数据可视化质量 接对输出的图像信息进行计算,这类方法通常需要 评价模型,用来量化数据可视化中的聚合数据质量, 辅助复杂的图像处理方法。 从而驱动数据可视化图像质量的改善 2.3质量度量指标 2.1质量度量模型 1)聚类质量 可视化质量评价模型如图1所示.图中描述了 聚类质量指标用于度量可视化后的数据,保持 质量评价模型下的数据可视化过程,包括3个阶段: 分组信息的程度,对于明显分组的数据是否比较容 1)数据转换(源数据→转换后数据).数据转换 易识别列 的主要目的是改变数据形式为更利于可视化的格 2)相关性指标。 式,例如对于一些高维数据,需要进行特征选择、投 相关性指标用于度量可视化后的数据保持原数 影等降维操作,对于海量数据,常见的操作是聚合和 据二维或多维之间相关性的程度.二维数据之间的 采样 Pearson相关性和多维数据之间的全局相关性都在 2)数据映射(转换后数据→可视化结构).数据 映射是整个模型的核心部分,这一步将数据的每一 该指标考虑的范围之内[© 维表现为可视化结构中的可视特征同样的数据可 3)离群点指标。 离群点指标用于度量可视化后的数据保持那些 能映射为多种不同的可视化结构,质量评价指标需 要对这些过程进行评价.例如,不同的维序对应不同 与大部分其他数据明显不同的数据(即离群点)的 的可视化结构,相应的质量度量评价也是不同的. 能力) 3)视图转换(可视化结构→视图).视图转换将 4)复杂模式指标 可视化结构翻译为特定的图像形式(如像素),这样 Wilkinson等提出一种度量发现复杂模式能 做的目的是为了突出图像空间的作用,因为某些质 力的指标,这些复杂模式不能在之前提出的分类中 量评价指标直接以可视化结构所对应的像素为计算 被发现,如“某种针织质地”、“某种身材指标”等 对象,不过,相对于数据空间质量评价而言,直接对 5)图像质量指标 图像空间进行的质量评价相对较少 图像质量指标不关心各种模式被保持的程度, 而是度量可视化后的图像质量,例如图形是否大量 重叠等 质量驱动的多维数据可视化 6)特征保持指标 特征保持指标度量可视化后的数据保持原数据 源数据 聚合数据 数据工程师 特征的程度这些特征包括原数据的分类信息[7,1)] 可视化中的抽象数据相对于原数据而言的信息损 图1总体框架 Fig.1 Overall framework 失[34]等用户感兴趣的特征信息 质量评价模型可以帮助数据分析者选择一个 2.4数据空间质量度量指标 可靠的过程组合.通常在一种情况下会有一个或者 图像空间中的质量度量对具体的数据可视化方 多个解决方案供数据分析者选择,整个选择过程都 法敏感,因此,本文选择的抽象数据级别(data ab- 是由质量评价指标驱动的,因为质量评价指标可以 straction level,.DAL)、直方图差值度量(histogram 量化每个阶段的数据或视图质量(向上箭头),计算 difference measure,HDM)、最近邻距离度量(nearest 结果最终影响整个处理过程(向下箭头) neighbor measure,NNM)3个指标是数据空间中的心点 ci . ③重复②,直至选出 k 个中心点. 2)继续算法 1 的 2) ~4)步. 2 质量度量指标驱动的数据可视化 数据可视化中的质量度量通常基于以下目的: 寻找感兴趣的预测结果、降低图像叠加、发现有意义 的模式等.近年来,虽然数据可视化中的质量度量研 究发展很快,但很少有人将这些成果总结,并指出它 们之间的联系,本文建立一个多维数据可视化质量 评价模型,用来量化数据可视化中的聚合数据质量, 从而驱动数据可视化图像质量的改善. 2.1 质量度量模型 可视化质量评价模型如图 1 所示.图中描述了 质量评价模型下的数据可视化过程,包括 3 个阶段: 1)数据转换(源数据→转换后数据).数据转换 的主要目的是改变数据形式为更利于可视化的格 式,例如对于一些高维数据,需要进行特征选择、投 影等降维操作,对于海量数据,常见的操作是聚合和 采样. 2)数据映射(转换后数据→可视化结构).数据 映射是整个模型的核心部分,这一步将数据的每一 维表现为可视化结构中的可视特征.同样的数据可 能映射为多种不同的可视化结构,质量评价指标需 要对这些过程进行评价.例如,不同的维序对应不同 的可视化结构,相应的质量度量评价也是不同的. 3)视图转换(可视化结构→视图).视图转换将 可视化结构翻译为特定的图像形式(如像素),这样 做的目的是为了突出图像空间的作用,因为某些质 量评价指标直接以可视化结构所对应的像素为计算 对象,不过,相对于数据空间质量评价而言,直接对 图像空间进行的质量评价相对较少. 图 1 总体框架 Fig.1 Overall framework 质量评价模型可以帮助数据分析者选择一个 可靠的过程组合.通常在一种情况下会有一个或者 多个解决方案供数据分析者选择,整个选择过程都 是由质量评价指标驱动的,因为质量评价指标可以 量化每个阶段的数据或视图质量(向上箭头),计算 结果最终影响整个处理过程(向下箭头). 2.2 质量度量对象 根据数据可视化度量指标所实施的对象不同, 现有的质量度量方法可以被分成两大类:实施于数 据空间或图像空间. 1)数据空间. 在数据空间计算的度量指标只使用可视化前后 的数据进行计算,不涉及到任何视图信息. 2)图像空间. 面向图像空间的度量指标计算则绕过数据,直 接对输出的图像信息进行计算,这类方法通常需要 辅助复杂的图像处理方法. 2.3 质量度量指标 1)聚类质量. 聚类质量指标用于度量可视化后的数据,保持 分组信息的程度,对于明显分组的数据是否比较容 易识别[9] . 2)相关性指标. 相关性指标用于度量可视化后的数据保持原数 据二维或多维之间相关性的程度.二维数据之间的 Pearson 相关性和多维数据之间的全局相关性都在 该指标考虑的范围之内[10] . 3)离群点指标. 离群点指标用于度量可视化后的数据保持那些 与大部分其他数据明显不同的数据(即离群点) 的 能力[11] . 4)复杂模式指标. Wilkinson 等 [12]提出一种度量发现复杂模式能 力的指标,这些复杂模式不能在之前提出的分类中 被发现,如“某种针织质地”、“某种身材指标”等. 5)图像质量指标. 图像质量指标不关心各种模式被保持的程度, 而是度量可视化后的图像质量,例如图形是否大量 重叠等. 6)特征保持指标. 特征保持指标度量可视化后的数据保持原数据 特征的程度.这些特征包括原数据的分类信息[7,13] 、 可视化中的抽象数据相对于原数据而言的信息损 失[3⁃4]等用户感兴趣的特征信息. 2.4 数据空间质量度量指标 图像空间中的质量度量对具体的数据可视化方 法敏感,因此,本文选择的抽象数据级别( data ab⁃ straction level, DAL)、直方图差值度量 ( histogram difference measure, HDM)、最近邻距离度量(nearest neighbor measure, NNM) 3 个指标是数据空间中的 第 4 期 李杨,等:质量度量指标驱动的数据聚合与多维数据可视化 ·301·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有