正在加载图片...
·302· 智能系统学报 第8卷 质量度量指标,能够较好地验证算法2在聚类质量 ③)标准化所有最小距离的平均值为NNM表 图像质量和特征保持指标上的表现 示抽象前数据集的大小 1)DAL. ∑D DAL是数据抽象级别的缩写,用来表示数据抽 NNM=1 i=1 象的程度,计算公式如式(1): R DAL=N./N。 (1) 3 仿真实验 式中:N表示抽象后的数据集大小,N。表示原数据 集的大小 在几大类数据可视化方法中,基于几何的技术、 2)HDM. 面向像素的技术、基于层次的技术和基于图形的技 HDM定义为抽象前后2个直方图的标准差,取 术均适用于本文提出的方法.基于几何技术的基本 值范围是[0,1],0表示2个直方图所对应的每一对 思想是以点、线等几何画法将多维数据展现在二维、 桶都有其中一个是空的,1则表示2个直方图所对 三维空间,适合于维数高但数据量相对不多的数据 应的每一对桶都完全一致,用式(2)来表示2个直 集,其代表方法为平行坐标法[4,其他方法还包括 方图第i个桶的差值: 放射坐标系[us)、散点图矩阵[16]、Andrews曲线法[ P=P。-P (2) 等.面向像素的技术利用像素的颜色代表数据的值, 式中:P。是抽象前数据落入第i个桶的比例,P,是抽 空间被分割成多个子窗口,每个子窗口对应多维数 象后数据落入第i个桶的比例,P。是2个桶的差值. 据中的一维,比较有代表性的方法包括VisDB18] 圆形分段法[等.基于层次的技术可以对数据进行 P= ∑P,=∑Ip,-P,l. 层次划分,将数据以层次结构的方式组织并以图形 式中:P。是2个直方图的差值,N是直方图中桶的 表示出来,在不同层次上表示不同维度的元素值,适 数量 用于每一维数据之间具有层次关系的多维数据.包 HDM =1-P..- (3) 括维堆[20]、嵌套坐标系[2)等方法.基于图形的技术 利用图形的大小、颜色等属性表示数据,代表方法包 如式(3)定义,HDM是直方图标准差,P,是P最 括多线图、Survey Plot!2],这2种方法都是在平行坐 大值 标法的基础上发展而来的. 对于n维数据集的HDM定义为n个一维HDM 上述的数据可视化方法的共同点是其可视化图 平均值默认的桶宽使用式(4)计算: 像质量容易受到数据集大小的影响,因此,在应用本 W=3.49×S×Num3. (4) 文提出的数据聚合方法时,既能够提高可视化图像 式中:S为某一维数据的标准差,um为数据集的大小 质量,又能保持原数据的大部分特性.限于篇幅,本 3)NNM. 文只展示了2种最具代表性的数据可视化方法:平 NNM定义为每条记录与其抽象后代表它的记 行坐标法和散点图法 录之间的标准化距离平均值,计算公式如下: 文中涉及的算法实现编程环境为MATLAB7.1, ①n维空间内2条记录U、V之间的欧氏距离为 数据可视化工具为XmdvTool],实验环境为Win- ∑(U-V)2 dows XP3.6GHz,2.00GB,实验中的所有数据都被规 D(U.= 范化至[O,1]6,3个质量评价指标DAL、HDM、NNM n 的取值范围均为[0,1].数据基本信息如表1所示. ②对抽象前数据集中的第i条记录,计算它与 表1实验数据信息 抽象后数据集中每一条记录之间的距离,选择其中 Table 1 Experimental data 距离最小的值作为D 数据集 属性 数据集 D:minD(X:,Y). 属性数 记录数 = 名称 数据类型 别名 式中:X,是抽象前数据集中的第i条记录,y是抽象 后数据集中的第j条记录,A表示抽象后数据集的 AAUP(25] 14 real 1161 DS 大小,D,代表第i条记录的距离. out5d[2s] 5 real 16384 DS,质量度量指标,能够较好地验证算法 2 在聚类质量、 图像质量和特征保持指标上的表现. 1)DAL. DAL 是数据抽象级别的缩写,用来表示数据抽 象的程度,计算公式如式(1): DAL = Na / No . (1) 式中:Na 表示抽象后的数据集大小,No 表示原数据 集的大小. 2)HDM. HDM 定义为抽象前后 2 个直方图的标准差,取 值范围是[0,1],0 表示 2 个直方图所对应的每一对 桶都有其中一个是空的,1 则表示 2 个直方图所对 应的每一对桶都完全一致,用式(2)来表示 2 个直 方图第 i 个桶的差值: Pb i =| Po i - Ps i | . (2) 式中:Po i 是抽象前数据落入第 i 个桶的比例,Ps i 是抽 象后数据落入第 i 个桶的比例,Pb i 是 2 个桶的差值. Ph = ∑ N i = 1 Pb i = ∑ N i = 1 | Po i - Ps i | . 式中:Ph 是 2 个直方图的差值,N 是直方图中桶的 数量. HDM = 1 - Ph Ph, max . (3) 如式(3)定义,HDM 是直方图标准差,Ph, max是 Ph 最 大值. 对于 n 维数据集的 HDM 定义为 n 个一维 HDM 平均值.默认的桶宽使用式(4)计算: W = 3.49 × S × Num 1 3 . (4) 式中:S 为某一维数据的标准差,Num 为数据集的大小. 3)NNM. NNM 定义为每条记录与其抽象后代表它的记 录之间的标准化距离平均值,计算公式如下: ①n 维空间内 2 条记录 U、V 之间的欧氏距离为 D(U,V) = ∑ n k = 1 (Uk - Vk) 2 n . ②对抽象前数据集中的第 i 条记录,计算它与 抽象后数据集中每一条记录之间的距离,选择其中 距离最小的值作为 Di . Di = min A j = 1 D(Xi,Yj). 式中:Xi 是抽象前数据集中的第 i 条记录,Yj 是抽象 后数据集中的第 j 条记录,A 表示抽象后数据集的 大小,Di 代表第 i 条记录的距离. ③)标准化所有最小距离的平均值为 NNM 表 示抽象前数据集的大小. NNM = 1 - ∑ R i = 1 Di R . 3 仿真实验 在几大类数据可视化方法中,基于几何的技术、 面向像素的技术、基于层次的技术和基于图形的技 术均适用于本文提出的方法.基于几何技术的基本 思想是以点、线等几何画法将多维数据展现在二维、 三维空间,适合于维数高但数据量相对不多的数据 集,其代表方法为平行坐标法[14] ,其他方法还包括 放射坐标系[15] 、散点图矩阵[16] 、Andrews 曲线法[17] 等.面向像素的技术利用像素的颜色代表数据的值, 空间被分割成多个子窗口,每个子窗口对应多维数 据中的一维,比较有代表性的方法包括 VisDB [18] 、 圆形分段法[19]等.基于层次的技术可以对数据进行 层次划分,将数据以层次结构的方式组织并以图形 表示出来,在不同层次上表示不同维度的元素值,适 用于每一维数据之间具有层次关系的多维数据.包 括维堆[20] 、嵌套坐标系[21] 等方法.基于图形的技术 利用图形的大小、颜色等属性表示数据,代表方法包 括多线图、Survey Plot [22] ,这 2 种方法都是在平行坐 标法的基础上发展而来的. 上述的数据可视化方法的共同点是其可视化图 像质量容易受到数据集大小的影响,因此,在应用本 文提出的数据聚合方法时,既能够提高可视化图像 质量,又能保持原数据的大部分特性.限于篇幅,本 文只展示了 2 种最具代表性的数据可视化方法:平 行坐标法和散点图法. 文中涉及的算法实现编程环境为MATLAB 7.1, 数据可视化工具为 XmdvTool [23] ,实验环境为 Win⁃ dows XP 3.6GHz,2.00GB,实验中的所有数据都被规 范化至[0,1] 6 ,3 个质量评价指标 DAL、HDM、NNM 的取值范围均为[0,1].数据基本信息如表 1 所示. 表 1 实验数据信息 Table 1 Experimental data 数据集 名称 属性数 属性 数据类型 记录数 数据集 别名 AAUP [25] 14 real 1 161 DS1 out5d [25] 5 real 16 384 DS2 ·302· 智 能 系 统 学 报 第 8 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有