北京科技大学学报第 32卷性通过定义稀疏特征向量实现高维

正在加载图片...

,1086, 北京科技大学学报第32卷性通过定义稀疏特征向量实现高维数据聚类过程， 1.2相关定理仅需一次数据扫描，计算时间复杂度降低到0(k), 根据集合差异度和集合精简表示的定义，易知 k为类的数目，但仅适用于二值属性，RBRP算下述两个定理成立（证明略）法[将高维数据聚类的计算时间复杂度降低到定理1在数据表(XAV中，对于X的子集 0(nogn),但仍然需要两次数据扫描，且主要用于 Y IEA(Y)I=EAV(Y) 孤立点的发现根据定理1，Y中所有对象取值相同的属性数目与上述算法不同，本文提出的基于集合差异度与Y中所有对象取值相同的属性对应的（属性序的聚类算法（clustering algorithm based on set dissin i 号、属性值)）二元组的数目是一致的.因此，集合差 larity CABOSD)针对分类属性高维数据定义了集合异度也可以通过下式计算：差异度计算方法及数据的集合精简表示，在不损失 SD(Y)=(m-lEAV(Y)1/Y IX lEAV(Y)1). 聚类所需信息的情况下对数据进行高度压缩，不仅在计算集合差异度的上式中，由于属性数目m 不需计算两两对象间的距离，计算量明显减少，并且是已知常数，Y和EAV(Y)是包含在集合精简表示只需1次数据扫描就能得到聚类结果，算法的计算中的前两个分量，所以集合精简表示概括了一个对时间复杂度接近线性象集合内计算集合差异度所需的全部对象信息· CABOSD在聚类过程中只存储集合精简表示，而不 1定义与定理存储该集合中所有对象的信息，这使得在处理大数 1.1集合差异度与集合精简表示据集时数据处理量大规模减少定义1（集合差异度）在数据表(XAV6 定理2在数据表(XAV,中，对于X的子集中，X={,,…,x为对象集合；A={a,,, Y1和Y2,且Y∩当2=功，有 a为描述对象的分类属性集合；V=VV为属性 SR(YUY2)= 值集，V,为属性a的值域；是函数，即对Hx∈X UY I EAV(YUY2),SD(YUY2)), Ha∈A有a(x)=f代a)V=l2…,n1= 式中 YUY2l=Y+2↓ 1,2…,m对于X的子集YY伪集合Y中包含的对象数目，EA(Y)=aHf￥5ra()=a(s) EAV(YUY)=EAV(Y)0EAV(Y). SD(YUY)=(m-EAV(Yi )n EAV(Y2))/ 为Y中所有对象取值都相同的属性的集合，则定义 Y Y2 IX lEAV(Y EAV(Y2)) SD(Y)=(m-lEA(Y)/J Y IX lEA(Y) 定理2表明，两个不相交的对象集合进行合并为Y集合内对象间的集合差异度，简称集合差异时，可以根据集合精简表示精确地计算合并后的集度合差异度，因此，集合精简表示不仅可以在处理大集合差异度SD(Y)反映了Y集合内所有对象数据集时大规模降低数据存储量和计算量，同时可间的总体差异程度，SD(Y)越小，表明Y集合内所以保证在集合进行合并时集合差异度计算的精确有对象间越相似；SD(Y)越大，表明Y集合内所有对性，也使得只需一次数据扫描完成聚类成为可能象间越不相似. 定义2（集合精简表示）在数据表〈XA,∮ 2算法描述中，对于X的子集Y,Y为集合Y中包含的对象数 CABOSD采用的是自底向上的聚结型聚类策目，EAV(Y)=i(Ia(x)la∈EA(Y),Hx∈Y} 略.与一般聚结型聚类的多层结构不同，CABOSD 为Y中所有对象取值都相同的属性对应的（属性序只有底层和顶层，没有中间层，底层将每个对象作号，属性值)二元组的集合，$D(Y)为集合差异度，则为一个类，顶层为最终聚成的类.在一次数据扫描定义过程中，直接完成顶层新类的创建及底层对象到顶 SR(Y)=(YL EAV(Y),SD(Y)) 层类的归并，得到聚类结果，是否创建新类取决于为Y集合内所有对象聚类相关信息的集合精简表预先指定的集合差异度上限b如果将当前扫描到示向量，简称集合精简表示，的对象并入任何一个已经创建的类都会使得并入后特别地，当Y=1时，不妨记Y=iy,则的集合差异度大于集合差异度上限b则创建一个 R(iy)=(L,(1m(y))(2(y), 新类，仅包含当前扫描到的对象：否则，将当前对象 (ma(y))i,0) 并入使得并入后集合差异度最小的类中，对于每一北京科技大学学报第 32卷性通过定义稀疏特征向量实现高维数据聚类过程仅需一次数据扫描计算时间复杂度降低到Ｏ（ｎｋ）ｋ为类的数目但仅适用于二值属性．ＲＢＲＰ算法［10］将高维数据聚类的计算时间复杂度降低到Ｏ（ｎｌｏｇｎ）但仍然需要两次数据扫描且主要用于孤立点的发现．与上述算法不同本文提出的基于集合差异度的聚类算法（ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｓｅｔｄｉｓｓｉｍｉ- ｌａｒｉｔｙＣＡＢＯＳＤ）针对分类属性高维数据定义了集合差异度计算方法及数据的集合精简表示在不损失聚类所需信息的情况下对数据进行高度压缩不仅不需计算两两对象间的距离计算量明显减少并且只需 1次数据扫描就能得到聚类结果算法的计算时间复杂度接近线性． 1 定义与定理 1．1 集合差异度与集合精简表示定义 1（集合差异度）在数据表〈ＸＡＶｆ〉中Ｘ＝｛ｘ1ｘ2…ｘｎ｝为对象集合；Ａ＝｛ａ1ａ2… ａｍ｝为描述对象的分类属性集合；Ｖ＝∪ａ∈ＡＶａ为属性值集Ｖａ为属性ａ的值域；ｆ是函数即对∀ｘｉ∈Ｘ ∀ａｌ∈Ａ有ａｌ（ｘｉ）＝ｆ（ｘｉａｌ）∈Ｖａｌｉ＝12…ｎｌ＝ 12…ｍ．对于Ｘ的子集Ｙ｜Ｙ｜为集合Ｙ中包含的对象数目ＥＡ（Ｙ）＝｛ａｌ｜∀ｘｉ∈Ｙｘｊ∈Ｙａｌ（ｘｉ）＝ａｌ（ｘｊ）｝为Ｙ中所有对象取值都相同的属性的集合则定义ＳＤ（Ｙ）＝（ｍ—｜ＥＡ（Ｙ）｜）／（｜Ｙ｜×｜ＥＡ（Ｙ）｜）为Ｙ集合内对象间的集合差异度简称集合差异度．集合差异度ＳＤ（Ｙ）反映了Ｙ集合内所有对象间的总体差异程度．ＳＤ（Ｙ）越小表明Ｙ集合内所有对象间越相似；ＳＤ（Ｙ）越大表明Ｙ集合内所有对象间越不相似．定义 2（集合精简表示）在数据表〈ＸＡＶｆ〉中对于Ｘ的子集Ｙ｜Ｙ｜为集合Ｙ中包含的对象数目ＥＡＶ（Ｙ）＝｛（ｌａｌ（ｘｉ））｜ａｌ∈ＥＡ（Ｙ）∀ｘｉ∈Ｙ｝为Ｙ中所有对象取值都相同的属性对应的（属性序号属性值）二元组的集合ＳＤ（Ｙ）为集合差异度则定义ＳＲ（Ｙ）＝（｜Ｙ｜ＥＡＶ（Ｙ）ＳＤ（Ｙ））为Ｙ集合内所有对象聚类相关信息的集合精简表示向量简称集合精简表示．特别地当｜Ｙ｜＝1时不妨记Ｙ＝｛ｙ｝则ＳＲ（｛ｙ｝）＝（1｛（1ａ1（ｙ））（2ａ2（ｙ））… （ｍａｍ（ｙ））｝0）． 1．2 相关定理根据集合差异度和集合精简表示的定义易知下述两个定理成立（证明略）．定理1 在数据表〈ＸＡＶｆ〉中对于Ｘ的子集Ｙ｜ＥＡ（Ｙ）｜＝｜ＥＡＶ（Ｙ）｜．根据定理1Ｙ中所有对象取值相同的属性数目与Ｙ中所有对象取值相同的属性对应的（属性序号、属性值）二元组的数目是一致的．因此集合差异度也可以通过下式计算：ＳＤ（Ｙ）＝（ｍ—｜ＥＡＶ（Ｙ）｜）／（｜Ｙ｜×｜ＥＡＶ（Ｙ）｜）．在计算集合差异度的上式中由于属性数目ｍ是已知常数｜Ｙ｜和ＥＡＶ（Ｙ）是包含在集合精简表示中的前两个分量所以集合精简表示概括了一个对象集合内计算集合差异度所需的全部对象信息．ＣＡＢＯＳＤ在聚类过程中只存储集合精简表示而不存储该集合中所有对象的信息．这使得在处理大数据集时数据处理量大规模减少．定理2 在数据表〈ＸＡＶｆ〉中对于Ｘ的子集Ｙ1和Ｙ2且Ｙ1∩Ｙ2＝●有ＳＲ（Ｙ1∪Ｙ2）＝（｜Ｙ1∪Ｙ2｜ＥＡＶ（Ｙ1∪Ｙ2）ＳＤ（Ｙ1∪Ｙ2））式中｜Ｙ1∪Ｙ2｜＝｜Ｙ1｜＋｜Ｙ2｜ＥＡＶ（Ｙ1∪Ｙ2）＝ＥＡＶ（Ｙ1）∩ＥＡＶ（Ｙ2）ＳＤ（Ｙ1∪Ｙ2）＝（ｍ—｜ＥＡＶ（Ｙ1）∩ＥＡＶ（Ｙ2）｜）／（｜Ｙ1｜＋｜Ｙ2｜×｜ＥＡＶ（Ｙ1）∩ＥＡＶ（Ｙ2）｜）．定理 2表明两个不相交的对象集合进行合并时可以根据集合精简表示精确地计算合并后的集合差异度．因此集合精简表示不仅可以在处理大数据集时大规模降低数据存储量和计算量同时可以保证在集合进行合并时集合差异度计算的精确性也使得只需一次数据扫描完成聚类成为可能． 2 算法描述ＣＡＢＯＳＤ采用的是自底向上的聚结型聚类策略．与一般聚结型聚类的多层结构不同ＣＡＢＯＳＤ只有底层和顶层没有中间层．底层将每个对象作为一个类顶层为最终聚成的类．在一次数据扫描过程中直接完成顶层新类的创建及底层对象到顶层类的归并得到聚类结果．是否创建新类取决于预先指定的集合差异度上限ｂ．如果将当前扫描到的对象并入任何一个已经创建的类都会使得并入后的集合差异度大于集合差异度上限ｂ则创建一个新类仅包含当前扫描到的对象；否则将当前对象并入使得并入后集合差异度最小的类中．对于每一 ·1086·

<<向上翻页向下翻页>>

点击下载：分类属性高维数据基于集合差异度的聚类算法