与ＤＭＰ、ＳＭＰ环境下的Ｋ⁃ｍｅａｎｓ聚类过程可以有效的结合，作

正在加载图片...

第4期申彦，等：CMP上基于数据集划分的K-means多核优化算法 ·609· 与DMP、SMP环境下的K-means聚类过程可以有效簇尽可能的紧凑和独立。的结合，作为DMP、SMP环境下K-means聚类算法算法lK-means(Dataset D,ClusterNumber K) 的有效补充。也有研究人员开始着手研究CMP环输入：事务数据库D,聚类簇的数量K 境下K-menas算法的并行化，但是相关研究尚处于输出：K个聚类，使得平方误差准则E最小起步阶段，算法实现仍存在进一步改进的空 1)assign initial value for means; 间15.16 /任意选择k个对象作为初始的簇中心 1.3多核处理器的出现 2)REPEAT: 2005年，当主频接近4GHz时，CPU的主要制 3)FORj =1 to n DO assign each x;to the closest 造厂商英特尔和AMD公司发现单纯的主频提升已 clusters mean; 经无法明显提升系统整体性能。由于CPU片内流 /根据簇中对象的平均值将每个对象分配给最水线过长，使得单位频率效能低下，加上由于缓存的近的簇增加和对漏电流控制的不利，造成CPU功耗大幅度增加。随着功耗的增大，散热问题也越来越成为一 4))FOR=1okD0G∑6：个无法逾越的障碍。于是，出现了多核心CPU的解 //更新簇的平均值，即计算每个簇中对象的平决方案。均值其实较早以前已经有研究人员提出了利用单芯片多核心处理器(CMP)技术来代替复杂度越来越 5)ComputeE=∑∑lx-x； i=i xeC 高的单核心CPU。BM、P、SUN等企业也在服务器 /计算准则函数E 领域投入了一定的多核CPU进行商用。然而由于 6)Until E.-E=<E,e为预先设定的一个当时的服务器多核CPU价格过于昂贵、应用面窄、较小的值：并没有真正发展起来。 //表示E不再产生明显的变化 2006年，多核CPU进入了迅猛的发展时期，In- K-means是解决聚类问题的一种经典算法，该 tel的Core,Xeon以及AMD的Athlon,Barcelona等算法实现起来较为简单且有非常好的可扩展性。因受到了广泛的欢迎。这些CPU在性能得到极大提此，很多科研人员在研究针对大规模数据集的高效升的同时，功耗反而得到了降低。聚类算法时，往往会以K-means算法作为首选进行值得注意的是OS并不能自动的让某个应用程改进和优化。序直接利用CPU的多核，而是需要进行有关算法的分析K-means算法的时间复杂度，其运行时间 CMP并行化改进。对于数据挖掘中的聚类、关联规主要消耗在：1)数据集读取所产生的/0：2)判断每则挖掘等计算密集型、/0密集型应用而言，对原有一个数据点（数据记录）的所属类别；3)计算每一个算法进行并行化改进，提高算法的执行效率，尽快给类别（簇）的中心；4)计算准则函数E。而这4个阶出挖掘结果成为了当务之急。研究具有较强的现实段均可以很好地并行化，以此利用现代CPU的多核意义山特性，最大化的发挥CPU的性能，提高聚类效率。 2K-means算法详细描述为此，本文提出了一种Muli-core K-means算法 (MC-K-means),该算法对上述4个过程分别进行并 K-means算法，也被称为K-平均或K-均值算行化，充分利用CPU的多核特性，进一步提高K 法，是目前得到广泛应用的一种聚类算法)。其相 means算法的聚类效率。新算法可作为SMP、DMP 似度的计算根据一个簇中对象的平均值来进行。K 分布式环境下聚类算法以及增量OneScan聚类算法 means算法以k为参数，把n个数据点分为k个簇，的有效补充，提高单节点的聚类效率，从而提高整体使得簇内具有较高的相似度，而簇间的相似度较低。的聚类效率。算法首先随机地选择k个对象，每个对象初始 3 CMP上基于数据集划分的大规模地代表了一个簇的平均值或中心。对剩余的每个对数据集K-means多核优化算法象根据其与各个簇中心的距离，将它赋予最近的簇， 3.1MC-K-means算法详细描述然后重新计算每个簇的平均值。这个过程不断重在CMP环境下对K-means聚类算法进行改进复，直到准则函数收敛。准则函数定义为：E= 以适应大规模数据集，关键是要改进原有算法的串三三：-。这里的准测西数E是数据集中所行执行部分为并行执行。分析K-means算法可以发现，在较为消耗资源的数据集读取阶段、数据点所属有数据点的平方误差总和，x是数据集空间中的点，类别判断阶段、每个新簇的簇中心计算阶段以及准 x:是簇C:的平均值。准则函数E使得生成的结果则函数的计算阶段，这些阶段均可进行并行化改进，与ＤＭＰ、ＳＭＰ环境下的Ｋ⁃ｍｅａｎｓ聚类过程可以有效的结合，作为ＤＭＰ、ＳＭＰ环境下Ｋ⁃ｍｅａｎｓ聚类算法的有效补充。也有研究人员开始着手研究ＣＭＰ环境下Ｋ⁃ｍｅｎａｓ算法的并行化，但是相关研究尚处于起步阶段，算法实现仍存在进一步改进的空间［１５⁃１６］。１．３多核处理器的出现２００５年，当主频接近４ＧＨｚ时，ＣＰＵ的主要制造厂商英特尔和ＡＭＤ公司发现单纯的主频提升已经无法明显提升系统整体性能。由于ＣＰＵ片内流水线过长，使得单位频率效能低下，加上由于缓存的增加和对漏电流控制的不利，造成ＣＰＵ功耗大幅度增加。随着功耗的增大，散热问题也越来越成为一个无法逾越的障碍。于是，出现了多核心ＣＰＵ的解决方案。其实较早以前已经有研究人员提出了利用单芯片多核心处理器（ＣＭＰ）技术来代替复杂度越来越高的单核心ＣＰＵ。ＩＢＭ、ＩＰ、ＳＵＮ等企业也在服务器领域投入了一定的多核ＣＰＵ进行商用。然而由于当时的服务器多核ＣＰＵ价格过于昂贵、应用面窄、并没有真正发展起来。２００６年，多核ＣＰＵ进入了迅猛的发展时期，Ｉｎ⁃ ｔｅｌ的Ｃｏｒｅ，Ｘｅｏｎ以及ＡＭＤ的Ａｔｈｌｏｎ，Ｂａｒｃｅｌｏｎａ等受到了广泛的欢迎。这些ＣＰＵ在性能得到极大提升的同时，功耗反而得到了降低。值得注意的是ＯＳ并不能自动的让某个应用程序直接利用ＣＰＵ的多核，而是需要进行有关算法的ＣＭＰ并行化改进。对于数据挖掘中的聚类、关联规则挖掘等计算密集型、Ｉ／Ｏ密集型应用而言，对原有算法进行并行化改进，提高算法的执行效率，尽快给出挖掘结果成为了当务之急。研究具有较强的现实意义［１］。２Ｋ⁃ｍｅａｎｓ算法详细描述Ｋ⁃ｍｅａｎｓ算法，也被称为Ｋ⁃平均或Ｋ⁃均值算法，是目前得到广泛应用的一种聚类算法［１７］。其相似度的计算根据一个簇中对象的平均值来进行。Ｋ⁃ ｍｅａｎｓ算法以ｋ为参数，把ｎ个数据点分为ｋ个簇，使得簇内具有较高的相似度，而簇间的相似度较低。算法首先随机地选择ｋ个对象，每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离，将它赋予最近的簇，然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。准则函数定义为：Ｅ＝ ∑ ｋｉ＝１ ∑ｘ∈Ｃｉｘ－ｘｉ２。这里的准则函数Ｅ是数据集中所有数据点的平方误差总和，ｘ是数据集空间中的点，ｘｉ是簇Ｃｉ的平均值。准则函数Ｅ使得生成的结果簇尽可能的紧凑和独立。算法１Ｋ⁃ｍｅａｎｓ（ＤａｔａｓｅｔＤ，ＣｌｕｓｔｅｒＮｕｍｂｅｒＫ）输入：事务数据库Ｄ，聚类簇的数量Ｋ输出：Ｋ个聚类，使得平方误差准则Ｅ最小１）ａｓｓｉｇｎｉｎｉｔｉａｌｖａｌｕｅｆｏｒｍｅａｎｓ；／／任意选择ｋ个对象作为初始的簇中心２）ＲＥＰＥＡＴ；３）ＦＯＲｊ＝１ｔｏｎＤＯａｓｓｉｇｎｅａｃｈｘｊｔｏｔｈｅｃｌｏｓｅｓｔｃｌｕｓｔｅｒｓｍｅａｎ；／／根据簇中对象的平均值将每个对象分配给最近的簇４）ＦＯＲｉ＝１ｔｏｋＤＯｘｉ＝１Ｃｉ ∑ｘ∈Ｃｉｘ；／／更新簇的平均值，即计算每个簇中对象的平均值５）ＣｏｍｐｕｔｅＥ＝ ∑ ｋｉ＝１ ∑ｘ∈Ｃｉｘ－ｘｉ２；／／计算准则函数Ｅ６）ＵｎｔｉｌＥｎｅｗ－Ｅｌａｓｔ＜ ε ， ε 为预先设定的一个较小的值；／／表示Ｅ不再产生明显的变化Ｋ⁃ｍｅａｎｓ是解决聚类问题的一种经典算法，该算法实现起来较为简单且有非常好的可扩展性。因此，很多科研人员在研究针对大规模数据集的高效聚类算法时，往往会以Ｋ⁃ｍｅａｎｓ算法作为首选进行改进和优化。分析Ｋ⁃ｍｅａｎｓ算法的时间复杂度，其运行时间主要消耗在：１）数据集读取所产生的Ｉ／Ｏ；２）判断每一个数据点（数据记录）的所属类别；３）计算每一个类别（簇）的中心；４）计算准则函数Ｅ。而这４个阶段均可以很好地并行化，以此利用现代ＣＰＵ的多核特性，最大化的发挥ＣＰＵ的性能，提高聚类效率。为此，本文提出了一种Ｍｕｌｔｉ⁃ｃｏｒｅＫ⁃ｍｅａｎｓ算法（ＭＣ⁃Ｋ⁃ｍｅａｎｓ），该算法对上述４个过程分别进行并行化，充分利用ＣＰＵ的多核特性，进一步提高Ｋ⁃ ｍｅａｎｓ算法的聚类效率。新算法可作为ＳＭＰ、ＤＭＰ分布式环境下聚类算法以及增量ＯｎｅＳｃａｎ聚类算法的有效补充，提高单节点的聚类效率，从而提高整体的聚类效率。３ＣＭＰ上基于数据集划分的大规模数据集Ｋ⁃ｍｅａｎｓ多核优化算法３．１ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法详细描述在ＣＭＰ环境下对Ｋ⁃ｍｅａｎｓ聚类算法进行改进以适应大规模数据集，关键是要改进原有算法的串行执行部分为并行执行。分析Ｋ⁃ｍｅａｎｓ算法可以发现，在较为消耗资源的数据集读取阶段、数据点所属类别判断阶段、每个新簇的簇中心计算阶段以及准则函数的计算阶段，这些阶段均可进行并行化改进，第４期申彦，等：ＣＭＰ上基于数据集划分的Ｋ⁃ｍｅａｎｓ多核优化算法 ·６０９·

<<向上翻页向下翻页>>

点击下载：【机器学习】CMP上基于数据集划分的K-means多核优化算法编辑部