此相对应的内存频率却没有相对应的提高。内存与ＣＰＵ之间处理数据的能力

正在加载图片...

·608. 智能系统学报第10卷此相对应的内存频率却没有相对应的提高。内存与 1.2相关的研究工作 CPU之间处理数据的能力差距越来越大，极大地影为了解决K-means算法对大规模数据集聚类效响了应用程序的性能。同时，工程师们开始认识到，率较低的问题，有研究者提出了只需要扫描一遍原仅仅提高单核芯片的频率会产生过多热量且无法带始数据集即产生聚类结果的算法。这些算法只需读来希望的性能改善。于是，CMP(chip multi-proces- 入大规模数据集中的一部分进入主存或者分批读入 sor)成为了先进处理器的发展趋势。CMP可以在大数据集进行聚类，扫描数据集一遍即完成聚类。相幅提高处理性能的同时降低CPU主频，减少能源消应的算法有random-kmeans,Dynamic incremental K- 耗。然而仅简单提供CMP环境并不能直接带来应 meanst2),Single pass kernel K-meanst3,scalable- 用程序性能的提高，需要研发人员针对CMP环境对 kmeanst),等。其中，由Microsoft Research的Red- 有关算法进行优化，才能使得应用程序更好的利用 mond等提出的scalable-kmeans算法性能优越，受到 CPU的多核计算能力，提高程序的运行效率[)。了广泛的重视，并被集成到SQL SERVER2008中。本文针对提高大规模数据集聚类效率的问题，类似研究的主要目的是优化K-means算法，减少数着重研究单机多核环境下(CMP)K-means算法的并据集的读取次数。有研究者从优化K-means聚类初行化改进，提出了一种Multi-core K-means(MC-K- 始条件设置的角度，利用自适应技术、启发式算法以 means)算法。该算法对原K-means算法的聚类任务及半监督技术等实现K-means初始聚类中心或者聚进行了分解，设计了相互独立且均衡的聚类子任务类个数的优化选择，加速K-means聚类的收敛过程，交由各线程并行执行，能够充分利用现代CPU的多提高聚类的效率以及结果的质量5。有研究人员核计算能力，提高大规模数据集的聚类效率。从减少大规模数据集数据维度的角度，降低聚类迭代过程的计算量，提高K-means聚类算法的效 1 研究背景率[8]。以上相关的研究工作切实提高了K-means 1.1确定性聚类的基本概念聚类的效率，然而这些新算法并没有利用分布式环金属橡胶隔振器在飞机液压管道上的应用如图境提高聚类的效率。最近有研究人员进行了SMP 1所示，从图1看出，金属橡胶放置在外围卡箍的凹 DMP环境下的集群多处理器K-means聚类的研究槽内，传统管道固定一般直接与外围卡箍接触或之工作，提高了大规模数据集的聚类效率101。直接间有薄的橡胶垫作为隔振装。针对共享内存多处理器系统以及分布式内存多处理器环境进行K-means的并行化，需要考虑复杂的数 Cluster1 Thread2 据划分、节点容错等并行化的基本问题且需要消耗事 Data Set I hread 大量的节点间同步以及数据网络传输的时间。随着类似Google MapReduce以及Apache的Hadoop的出 Cluster2 Threadl 现和广泛使用，在这些编程模型的基础之上进行分 ·Thread2 布式开发变得相对容易，分布式的基本问题可以依 o Threadl 靠基础编程模型来解决。很多研究人员利用Ma ●Thread2 pReduce的算法模型，针对K-means聚类过程的并图1MC-K-means算法示意行化进行了大量深入的研究工作，取得了很多重要 Fig.1 Illustration of MC-K-means 的研究成果，使得K-means算法可用于大规模数据定义1确定性聚类的输入可以用一组有序对集聚类的应用场合。然而这些算法更多考虑的是多 (X,s)或(X,d)来表示，这里X表示一组样本，s和处理器分布式场景下的K-means并行化，较少考虑 d分别是度量样本间相似度或相异度（距离）的标到单机CPU的多核利用。除此之外，并不是所有的准。确定性聚类系统的输出是一个个分区，例如C= 聚类算法都适合以MapReduce的形式进行并行化 {C,C2,…,C},其中C,(i=1,2…,K)是X的子的，且为了适应MapReduce的编程架构，有时反而集，且满足：C1UC2U,…,UCk=X;C:∩C= 会增加额外的计算量与通信量[214。 ☑，i为。现代CPU技术的发展，使得单机的运行环境也 C中的成员C,C2,…,C.叫做类或簇(Cus- 发生了极大的变化。多核处理器的出现提高了 ter),每一个类或簇都是通过一些特征描述的，通常 CPU的计算性能，降低了CPU的功耗。尽管如此，有如下几种表示方式：传统的算法并不能直接从多核CPU中获益，需要针 1)通过它们的中心或类的边界点表示空间的对多核CPU的特点进行并行化改进与优化，才能充类点。分利用多核CPU的计算能力。因此，研究单机CMP 2)使用聚类树中的结点，图形化地表示一个类。环境下K-means算法的并行化方法对提高单机K 3)使用样本属性的逻辑表达式表示类。 means算法的聚类效率具有重要的现实意义，并且此相对应的内存频率却没有相对应的提高。内存与ＣＰＵ之间处理数据的能力差距越来越大，极大地影响了应用程序的性能。同时，工程师们开始认识到，仅仅提高单核芯片的频率会产生过多热量且无法带来希望的性能改善。于是，ＣＭＰ（ｃｈｉｐｍｕｌｔｉ⁃ｐｒｏｃｅｓ⁃ ｓｏｒ）成为了先进处理器的发展趋势。ＣＭＰ可以在大幅提高处理性能的同时降低ＣＰＵ主频，减少能源消耗。然而仅简单提供ＣＭＰ环境并不能直接带来应用程序性能的提高，需要研发人员针对ＣＭＰ环境对有关算法进行优化，才能使得应用程序更好的利用ＣＰＵ的多核计算能力，提高程序的运行效率［１］。本文针对提高大规模数据集聚类效率的问题，着重研究单机多核环境下（ＣＭＰ）Ｋ⁃ｍｅａｎｓ算法的并行化改进，提出了一种Ｍｕｌｔｉ⁃ｃｏｒｅＫ⁃ｍｅａｎｓ（ＭＣ⁃Ｋ⁃ ｍｅａｎｓ）算法。该算法对原Ｋ⁃ｍｅａｎｓ算法的聚类任务进行了分解，设计了相互独立且均衡的聚类子任务交由各线程并行执行，能够充分利用现代ＣＰＵ的多核计算能力，提高大规模数据集的聚类效率。１研究背景１．１确定性聚类的基本概念金属橡胶隔振器在飞机液压管道上的应用如图１所示，从图１看出，金属橡胶放置在外围卡箍的凹槽内，传统管道固定一般直接与外围卡箍接触或之间有薄的橡胶垫作为隔振装。图１ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法示意Ｆｉｇ．１ＩｌｌｕｓｔｒａｔｉｏｎｏｆＭＣ⁃Ｋ⁃ｍｅａｎｓ定义１确定性聚类的输入可以用一组有序对（Ｘ，ｓ）或（Ｘ，ｄ）来表示，这里Ｘ表示一组样本，ｓ和ｄ分别是度量样本间相似度或相异度（距离）的标准。确定性聚类系统的输出是一个个分区，例如Ｃ＝｛Ｃ１，Ｃ２，…，Ｃｋ｝，其中Ｃｉ（ｉ＝１，２…，Ｋ）是Ｘ的子集，且满足：Ｃ１ ∪ Ｃ２ ∪，… ， ∪ Ｃｋ＝Ｘ；Ｃｉ ∩ Ｃｊ＝ ⌀，ｉ ¹ｊ。Ｃ中的成员Ｃ１，Ｃ２，…，Ｃｋ叫做类或簇（Ｃｌｕｓ⁃ ｔｅｒ），每一个类或簇都是通过一些特征描述的，通常有如下几种表示方式：１）通过它们的中心或类的边界点表示空间的一类点。２）使用聚类树中的结点，图形化地表示一个类。３）使用样本属性的逻辑表达式表示类。１．２相关的研究工作为了解决Ｋ⁃ｍｅａｎｓ算法对大规模数据集聚类效率较低的问题，有研究者提出了只需要扫描一遍原始数据集即产生聚类结果的算法。这些算法只需读入大规模数据集中的一部分进入主存或者分批读入数据集进行聚类，扫描数据集一遍即完成聚类。相应的算法有ｒａｎｄｏｍ⁃ｋｍｅａｎｓ，ＤｙｎａｍｉｃｉｎｃｒｅｍｅｎｔａｌＫ⁃ ｍｅａｎｓ［２］，ＳｉｎｇｌｅｐａｓｓｋｅｒｎｅｌＫ⁃ｍｅａｎｓ［３］，ｓｃａｌａｂｌｅ⁃ ｋｍｅａｎｓ［４］，等。其中，由ＭｉｃｒｏｓｏｆｔＲｅｓｅａｒｃｈ的Ｒｅｄ⁃ ｍｏｎｄ等提出的ｓｃａｌａｂｌｅ⁃ｋｍｅａｎｓ算法性能优越，受到了广泛的重视，并被集成到ＳＱＬＳＥＲＶＥＲ２００８中。类似研究的主要目的是优化Ｋ⁃ｍｅａｎｓ算法，减少数据集的读取次数。有研究者从优化Ｋ⁃ｍｅａｎｓ聚类初始条件设置的角度，利用自适应技术、启发式算法以及半监督技术等实现Ｋ⁃ｍｅａｎｓ初始聚类中心或者聚类个数的优化选择，加速Ｋ⁃ｍｅａｎｓ聚类的收敛过程，提高聚类的效率以及结果的质量［５⁃７］。有研究人员从减少大规模数据集数据维度的角度，降低聚类迭代过程的计算量，提高Ｋ⁃ｍｅａｎｓ聚类算法的效率［８⁃９］。以上相关的研究工作切实提高了Ｋ⁃ｍｅａｎｓ聚类的效率，然而这些新算法并没有利用分布式环境提高聚类的效率。最近有研究人员进行了ＳＭＰ、ＤＭＰ环境下的集群多处理器Ｋ⁃ｍｅａｎｓ聚类的研究工作，提高了大规模数据集的聚类效率［１０⁃１１］。直接针对共享内存多处理器系统以及分布式内存多处理器环境进行Ｋ⁃ｍｅａｎｓ的并行化，需要考虑复杂的数据划分、节点容错等并行化的基本问题且需要消耗大量的节点间同步以及数据网络传输的时间。随着类似ＧｏｏｇｌｅＭａｐＲｅｄｕｃｅ以及Ａｐａｃｈｅ的Ｈａｄｏｏｐ的出现和广泛使用，在这些编程模型的基础之上进行分布式开发变得相对容易，分布式的基本问题可以依靠基础编程模型来解决。很多研究人员利用Ｍａ⁃ ｐＲｅｄｕｃｅ的算法模型，针对Ｋ⁃ｍｅａｎｓ聚类过程的并行化进行了大量深入的研究工作，取得了很多重要的研究成果，使得Ｋ⁃ｍｅａｎｓ算法可用于大规模数据集聚类的应用场合。然而这些算法更多考虑的是多处理器分布式场景下的Ｋ⁃ｍｅａｎｓ并行化，较少考虑到单机ＣＰＵ的多核利用。除此之外，并不是所有的聚类算法都适合以ＭａｐＲｅｄｕｃｅ的形式进行并行化的，且为了适应ＭａｐＲｅｄｕｃｅ的编程架构，有时反而会增加额外的计算量与通信量［１２⁃１４］。现代ＣＰＵ技术的发展，使得单机的运行环境也发生了极大的变化。多核处理器的出现提高了ＣＰＵ的计算性能，降低了ＣＰＵ的功耗。尽管如此，传统的算法并不能直接从多核ＣＰＵ中获益，需要针对多核ＣＰＵ的特点进行并行化改进与优化，才能充分利用多核ＣＰＵ的计算能力。因此，研究单机ＣＭＰ环境下Ｋ⁃ｍｅａｎｓ算法的并行化方法对提高单机Ｋ⁃ ｍｅａｎｓ算法的聚类效率具有重要的现实意义，并且 ·６０８· 智能系统学报第１０卷

<<向上翻页向下翻页>>

点击下载：【机器学习】CMP上基于数据集划分的K-means多核优化算法编辑部