且由于其所需计算的性质，都可以较好的做到多核之间的负载均衡。改进后的

正在加载图片...

·610 智能系统学报第10卷且由于其所需计算的性质，都可以较好的做到多核 partly,ji=1,2,…,n,i=1,2,…,k; 之间的负载均衡。 19)until every equally data_set,is finished; 改进后的MC-K-means算法详细描述如下。其 20)join the results of every task to get total_E;= 中关键步骤如图1所示，为了方便描述，图中以2线程为例进行说明，可推广到n线程的情形。 (,)i=1,2 算法2MC-K-means(Dataset D,ClusterNumber K) 输入：事务数据库D,聚类的簇的数量K 2DE=芝alE: i=1 输出：K个聚类，使得平方误差准则E最小 22)until Ee-Ei<s,s is a preset very small 1)random assign initial value for means; threshold /任意选择k个对象作为初始的簇中心在读入外存数据时，考虑到数据源可能存在于 2)thread_count=Runtime.getRunTime().avail- 网络数据库中，在读取时会有一定的延时，多开线程 abkleProcessors/(1-blockCoefficient);0<=blockCoef- 可有效利用CPU的多核，因此考虑设置Runtime.ge ficient<1; tRunTime ()availabkleProcessors/(1-blockCoeffi- /计算线程数 cient)大小的线程池，其中blockCoeff伍cient=数据记 3)executeService service Excute.new- 录/0阻塞时间/数据记录处理时间，在运行时可根 FixedThreadPool(thread_count); 据数据源的延时动态凋整。 1/创建线程池在装载数据之后，判断每一数据点的所属类别 4)divide the data set into n parts equally and cre- 时采用的是欧几里得距离的平方d(x,y)2= ate n tasks to read every data set,where n=thread [∑1x,一，P门。该计算对于每个数据点的计算 count; /装载数据量均是相同的，等分数据即可做到负载平衡。除此 5)thread_count Runtime.getRunTime().avail- 之外，该过程是计算密集型的，多开线程对提高效率 abkleProcessors; 无益，反而会因为CPU频繁的线程切换而降低运行 6)threadPool Excute.newFixedThreadPool 效率。因此开设线程个数与CPU核心数avail-. (thread_count); abkleProcessors相同的线程池：又因为距离计算任务 /创建线程池，计算准则函数E 的计算量对每个数据点是一样的，所以MC-K-means 7)divide the data set into n parts equally and cre- 算法等分数据，创建availabkleProcessors个任务进 ate n tasks to compute the category,where n thread_ 行数据点类别判断的计算，并交由线程池调度执行。 count; 计算每一个聚类簇的簇中心，仍然是一个计算 8)repeat 密集型的任务，因此在此阶段开设线程数与CPU核 9)for every data_seti 心数相同的线程池。MC-K-means算法针对之前等 10)let one task;to assign each data point of the 分的数据集，每个线程广计算被分配的数据集归属 data_set,to the closest clusters center and record the 于每个分类i的sum,以及num:,并汇总j个线程的 category; 结果得到total_sum与以及total_num与，最终得到 11)until every data_set,is finished; cluster_center:,。采用针对等分数据集的方法使得 12)for every equally data_.set//计算每个簇的簇簇中心计算的各任务相对均衡。在准则函数E的中心；计算过程中也采用了同样的负载均衡的方法。 13)let one task;to compute the sum;and num of CMP系统是共享内存的，上述MC-K-means算 data_set,partly,j=1,2,…n,i=1,2,…k; 法仅在访问共享变量及每部分数据处理完毕时需要 14)until every equally data_set,is finished; 进行同步，避免了数据集通过网络在节点之间传输 15)join the results of every task,to get total_sum= 造成的时间消耗，算法具有较高的执行效率。 (um）,almm=(um,）,i=1,2: 4实验结果以及分析 j=1 j=1 16)cluster_center;total_sum,/total_num;,i= 为了验证算法的有效性，依据前述MC-K-means 1,2,…,k; 算法的主要思想，使用Java语言实现了MC-K //每个线程均可访问中心值，以便再次划分数据 means以及K-means算法1-i9。实验平台为HP 17)for every equally data_set,//计算每个簇部分 PR03380MT,Window XP_SP3,4GB内存，jdk7u51 准则函数以及HP ProLiant DL388pGen8,RedHat9.0,32GB 18)let one task,to compute the E of data_set 内存，jdk7u51。因为是做CPU多核加速的有关实且由于其所需计算的性质，都可以较好的做到多核之间的负载均衡。改进后的ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法详细描述如下。其中关键步骤如图１所示，为了方便描述，图中以２线程为例进行说明，可推广到ｎ线程的情形。算法２ＭＣ⁃Ｋ⁃ｍｅａｎｓ（ＤａｔａｓｅｔＤ，ＣｌｕｓｔｅｒＮｕｍｂｅｒＫ）输入：事务数据库Ｄ，聚类的簇的数量Ｋ输出：Ｋ个聚类，使得平方误差准则Ｅ最小１）ｒａｎｄｏｍａｓｓｉｇｎｉｎｉｔｉａｌｖａｌｕｅｆｏｒｍｅａｎｓ；／／任意选择ｋ个对象作为初始的簇中心２）ｔｈｒｅａｄ＿ｃｏｕｎｔ＝Ｒｕｎｔｉｍｅ．ｇｅｔＲｕｎＴｉｍｅ（）．ａｖａｉｌ⁃ ａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ／（１－ｂｌｏｃｋＣｏｅｆｆｉｃｉｅｎｔ）；０＜＝ｂｌｏｃｋＣｏｅｆ⁃ ｆｉｃｉｅｎｔ＜１；／／计算线程数３）ｅｘｅｃｕｔｅＳｅｒｖｉｃｅｓｅｒｖｉｃｅ＝Ｅｘｃｕｔｅ．ｎｅｗ⁃ ＦｉｘｅｄＴｈｒｅａｄＰｏｏｌ（ｔｈｒｅａｄ＿ｃｏｕｎｔ）；／／创建线程池４）ｄｉｖｉｄｅｔｈｅｄａｔａｓｅｔｉｎｔｏｎｐａｒｔｓｅｑｕａｌｌｙａｎｄｃｒｅ⁃ ａｔｅｎｔａｓｋｓｔｏｒｅａｄｅｖｅｒｙｄａｔａｓｅｔ，ｗｈｅｒｅｎ＝ｔｈｒｅａｄ＿ｃｏｕｎｔ；／／装载数据５）ｔｈｒｅａｄ＿ｃｏｕｎｔ＝Ｒｕｎｔｉｍｅ．ｇｅｔＲｕｎＴｉｍｅ（）．ａｖａｉｌ⁃ ａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ；６）ｔｈｒｅａｄＰｏｏｌ＝Ｅｘｃｕｔｅ．ｎｅｗＦｉｘｅｄＴｈｒｅａｄＰｏｏｌ（ｔｈｒｅａｄ＿ｃｏｕｎｔ）；／／创建线程池，计算准则函数Ｅ７）ｄｉｖｉｄｅｔｈｅｄａｔａｓｅｔｉｎｔｏｎｐａｒｔｓｅｑｕａｌｌｙａｎｄｃｒｅ⁃ ａｔｅｎｔａｓｋｓｔｏｃｏｍｐｕｔｅｔｈｅｃａｔｅｇｏｒｙ，ｗｈｅｒｅｎ＝ｔｈｒｅａｄ＿ｃｏｕｎｔ；８）ｒｅｐｅａｔ９）ｆｏｒｅｖｅｒｙｄａｔａ＿ｓｅｔｊ１０）ｌｅｔｏｎｅｔａｓｋｊｔｏａｓｓｉｇｎｅａｃｈｄａｔａｐｏｉｎｔｏｆｔｈｅｄａｔａ＿ｓｅｔｊｔｏｔｈｅｃｌｏｓｅｓｔｃｌｕｓｔｅｒｓｃｅｎｔｅｒａｎｄｒｅｃｏｒｄｔｈｅｃａｔｅｇｏｒｙ；１１）ｕｎｔｉｌｅｖｅｒｙｄａｔａ＿ｓｅｔｊｉｓｆｉｎｉｓｈｅｄ；１２）ｆｏｒｅｖｅｒｙｅｑｕａｌｌｙｄａｔａ＿ｓｅｔｊ／／计算每个簇的簇中心；１３）ｌｅｔｏｎｅｔａｓｋｊｔｏｃｏｍｐｕｔｅｔｈｅｓｕｍｉｊａｎｄｎｕｍｉｊｏｆｄａｔａ＿ｓｅｔｊｐａｒｔｌｙ，ｊ＝１，２，…ｎ，ｉ＝１，２，…ｋ；１４）ｕｎｔｉｌｅｖｅｒｙｅｑｕａｌｌｙｄａｔａ＿ｓｅｔｊｉｓｆｉｎｉｓｈｅｄ；１５）ｊｏｉｎｔｈｅｒｅｓｕｌｔｓｏｆｅｖｅｒｙｔａｓｋｊｔｏｇｅｔｔｏｔａｌ＿ｓｕｍｉ＝（∑ ｊ＝ｎｊ＝１ｓｕｍｉｊ），ｔｏｔａｌ＿ｎｕｍｉ＝（∑ ｊ＝ｎｊ＝１ｎｕｍｉｊ），ｉ＝１，２，…，ｋ；１６）ｃｌｕｓｔｅｒ＿ｃｅｎｔｅｒｉ＝ｔｏｔａｌ＿ｓｕｍｉ／ｔｏｔａｌ＿ｎｕｍｉ，ｉ＝１，２，…，ｋ；／／每个线程均可访问中心值，以便再次划分数据１７）ｆｏｒｅｖｅｒｙｅｑｕａｌｌｙｄａｔａ＿ｓｅｔｊ／／计算每个簇部分准则函数１８）ｌｅｔｏｎｅｔａｓｋｊｔｏｃｏｍｐｕｔｅｔｈｅＥｉｊｏｆｄａｔａ＿ｓｅｔｊｐａｒｔｌｙ，ｊ＝１，２，…，ｎ，ｉ＝１，２，…，ｋ；１９）ｕｎｔｉｌｅｖｅｒｙｅｑｕａｌｌｙｄａｔａ＿ｓｅｔｊｉｓｆｉｎｉｓｈｅｄ；２０）ｊｏｉｎｔｈｅｒｅｓｕｌｔｓｏｆｅｖｅｒｙｔａｓｋｊｔｏｇｅｔｔｏｔａｌ＿Ｅｉ＝（∑ ｊ＝ｎｊ＝１Ｅｉｊ），ｉ＝１，２，…，ｋ；２１）Ｅ＝ ∑ ｉ＝ｋｉ＝１ｔｏｔａｌ＿Ｅｉ；２２）ｕｎｔｉｌＥｎｅｗ－Ｅｌａｓｔ＜ ε ， ε ｉｓａｐｒｅｓｅｔｖｅｒｙｓｍａｌｌｔｈｒｅｓｈｏｌｄ在读入外存数据时，考虑到数据源可能存在于网络数据库中，在读取时会有一定的延时，多开线程可有效利用ＣＰＵ的多核，因此考虑设置Ｒｕｎｔｉｍｅ．ｇｅ⁃ ｔＲｕｎＴｉｍｅ（）．ａｖａｉｌａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ／（１⁃ｂｌｏｃｋＣｏｅｆｆｉ⁃ ｃｉｅｎｔ）大小的线程池，其中ｂｌｏｃｋＣｏｅｆｆｉｃｉｅｎｔ＝数据记录Ｉ／Ｏ阻塞时间／数据记录处理时间，在运行时可根据数据源的延时动态调整。在装载数据之后，判断每一数据点的所属类别时采用的是欧几里得距离的平方ｄ（ｘ，ｙ）２＝ ∑ ｎｉ＝１ｘｉ－ｙｉ２ [ ] 。该计算对于每个数据点的计算量均是相同的，等分数据即可做到负载平衡。除此之外，该过程是计算密集型的，多开线程对提高效率无益，反而会因为ＣＰＵ频繁的线程切换而降低运行效率。因此开设线程个数与ＣＰＵ核心数ａｖａｉｌ⁃ ａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ相同的线程池；又因为距离计算任务的计算量对每个数据点是一样的，所以ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法等分数据，创建ａｖａｉｌａｂｋｌｅＰｒｏｃｅｓｓｏｒｓ个任务进行数据点类别判断的计算，并交由线程池调度执行。计算每一个聚类簇的簇中心，仍然是一个计算密集型的任务，因此在此阶段开设线程数与ＣＰＵ核心数相同的线程池。ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法针对之前等分的数据集，每个线程ｊ计算被分配的数据集归属于每个分类ｉ的ｓｕｍｉｊ以及ｎｕｍｉｊ，并汇总ｊ个线程的结果得到ｔｏｔａｌ＿ｓｕｍｉｊ以及ｔｏｔａｌ＿ｎｕｍｉｊ，最终得到ｃｌｕｓｔｅｒ＿ｃｅｎｔｅｒｉ。采用针对等分数据集的方法使得簇中心计算的各任务相对均衡。在准则函数Ｅ的计算过程中也采用了同样的负载均衡的方法。ＣＭＰ系统是共享内存的，上述ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法仅在访问共享变量及每部分数据处理完毕时需要进行同步，避免了数据集通过网络在节点之间传输造成的时间消耗，算法具有较高的执行效率。４实验结果以及分析为了验证算法的有效性，依据前述ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法的主要思想，使用Ｊａｖａ语言实现了ＭＣ⁃Ｋ⁃ ｍｅａｎｓ以及Ｋ⁃ｍｅａｎｓ算法［１８⁃１９］。实验平台为ＨＰＰＲＯ３３８０ＭＴ，ＷｉｎｄｏｗＸＰ＿ＳＰ３，４ＧＢ内存，ｊｄｋ７ｕ５１以及ＨＰＰｒｏＬｉａｎｔＤＬ３８８ｐＧｅｎ８，ＲｅｄＨａｔ９．０，３２ＧＢ内存，ｊｄｋ７ｕ５１。因为是做ＣＰＵ多核加速的有关实 ·６１０· 智能系统学报第１０卷

<<向上翻页向下翻页>>

点击下载：【机器学习】CMP上基于数据集划分的K-means多核优化算法编辑部