小的人工数据集，针对每个数据集，分别执行ＭＣ⁃Ｋ⁃ ｍｅａｎｓ、ＰＫＭｅ

正在加载图片...

.612. 智能系统学报第10卷小的人工数据集，针对每个数据集，分别执行MC-K- k的取值对多核加速效率的影响。设置k为10，再 means、PKMeans_.MR、PKMeans_MT、K-means算法各次变换数据集大小从180K至900K,重复上述实验 10次，各算法每阶段各自共运行20次，最后分别记过程，记录实验结果如图6所示，各算法加速率如图录下针对每个大小的数据集各算法聚类的平均时 7及表2所示。间。k的取值为5。实验结果如图4所示，各算法加表2不同数据集大小下的加速率详情速率如图5及表1所示。 Table 2 Speedup rate details of different data size 140「 Data Set MC-K- k=5 PKMeans_ PKMeans_ ◆+-MC-K-neans 120 Size/x103 means MT MR -PKMeans_MT 100 PKMcans MR 180 3.71 3.16 2.52 80 ◆-K means 360 3.73 3.23 2.53 60 540 3.75 3.27 2.54 40 720 3.76 3.29 2.53 20 900 3.75 3.29 2.54 0 180 360540720900×10 250r 数据集大小 k=10 200 ◆MC-K-means 图4算法线性测试 -PKMeans MT Fig.4 Scalability test of different algorithms PKMcans MR 150 T◆K means 4.0f 100 3.5 50 3.0 哥 2.5 0 ,×10 2.0 k=5 180360540720900 1.5 ◆MC-K-means 数据集大小 1.0 -PKMeans_MT PKMcans MR 图6算法线性测试 0.5 Fig.6 Scalability test of different algorithms 0 →×10 180360540720900 4.0「数据集大小 3.5 图5不同数据集大小下的加速率 3.0 Fig.5 Speedup rate of different data sizes 2.5 表1不同数据集大小下的加速率详情 2.0 1.5 k=10 Table 1 Speedup rate details of different data sizes -◆MC-K-means 1.0 -PKMeans MT Data Set MC-K- PKMeans PKMeans_ 0.5 PKMcans_MR Size/×103 means MT MR ×10 180 3.6 3.1 2.52 180 360540720900 360 3.62 3.11 2.51 数据集大小 540 3.64 3.14 2.53 图7不同数据集大小下的加速率 720 3.68 3.15 2.54 Fig.7 Speedup rate of different data size 900 3.68 3.15 2.53 从实验结果可以看出，除PKMeans_.MR算法因从实验结果可以看出，随着数据集规模的不断节点数不变，加速率保持相对稳定外，k取值的提增长，各算法的运行时间均较为线性的增加。其中高，有利于各并行化算法子任务的并行执行，减少同 PKMeans_.MR算法因为节点数并没有增加，所以加步，故提高了相应算法的加速率。速率基本保持不变。MC-K-means以及PKMeans_ 为了验证MC-K-means算法在执行过程中各并 T的加速率均随着数据集规模的增加呈现提高的行化挖掘任务的负载是均衡的，在3-3240所在平趋势，但都在接近各自极限后不再提高，保持一个相台，修改聚类的过程为K-means读取数据集→MC 对稳定的加速率。这是因为随着数据集规模的增 K-means读取数据集→K-means聚类→MC-K-means 大，线程之间切换的资源消耗所占比重逐步降低，多聚类。利用JDK7平台的jvisualvm20]工具对生成的核优势逐渐显现。 180K数据集的聚类全过程进行了监控，并记录如图验证不同数据集大小情况下，不同的聚类数目 8所示。小的人工数据集，针对每个数据集，分别执行ＭＣ⁃Ｋ⁃ ｍｅａｎｓ、ＰＫＭｅａｎｓ＿ＭＲ、ＰＫＭｅａｎｓ＿ＭＴ、Ｋ⁃ｍｅａｎｓ算法各１０次，各算法每阶段各自共运行２０次，最后分别记录下针对每个大小的数据集各算法聚类的平均时间。ｋ的取值为５。实验结果如图４所示，各算法加速率如图５及表１所示。图４算法线性测试Ｆｉｇ．４Ｓｃａｌａｂｉｌｉｔｙｔｅｓｔｏｆｄｉｆｆｅｒｅｎｔａｌｇｏｒｉｔｈｍｓ图５不同数据集大小下的加速率Ｆｉｇ．５Ｓｐｅｅｄｕｐｒａｔｅｏｆｄｉｆｆｅｒｅｎｔｄａｔａｓｉｚｅｓ表１不同数据集大小下的加速率详情Ｔａｂｌｅ１ＳｐｅｅｄｕｐｒａｔｅｄｅｔａｉｌｓｏｆｄｉｆｆｅｒｅｎｔｄａｔａｓｉｚｅｓＤａｔａＳｅｔＳｉｚｅ／ ×１０３ＭＣ⁃Ｋ⁃ ｍｅａｎｓＰＫＭｅａｎｓ＿ＭＴＰＫＭｅａｎｓ＿ＭＲ１８０３．６３．１２．５２３６０３．６２３．１１２．５１５４０３．６４３．１４２．５３７２０３．６８３．１５２．５４９００３．６８３．１５２．５３从实验结果可以看出，随着数据集规模的不断增长，各算法的运行时间均较为线性的增加。其中ＰＫＭｅａｎｓ＿ＭＲ算法因为节点数并没有增加，所以加速率基本保持不变。ＭＣ⁃Ｋ⁃ｍｅａｎｓ以及ＰＫＭｅａｎｓ＿ＭＴ的加速率均随着数据集规模的增加呈现提高的趋势，但都在接近各自极限后不再提高，保持一个相对稳定的加速率。这是因为随着数据集规模的增大，线程之间切换的资源消耗所占比重逐步降低，多核优势逐渐显现。验证不同数据集大小情况下，不同的聚类数目ｋ的取值对多核加速效率的影响。设置ｋ为１０，再次变换数据集大小从１８０Ｋ至９００Ｋ，重复上述实验过程，记录实验结果如图６所示，各算法加速率如图７及表２所示。表２不同数据集大小下的加速率详情Ｔａｂｌｅ２ＳｐｅｅｄｕｐｒａｔｅｄｅｔａｉｌｓｏｆｄｉｆｆｅｒｅｎｔｄａｔａｓｉｚｅＤａｔａＳｅｔＳｉｚｅ／ ×１０３ＭＣ⁃Ｋ⁃ ｍｅａｎｓＰＫＭｅａｎｓ＿ＭＴＰＫＭｅａｎｓ＿ＭＲ１８０３．７１３．１６２．５２３６０３．７３３．２３２．５３５４０３．７５３．２７２．５４７２０３．７６３．２９２．５３９００３．７５３．２９２．５４图６算法线性测试Ｆｉｇ．６Ｓｃａｌａｂｉｌｉｔｙｔｅｓｔｏｆｄｉｆｆｅｒｅｎｔａｌｇｏｒｉｔｈｍｓ图７不同数据集大小下的加速率Ｆｉｇ．７Ｓｐｅｅｄｕｐｒａｔｅｏｆｄｉｆｆｅｒｅｎｔｄａｔａｓｉｚｅ从实验结果可以看出，除ＰＫＭｅａｎｓ＿ＭＲ算法因节点数不变，加速率保持相对稳定外，ｋ取值的提高，有利于各并行化算法子任务的并行执行，减少同步，故提高了相应算法的加速率。为了验证ＭＣ⁃Ｋ⁃ｍｅａｎｓ算法在执行过程中各并行化挖掘任务的负载是均衡的，在ｉ３⁃３２４０所在平台，修改聚类的过程为Ｋ⁃ｍｅａｎｓ读取数据集→ＭＣ⁃ Ｋ⁃ｍｅａｎｓ读取数据集→Ｋ⁃ｍｅａｎｓ聚类→ＭＣ⁃Ｋ⁃ｍｅａｎｓ聚类。利用ＪＤＫ７平台的ｊｖｉｓｕａｌｖｍ［２０］工具对生成的１８０Ｋ数据集的聚类全过程进行了监控，并记录如图８所示。 ·６１２· 智能系统学报第１０卷

<<向上翻页向下翻页>>

点击下载：【机器学习】CMP上基于数据集划分的K-means多核优化算法编辑部