机器学习：一种基于内存计算的电力用户聚类分析方法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.03MB

第10卷第4期智能系统学报 Vol.10 No.4 2015年8月 CAAI Transactions on Intelligent Systems Aug.2015 D0:10.3969/j.issn.1673-4785.201411011 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.tp.20150716.0934.003.html 一种基于内存计算的电力用户聚类分析方法王德文，孙志伟 (华北电力大学控制与计算机工程学院，河北保定071003) 摘要：随着智能电表与采集终端采集的用电数据迅猛增长，传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点，采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化，减少作业的运行与输入输出操作时间，提高聚类分析的处理能力。对用电测量数据进行预处理构建实验数据集，实验结果表明本方法对电力用户聚类分析的准确率高于单机K-meas方法，其处理速度和能力明显优于单机和基于MapReduce并行计算框架的聚类方法，并对数据的增长具有较好的适应性。关键词：大数据：智能用电；弹性分布式数据集：内存计算：聚类分析中图分类号：TP18文献标志码：A文章编号：1673-4785(2015)04-0569-08 中文引用格式：王德文，孙志伟.一种基于内存计算的电力用户聚类分析方法[J】.智能系统学报，2015,10(4)：569-576. 英文引用格式：WANG Dewen,SUN Zhiwei..A method for cluster analysis of electric power consumers based on in-memory compu- ting[J].CAAI Transactions on Intelligent Systems,2015,10(4):569-576. A method for cluster analysis of electric power consumers based on in-memory computing WANG Dewen,SUN Zhiwei (School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China) Abstract:With the rapid growth of electricity consumption data collected by smart electric meters and data acquisi- tion terminals,the traditional data analysis method cannot meet the demand of smart power consumption behavior a- nalysis in the big data environment.Since K-means algorithm demonstrates high calculation efficiency,easy paral- lelization and other characteristics,a method for improving and parallelizing K-means with the resilient distributed data set and parallel in-memory computing framework is presented,the running time of job operation and I/O oper- ations is reduced,and the ability of clustering analysis is improved.The experimental data set is built by prepro- cessed electricity consumption data.Eexperimental results show that the accuracy rate by this cluster analysis meth- od for electric power users is obviously better than the single machine K-means algorithm.The processing speed and ability of this method are superior to the single machine and the clustering method based on MapReduce parallel computing framework,and this method has good adaptability for the growth of data. Keywords:big data;smart electricity consumption;resilient distributed data set;in-memory computing;cluster analysis 电力用户行为分析是通过分析用电数据之间关要意义[。随着智能用电的飞速发展，智能电表联性和相似性，发现用户潜在的行为习惯，进行用户与采集终端得到广泛应用，已扩大到居民用户等各细分，对于引导用户的用电行为与节能改造具有重种电力场所，采集及处理的用电数据呈指数级增长、数据量巨大、结构类型繁多、交互性强，逐渐进入用收稿日期：2014-11-10.网络出版日期：2015-07-16. 电大数据时代[)。传统的数据分析与处理方法存基金项目：国家自然科学基金资助项目(61074078)：中央高校基本科研业务费专项资金资助项目(12MS113). 在计算能力不足、处理效率低的瓶颈，已不能完全满通信作者：孙志伟.E-mail:sunzw.20120901@126.com 足大数据环境下智能用电数据快速分析的需求

第１０卷第４期智能系统学报Ｖｏｌ．１０ №．４２０１５年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１５ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１４１１０１１网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ｔｐ．２０１５０７１６．０９３４．００３．ｈｔｍｌ一种基于内存计算的电力用户聚类分析方法王德文，孙志伟（华北电力大学控制与计算机工程学院，河北保定０７１００３）摘要：随着智能电表与采集终端采集的用电数据迅猛增长，传统数据分析方法已经不能满足大数据环境下智能用电行为分析的需要。鉴于Ｋ－ｍｅａｎｓ算法具有计算效率高、容易并行化等特点，采用弹性分布式数据集与并行内存计算框架对其进行改进与并行化，减少作业的运行与输入输出操作时间，提高聚类分析的处理能力。对用电测量数据进行预处理构建实验数据集，实验结果表明本方法对电力用户聚类分析的准确率高于单机Ｋ－ｍｅａｎｓ方法，其处理速度和能力明显优于单机和基于ＭａｐＲｅｄｕｃｅ并行计算框架的聚类方法，并对数据的增长具有较好的适应性。关键词：大数据；智能用电；弹性分布式数据集；内存计算；聚类分析中图分类号：ＴＰ１８文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１５）０４⁃０５６９⁃０８中文引用格式：王德文，孙志伟．一种基于内存计算的电力用户聚类分析方法［Ｊ］．智能系统学报，２０１５，１０（４）：５６９⁃５７６．英文引用格式：ＷＡＮＧＤｅｗｅｎ，ＳＵＮＺｈｉｗｅｉ．Ａｍｅｔｈｏｄｆｏｒｃｌｕｓｔｅｒａｎａｌｙｓｉｓｏｆｅｌｅｃｔｒｉｃｐｏｗｅｒｃｏｎｓｕｍｅｒｓｂａｓｅｄｏｎｉｎ－ｍｅｍｏｒｙｃｏｍｐｕ⁃ ｔｉｎｇ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１５，１０（４）：５６９⁃５７６．Ａｍｅｔｈｏｄｆｏｒｃｌｕｓｔｅｒａｎａｌｙｓｉｓｏｆｅｌｅｃｔｒｉｃｐｏｗｅｒｃｏｎｓｕｍｅｒｓｂａｓｅｄｏｎｉｎ⁃ｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇＷＡＮＧＤｅｗｅｎ，ＳＵＮＺｈｉｗｅｉ（ＳｃｈｏｏｌｏｆＣｏｎｔｒｏｌａｎｄＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇ，ＮｏｒｔｈＣｈｉｎａＥｌｅｃｔｒｉｃＰｏｗｅｒＵｎｉｖｅｒｓｉｔｙ，Ｂａｏｄｉｎｇ０７１００３，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅｒａｐｉｄｇｒｏｗｔｈｏｆｅｌｅｃｔｒｉｃｉｔｙｃｏｎｓｕｍｐｔｉｏｎｄａｔａｃｏｌｌｅｃｔｅｄｂｙｓｍａｒｔｅｌｅｃｔｒｉｃｍｅｔｅｒｓａｎｄｄａｔａａｃｑｕｉｓｉ⁃ ｔｉｏｎｔｅｒｍｉｎａｌｓ，ｔｈｅｔｒａｄｉｔｉｏｎａｌｄａｔａａｎａｌｙｓｉｓｍｅｔｈｏｄｃａｎｎｏｔｍｅｅｔｔｈｅｄｅｍａｎｄｏｆｓｍａｒｔｐｏｗｅｒｃｏｎｓｕｍｐｔｉｏｎｂｅｈａｖｉｏｒａ⁃ ｎａｌｙｓｉｓｉｎｔｈｅｂｉｇｄａｔａｅｎｖｉｒｏｎｍｅｎｔ．ＳｉｎｃｅＫ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍｄｅｍｏｎｓｔｒａｔｅｓｈｉｇｈｃａｌｃｕｌａｔｉｏｎｅｆｆｉｃｉｅｎｃｙ，ｅａｓｙｐａｒａｌ⁃ ｌｅｌｉｚａｔｉｏｎａｎｄｏｔｈｅｒｃｈａｒａｃｔｅｒｉｓｔｉｃｓ，ａｍｅｔｈｏｄｆｏｒｉｍｐｒｏｖｉｎｇａｎｄｐａｒａｌｌｅｌｉｚｉｎｇＫ⁃ｍｅａｎｓｗｉｔｈｔｈｅｒｅｓｉｌｉｅｎｔｄｉｓｔｒｉｂｕｔｅｄｄａｔａｓｅｔａｎｄｐａｒａｌｌｅｌｉｎ⁃ｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇｆｒａｍｅｗｏｒｋｉｓｐｒｅｓｅｎｔｅｄ，ｔｈｅｒｕｎｎｉｎｇｔｉｍｅｏｆｊｏｂｏｐｅｒａｔｉｏｎａｎｄＩ／Ｏｏｐｅｒ⁃ ａｔｉｏｎｓｉｓｒｅｄｕｃｅｄ，ａｎｄｔｈｅａｂｉｌｉｔｙｏｆｃｌｕｓｔｅｒｉｎｇａｎａｌｙｓｉｓｉｓｉｍｐｒｏｖｅｄ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｓｅｔｉｓｂｕｉｌｔｂｙｐｒｅｐｒｏ⁃ ｃｅｓｓｅｄｅｌｅｃｔｒｉｃｉｔｙｃｏｎｓｕｍｐｔｉｏｎｄａｔａ．Ｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅａｃｃｕｒａｃｙｒａｔｅｂｙｔｈｉｓｃｌｕｓｔｅｒａｎａｌｙｓｉｓｍｅｔｈ⁃ ｏｄｆｏｒｅｌｅｃｔｒｉｃｐｏｗｅｒｕｓｅｒｓｉｓｏｂｖｉｏｕｓｌｙｂｅｔｔｅｒｔｈａｎｔｈｅｓｉｎｇｌｅｍａｃｈｉｎｅＫ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ．ＴｈｅｐｒｏｃｅｓｓｉｎｇｓｐｅｅｄａｎｄａｂｉｌｉｔｙｏｆｔｈｉｓｍｅｔｈｏｄａｒｅｓｕｐｅｒｉｏｒｔｏｔｈｅｓｉｎｇｌｅｍａｃｈｉｎｅａｎｄｔｈｅｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅｐａｒａｌｌｅｌｃｏｍｐｕｔｉｎｇｆｒａｍｅｗｏｒｋ，ａｎｄｔｈｉｓｍｅｔｈｏｄｈａｓｇｏｏｄａｄａｐｔａｂｉｌｉｔｙｆｏｒｔｈｅｇｒｏｗｔｈｏｆｄａｔａ．Ｋｅｙｗｏｒｄｓ：ｂｉｇｄａｔａ；ｓｍａｒｔｅｌｅｃｔｒｉｃｉｔｙｃｏｎｓｕｍｐｔｉｏｎ；ｒｅｓｉｌｉｅｎｔｄｉｓｔｒｉｂｕｔｅｄｄａｔａｓｅｔ；ｉｎ⁃ｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇ；ｃｌｕｓｔｅｒａｎａｌｙｓｉｓ收稿日期：２０１４⁃１１⁃１０．网络出版日期：２０１５⁃０７⁃１６．基金项目：国家自然科学基金资助项目（６１０７４０７８）；中央高校基本科研业务费专项资金资助项目（１２ＭＳ１１３）．通信作者：孙志伟．Ｅ⁃ｍａｉｌ：ｓｕｎｚｗ２０１２０９０１＠１２６．ｃｏｍ．电力用户行为分析是通过分析用电数据之间关联性和相似性，发现用户潜在的行为习惯，进行用户细分，对于引导用户的用电行为与节能改造具有重要意义［１⁃２］。随着智能用电的飞速发展，智能电表与采集终端得到广泛应用，已扩大到居民用户等各种电力场所，采集及处理的用电数据呈指数级增长、数据量巨大、结构类型繁多、交互性强，逐渐进入用电大数据时代［３］。传统的数据分析与处理方法存在计算能力不足、处理效率低的瓶颈，已不能完全满足大数据环境下智能用电数据快速分析的需求

.570 智能系统学报第10卷聚类分析作为数据挖掘4中的一个重要分支，据的快速处理分析。Spark克服了Hadoop在迭代计能够对数据进行全局分析，得出数据的分布特征，已算上的不足，现已成为Apache的顶级项目。Spark 经被用于电力用户行为分析领域。例如，文献[5] 提供了一种内存并行化计算框架，框架将作业所需通过对电力用户负荷特性进行分析，在传统行业划数据读入内存，所需数据时直接从内存中查询，这样分为基础上使用聚类算法对用户进行分类研究，但比基于磁盘的MapReduce访问数据的速度快，减少没有将用户的用电习惯考虑进去。文献[6]针对变了作业的运行时间，也减少了/0操作o]。电站负荷提出模糊C均值聚类方法，把变电站负荷 Spark的计算任务特点是在多个计算应用中支持分为工业、农业、市政等类别，结论认为该方法明显数据集合的共享和重用。为了实现计算过程中的数优于基于等价关系的聚类法。文献[7]将模糊聚类据集的重用，Spak设计了一个弹性分布式数据集合方法应用于电力销售领域，利用负荷曲线特征实现 RDD(resilient distributed dataset),它是一种类似于对电力用户分类，为售电企业制定合理的电价和有分布式内存的数据抽象结构。RDD数据集是一个只效实施负荷管理提供参考。上述传统聚类方法均没读的分区集合，可以在多个计算应用中共享，它不仅有考虑智能用电行为分析在大数据环境下对海量数支持基于数据集的应用，还具有容错、局部计算调度据的可靠存储、高效管理与快速分析等方面所面临和扩展性。RDD支持用户在执行查询时选择缓存数的挑战。据集在内存中，便于下次计算的数据集重集，减少不大数据分析侧重于通过分布式或并行算法提高必要的数据重复读写操作4)。现有数据挖掘方法对海量数据的处理效率。云计算 Spark没有自己的文件系统，但可以使用Hadoop 具有高可靠性、海量数据处理、扩展性强以及设备利支持的文件系统作为输入源或者输出地。Spark作为用率高等优点，已经成为大数据分析的基础支撑技 MapReduce的内存计算的扩展已被广泛的应用于雅术。业界已经采用云计算技术对智能用电数据的存虎、Facebook,淘宝等互联网公司的海量数据处理分储与分析进行了探索，并取得了一定成果。例如，文析中。Spark作业的执行过程如图1所示。献[8]基于Hadoop并行计算框架将K-means算法启动程序程序管理器并行化，对居民用电行为进行分析，但对K-means算节点 Spark执行环境法的一些参数的选取没有进行相关说明。文献[9] 分配程序管理器」有向无环图调度器对K-means参数选择进行了改进，但是同样是利用 Yam调度器 Hadoop并行计算框架对K-means进行并行化。算提交请求 Spark 资源申请容器法在计算过程中需要大量的迭代计算以及/0操 Yarn 客户端管理作，Hadoop并不适合处理具有大量迭代计算以及I/ 启动程序节点资源容器 0操作的作业，Hadoop在执行过程会有大量的I/0 管理器操作，使/0成为并行计算的瓶颈，严重降低并行计执行器算的性能。并行内存计算框架Spark能够充分利用图1 Spark作业执行过程集群内存，进一步提升快速处理分析能力，为智能用 Fig.1 The execution process of Spark job 电行为分析提供了一个全新的技术思路[o]。 Spark作业的执行过程首先由客户端提交一个本文提出一种基于内存计算的并行聚类分析方作业请求，通过验证之后向资源管理器提交作业，资法(spark-Canopy-Kmeans,SCK),利用Hadoop的分源管理器将作业初始化并分配一个资源容器，在某布式文件系统高效的存储能力[)以及Spark强大个节点管理器中启动程序管理器，程序管理器主要的并行内存计算能力，对K-means算法参数选取的负责对作业的分配，向资源管理器申请资源容器并盲目性进行改进，并进行内存并行化，实现智能用电与相应的节点点管理器进行交互运行作业任数据的准确与快速分析。在Spark集群中开展实务[1516] 验，与传统K-means聚类算法和基于MapReduce并 1.2内存并行化聚类算法分析行化的K-means算法(MR-Kmeans)进行对比实验。 1.2.1聚类算法分析 1 基于并行内存计算的聚类算法分析 Canopy算法是众多聚类算法中计算比较快速的算法，但其聚类精度较低，往往将其作为传统聚类 1.1并行内存计算框架Spark 算法的第一步，先对数据集进行粗聚类，然后对粗聚 Spark是一个开源的分布式集群系统，用于大数类的结果使用传统的聚类方法进行精细聚类

聚类分析作为数据挖掘［４］中的一个重要分支，能够对数据进行全局分析，得出数据的分布特征，已经被用于电力用户行为分析领域。例如，文献［５］通过对电力用户负荷特性进行分析，在传统行业划分为基础上使用聚类算法对用户进行分类研究，但没有将用户的用电习惯考虑进去。文献［６］针对变电站负荷提出模糊Ｃ均值聚类方法，把变电站负荷分为工业、农业、市政等类别，结论认为该方法明显优于基于等价关系的聚类法。文献［７］将模糊聚类方法应用于电力销售领域，利用负荷曲线特征实现对电力用户分类，为售电企业制定合理的电价和有效实施负荷管理提供参考。上述传统聚类方法均没有考虑智能用电行为分析在大数据环境下对海量数据的可靠存储、高效管理与快速分析等方面所面临的挑战。大数据分析侧重于通过分布式或并行算法提高现有数据挖掘方法对海量数据的处理效率。云计算具有高可靠性、海量数据处理、扩展性强以及设备利用率高等优点，已经成为大数据分析的基础支撑技术。业界已经采用云计算技术对智能用电数据的存储与分析进行了探索，并取得了一定成果。例如，文献［８］基于Ｈａｄｏｏｐ并行计算框架将Ｋ⁃ｍｅａｎｓ算法并行化，对居民用电行为进行分析，但对Ｋ⁃ｍｅａｎｓ算法的一些参数的选取没有进行相关说明。文献［９］对Ｋ⁃ｍｅａｎｓ参数选择进行了改进，但是同样是利用Ｈａｄｏｏｐ并行计算框架对Ｋ⁃ｍｅａｎｓ进行并行化。算法在计算过程中需要大量的迭代计算以及Ｉ／Ｏ操作，Ｈａｄｏｏｐ并不适合处理具有大量迭代计算以及Ｉ／Ｏ操作的作业，Ｈａｄｏｏｐ在执行过程会有大量的Ｉ／Ｏ操作，使Ｉ／Ｏ成为并行计算的瓶颈，严重降低并行计算的性能。并行内存计算框架Ｓｐａｒｋ能够充分利用集群内存，进一步提升快速处理分析能力，为智能用电行为分析提供了一个全新的技术思路［１０］。本文提出一种基于内存计算的并行聚类分析方法（ｓｐａｒｋ⁃Ｃａｎｏｐｙ⁃Ｋｍｅａｎｓ，ＳＣＫ），利用Ｈａｄｏｏｐ的分布式文件系统高效的存储能力［１１⁃１３］以及Ｓｐａｒｋ强大的并行内存计算能力，对Ｋ⁃ｍｅａｎｓ算法参数选取的盲目性进行改进，并进行内存并行化，实现智能用电数据的准确与快速分析。在Ｓｐａｒｋ集群中开展实验，与传统Ｋ⁃ｍｅａｎｓ聚类算法和基于ＭａｐＲｅｄｕｃｅ并行化的Ｋ⁃ｍｅａｎｓ算法（ＭＲ⁃Ｋｍｅａｎｓ）进行对比实验。１基于并行内存计算的聚类算法分析１．１并行内存计算框架ＳｐａｒｋＳｐａｒｋ是一个开源的分布式集群系统，用于大数据的快速处理分析。Ｓｐａｒｋ克服了Ｈａｄｏｏｐ在迭代计算上的不足，现已成为Ａｐａｃｈｅ的顶级项目。Ｓｐａｒｋ提供了一种内存并行化计算框架，框架将作业所需数据读入内存，所需数据时直接从内存中查询，这样比基于磁盘的ＭａｐＲｅｄｕｃｅ访问数据的速度快，减少了作业的运行时间，也减少了Ｉ／Ｏ操作［１０］。Ｓｐａｒｋ的计算任务特点是在多个计算应用中支持数据集合的共享和重用。为了实现计算过程中的数据集的重用，Ｓｐａｒｋ设计了一个弹性分布式数据集合ＲＤＤ（ｒｅｓｉｌｉｅｎｔｄｉｓｔｒｉｂｕｔｅｄｄａｔａｓｅｔ），它是一种类似于分布式内存的数据抽象结构。ＲＤＤ数据集是一个只读的分区集合，可以在多个计算应用中共享，它不仅支持基于数据集的应用，还具有容错、局部计算调度和扩展性。ＲＤＤ支持用户在执行查询时选择缓存数据集在内存中，便于下次计算的数据集重集，减少不必要的数据重复读写操作［１４］。Ｓｐａｒｋ没有自己的文件系统，但可以使用Ｈａｄｏｏｐ支持的文件系统作为输入源或者输出地。Ｓｐａｒｋ作为ＭａｐＲｅｄｕｃｅ的内存计算的扩展已被广泛的应用于雅虎、Ｆａｃｅｂｏｏｋ，淘宝等互联网公司的海量数据处理分析中。Ｓｐａｒｋ作业的执行过程如图１所示。图１Ｓｐａｒｋ作业执行过程Ｆｉｇ．１ＴｈｅｅｘｅｃｕｔｉｏｎｐｒｏｃｅｓｓｏｆＳｐａｒｋｊｏｂＳｐａｒｋ作业的执行过程首先由客户端提交一个作业请求，通过验证之后向资源管理器提交作业，资源管理器将作业初始化并分配一个资源容器，在某个节点管理器中启动程序管理器，程序管理器主要负责对作业的分配，向资源管理器申请资源容器并与相应的节点点管理器进行交互运行作业任务［１５ ⁃１６］。１．２内存并行化聚类算法分析１．２．１聚类算法分析Ｃａｎｏｐｙ算法是众多聚类算法中计算比较快速的算法，但其聚类精度较低，往往将其作为传统聚类算法的第一步，先对数据集进行粗聚类，然后对粗聚类的结果使用传统的聚类方法进行精细聚类。 ·５７０· 智能系统学报第１０卷

第4期王德文，等：一种基于内存计算的电力用户聚类分析方法 ·571. K-means算法主要由2步迭代操作构成：第1 Canopy算法把聚类过程分为2部分，第1部分使步是分类阶段，将数据集中的数据通过欧式距离划用一个简单快捷距离计算方法将数据集分为若干个分到离自己最近的聚类中：第2步是更新阶段，计算重叠的Canopy子集，此过程中每个数据点之间没有新聚类中的质心以更新之前的质心。上述2步联系，只是计算与Canopy子集的中心点的距离，可迭代是完全独立的，适应并行化运行环境、实现简以把数据集分布在若干个计算节点上进行并行计单、计算效率高。另外，K-means算法已经被研究应算。第2部分为使用一个精准的距离计算方法计算用于用电行为分析领域，便于进行分析比较以验证出现在第1部分中的同一个Canopy子集中的数据本文工作成果，因此本文围绕K-means算法进行并与中心点的距离，同样也适合并行计算。行化分析、改进与实验对比。 1.2.3K-means算法原理及并行化分析 1.2.2 Canopy算法原理及并行化分析 K-means算法是解决聚类问题的经典算法，其 Canopy的算法过程首先会选择2个阈值T,和主要思想是从数据集S中选择k个点作为初始聚类 T2(T,>T2),然后从数据集中选择一个数据点作为的质心，接下来将数据中的每个点与距它最近的质第I个Canopy子集的中心点，随后计算各个数据，点心聚类u0。K-means执行流程图如图3所示。到此中心点的距离，根据之前设定的T、T,阈值来初始化k个簇的质心输入要生成决定隶属哪个Canopy子集。其算法步骤为：筷的个数k 1)设置初始距离阈值T1、T2(T>T2),T,、T2的确定数据点设定原则可以根据实际需求进行多次实验选取也可的簇隶属关系以使用交叉验证选取。 2)从数据集中随机挑选一个数据点作为第1 N 迭代次数T, 重新计算 k个簇的质心将当前数据点作为一个新的Canopy子集中心点。图3K-means聚类流程图 5)重复第3)、4)步，直到数据集为空，算法结束。 Fig.3 K-means clustering flowchart Canopy算法流程图如图2所示。其算法步骤如下： 1)对数据集S决定k(k<IS1)的值，也就是对数设置阂值T、T 选取第一个 Canopy中心点据集S的分类个数。数据点到中 2)在数据集S中选取k个数据点作为初始簇的 d<T. 心点的距离d 质心k,k2,…,k⊙ 3)对数据集S中第i个样本点s:计算其与各个 d<T 并人当前Canopy子集，并簇质心k的距离，将s,分配给最近的簇质心。第i个从数据集中删除此数据点样本点到第广个质心的距离并人当前Canopy-子集 K(i)=min‖s:-k‖2} (1)》式中：i=1,2,…,s,j=1,2,…,k,s表示s中第i 当前数据点作为新数据集的Canopy子集中心点是否为空个样本点，k表示第j个质心，公式中距离采用欧 Y 式距离。停止计算 4)判断是否满足迭代次数，满足则停止计算：输出分类结果否则采用误差平方函数计算目标函数：图2 Canopy算法流程 Fig.2 Flowchart of Canopy algorithms (2)

Ｋ⁃ｍｅａｎｓ算法主要由２步迭代操作构成：第１步是分类阶段，将数据集中的数据通过欧式距离划分到离自己最近的聚类中；第２步是更新阶段，计算新聚类中的质心以更新之前的质心［１７］。上述２步迭代是完全独立的，适应并行化运行环境、实现简单、计算效率高。另外，Ｋ⁃ｍｅａｎｓ算法已经被研究应用于用电行为分析领域，便于进行分析比较以验证本文工作成果，因此本文围绕Ｋ⁃ｍｅａｎｓ算法进行并行化分析、改进与实验对比。１．２．２Ｃａｎｏｐｙ算法原理及并行化分析Ｃａｎｏｐｙ的算法过程首先会选择２个阈值Ｔ１和Ｔ２（Ｔ１＞Ｔ２），然后从数据集中选择一个数据点作为第１个Ｃａｎｏｐｙ子集的中心点，随后计算各个数据点到此中心点的距离，根据之前设定的Ｔ１、Ｔ２阈值来决定隶属哪个Ｃａｎｏｐｙ子集。其算法步骤为：１）设置初始距离阈值Ｔ１、Ｔ２（Ｔ１＞Ｔ２），Ｔ１、Ｔ２的设定原则可以根据实际需求进行多次实验选取也可以使用交叉验证选取。２）从数据集中随机挑选一个数据点作为第１个Ｃａｎｏｐｙ子集的中心点，并从数据集中删除。３）计算数据集中第ｉ个数据点与Ｃａｎｏｐｙ子集中心点的粗糙距离ｄ。４）判断ｄ与Ｔ１、Ｔ２的关系。如果ｄ＜Ｔ２，将此数据点隶属于当前Ｃａｎｏｐｙ子集并从数据集中删除此数据点；如果ｄ＜Ｔ１，将此数据点隶属于当前Ｃａｎｏｐｙ子集但并不从数据集中删除此数据点；如果ｄ＞Ｔ１，将当前数据点作为一个新的Ｃａｎｏｐｙ子集中心点。５）重复第３）、４）步，直到数据集为空，算法结束。Ｃａｎｏｐｙ算法流程图如图２所示。图２Ｃａｎｏｐｙ算法流程Ｆｉｇ．２ＦｌｏｗｃｈａｒｔｏｆＣａｎｏｐｙａｌｇｏｒｉｔｈｍｓＣａｎｏｐｙ算法把聚类过程分为２部分，第１部分使用一个简单快捷距离计算方法将数据集分为若干个重叠的Ｃａｎｏｐｙ子集，此过程中每个数据点之间没有联系，只是计算与Ｃａｎｏｐｙ子集的中心点的距离，可以把数据集分布在若干个计算节点上进行并行计算。第２部分为使用一个精准的距离计算方法计算出现在第１部分中的同一个Ｃａｎｏｐｙ子集中的数据与中心点的距离，同样也适合并行计算。１．２．３Ｋ⁃ｍｅａｎｓ算法原理及并行化分析Ｋ⁃ｍｅａｎｓ算法是解决聚类问题的经典算法，其主要思想是从数据集Ｓ中选择ｋ个点作为初始聚类的质心，接下来将数据中的每个点与距它最近的质心聚类［１８⁃２０］。Ｋ⁃ｍｅａｎｓ执行流程图如图３所示。图３Ｋ⁃ｍｅａｎｓ聚类流程图Ｆｉｇ．３Ｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇｆｌｏｗｃｈａｒｔ其算法步骤如下：１）对数据集Ｓ决定ｋ（ｋ＜｜Ｓ｜）的值，也就是对数据集Ｓ的分类个数。２）在数据集Ｓ中选取ｋ个数据点作为初始簇的质心ｋ１，ｋ２，…，ｋｋ。３）对数据集Ｓ中第ｉ个样本点ｓｉ计算其与各个簇质心ｋｊ的距离，将ｓｉ分配给最近的簇质心。第ｉ个样本点到第ｊ个质心的距离Ｋｊ（ｉ）＝ｍｉｎ｛‖ｓｉ－ｋｊ‖２｝（１）式中：ｉ＝１，２，…，ｓ，ｊ＝１，２，…，ｋ，ｓｉ表示ｓ中第ｉ个样本点，ｋｊ表示第ｊ个质心，公式中距离采用欧式距离。４）判断是否满足迭代次数，满足则停止计算；否则采用误差平方函数计算目标函数：Ｊ＝ ∑ ｋｊ＝１ ∑ Ｓｉ＝１ ‖ｓｉ－ｋｉ‖２（２）第４期王德文，等：一种基于内存计算的电力用户聚类分析方法 ·５７１·

.572. 智能系统学报第10卷式中：k为要聚类的个数，1S1为样本的个数，k为第j 点。其算法流程如图4所示。个质心。 HDFS文件 5)计算△)，判断是否满足阈值，满足则停止计 RDD 算。否则执行第6)步。 6)对上步得到的新簇重新估算k个簇的质心， Canopy并行化 map map..map 与2ie=1,2…k (3) Reduce 式中：s:表示数据集中的样本点，IK|表示第j个聚 K-means并行化类中样本点的个数，k:则为新聚类的中心点。之后 RDD map map ...map 转到第3)步。 Reduce 1.3基于内存计算的聚类分析方法 K-means算法虽然简单、容易理解和实现，但是聚类结果仍有一些不足，如初始k值无法确定，需反复多次尝图4 Canopy和K-means的内存并行化流程图试寻求最优解k:初始的聚类中心点无法确定，目前 Fig.4 The in-memory parallelization flowchart of Can- 多是随机选取k个中心点，当面对海量的数据集时 opy and K-means 其迭代过程繁琐，运行时间较长等。 SCK利用Spark的特性将Canopy粗聚类的数使用Canopy算法能够快速对数据进行粗聚类据放置在内存中，方便随后K-means聚类的时候可的特点，将原始数据集分为p个重叠的子集，则此时以多次重复使用，而不需要再次从分布式文件系统的p即为随后K-means算法中初始的k值，p个重叠中读取，减少I0操作，提高访问速度。而且在K 的子集的中心点为K-means算法中初始的K-means means计算过程中只需要计算Canopy子集中的数聚类中心点。其次，将此设计思路在并行内存计算据，而无需对整个数据集进行计算，减少了计算量，框架Spark上实现。实现的具体步骤如下：更加适合进行大数据处理。 1)从分布式文件系统上读取数据集生成RDD。 2)将原数据集通过map进行格式化，并执行 2实验与结果分析 cache操作，将数据读入内存。 2.1智能用电系统架构 3)在各计算节点上读取本地数据进行计算与本文设计一个智能用电系统，安装在智能小区 Canopy中心点的距离d。中，包括智能插座、智能开关、智能电表和相关传感 4)判断距离d与T,、T,的关系。如果dT,将当前数据点作为一个新的Canopy子集中心站应用层云服务传输中心用电调整点，并广播到全局的Canopy中心点集中。 5)如果数据集为空时，将生成的p个Canopy子互联网 GPRS/3G/4G 集进行RDD操作。否则转到第3)步。网络层 WIFI/有限 6)将上一步产生的p个Canopy中心点赋值给智能网关 /ZigBee 智能网关 K-means中k个聚类的中心点，且k=po 7)计算Canopy子集中每个数据点到中心点的设备感知智能开关智能插座各种传感器距离，进行K-means聚类。 8)对RDD执行Reduce操作将局部聚类合并成冰箱电饭煲空调全局聚类，并计算新聚类中数据点的平均值，作为新图5智能用电系统架构图聚类的中心点。 Fig.5 Architecture diagram of smart electricity con- 9)对新中心点做Ma即p操作，计算其所属的Can- sumption system opy子集，计算新旧中心的平方差，更新聚类中心

式中：ｋ为要聚类的个数，｜Ｓ｜为样本的个数，ｋｉ为第ｊ个质心。５）计算 ΔＪ，判断是否满足阈值，满足则停止计算。否则执行第６）步。６）对上步得到的新簇重新估算ｋ个簇的质心，ｋｊ＝１Ｋｊ ∑ｉｓｉ，ｉ ∈ Ｋｊ，ｊ＝１，２，…，ｋ（３）式中：ｓｉ表示数据集中的样本点，｜Ｋｊ｜表示第ｊ个聚类中样本点的个数，ｋｊ则为新聚类的中心点。之后转到第３）步。１．３基于内存计算的聚类分析方法Ｋ⁃ｍｅａｎｓ算法虽然简单、容易理解和实现，但是仍有一些不足，如初始ｋ值无法确定，需反复多次尝试寻求最优解ｋ；初始的聚类中心点无法确定，目前多是随机选取ｋ个中心点，当面对海量的数据集时其迭代过程繁琐，运行时间较长等。使用Ｃａｎｏｐｙ算法能够快速对数据进行粗聚类的特点，将原始数据集分为ｐ个重叠的子集，则此时的ｐ即为随后Ｋ⁃ｍｅａｎｓ算法中初始的ｋ值，ｐ个重叠的子集的中心点为Ｋ⁃ｍｅａｎｓ算法中初始的Ｋ⁃ｍｅａｎｓ聚类中心点。其次，将此设计思路在并行内存计算框架Ｓｐａｒｋ上实现。实现的具体步骤如下：１）从分布式文件系统上读取数据集生成ＲＤＤ。２）将原数据集通过ｍａｐ进行格式化，并执行ｃａｃｈｅ操作，将数据读入内存。３）在各计算节点上读取本地数据进行计算与Ｃａｎｏｐｙ中心点的距离ｄ。４）判断距离ｄ与Ｔ１、Ｔ２的关系。如果ｄ＜Ｔ２，将此数据点隶属于当前Ｃａｎｏｐｙ子集并从数据集中删除此数据点；如果ｄ＜Ｔ１，将此数据点隶属于当前Ｃａｎｏｐｙ子集但并不从数据集中删除此数据点；如果ｄ＞Ｔ１，将当前数据点作为一个新的Ｃａｎｏｐｙ子集中心点，并广播到全局的Ｃａｎｏｐｙ中心点集中。５）如果数据集为空时，将生成的ｐ个Ｃａｎｏｐｙ子集进行ＲＤＤ操作。否则转到第３）步。６）将上一步产生的ｐ个Ｃａｎｏｐｙ中心点赋值给Ｋ⁃ｍｅａｎｓ中ｋ个聚类的中心点，且ｋ＝ｐ。７）计算Ｃａｎｏｐｙ子集中每个数据点到中心点的距离，进行Ｋ⁃ｍｅａｎｓ聚类。８）对ＲＤＤ执行Ｒｅｄｕｃｅ操作将局部聚类合并成全局聚类，并计算新聚类中数据点的平均值，作为新聚类的中心点。９）对新中心点做Ｍａｐ操作，计算其所属的Ｃａｎ⁃ ｏｐｙ子集，计算新旧中心的平方差，更新聚类中心点。其算法流程如图４所示。图４Ｃａｎｏｐｙ和Ｋ⁃ｍｅａｎｓ的内存并行化流程图Ｆｉｇ．４Ｔｈｅｉｎ⁃ｍｅｍｏｒｙｐａｒａｌｌｅｌｉｚａｔｉｏｎｆｌｏｗｃｈａｒｔｏｆＣａｎ⁃ ｏｐｙａｎｄＫ⁃ｍｅａｎｓＳＣＫ利用Ｓｐａｒｋ的特性将Ｃａｎｏｐｙ粗聚类的数据放置在内存中，方便随后Ｋ⁃ｍｅａｎｓ聚类的时候可以多次重复使用，而不需要再次从分布式文件系统中读取，减少ＩＯ操作，提高访问速度。而且在Ｋ⁃ ｍｅａｎｓ计算过程中只需要计算Ｃａｎｏｐｙ子集中的数据，而无需对整个数据集进行计算，减少了计算量，更加适合进行大数据处理。２实验与结果分析２．１智能用电系统架构本文设计一个智能用电系统，安装在智能小区中，包括智能插座、智能开关、智能电表和相关传感器，其系统逻辑架构如图５所示。图５智能用电系统架构图Ｆｉｇ．５Ａｒｃｈｉｔｅｃｔｕｒｅｄｉａｇｒａｍｏｆｓｍａｒｔｅｌｅｃｔｒｉｃｉｔｙｃｏｎ⁃ ｓｕｍｐｔｉｏｎｓｙｓｔｅｍ ·５７２· 智能系统学报第１０卷

第4期王德文，等：一种基于内存计算的电力用户聚类分析方法 ·573. 2.2实验数据峰电量为当日用电高峰期所用电量，例如 1)原始测量数据 7:00~12:00,19:00:~00:00,谷电量为当日用电低本实验原始数据来源于居民用电的实际测量数谷期所用电量，例如00：00~7：00。平电量为当日用据，数据的采集频率为1min,每户数据约200万条，电不是高峰期和用电低谷期用的电量。图7给出实采集内容包括用户标识、采集日期、采集时间、有功验数据集所构成的某户一周内用电量曲线。功率、电压、电流、智能插座1用电量、智能插座2用表2实验数据集电量、智能插座3用电量等，如表1所示。 Table 2 Experimental data sets 表1居民用电测量数据字段属性描述 Table 1 Measurement data of electric power consumption 用户标识用户唯一标识字段属性描述采集日期格式为20121217 用户标识用户唯一标识用电量/kW·h 每日用电量采集日期格式为2012/12/17 峰电量/kW·h 每日峰电量采集时间格式为20：27 谷电量/kW·h 每日谷电量有功功率/kW 平均每分钟有功功率平电量/kW·h 每日平电量电压/N 电压常住人口/人家庭居住人口数电流/A 平均每分钟电流居住面积/m2 住房实际使用面积单位冰箱、空调、洗衣机、微波炉智能插座/W·h 等家用大功率电器的用电量 35 ◆ 图6给出原始测量数据中某天有功功率曲线 30 实例。 s25 ◆一总电量士一谷电量 8 量一峰电量一一平电量 7 6 品 5 4 3 3/253/263/273/283/293/303/31 日期图7一周内用电量曲线图 Fig.7 Electric power consumption graphs in a week 时间在下面的实验过程中，将从实验数据集中随机图6某天测量数据实例选取具有高耗能、中等耗能、低耗能典型特征的用户 Fig.6 Example of measurement data in a day 用电数据进行实验测试，进行多次的测试，取平均值 2)数据预处理与实验数据集构建为最终实验结果。实验数据集虽然没有达到大数据原始测量数据无法直接用于实验分析，需要对的规模，但可以用此实验数据进行算法正确性实验，其进行预处理，按照实验目的构建实验数据集。并对实验数据集扩充进行内存并行化性能测试。原始测量数据中的电压、电流在实验中无需使 2.3实验结果分析用，需要进行删除。原始测量数据中存在约1.3%的 1)实验1结果分析空缺值，需要对其进行删除，并增加常驻人口与居住本实验采用SCK对采集到的海量智能用电数面积等数据。原始数据采集频率为1min,实验所需据进行聚类分析，其聚类结果的准确率达到了的数据无须精确到分钟，将每天的数据进行合并，计 90.7%,其中9.3%的用户聚类错误的原因为用户在算统计出每天用电量、峰电量、谷电量与平电量等，某一天或者某一时刻改变了用电规律，造成采集的并进行单位转换。新构建的实验数据集包括用户标用电数据发生较大的波动，但也不排除用电数据在识、采集日期、每日用电量、峰电量、谷电量、平电量、采集过程中或者传输过程中发生错误。其聚类结果常住人口与居住面积等，如表2所示。如表3所示。由表3中的数据计算可得使用SCK

２．２实验数据１）原始测量数据本实验原始数据来源于居民用电的实际测量数据，数据的采集频率为１ｍｉｎ，每户数据约２００万条，采集内容包括用户标识、采集日期、采集时间、有功功率、电压、电流、智能插座１用电量、智能插座２用电量、智能插座３用电量等，如表１所示。表１居民用电测量数据Ｔａｂｌｅ１Ｍｅａｓｕｒｅｍｅｎｔｄａｔａｏｆｅｌｅｃｔｒｉｃｐｏｗｅｒｃｏｎｓｕｍｐｔｉｏｎ字段属性描述用户标识用户唯一标识采集日期格式为２０１２／１２／１７采集时间格式为２０：２７有功功率／ｋＷ平均每分钟有功功率电压／Ｖ电压电流／Ａ平均每分钟电流智能插座／Ｗ∙ｈ冰箱、空调、洗衣机、微波炉等家用大功率电器的用电量图６给出原始测量数据中某天有功功率曲线实例。图６某天测量数据实例Ｆｉｇ．６Ｅｘａｍｐｌｅｏｆｍｅａｓｕｒｅｍｅｎｔｄａｔａｉｎａｄａｙ２）数据预处理与实验数据集构建原始测量数据无法直接用于实验分析，需要对其进行预处理，按照实验目的构建实验数据集。原始测量数据中的电压、电流在实验中无需使用，需要进行删除。原始测量数据中存在约１．３％的空缺值，需要对其进行删除，并增加常驻人口与居住面积等数据。原始数据采集频率为１ｍｉｎ，实验所需的数据无须精确到分钟，将每天的数据进行合并，计算统计出每天用电量、峰电量、谷电量与平电量等，并进行单位转换。新构建的实验数据集包括用户标识、采集日期、每日用电量、峰电量、谷电量、平电量、常住人口与居住面积等，如表２所示。峰电量为当日用电高峰期所用电量，例如７：００～１２：００，１９：００：～００：００，谷电量为当日用电低谷期所用电量，例如００：００～７：００。平电量为当日用电不是高峰期和用电低谷期用的电量。图７给出实验数据集所构成的某户一周内用电量曲线。表２实验数据集Ｔａｂｌｅ２Ｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｓｅｔｓ字段属性描述用户标识用户唯一标识采集日期格式为２０１２１２１７用电量／ｋＷ∙ｈ每日用电量峰电量／ｋＷ∙ｈ每日峰电量谷电量／ｋＷ∙ｈ每日谷电量平电量／ｋＷ∙ｈ每日平电量常住人口／人家庭居住人口数居住面积／ｍ２住房实际使用面积单位图７一周内用电量曲线图Ｆｉｇ．７Ｅｌｅｃｔｒｉｃｐｏｗｅｒｃｏｎｓｕｍｐｔｉｏｎｇｒａｐｈｓｉｎａｗｅｅｋ在下面的实验过程中，将从实验数据集中随机选取具有高耗能、中等耗能、低耗能典型特征的用户用电数据进行实验测试，进行多次的测试，取平均值为最终实验结果。实验数据集虽然没有达到大数据的规模，但可以用此实验数据进行算法正确性实验，并对实验数据集扩充进行内存并行化性能测试。２．３实验结果分析１）实验１结果分析本实验采用ＳＣＫ对采集到的海量智能用电数据进行聚类分析，其聚类结果的准确率达到了９０．７％，其中９．３％的用户聚类错误的原因为用户在某一天或者某一时刻改变了用电规律，造成采集的用电数据发生较大的波动，但也不排除用电数据在采集过程中或者传输过程中发生错误。其聚类结果如表３所示。由表３中的数据计算可得使用ＳＣＫ第４期王德文，等：一种基于内存计算的电力用户聚类分析方法 ·５７３·

.574. 智能系统学报第10卷的准确度为90.7%，高于单机K-means聚类算法的 3)实验3结果分析准确度86.37%，而且各个类别的单独聚类结果也普本实验将SCK与MR-Kmeans算法进行效率对遍高于单机K-means算法结果。比实验。将不同大小的数据集分别采用SCK和 2)实验2结果分析 MR-Kmeans算法进行聚类分析，其实验结果如图9 本实验采用SCK对采集到的海量智能用电数所示。据进行聚类分析，并与单机K-means聚类算法进行 10 效率对比。所采集的数据有限，在实验过程中需要 9 8 人为不断增加数据规模(0.32、1.8、5.2、20.8GB),以 > 考察数据集大小的变化与聚类时间和精度的关系。 6 对比实验结果如图8所示。 --SCK 表3电力用户聚类分析结果 3 MR-Kmeans Table 3 Cluster analysis results for electricity users 0.321.805.20 20.80 SCK 数据集/GB 类别单机K-means 正确率/% 正确率/% 图9SCK与MR-Kmeans对比图商业用户 100 80.9 Fig.9 Comparison chart of SCK and MR-Kmeans 上班族+老人+上学族 92 86 图9显示了2种改进的K-means算法的上班族+上学族运行时间对比图，由图得知相同数据集下SCK运行 90.1 90.9 时间比MR-Kmeans算法略快，随着数据集的增大两老人+上学族 85.2 63 者的时间差也在增大，但是SCK时间增长比较缓老人 84.3 76.6 慢，由此可以得出SCK更加适合处理大数据。闲置房 98.7 95.2 4)实验四结果分析 K-means并行化后需要衡量算法并行性的好 80r --SCK 坏，本实验在不同集群大小上运行内存并行化的K 70 +-单机Kmeans o means算法，利用加速比来衡量并行性的好坏，加速 50 比公式为 40 S=1/T (4) 30 式中：为单机运行的时间，T为集群运行的时间。 20 10 将不同大小的数据集分别运行在不同大小的集 0度年 0.321.805.20 群中，其运行结果如图10所示。 20.80 数据集/GB 8r e-0.32GB 图8SCK与单机K-means对比图 -1.8GB -5.2GB Fig.8 Comparison chart of SCK and single machine K-means 6 +-20.8GB 出以图8显示了2种算法在不同数据集中的运行时间，SCK展现了比较好效率。由于SCK在计算初期需要进行一些额外的作业部署工作，在数据集较小 2 时，部署时间所占的比例要大于作业计算的时间，所 2345678910 以当数据集较小时SCK没有单机K-means高效；但集群节点/台图10SCK的加速比实验是随着数据集的扩大，SCK展现了优越的性能，而单 Fig.10 The speedup experiments of SCK 机K-means所展现的性能已不能适合进行聚类分析。SCK通过分布式集群将大数据进行切分部署在由图10可以看出SCK在不同数据量不同大小的分布式集群中显示了接近线性增长的趋势，并且不同的计算节点上，并通过将所需数据读入内存进在相同集群大小的情况下数据量越大加速比也越行反复直接访问，有效减少了0操作，缩短了数据大，但是随着集群的增多加速比会减少，但总的来说访问时间，并且通过各个独立的处理机提升了数据随着集群数量的增多加速比会变大。并行计算的能力，因此能够对大数据进行高效聚类

的准确度为９０．７％，高于单机Ｋ⁃ｍｅａｎｓ聚类算法的准确度８６．３７％，而且各个类别的单独聚类结果也普遍高于单机Ｋ⁃ｍｅａｎｓ算法结果。２）实验２结果分析本实验采用ＳＣＫ对采集到的海量智能用电数据进行聚类分析，并与单机Ｋ⁃ｍｅａｎｓ聚类算法进行效率对比。所采集的数据有限，在实验过程中需要人为不断增加数据规模（０．３２、１．８、５．２、２０．８ＧＢ），以考察数据集大小的变化与聚类时间和精度的关系。对比实验结果如图８所示。表３电力用户聚类分析结果Ｔａｂｌｅ３Ｃｌｕｓｔｅｒａｎａｌｙｓｉｓｒｅｓｕｌｔｓｆｏｒｅｌｅｃｔｒｉｃｉｔｙｕｓｅｒｓ类别ＳＣＫ正确率／％单机Ｋ⁃ｍｅａｎｓ正确率／％商业用户１００８０．９上班族＋老人＋上学族９２８６上班族＋上学族９０．１９０．９老人＋上学族８５．２６３老人８４．３７６．６闲置房９８．７９５．２图８ＳＣＫ与单机Ｋ⁃ｍｅａｎｓ对比图Ｆｉｇ．８ＣｏｍｐａｒｉｓｏｎｃｈａｒｔｏｆＳＣＫａｎｄｓｉｎｇｌｅｍａｃｈｉｎｅＫ⁃ｍｅａｎｓ图８显示了２种算法在不同数据集中的运行时间，ＳＣＫ展现了比较好效率。由于ＳＣＫ在计算初期需要进行一些额外的作业部署工作，在数据集较小时，部署时间所占的比例要大于作业计算的时间，所以当数据集较小时ＳＣＫ没有单机Ｋ⁃ｍｅａｎｓ高效；但是随着数据集的扩大，ＳＣＫ展现了优越的性能，而单机Ｋ⁃ｍｅａｎｓ所展现的性能已不能适合进行聚类分析。ＳＣＫ通过分布式集群将大数据进行切分部署在不同的计算节点上，并通过将所需数据读入内存进行反复直接访问，有效减少了ＩＯ操作，缩短了数据访问时间，并且通过各个独立的处理机提升了数据并行计算的能力，因此能够对大数据进行高效聚类。３）实验３结果分析本实验将ＳＣＫ与ＭＲ⁃Ｋｍｅａｎｓ算法进行效率对比实验。将不同大小的数据集分别采用ＳＣＫ和ＭＲ⁃Ｋｍｅａｎｓ算法进行聚类分析，其实验结果如图９所示。图９ＳＣＫ与ＭＲ⁃Ｋｍｅａｎｓ对比图Ｆｉｇ．９ＣｏｍｐａｒｉｓｏｎｃｈａｒｔｏｆＳＣＫａｎｄＭＲ⁃Ｋｍｅａｎｓ图９显示了２种改进的Ｋ⁃ｍｅａｎｓ算法的运行时间对比图，由图得知相同数据集下ＳＣＫ运行时间比ＭＲ⁃Ｋｍｅａｎｓ算法略快，随着数据集的增大两者的时间差也在增大，但是ＳＣＫ时间增长比较缓慢，由此可以得出ＳＣＫ更加适合处理大数据。４）实验四结果分析Ｋ⁃ｍｅａｎｓ并行化后需要衡量算法并行性的好坏，本实验在不同集群大小上运行内存并行化的Ｋ⁃ ｍｅａｎｓ算法，利用加速比来衡量并行性的好坏，加速比公式为Ｓ＝ｔ／Ｔ（４）式中：ｔ为单机运行的时间，Ｔ为集群运行的时间。将不同大小的数据集分别运行在不同大小的集群中，其运行结果如图１０所示。图１０ＳＣＫ的加速比实验Ｆｉｇ．１０ＴｈｅｓｐｅｅｄｕｐｅｘｐｅｒｉｍｅｎｔｓｏｆＳＣＫ由图１０可以看出ＳＣＫ在不同数据量不同大小的分布式集群中显示了接近线性增长的趋势，并且在相同集群大小的情况下数据量越大加速比也越大，但是随着集群的增多加速比会减少，但总的来说随着集群数量的增多加速比会变大。 ·５７４· 智能系统学报第１０卷

第4期王德文，等：一种基于内存计算的电力用户聚类分析方法 .575. [6]李培强，李欣然，陈辉华，等.基于模糊聚类的电力负 3 结束语荷特性的分类与综合[J].中国电机工程学报，2005,25 本文针对传统数据分析方法不能满足大数据环 (24)：73-78. 境下智能用电行为分析的问题，给出一种基于内存 LI Peiqiang,LI Xinran,CHEN Huihua,et al.The charac- 计算的聚类分析方法，利用并行内存计算框架Spark teristics classification and synthesis of power load based on 对K-means进行改进，实现对智能用电大数据的快 fuzzy clustering [J].Proceedings of the CSEE,2005,25 (24):73-78. 速准确分析。实验结果表明，本方法比单机K- [7]段铷，张彩庆，刘爱芳.模糊聚类在电力用户分类中的 means和MR-Kmeans方法运算速度快并且容易扩应用[J].电力需求侧管理，2005,7(5)：18-20. 展，可以提高聚类精度与处理效率，能够较好满足智 DUAN Ru,ZHANG Caiqing,LIU Aifang.Application of 能用电大数据分析处理的需要。 fuzzy clustering method in classification of electricity cus- 虽然实验环境中数据集的大小受到限制，但所 tomers[J].Power DSM,2005,7(5):18-20. 进行的实验已模拟数据量的增加，实验结果具有参 [8]张素香，刘建明，赵丙镇，等.基于云计算的居民用电考价值。下一步工作准备对更大规模数据集进行并行为分析模型研究[J].电网技术，2013,37(6)：1542- 行计算分析，并将上述方法应用到智能电网大数据 1546 分析的其他领域。 ZHANG Suxiang,LIU Jianming,ZHAO Bingzhen,et al. Cloud computing-based analysis on residential electricity 参考文献： consumption behavior[J].Power System Technology,2013, 37(6):1542-1546. [1]王蓓蓓，李扬，高赐威.智能电网框架下的需求侧管理 [9]毛典辉.基于MapReduce的Canopy-Kmeans改进算法展望与思考[J].电力系统自动化，2009,33(20)：17 [J].计算机工程与应用，2012,48(27)：22-26. 22. MAO Dianhui.Improved Canopy-Kmeans algorithm based WANG Beibei,LI Yang,GAO Ciwei.Demand side man- on MapReduce[J].Computer Engineering and Applica- agement outlook under smart grid infrastructure[J].Auto- tions,2012,48(27):22-26. mation of Electric Power Systems,2009,33(20):17-22. [10]ZAHARIA M,CHOWDHURY M,FRANKLIN M J,et al. [2]何永秀，王冰，熊威，等.基于模糊综合评价的居民智 Spark:cluster computing with working sets [C]//Pro- 能用电行为分析与互动机制设计[J].电网技术，2012， ceedings of the 2nd USENIX Conference on Hot Topics in 36(10):247-252. Cloud Computing.Berkeley,CA,USA:USENIX Associa- HE Yongxiu,WANG Bing,XIONG Wei,et al.Analysis of tion,2010. residents'smart electricity consumption behavior based on [11]赵薇，刘杰，叶丹.基于组件的大数据分析服务平台 fuzzy synthetic evaluation and the design of interactive [J].计算机科学，2014,41(9)：75-79. mechanism[.Power System Technology,2012,36(10): ZHAO Wei,LIU Jie,YE Dan.Module based big data a- 247-252. nalysis platform[J].Computer Science,2014,41 (9): [3]宋亚奇，周国亮，朱永利.智能电网大数据处理技术现 75-79. 状与挑战[J].电网技术，2013,37(4)：927-935 [l2]赵莉，候兴哲，胡君，等.基于改进k-means算法的海 SONG Yaqi,ZHOU Guoliang,ZHU Yongli.Present status 量智能用电数据分析[J].电网技术，2014,38(10)： and challenges of big data processing in smart grid [J]. 2715-2720. Power System Technology,2013,37(4):927-935. ZHAO Li,HOU Xingzhe,HU Jun,et al.Improved k- [4]何清.物联网与数据挖掘云服务[J].智能系统学报， means algorithm based analysis on massive data of intelli- 2012,7(3):189-194. gent power utilization [J].Power System Technology, HE Qing.The Internet of things and the data mining cloud 2014,38(10):2715-2720. service [J].CAAI Transactions on Intelligent Systems, [13]程艳柳.基于云计算的智能电网数据挖掘的研究[D] 2012,7(3):189-194. 保定：华北电力大学，2013：15-20. [5]冯晓蒲，张铁峰.基于实际负荷曲线的电力用户分类技 CHENG Yanliu.Research on smart grid data mining based 术研究[J].电力科学与工程，2010,26(9)：18-22. on cloud computing[D].Baoding:North China Electric FENG Xiaopu,ZHANG Tiefeng.Research on electricity us- Power University,2013:15-20. ers classification technology based on actual load curve[J]. [14]ZAHARIA M,CHOWDHURY M,DAS T,et al.Resilient Electric Power Science and Engineering,2010,26(9):18- distributed datasets:a fault-tolerant abstraction for in- 22. memory cluster computing[C]//Proceedings of the 9th

３结束语本文针对传统数据分析方法不能满足大数据环境下智能用电行为分析的问题，给出一种基于内存计算的聚类分析方法，利用并行内存计算框架Ｓｐａｒｋ对Ｋ⁃ｍｅａｎｓ进行改进，实现对智能用电大数据的快速准确分析。实验结果表明，本方法比单机Ｋ⁃ ｍｅａｎｓ和ＭＲ⁃Ｋｍｅａｎｓ方法运算速度快并且容易扩展，可以提高聚类精度与处理效率，能够较好满足智能用电大数据分析处理的需要。虽然实验环境中数据集的大小受到限制，但所进行的实验已模拟数据量的增加，实验结果具有参考价值。下一步工作准备对更大规模数据集进行并行计算分析，并将上述方法应用到智能电网大数据分析的其他领域。参考文献：［１］王蓓蓓，李扬，高赐威．智能电网框架下的需求侧管理展望与思考［Ｊ］．电力系统自动化，２００９，３３（２０）：１７⁃ ２２．ＷＡＮＧＢｅｉｂｅｉ，ＬＩＹａｎｇ，ＧＡＯＣｉｗｅｉ．Ｄｅｍａｎｄｓｉｄｅｍａｎ⁃ ａｇｅｍｅｎｔｏｕｔｌｏｏｋｕｎｄｅｒｓｍａｒｔｇｒｉｄｉｎｆｒａｓｔｒｕｃｔｕｒｅ［Ｊ］．Ａｕｔｏ⁃ ｍａｔｉｏｎｏｆＥｌｅｃｔｒｉｃＰｏｗｅｒＳｙｓｔｅｍｓ，２００９，３３（２０）：１７⁃２２．［２］何永秀，王冰，熊威，等．基于模糊综合评价的居民智能用电行为分析与互动机制设计［Ｊ］．电网技术，２０１２，３６（１０）：２４７⁃２５２．ＨＥＹｏｎｇｘｉｕ，ＷＡＮＧＢｉｎｇ，ＸＩＯＮＧＷｅｉ，ｅｔａｌ．Ａｎａｌｙｓｉｓｏｆｒｅｓｉｄｅｎｔｓ’ ｓｍａｒｔｅｌｅｃｔｒｉｃｉｔｙｃｏｎｓｕｍｐｔｉｏｎｂｅｈａｖｉｏｒｂａｓｅｄｏｎｆｕｚｚｙｓｙｎｔｈｅｔｉｃｅｖａｌｕａｔｉｏｎａｎｄｔｈｅｄｅｓｉｇｎｏｆｉｎｔｅｒａｃｔｉｖｅｍｅｃｈａｎｉｓｍ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＴｅｃｈｎｏｌｏｇｙ，２０１２，３６（１０）：２４７⁃２５２．［３］宋亚奇，周国亮，朱永利．智能电网大数据处理技术现状与挑战［Ｊ］．电网技术，２０１３，３７（４）：９２７⁃９３５．ＳＯＮＧＹａｑｉ，ＺＨＯＵＧｕｏｌｉａｎｇ，ＺＨＵＹｏｎｇｌｉ．Ｐｒｅｓｅｎｔｓｔａｔｕｓａｎｄｃｈａｌｌｅｎｇｅｓｏｆｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇｉｎｓｍａｒｔｇｒｉｄ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＴｅｃｈｎｏｌｏｇｙ，２０１３，３７（４）：９２７⁃９３５．［４］何清．物联网与数据挖掘云服务［Ｊ］．智能系统学报，２０１２，７（３）：１８９⁃１９４．ＨＥＱｉｎｇ．ＴｈｅＩｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓａｎｄｔｈｅｄａｔａｍｉｎｉｎｇｃｌｏｕｄｓｅｒｖｉｃｅ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１２，７（３）：１８９⁃１９４．［５］冯晓蒲，张铁峰．基于实际负荷曲线的电力用户分类技术研究［Ｊ］．电力科学与工程，２０１０，２６（９）：１８⁃２２．ＦＥＮＧＸｉａｏｐｕ，ＺＨＡＮＧＴｉｅｆｅｎｇ．Ｒｅｓｅａｒｃｈｏｎｅｌｅｃｔｒｉｃｉｔｙｕｓ⁃ ｅｒｓｃｌａｓｓｉｆｉｃａｔｉｏｎｔｅｃｈｎｏｌｏｇｙｂａｓｅｄｏｎａｃｔｕａｌｌｏａｄｃｕｒｖｅ［Ｊ］．ＥｌｅｃｔｒｉｃＰｏｗｅｒＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，２０１０，２６（９）：１８⁃ ２２．［６］李培强，李欣然，陈辉华，等．基于模糊聚类的电力负荷特性的分类与综合［Ｊ］．中国电机工程学报，２００５，２５（２４）：７３⁃７８．ＬＩＰｅｉｑｉａｎｇ，ＬＩＸｉｎｒａｎ，ＣＨＥＮＨｕｉｈｕａ，ｅｔａｌ．Ｔｈｅｃｈａｒａｃ⁃ ｔｅｒｉｓｔｉｃｓｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｓｙｎｔｈｅｓｉｓｏｆｐｏｗｅｒｌｏａｄｂａｓｅｄｏｎｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ［Ｊ］．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＣＳＥＥ，２００５，２５（２４）：７３⁃７８．［７］段铷，张彩庆，刘爱芳．模糊聚类在电力用户分类中的应用［Ｊ］．电力需求侧管理，２００５，７（５）：１８⁃２０．ＤＵＡＮＲｕ，ＺＨＡＮＧＣａｉｑｉｎｇ，ＬＩＵＡｉｆａｎｇ．Ａｐｐｌｉｃａｔｉｏｎｏｆｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｉｎｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｅｌｅｃｔｒｉｃｉｔｙｃｕｓ⁃ ｔｏｍｅｒｓ［Ｊ］．ＰｏｗｅｒＤＳＭ，２００５，７（５）：１８⁃２０．［８］张素香，刘建明，赵丙镇，等．基于云计算的居民用电行为分析模型研究［Ｊ］．电网技术，２０１３，３７（６）：１５４２⁃ １５４６．ＺＨＡＮＧＳｕｘｉａｎｇ，ＬＩＵＪｉａｎｍｉｎｇ，ＺＨＡＯＢｉｎｇｚｈｅｎ，ｅｔａｌ．Ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ⁃ｂａｓｅｄａｎａｌｙｓｉｓｏｎｒｅｓｉｄｅｎｔｉａｌｅｌｅｃｔｒｉｃｉｔｙｃｏｎｓｕｍｐｔｉｏｎｂｅｈａｖｉｏｒ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＴｅｃｈｎｏｌｏｇｙ，２０１３，３７（６）：１５４２⁃１５４６．［９］毛典辉．基于ＭａｐＲｅｄｕｃｅ的Ｃａｎｏｐｙ⁃Ｋｍｅａｎｓ改进算法［Ｊ］．计算机工程与应用，２０１２，４８（２７）：２２⁃２６．ＭＡＯＤｉａｎｈｕｉ．ＩｍｐｒｏｖｅｄＣａｎｏｐｙ⁃ＫｍｅａｎｓａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅ［Ｊ］．ＣｏｍｐｕｔｅｒＥｎｇｉｎｅｅｒｉｎｇａｎｄＡｐｐｌｉｃａ⁃ ｔｉｏｎｓ，２０１２，４８（２７）：２２⁃２６．［１０］ＺＡＨＡＲＩＡＭ，ＣＨＯＷＤＨＵＲＹＭ，ＦＲＡＮＫＬＩＮＭＪ，ｅｔａｌ．Ｓｐａｒｋ：ｃｌｕｓｔｅｒｃｏｍｐｕｔｉｎｇｗｉｔｈｗｏｒｋｉｎｇｓｅｔｓ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ２ｎｄＵＳＥＮＩＸＣｏｎｆｅｒｅｎｃｅｏｎＨｏｔＴｏｐｉｃｓｉｎＣｌｏｕｄＣｏｍｐｕｔｉｎｇ．Ｂｅｒｋｅｌｅｙ，ＣＡ，ＵＳＡ：ＵＳＥＮＩＸＡｓｓｏｃｉａ⁃ ｔｉｏｎ，２０１０．［１１］赵薇，刘杰，叶丹．基于组件的大数据分析服务平台［Ｊ］．计算机科学，２０１４，４１（９）：７５⁃７９．ＺＨＡＯＷｅｉ，ＬＩＵＪｉｅ，ＹＥＤａｎ．Ｍｏｄｕｌｅｂａｓｅｄｂｉｇｄａｔａａ⁃ ｎａｌｙｓｉｓｐｌａｔｆｏｒｍ［Ｊ］．ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０１４，４１（９）：７５⁃７９．［１２］赵莉，候兴哲，胡君，等．基于改进ｋ⁃ｍｅａｎｓ算法的海量智能用电数据分析［Ｊ］．电网技术，２０１４，３８（１０）：２７１５⁃２７２０．ＺＨＡＯＬｉ，ＨＯＵＸｉｎｇｚｈｅ，ＨＵＪｕｎ，ｅｔａｌ．Ｉｍｐｒｏｖｅｄｋ⁃ ｍｅａｎｓａｌｇｏｒｉｔｈｍｂａｓｅｄａｎａｌｙｓｉｓｏｎｍａｓｓｉｖｅｄａｔａｏｆｉｎｔｅｌｌｉ⁃ ｇｅｎｔｐｏｗｅｒｕｔｉｌｉｚａｔｉｏｎ［Ｊ］．ＰｏｗｅｒＳｙｓｔｅｍＴｅｃｈｎｏｌｏｇｙ，２０１４，３８（１０）：２７１５⁃２７２０．［１３］程艳柳．基于云计算的智能电网数据挖掘的研究［Ｄ］．保定：华北电力大学，２０１３：１５⁃２０．ＣＨＥＮＧＹａｎｌｉｕ．Ｒｅｓｅａｒｃｈｏｎｓｍａｒｔｇｒｉｄｄａｔａｍｉｎｉｎｇｂａｓｅｄｏｎｃｌｏｕｄｃｏｍｐｕｔｉｎｇ［Ｄ］．Ｂａｏｄｉｎｇ：ＮｏｒｔｈＣｈｉｎａＥｌｅｃｔｒｉｃＰｏｗｅｒＵｎｉｖｅｒｓｉｔｙ，２０１３：１５⁃２０．［１４］ＺＡＨＡＲＩＡＭ，ＣＨＯＷＤＨＵＲＹＭ，ＤＡＳＴ，ｅｔａｌ．Ｒｅｓｉｌｉｅｎｔｄｉｓｔｒｉｂｕｔｅｄｄａｔａｓｅｔｓ：ａｆａｕｌｔ⁃ｔｏｌｅｒａｎｔａｂｓｔｒａｃｔｉｏｎｆｏｒｉｎ⁃ ｍｅｍｏｒｙｃｌｕｓｔｅｒｃｏｍｐｕｔｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ９ｔｈ第４期王德文，等：一种基于内存计算的电力用户聚类分析方法 ·５７５·

.576. 智能系统学报第10卷 USENIX Conference on Networked Systems Design and Im- clustering based on MapReduce[J].Journal of Computer plementation.Berkeley,USA:USENIX Association, Applications,2014,34(6):1595-1599,1680. 2012:1-14. [19]MCCALLUM A,NIGAM K,UNGAR L H.Efficient [15]LIN X Q,WANG P,WU B.Log analysis in cloud compu- clustering of high-dimensional data sets with application ting environment with Hadoop and Spark [C]//2013 5th to reference matching C//Proceedings of the Sixth ACM IEEE International Conference on Broadband Network SIGKDD International Conference on Knowledge Discovery Multimedia Technology IC-BNMT).Guilin,China: and Data Mining.New York,USA:ACM,2000:169- EEE,2013:273-276. 178. [16]GU L,LI H.Memory or time:performance evaluation for [20]KANUNGO T,MOUNT D M,NETANYAHU N S,et al. iterative operation on Hadoop and Spark[C].2013 IEEE An efficient k-means clustering algorithm:Analysis and 10th International Conference on High Performance Com- implementation[J].IEEE Transactions on Pattern Analysis puting and Communications 2013 IEEE International and Machine Intelligence,2002,24(7):881-892. Conference on Embedded and Ubiquitous Computing 作者简介： (HPCC_EUC).Zhangjiajie,China:IEEE,2013:721- 王德文，男，1973年生，副教授，主 721. 要研究方向为云计算、大数据分析。 [17]海沫，张书云，马燕林.分布式环境中聚类问题算法研究综述[J].计算机应用研究，2013,30(9)：2561- 2564. HAI Mo,ZHANG Shuyun,MA Yanlin.Algorithm review of distributed clustering problem in distributed environ- 孙志伟，男，1987年生，硕士研究 ments[J].Application Research of Computers,2013,30 生，主要研究方向为云计算与大数据 (9):2561-2564. 挖掘。 [l8]余晓山，吴扬扬.基于MapReduce的文本层次聚类并行化[J].计算机应用，2014,34(6)：1595-1599,1680. [责任编辑：刘畅] YU Xiaoshan,WU Yangyang.Parallel text hierarchical 第一届国际智能信息系统应用研讨会 First International Workshop on Applied Intelligent Information Systems (AIIS 2015) Our society needs and expects more high-value services.Such"knowledge-intensive"services can only be delivered if the necessary organizational and technical requirements are fulfilled.In addition,the cost-benefit analysis from the service provider point of view needs to be positive.There is a large and rapidly increasing literature on how artificial intelligence might be used to developmore"intelligent"in- formation systems.The proposed workshop will address all possible research in the Intelligent Information Systems. The workshop will primarily address the following themes: 1)Information Storage and Retrieval; 2)Data Structures,Cryptology and Information Theory; 3)Artificial Intelligence (incl.Robotics); 4)IT in Business; 5)Document Preparation and Text Processing; 6)Industry Sectors; 7)Electronics; 8)IT Software; 9)Telecommunications. Website:http://www.icdim.org/iis.html

ＵＳＥＮＩＸＣｏｎｆｅｒｅｎｃｅｏｎＮｅｔｗｏｒｋｅｄＳｙｓｔｅｍｓＤｅｓｉｇｎａｎｄＩｍ⁃ ｐｌｅｍｅｎｔａｔｉｏｎ．Ｂｅｒｋｅｌｅｙ，ＵＳＡ：ＵＳＥＮＩＸＡｓｓｏｃｉａｔｉｏｎ，２０１２：１⁃１４．［１５］ＬＩＮＸＱ，ＷＡＮＧＰ，ＷＵＢ．Ｌｏｇａｎａｌｙｓｉｓｉｎｃｌｏｕｄｃｏｍｐｕ⁃ ｔｉｎｇｅｎｖｉｒｏｎｍｅｎｔｗｉｔｈＨａｄｏｏｐａｎｄＳｐａｒｋ［Ｃ］／／２０１３５ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＢｒｏａｄｂａｎｄＮｅｔｗｏｒｋ＆ＭｕｌｔｉｍｅｄｉａＴｅｃｈｎｏｌｏｇｙ（ＩＣ⁃ＢＮＭＴ）．Ｇｕｉｌｉｎ，Ｃｈｉｎａ：ＩＥＥＥ，２０１３：２７３⁃２７６．［１６］ＧＵＬ，ＬＩＨ．Ｍｅｍｏｒｙｏｒｔｉｍｅ：ｐｅｒｆｏｒｍａｎｃｅｅｖａｌｕａｔｉｏｎｆｏｒｉｔｅｒａｔｉｖｅｏｐｅｒａｔｉｏｎｏｎＨａｄｏｏｐａｎｄＳｐａｒｋ［Ｃ］．２０１３ＩＥＥＥ１０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＣｏｍ⁃ ｐｕｔｉｎｇａｎｄＣｏｍｍｕｎｉｃａｔｉｏｎｓ＆２０１３ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＥｍｂｅｄｄｅｄａｎｄＵｂｉｑｕｉｔｏｕｓＣｏｍｐｕｔｉｎｇ（ＨＰＣＣ＿ＥＵＣ）．Ｚｈａｎｇｊｉａｊｉｅ，Ｃｈｉｎａ：ＩＥＥＥ，２０１３：７２１⁃ ７２７．［１７］海沫，张书云，马燕林．分布式环境中聚类问题算法研究综述［Ｊ］．计算机应用研究，２０１３，３０（９）：２５６１⁃ ２５６４．ＨＡＩＭｏ，ＺＨＡＮＧＳｈｕｙｕｎ，ＭＡＹａｎｌｉｎ．Ａｌｇｏｒｉｔｈｍｒｅｖｉｅｗｏｆｄｉｓｔｒｉｂｕｔｅｄｃｌｕｓｔｅｒｉｎｇｐｒｏｂｌｅｍｉｎｄｉｓｔｒｉｂｕｔｅｄｅｎｖｉｒｏｎ⁃ ｍｅｎｔｓ［Ｊ］．ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ，２０１３，３０（９）：２５６１⁃２５６４．［１８］余晓山，吴扬扬．基于ＭａｐＲｅｄｕｃｅ的文本层次聚类并行化［Ｊ］．计算机应用，２０１４，３４（６）：１５９５⁃１５９９，１６８０．ＹＵＸｉａｏｓｈａｎ，ＷＵＹａｎｇｙａｎｇ．ＰａｒａｌｌｅｌｔｅｘｔｈｉｅｒａｒｃｈｉｃａｌｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎＭａｐＲｅｄｕｃｅ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓ，２０１４，３４（６）：１５９５⁃１５９９，１６８０．［１９］ＭＣＣＡＬＬＵＭＡ，ＮＩＧＡＭＫ，ＵＮＧＡＲＬＨ．Ｅｆｆｉｃｉｅｎｔｃｌｕｓｔｅｒｉｎｇｏｆｈｉｇｈ⁃ｄｉｍｅｎｓｉｏｎａｌｄａｔａｓｅｔｓｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｒｅｆｅｒｅｎｃｅｍａｔｃｈｉｎｇ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＳｉｘｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＵＳＡ：ＡＣＭ，２０００：１６９⁃ １７８．［２０］ＫＡＮＵＮＧＯＴ，ＭＯＵＮＴＤＭ，ＮＥＴＡＮＹＡＨＵＮＳ，ｅｔａｌ．Ａｎｅｆｆｉｃｉｅｎｔｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ：Ａｎａｌｙｓｉｓａｎｄｉｍｐｌｅｍｅｎｔａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＰａｔｔｅｒｎＡｎａｌｙｓｉｓａｎｄＭａｃｈｉｎｅＩｎｔｅｌｌｉｇｅｎｃｅ，２００２，２４（７）：８８１⁃８９２．作者简介：王德文，男，１９７３年生，副教授，主要研究方向为云计算、大数据分析。孙志伟，男，１９８７年生，硕士研究生，主要研究方向为云计算与大数据挖掘。［责任编辑：刘畅］第一届国际智能信息系统应用研讨会ＦｉｒｓｔＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｏｎＡｐｐｌｉｅｄＩｎｔｅｌｌｉｇｅｎｔＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ（ＡＩＩＳ２０１５）Ｏｕｒｓｏｃｉｅｔｙｎｅｅｄｓａｎｄｅｘｐｅｃｔｓｍｏｒｅｈｉｇｈ⁃ｖａｌｕｅｓｅｒｖｉｃｅｓ．Ｓｕｃｈ＂ｋｎｏｗｌｅｄｇｅ⁃ｉｎｔｅｎｓｉｖｅ＂ｓｅｒｖｉｃｅｓｃａｎｏｎｌｙｂｅｄｅｌｉｖｅｒｅｄｉｆｔｈｅｎｅｃｅｓｓａｒｙｏｒｇａｎｉｚａｔｉｏｎａｌａｎｄｔｅｃｈｎｉｃａｌｒｅｑｕｉｒｅｍｅｎｔｓａｒｅｆｕｌｆｉｌｌｅｄ．Ｉｎａｄｄｉｔｉｏｎ，ｔｈｅｃｏｓｔ⁃ｂｅｎｅｆｉｔａｎａｌｙｓｉｓｆｒｏｍｔｈｅｓｅｒｖｉｃｅｐｒｏｖｉｄｅｒｐｏｉｎｔｏｆｖｉｅｗｎｅｅｄｓｔｏｂｅｐｏｓｉｔｉｖｅ．Ｔｈｅｒｅｉｓａｌａｒｇｅａｎｄｒａｐｉｄｌｙｉｎｃｒｅａｓｉｎｇｌｉｔｅｒａｔｕｒｅｏｎｈｏｗａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅｍｉｇｈｔｂｅｕｓｅｄｔｏｄｅｖｅｌｏｐｍｏｒｅ＂ｉｎｔｅｌｌｉｇｅｎｔ＂ｉｎ⁃ ｆｏｒｍａｔｉｏｎｓｙｓｔｅｍｓ．ＴｈｅｐｒｏｐｏｓｅｄｗｏｒｋｓｈｏｐｗｉｌｌａｄｄｒｅｓｓａｌｌｐｏｓｓｉｂｌｅｒｅｓｅａｒｃｈｉｎｔｈｅＩｎｔｅｌｌｉｇｅｎｔＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ．Ｔｈｅｗｏｒｋｓｈｏｐｗｉｌｌｐｒｉｍａｒｉｌｙａｄｄｒｅｓｓｔｈｅｆｏｌｌｏｗｉｎｇｔｈｅｍｅｓ：１）ＩｎｆｏｒｍａｔｉｏｎＳｔｏｒａｇｅａｎｄＲｅｔｒｉｅｖａｌ；２）ＤａｔａＳｔｒｕｃｔｕｒｅｓ，ＣｒｙｐｔｏｌｏｇｙａｎｄＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ；３）ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ（ｉｎｃｌ．Ｒｏｂｏｔｉｃｓ）；４）ＩＴｉｎＢｕｓｉｎｅｓｓ；５）ＤｏｃｕｍｅｎｔＰｒｅｐａｒａｔｉｏｎａｎｄＴｅｘｔＰｒｏｃｅｓｓｉｎｇ；６）ＩｎｄｕｓｔｒｙＳｅｃｔｏｒｓ；７）Ｅｌｅｃｔｒｏｎｉｃｓ；８）ＩＴ＆Ｓｏｆｔｗａｒｅ；９）Ｔｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓ．Ｗｅｂｓｉｔｅ：ｈｔｔｐ：／／ｗｗｗ．ｉｃｄｉｍ．ｏｒｇ／ｉｉｓ．ｈｔｍｌ ·５７６· 智能系统学报第１０卷

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录