第10卷第4期 智能系统学报 Vol.10 No.4 2015年8月 CAAI Transactions on Intelligent Systems Aug.2015 D0:10.3969/j.issn.1673-4785.201411011 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.tp.20150716.0934.003.html 一种基于内存计算的电力用户聚类分析方法 王德文,孙志伟 (华北电力大学控制与计算机工程学院,河北保定071003) 摘要:随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用 电行为分析的需要。鉴于K-means算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计 算框架对其进行改进与并行化,减少作业的运行与输入输出操作时间,提高聚类分析的处理能力。对用电测量数据 进行预处理构建实验数据集,实验结果表明本方法对电力用户聚类分析的准确率高于单机K-meas方法,其处理速 度和能力明显优于单机和基于MapReduce并行计算框架的聚类方法,并对数据的增长具有较好的适应性。 关键词:大数据:智能用电;弹性分布式数据集:内存计算:聚类分析 中图分类号:TP18文献标志码:A文章编号:1673-4785(2015)04-0569-08 中文引用格式:王德文,孙志伟.一种基于内存计算的电力用户聚类分析方法[J】.智能系统学报,2015,10(4):569-576. 英文引用格式:WANG Dewen,SUN Zhiwei..A method for cluster analysis of electric power consumers based on in-memory compu- ting[J].CAAI Transactions on Intelligent Systems,2015,10(4):569-576. A method for cluster analysis of electric power consumers based on in-memory computing WANG Dewen,SUN Zhiwei (School of Control and Computer Engineering,North China Electric Power University,Baoding 071003,China) Abstract:With the rapid growth of electricity consumption data collected by smart electric meters and data acquisi- tion terminals,the traditional data analysis method cannot meet the demand of smart power consumption behavior a- nalysis in the big data environment.Since K-means algorithm demonstrates high calculation efficiency,easy paral- lelization and other characteristics,a method for improving and parallelizing K-means with the resilient distributed data set and parallel in-memory computing framework is presented,the running time of job operation and I/O oper- ations is reduced,and the ability of clustering analysis is improved.The experimental data set is built by prepro- cessed electricity consumption data.Eexperimental results show that the accuracy rate by this cluster analysis meth- od for electric power users is obviously better than the single machine K-means algorithm.The processing speed and ability of this method are superior to the single machine and the clustering method based on MapReduce parallel computing framework,and this method has good adaptability for the growth of data. Keywords:big data;smart electricity consumption;resilient distributed data set;in-memory computing;cluster analysis 电力用户行为分析是通过分析用电数据之间关 要意义[。随着智能用电的飞速发展,智能电表 联性和相似性,发现用户潜在的行为习惯,进行用户 与采集终端得到广泛应用,已扩大到居民用户等各 细分,对于引导用户的用电行为与节能改造具有重 种电力场所,采集及处理的用电数据呈指数级增长、 数据量巨大、结构类型繁多、交互性强,逐渐进入用 收稿日期:2014-11-10.网络出版日期:2015-07-16. 电大数据时代[)。传统的数据分析与处理方法存 基金项目:国家自然科学基金资助项目(61074078):中央高校基本科研 业务费专项资金资助项目(12MS113). 在计算能力不足、处理效率低的瓶颈,已不能完全满 通信作者:孙志伟.E-mail:sunzw.20120901@126.com 足大数据环境下智能用电数据快速分析的需求
第 10 卷第 4 期 智 能 系 统 学 报 Vol.10 №.4 2015 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2015 DOI:10.3969 / j.issn.1673⁃4785.201411011 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.tp.20150716.0934.003.html 一种基于内存计算的电力用户聚类分析方法 王德文,孙志伟 (华北电力大学 控制与计算机工程学院,河北 保定 071003) 摘 要:随着智能电表与采集终端采集的用电数据迅猛增长,传统数据分析方法已经不能满足大数据环境下智能用 电行为分析的需要。 鉴于 K-means 算法具有计算效率高、容易并行化等特点,采用弹性分布式数据集与并行内存计 算框架对其进行改进与并行化,减少作业的运行与输入输出操作时间,提高聚类分析的处理能力。 对用电测量数据 进行预处理构建实验数据集,实验结果表明本方法对电力用户聚类分析的准确率高于单机 K-means 方法,其处理速 度和能力明显优于单机和基于 MapReduce 并行计算框架的聚类方法,并对数据的增长具有较好的适应性。 关键词:大数据;智能用电;弹性分布式数据集;内存计算;聚类分析 中图分类号: TP18 文献标志码:A 文章编号:1673⁃4785(2015)04⁃0569⁃08 中文引用格式:王德文,孙志伟. 一种基于内存计算的电力用户聚类分析方法[J]. 智能系统学报, 2015, 10(4): 569⁃576. 英文引用格式:WANG Dewen, SUN Zhiwei. A method for cluster analysis of electric power consumers based on in-memory compu⁃ ting[J]. CAAI Transactions on Intelligent Systems, 2015, 10(4): 569⁃576. A method for cluster analysis of electric power consumers based on in⁃memory computing WANG Dewen, SUN Zhiwei (School of Control and Computer Engineering, North China Electric Power University, Baoding 071003, China) Abstract:With the rapid growth of electricity consumption data collected by smart electric meters and data acquisi⁃ tion terminals, the traditional data analysis method cannot meet the demand of smart power consumption behavior a⁃ nalysis in the big data environment. Since K⁃means algorithm demonstrates high calculation efficiency, easy paral⁃ lelization and other characteristics, a method for improving and parallelizing K⁃means with the resilient distributed data set and parallel in⁃memory computing framework is presented, the running time of job operation and I/ O oper⁃ ations is reduced, and the ability of clustering analysis is improved. The experimental data set is built by prepro⁃ cessed electricity consumption data. Eexperimental results show that the accuracy rate by this cluster analysis meth⁃ od for electric power users is obviously better than the single machine K⁃means algorithm. The processing speed and ability of this method are superior to the single machine and the clustering method based on MapReduce parallel computing framework, and this method has good adaptability for the growth of data. Keywords:big data; smart electricity consumption; resilient distributed data set; in⁃memory computing; cluster analysis 收稿日期:2014⁃11⁃10. 网络出版日期:2015⁃07⁃16. 基金项目:国家自然科学基金资助项目(61074078);中央高校基本科研 业务费专项资金资助项目(12MS113). 通信作者:孙志伟. E⁃mail: sunzw20120901@ 126.com. 电力用户行为分析是通过分析用电数据之间关 联性和相似性,发现用户潜在的行为习惯,进行用户 细分,对于引导用户的用电行为与节能改造具有重 要意义[1⁃2] 。 随着智能用电的飞速发展,智能电表 与采集终端得到广泛应用,已扩大到居民用户等各 种电力场所,采集及处理的用电数据呈指数级增长、 数据量巨大、结构类型繁多、交互性强,逐渐进入用 电大数据时代[3] 。 传统的数据分析与处理方法存 在计算能力不足、处理效率低的瓶颈,已不能完全满 足大数据环境下智能用电数据快速分析的需求
.570 智能系统学报 第10卷 聚类分析作为数据挖掘4中的一个重要分支, 据的快速处理分析。Spark克服了Hadoop在迭代计 能够对数据进行全局分析,得出数据的分布特征,已 算上的不足,现已成为Apache的顶级项目。Spark 经被用于电力用户行为分析领域。例如,文献[5] 提供了一种内存并行化计算框架,框架将作业所需 通过对电力用户负荷特性进行分析,在传统行业划 数据读入内存,所需数据时直接从内存中查询,这样 分为基础上使用聚类算法对用户进行分类研究,但 比基于磁盘的MapReduce访问数据的速度快,减少 没有将用户的用电习惯考虑进去。文献[6]针对变 了作业的运行时间,也减少了/0操作o]。 电站负荷提出模糊C均值聚类方法,把变电站负荷 Spark的计算任务特点是在多个计算应用中支持 分为工业、农业、市政等类别,结论认为该方法明显 数据集合的共享和重用。为了实现计算过程中的数 优于基于等价关系的聚类法。文献[7]将模糊聚类 据集的重用,Spak设计了一个弹性分布式数据集合 方法应用于电力销售领域,利用负荷曲线特征实现 RDD(resilient distributed dataset),它是一种类似于 对电力用户分类,为售电企业制定合理的电价和有 分布式内存的数据抽象结构。RDD数据集是一个只 效实施负荷管理提供参考。上述传统聚类方法均没 读的分区集合,可以在多个计算应用中共享,它不仅 有考虑智能用电行为分析在大数据环境下对海量数 支持基于数据集的应用,还具有容错、局部计算调度 据的可靠存储、高效管理与快速分析等方面所面临 和扩展性。RDD支持用户在执行查询时选择缓存数 的挑战。 据集在内存中,便于下次计算的数据集重集,减少不 大数据分析侧重于通过分布式或并行算法提高 必要的数据重复读写操作4)。 现有数据挖掘方法对海量数据的处理效率。云计算 Spark没有自己的文件系统,但可以使用Hadoop 具有高可靠性、海量数据处理、扩展性强以及设备利 支持的文件系统作为输入源或者输出地。Spark作为 用率高等优点,已经成为大数据分析的基础支撑技 MapReduce的内存计算的扩展已被广泛的应用于雅 术。业界已经采用云计算技术对智能用电数据的存 虎、Facebook,淘宝等互联网公司的海量数据处理分 储与分析进行了探索,并取得了一定成果。例如,文 析中。Spark作业的执行过程如图1所示。 献[8]基于Hadoop并行计算框架将K-means算法 启动程序程序管理器 并行化,对居民用电行为进行分析,但对K-means算 节点 Spark执行环境 法的一些参数的选取没有进行相关说明。文献[9] 分配程序 管理器」 有向无环图调度器 对K-means参数选择进行了改进,但是同样是利用 Yam调度器 Hadoop并行计算框架对K-means进行并行化。算 提交请求 Spark 资源 申请容器 法在计算过程中需要大量的迭代计算以及/0操 Yarn 客户端 管理 作,Hadoop并不适合处理具有大量迭代计算以及I/ 启动程序 节点 资源容器 0操作的作业,Hadoop在执行过程会有大量的I/0 管理器 操作,使/0成为并行计算的瓶颈,严重降低并行计 执行器 算的性能。并行内存计算框架Spark能够充分利用 图1 Spark作业执行过程 集群内存,进一步提升快速处理分析能力,为智能用 Fig.1 The execution process of Spark job 电行为分析提供了一个全新的技术思路[o]。 Spark作业的执行过程首先由客户端提交一个 本文提出一种基于内存计算的并行聚类分析方 作业请求,通过验证之后向资源管理器提交作业,资 法(spark-Canopy-Kmeans,SCK),利用Hadoop的分 源管理器将作业初始化并分配一个资源容器,在某 布式文件系统高效的存储能力[)以及Spark强大 个节点管理器中启动程序管理器,程序管理器主要 的并行内存计算能力,对K-means算法参数选取的 负责对作业的分配,向资源管理器申请资源容器并 盲目性进行改进,并进行内存并行化,实现智能用电 与相应的节点点管理器进行交互运行作业任 数据的准确与快速分析。在Spark集群中开展实 务[1516] 验,与传统K-means聚类算法和基于MapReduce并 1.2内存并行化聚类算法分析 行化的K-means算法(MR-Kmeans)进行对比实验。 1.2.1聚类算法分析 1 基于并行内存计算的聚类算法分析 Canopy算法是众多聚类算法中计算比较快速 的算法,但其聚类精度较低,往往将其作为传统聚类 1.1并行内存计算框架Spark 算法的第一步,先对数据集进行粗聚类,然后对粗聚 Spark是一个开源的分布式集群系统,用于大数 类的结果使用传统的聚类方法进行精细聚类
聚类分析作为数据挖掘[4] 中的一个重要分支, 能够对数据进行全局分析,得出数据的分布特征,已 经被用于电力用户行为分析领域。 例如,文献[5] 通过对电力用户负荷特性进行分析,在传统行业划 分为基础上使用聚类算法对用户进行分类研究,但 没有将用户的用电习惯考虑进去。 文献[6]针对变 电站负荷提出模糊 C 均值聚类方法,把变电站负荷 分为工业、农业、市政等类别,结论认为该方法明显 优于基于等价关系的聚类法。 文献[7]将模糊聚类 方法应用于电力销售领域,利用负荷曲线特征实现 对电力用户分类,为售电企业制定合理的电价和有 效实施负荷管理提供参考。 上述传统聚类方法均没 有考虑智能用电行为分析在大数据环境下对海量数 据的可靠存储、高效管理与快速分析等方面所面临 的挑战。 大数据分析侧重于通过分布式或并行算法提高 现有数据挖掘方法对海量数据的处理效率。 云计算 具有高可靠性、海量数据处理、扩展性强以及设备利 用率高等优点,已经成为大数据分析的基础支撑技 术。 业界已经采用云计算技术对智能用电数据的存 储与分析进行了探索,并取得了一定成果。 例如,文 献[8]基于 Hadoop 并行计算框架将 K⁃means 算法 并行化,对居民用电行为进行分析,但对 K⁃means 算 法的一些参数的选取没有进行相关说明。 文献[9] 对 K⁃means 参数选择进行了改进,但是同样是利用 Hadoop 并行计算框架对 K⁃means 进行并行化。 算 法在计算过程中需要大量的迭代计算以及 I/ O 操 作,Hadoop 并不适合处理具有大量迭代计算以及 I/ O 操作的作业,Hadoop 在执行过程会有大量的 I/ O 操作,使 I/ O 成为并行计算的瓶颈,严重降低并行计 算的性能。 并行内存计算框架 Spark 能够充分利用 集群内存,进一步提升快速处理分析能力,为智能用 电行为分析提供了一个全新的技术思路[10] 。 本文提出一种基于内存计算的并行聚类分析方 法( spark⁃Canopy⁃Kmeans,SCK),利用 Hadoop 的分 布式文件系统高效的存储能力[11⁃13] 以及 Spark 强大 的并行内存计算能力,对 K⁃means 算法参数选取的 盲目性进行改进,并进行内存并行化,实现智能用电 数据的准确与快速分析。 在 Spark 集群中开展实 验,与传统 K⁃means 聚类算法和基于 MapReduce 并 行化的 K⁃means 算法(MR⁃Kmeans)进行对比实验。 1 基于并行内存计算的聚类算法分析 1.1 并行内存计算框架 Spark Spark 是一个开源的分布式集群系统,用于大数 据的快速处理分析。 Spark 克服了 Hadoop 在迭代计 算上的不足,现已成为 Apache 的顶级项目。 Spark 提供了一种内存并行化计算框架,框架将作业所需 数据读入内存,所需数据时直接从内存中查询,这样 比基于磁盘的 MapReduce 访问数据的速度快,减少 了作业的运行时间,也减少了 I/ O 操作[10] 。 Spark 的计算任务特点是在多个计算应用中支持 数据集合的共享和重用。 为了实现计算过程中的数 据集的重用,Spark 设计了一个弹性分布式数据集合 RDD (resilient distributed dataset),它是一种类似于 分布式内存的数据抽象结构。 RDD 数据集是一个只 读的分区集合,可以在多个计算应用中共享,它不仅 支持基于数据集的应用,还具有容错、局部计算调度 和扩展性。 RDD 支持用户在执行查询时选择缓存数 据集在内存中,便于下次计算的数据集重集,减少不 必要的数据重复读写操作[14] 。 Spark 没有自己的文件系统,但可以使用 Hadoop 支持的文件系统作为输入源或者输出地。 Spark 作为 MapReduce 的内存计算的扩展已被广泛的应用于雅 虎、Facebook,淘宝等互联网公司的海量数据处理分 析中。 Spark 作业的执行过程如图 1 所示。 图 1 Spark 作业执行过程 Fig.1 The execution process of Spark job Spark 作业的执行过程首先由客户端提交一个 作业请求,通过验证之后向资源管理器提交作业,资 源管理器将作业初始化并分配一个资源容器,在某 个节点管理器中启动程序管理器,程序管理器主要 负责对作业的分配,向资源管理器申请资源容器并 与相 应 的 节 点 点 管 理 器 进 行 交 互 运 行 作 业 任 务[1 5 ⁃1 6 ] 。 1.2 内存并行化聚类算法分析 1.2.1 聚类算法分析 Canopy 算法是众多聚类算法中计算比较快速 的算法,但其聚类精度较低,往往将其作为传统聚类 算法的第一步,先对数据集进行粗聚类,然后对粗聚 类的结果使用传统的聚类方法进行精细聚类。 ·570· 智 能 系 统 学 报 第 10 卷
第4期 王德文,等:一种基于内存计算的电力用户聚类分析方法 ·571. K-means算法主要由2步迭代操作构成:第1 Canopy算法把聚类过程分为2部分,第1部分使 步是分类阶段,将数据集中的数据通过欧式距离划 用一个简单快捷距离计算方法将数据集分为若干个 分到离自己最近的聚类中:第2步是更新阶段,计算 重叠的Canopy子集,此过程中每个数据点之间没有 新聚类中的质心以更新之前的质心。上述2步 联系,只是计算与Canopy子集的中心点的距离,可 迭代是完全独立的,适应并行化运行环境、实现简 以把数据集分布在若干个计算节点上进行并行计 单、计算效率高。另外,K-means算法已经被研究应 算。第2部分为使用一个精准的距离计算方法计算 用于用电行为分析领域,便于进行分析比较以验证 出现在第1部分中的同一个Canopy子集中的数据 本文工作成果,因此本文围绕K-means算法进行并 与中心点的距离,同样也适合并行计算。 行化分析、改进与实验对比。 1.2.3K-means算法原理及并行化分析 1.2.2 Canopy算法原理及并行化分析 K-means算法是解决聚类问题的经典算法,其 Canopy的算法过程首先会选择2个阈值T,和 主要思想是从数据集S中选择k个点作为初始聚类 T2(T,>T2),然后从数据集中选择一个数据点作为 的质心,接下来将数据中的每个点与距它最近的质 第I个Canopy子集的中心点,随后计算各个数据,点 心聚类u0。K-means执行流程图如图3所示。 到此中心点的距离,根据之前设定的T、T,阈值来 初始化k个簇的质心 输入要生成 决定隶属哪个Canopy子集。其算法步骤为: 筷的个数k 1)设置初始距离阈值T1、T2(T>T2),T,、T2的 确定数据点 设定原则可以根据实际需求进行多次实验选取也可 的簇隶属关系 以使用交叉验证选取。 2)从数据集中随机挑选一个数据点作为第1 N 迭代次数T, 重新计算 k个簇的质心 将当前数据点作为一个新的Canopy子集中心点。 图3K-means聚类流程图 5)重复第3)、4)步,直到数据集为空,算法结束。 Fig.3 K-means clustering flowchart Canopy算法流程图如图2所示。 其算法步骤如下: 1)对数据集S决定k(k<IS1)的值,也就是对数 设置阂值T、T 选取第一个 Canopy中心点 据集S的分类个数。 数据点到中 2)在数据集S中选取k个数据点作为初始簇的 d<T. 心点的距离d 质心k,k2,…,k⊙ 3)对数据集S中第i个样本点s:计算其与各个 d<T 并人当前Canopy子集,并 簇质心k的距离,将s,分配给最近的簇质心。第i个 从数据集中删除此数据点 样本点到第广个质心的距离 并人当前Canopy-子集 K(i)=min‖s:-k‖2} (1)》 式中:i=1,2,…,s,j=1,2,…,k,s表示s中第i 当前数据点作为新 数据集 的Canopy子集中心点 是否为空 个样本点,k表示第j个质心,公式中距离采用欧 Y 式距离。 停止计算 4)判断是否满足迭代次数,满足则停止计算: 输出分类结果 否则采用误差平方函数计算目标函数: 图2 Canopy算法流程 Fig.2 Flowchart of Canopy algorithms (2)
K⁃means 算法主要由 2 步迭代操作构成:第 1 步是分类阶段,将数据集中的数据通过欧式距离划 分到离自己最近的聚类中;第 2 步是更新阶段,计算 新聚类中的质心以更新之前的质心[17] 。 上述 2 步 迭代是完全独立的,适应并行化运行环境、实现简 单、计算效率高。 另外,K⁃means 算法已经被研究应 用于用电行为分析领域,便于进行分析比较以验证 本文工作成果,因此本文围绕 K⁃means 算法进行并 行化分析、改进与实验对比。 1.2.2 Canopy 算法原理及并行化分析 Canopy 的算法过程首先会选择 2 个阈值 T1 和 T2(T1>T2 ),然后从数据集中选择一个数据点作为 第 1 个 Canopy 子集的中心点,随后计算各个数据点 到此中心点的距离,根据之前设定的 T1 、T2 阈值来 决定隶属哪个 Canopy 子集。 其算法步骤为: 1)设置初始距离阈值 T1 、T2(T1 >T2 ),T1 、T2 的 设定原则可以根据实际需求进行多次实验选取也可 以使用交叉验证选取。 2)从数据集中随机挑选一个数据点作为第 1 个 Canopy 子集的中心点,并从数据集中删除。 3)计算数据集中第 i 个数据点与 Canopy 子集 中心点的粗糙距离 d。 4)判断 d 与 T1 、T2的关系。 如果 d<T2 ,将此数 据点隶属于当前 Canopy 子集并从数据集中删除此 数据点;如果 d<T1 ,将此数据点隶属于当前 Canopy 子集但并不从数据集中删除此数据点;如果 d>T1 , 将当前数据点作为一个新的 Canopy 子集中心点。 5)重复第 3)、4)步,直到数据集为空,算法结束。 Canopy 算法流程图如图 2 所示。 图 2 Canopy 算法流程 Fig.2 Flowchart of Canopy algorithms Canopy 算法把聚类过程分为 2 部分,第 1 部分使 用一个简单快捷距离计算方法将数据集分为若干个 重叠的 Canopy 子集,此过程中每个数据点之间没有 联系,只是计算与 Canopy 子集的中心点的距离,可 以把数据集分布在若干个计算节点上进行并行计 算。 第 2 部分为使用一个精准的距离计算方法计算 出现在第 1 部分中的同一个 Canopy 子集中的数据 与中心点的距离,同样也适合并行计算。 1.2.3 K⁃means 算法原理及并行化分析 K⁃means 算法是解决聚类问题的经典算法,其 主要思想是从数据集 S 中选择 k 个点作为初始聚类 的质心,接下来将数据中的每个点与距它最近的质 心聚类[18⁃20] 。 K⁃means 执行流程图如图 3 所示。 图 3 K⁃means 聚类流程图 Fig.3 K⁃means clustering flowchart 其算法步骤如下: 1)对数据集 S 决定 k(k< | S | )的值,也就是对数 据集 S 的分类个数。 2)在数据集 S 中选取 k 个数据点作为初始簇的 质心 k1 ,k2 ,…,kk。 3)对数据集 S 中第 i 个样本点 si计算其与各个 簇质心 kj的距离,将 si分配给最近的簇质心。 第 i 个 样本点到第 j 个质心的距离 Kj(i) = min{‖si - kj‖2 } (1) 式中:i = 1,2,…, s ,j = 1,2,…,k,si表示 s 中第 i 个样本点,kj表示第 j 个质心,公式中距离采用欧 式距离。 4)判断是否满足迭代次数,满足则停止计算; 否则采用误差平方函数计算目标函数: J = ∑ k j = 1 ∑ S i = 1 ‖si - ki‖2 (2) 第 4 期 王德文,等:一种基于内存计算的电力用户聚类分析方法 ·571·
.572. 智能系统学报 第10卷 式中:k为要聚类的个数,1S1为样本的个数,k为第j 点。其算法流程如图4所示。 个质心。 HDFS文件 5)计算△),判断是否满足阈值,满足则停止计 RDD 算。否则执行第6)步。 6)对上步得到的新簇重新估算k个簇的质心, Canopy并行化 map map..map 与2ie=1,2…k (3) Reduce 式中:s:表示数据集中的样本点,IK|表示第j个聚 K-means并行化 类中样本点的个数,k:则为新聚类的中心点。之后 RDD map map ...map 转到第3)步。 Reduce 1.3基于内存计算的聚类分析方法 K-means算法虽然简单、容易理解和实现,但是 聚类结果 仍有一些不足,如初始k值无法确定,需反复多次尝 图4 Canopy和K-means的内存并行化流程图 试寻求最优解k:初始的聚类中心点无法确定,目前 Fig.4 The in-memory parallelization flowchart of Can- 多是随机选取k个中心点,当面对海量的数据集时 opy and K-means 其迭代过程繁琐,运行时间较长等。 SCK利用Spark的特性将Canopy粗聚类的数 使用Canopy算法能够快速对数据进行粗聚类 据放置在内存中,方便随后K-means聚类的时候可 的特点,将原始数据集分为p个重叠的子集,则此时 以多次重复使用,而不需要再次从分布式文件系统 的p即为随后K-means算法中初始的k值,p个重叠 中读取,减少I0操作,提高访问速度。而且在K 的子集的中心点为K-means算法中初始的K-means means计算过程中只需要计算Canopy子集中的数 聚类中心点。其次,将此设计思路在并行内存计算 据,而无需对整个数据集进行计算,减少了计算量, 框架Spark上实现。实现的具体步骤如下: 更加适合进行大数据处理。 1)从分布式文件系统上读取数据集生成RDD。 2)将原数据集通过map进行格式化,并执行 2实验与结果分析 cache操作,将数据读入内存。 2.1智能用电系统架构 3)在各计算节点上读取本地数据进行计算与 本文设计一个智能用电系统,安装在智能小区 Canopy中心点的距离d。 中,包括智能插座、智能开关、智能电表和相关传感 4)判断距离d与T,、T,的关系。如果dT,将当前数据点作为一个新的Canopy子集中心 站应用层 云服务传输中心 用电调整 点,并广播到全局的Canopy中心点集中。 5)如果数据集为空时,将生成的p个Canopy子 互联网 GPRS/3G/4G 集进行RDD操作。否则转到第3)步。 网络层 WIFI/有限 6)将上一步产生的p个Canopy中心点赋值给 智能网关 /ZigBee 智能网关 K-means中k个聚类的中心点,且k=po 7)计算Canopy子集中每个数据点到中心点的 设备感知 智能开关 智能插座 各种传感器 距离,进行K-means聚类。 8)对RDD执行Reduce操作将局部聚类合并成 冰箱 电饭煲 空调 全局聚类,并计算新聚类中数据点的平均值,作为新 图5智能用电系统架构图 聚类的中心点。 Fig.5 Architecture diagram of smart electricity con- 9)对新中心点做Ma即p操作,计算其所属的Can- sumption system opy子集,计算新旧中心的平方差,更新聚类中心
式中:k 为要聚类的个数, | S |为样本的个数,ki为第 j 个质心。 5)计算 ΔJ ,判断是否满足阈值,满足则停止计 算。 否则执行第 6)步。 6)对上步得到的新簇重新估算 k 个簇的质心, kj = 1 Kj ∑i si,i ∈ Kj,j = 1,2,…,k (3) 式中:si表示数据集中的样本点, | Kj | 表示第 j 个聚 类中样本点的个数,kj 则为新聚类的中心点。 之后 转到第 3)步。 1.3 基于内存计算的聚类分析方法 K⁃means 算法虽然简单、容易理解和实现,但是 仍有一些不足,如初始 k 值无法确定,需反复多次尝 试寻求最优解 k;初始的聚类中心点无法确定,目前 多是随机选取 k 个中心点,当面对海量的数据集时 其迭代过程繁琐,运行时间较长等。 使用 Canopy 算法能够快速对数据进行粗聚类 的特点,将原始数据集分为 p 个重叠的子集,则此时 的 p 即为随后 K⁃means 算法中初始的 k 值,p 个重叠 的子集的中心点为 K⁃means 算法中初始的 K⁃means 聚类中心点。 其次,将此设计思路在并行内存计算 框架 Spark 上实现。 实现的具体步骤如下: 1)从分布式文件系统上读取数据集生成 RDD。 2)将原数据集通过 map 进行格式化,并执行 cache 操作,将数据读入内存。 3)在各计算节点上读取本地数据进行计算与 Canopy 中心点的距离 d。 4)判断距离 d 与 T1 、T2的关系。 如果 d<T2 ,将 此数据点隶属于当前 Canopy 子集并从数据集中删 除此数据点;如果 d < T1 ,将此数据点隶属于当前 Canopy 子集但并不从数据集中删除此数据点;如果 d>T1 ,将当前数据点作为一个新的 Canopy 子集中心 点,并广播到全局的 Canopy 中心点集中。 5)如果数据集为空时,将生成的 p 个 Canopy 子 集进行 RDD 操作。 否则转到第 3)步。 6)将上一步产生的 p 个 Canopy 中心点赋值给 K⁃means 中 k 个聚类的中心点,且 k = p。 7)计算 Canopy 子集中每个数据点到中心点的 距离,进行 K⁃means 聚类。 8)对 RDD 执行 Reduce 操作将局部聚类合并成 全局聚类,并计算新聚类中数据点的平均值,作为新 聚类的中心点。 9)对新中心点做 Map 操作,计算其所属的 Can⁃ opy 子集,计算新旧中心的平方差,更新聚类中心 点。 其算法流程如图 4 所示。 图 4 Canopy 和 K⁃means 的内存并行化流程图 Fig.4 The in⁃memory parallelization flowchart of Can⁃ opy and K⁃means SCK 利用 Spark 的特性将 Canopy 粗聚类的数 据放置在内存中,方便随后 K⁃means 聚类的时候可 以多次重复使用,而不需要再次从分布式文件系统 中读取,减少 IO 操作,提高访问速度。 而且在 K⁃ means 计算过程中只需要计算 Canopy 子集中的数 据,而无需对整个数据集进行计算,减少了计算量, 更加适合进行大数据处理。 2 实验与结果分析 2.1 智能用电系统架构 本文设计一个智能用电系统,安装在智能小区 中,包括智能插座、智能开关、智能电表和相关传感 器,其系统逻辑架构如图 5 所示。 图 5 智能用电系统架构图 Fig.5 Architecture diagram of smart electricity con⁃ sumption system ·572· 智 能 系 统 学 报 第 10 卷
第4期 王德文,等:一种基于内存计算的电力用户聚类分析方法 ·573. 2.2实验数据 峰电量为当日用电高峰期所用电量,例如 1)原始测量数据 7:00~12:00,19:00:~00:00,谷电量为当日用电低 本实验原始数据来源于居民用电的实际测量数 谷期所用电量,例如00:00~7:00。平电量为当日用 据,数据的采集频率为1min,每户数据约200万条, 电不是高峰期和用电低谷期用的电量。图7给出实 采集内容包括用户标识、采集日期、采集时间、有功 验数据集所构成的某户一周内用电量曲线。 功率、电压、电流、智能插座1用电量、智能插座2用 表2实验数据集 电量、智能插座3用电量等,如表1所示。 Table 2 Experimental data sets 表1居民用电测量数据 字段属性 描述 Table 1 Measurement data of electric power consumption 用户标识 用户唯一标识 字段属性 描述 采集日期 格式为20121217 用户标识 用户唯一标识 用电量/kW·h 每日用电量 采集日期 格式为2012/12/17 峰电量/kW·h 每日峰电量 采集时间 格式为20:27 谷电量/kW·h 每日谷电量 有功功率/kW 平均每分钟有功功率 平电量/kW·h 每日平电量 电压/N 电压 常住人口/人 家庭居住人口数 电流/A 平均每分钟电流 居住面积/m2 住房实际使用面积单位 冰箱、空调、洗衣机、微波炉 智能插座/W·h 等家用大功率电器的用电量 35 ◆ 图6给出原始测量数据中某天有功功率曲线 30 实例。 s25 ◆一总电量士一谷电量 8 量一峰电量一一平电量 7 6 品 5 4 3 3/253/263/273/283/293/303/31 日期 图7一周内用电量曲线图 Fig.7 Electric power consumption graphs in a week 时间 在下面的实验过程中,将从实验数据集中随机 图6某天测量数据实例 选取具有高耗能、中等耗能、低耗能典型特征的用户 Fig.6 Example of measurement data in a day 用电数据进行实验测试,进行多次的测试,取平均值 2)数据预处理与实验数据集构建 为最终实验结果。实验数据集虽然没有达到大数据 原始测量数据无法直接用于实验分析,需要对 的规模,但可以用此实验数据进行算法正确性实验, 其进行预处理,按照实验目的构建实验数据集。 并对实验数据集扩充进行内存并行化性能测试。 原始测量数据中的电压、电流在实验中无需使 2.3实验结果分析 用,需要进行删除。原始测量数据中存在约1.3%的 1)实验1结果分析 空缺值,需要对其进行删除,并增加常驻人口与居住 本实验采用SCK对采集到的海量智能用电数 面积等数据。原始数据采集频率为1min,实验所需 据进行聚类分析,其聚类结果的准确率达到了 的数据无须精确到分钟,将每天的数据进行合并,计 90.7%,其中9.3%的用户聚类错误的原因为用户在 算统计出每天用电量、峰电量、谷电量与平电量等, 某一天或者某一时刻改变了用电规律,造成采集的 并进行单位转换。新构建的实验数据集包括用户标 用电数据发生较大的波动,但也不排除用电数据在 识、采集日期、每日用电量、峰电量、谷电量、平电量、 采集过程中或者传输过程中发生错误。其聚类结果 常住人口与居住面积等,如表2所示。 如表3所示。由表3中的数据计算可得使用SCK
2.2 实验数据 1)原始测量数据 本实验原始数据来源于居民用电的实际测量数 据,数据的采集频率为 1 min,每户数据约 200 万条, 采集内容包括用户标识、采集日期、采集时间、有功 功率、电压、电流、智能插座 1 用电量、智能插座 2 用 电量、智能插座 3 用电量等,如表 1 所示。 表 1 居民用电测量数据 Table 1 Measurement data of electric power consumption 字段属性 描述 用户标识 用户唯一标识 采集日期 格式为 2012 / 12 / 17 采集时间 格式为 20:27 有功功率/ kW 平均每分钟有功功率 电压/ V 电压 电流/ A 平均每分钟电流 智能插座/ W∙h 冰箱、空调、洗衣机、微波炉 等家用大功率电器的用电量 图 6 给出原始测量数据中某天有功功率曲线 实例。 图 6 某天测量数据实例 Fig.6 Example of measurement data in a day 2)数据预处理与实验数据集构建 原始测量数据无法直接用于实验分析,需要对 其进行预处理,按照实验目的构建实验数据集。 原始测量数据中的电压、电流在实验中无需使 用,需要进行删除。 原始测量数据中存在约 1.3%的 空缺值,需要对其进行删除,并增加常驻人口与居住 面积等数据。 原始数据采集频率为 1 min,实验所需 的数据无须精确到分钟,将每天的数据进行合并,计 算统计出每天用电量、峰电量、谷电量与平电量等, 并进行单位转换。 新构建的实验数据集包括用户标 识、采集日期、每日用电量、峰电量、谷电量、平电量、 常住人口与居住面积等,如表 2 所示。 峰电量 为 当 日 用 电 高 峰 期 所 用 电 量, 例 如 7:00~12:00,19:00:~ 00:00,谷电量为当日用电低 谷期所用电量,例如 00:00~7:00。 平电量为当日用 电不是高峰期和用电低谷期用的电量。 图 7 给出实 验数据集所构成的某户一周内用电量曲线。 表 2 实验数据集 Table 2 Experimental data sets 字段属性 描述 用户标识 用户唯一标识 采集日期 格式为 20121217 用电量/ kW∙h 每日用电量 峰电量/ kW∙h 每日峰电量 谷电量/ kW∙h 每日谷电量 平电量/ kW∙h 每日平电量 常住人口/ 人 家庭居住人口数 居住面积/ m 2 住房实际使用面积单位 图 7 一周内用电量曲线图 Fig.7 Electric power consumption graphs in a week 在下面的实验过程中,将从实验数据集中随机 选取具有高耗能、中等耗能、低耗能典型特征的用户 用电数据进行实验测试,进行多次的测试,取平均值 为最终实验结果。 实验数据集虽然没有达到大数据 的规模,但可以用此实验数据进行算法正确性实验, 并对实验数据集扩充进行内存并行化性能测试。 2.3 实验结果分析 1)实验 1 结果分析 本实验采用 SCK 对采集到的海量智能用电数 据进行 聚 类 分 析, 其 聚 类 结 果 的 准 确 率 达 到 了 90.7%,其中 9.3%的用户聚类错误的原因为用户在 某一天或者某一时刻改变了用电规律,造成采集的 用电数据发生较大的波动,但也不排除用电数据在 采集过程中或者传输过程中发生错误。 其聚类结果 如表 3 所示。 由表 3 中的数据计算可得使用 SCK 第 4 期 王德文,等:一种基于内存计算的电力用户聚类分析方法 ·573·
.574. 智能系统学报 第10卷 的准确度为90.7%,高于单机K-means聚类算法的 3)实验3结果分析 准确度86.37%,而且各个类别的单独聚类结果也普 本实验将SCK与MR-Kmeans算法进行效率对 遍高于单机K-means算法结果。 比实验。将不同大小的数据集分别采用SCK和 2)实验2结果分析 MR-Kmeans算法进行聚类分析,其实验结果如图9 本实验采用SCK对采集到的海量智能用电数 所示。 据进行聚类分析,并与单机K-means聚类算法进行 10 效率对比。所采集的数据有限,在实验过程中需要 9 8 人为不断增加数据规模(0.32、1.8、5.2、20.8GB),以 > 考察数据集大小的变化与聚类时间和精度的关系。 6 对比实验结果如图8所示。 --SCK 表3电力用户聚类分析结果 3 MR-Kmeans Table 3 Cluster analysis results for electricity users 0.321.805.20 20.80 SCK 数据集/GB 类别 单机K-means 正确率/% 正确率/% 图9SCK与MR-Kmeans对比图 商业用户 100 80.9 Fig.9 Comparison chart of SCK and MR-Kmeans 上班族+老人+上学族 92 86 图9显示了2种改进的K-means算法的 上班族+上学族 运行时间对比图,由图得知相同数据集下SCK运行 90.1 90.9 时间比MR-Kmeans算法略快,随着数据集的增大两 老人+上学族 85.2 63 者的时间差也在增大,但是SCK时间增长比较缓 老人 84.3 76.6 慢,由此可以得出SCK更加适合处理大数据。 闲置房 98.7 95.2 4)实验四结果分析 K-means并行化后需要衡量算法并行性的好 80r --SCK 坏,本实验在不同集群大小上运行内存并行化的K 70 +-单机Kmeans o means算法,利用加速比来衡量并行性的好坏,加速 50 比公式为 40 S=1/T (4) 30 式中:为单机运行的时间,T为集群运行的时间。 20 10 将不同大小的数据集分别运行在不同大小的集 0度年 0.321.805.20 群中,其运行结果如图10所示。 20.80 数据集/GB 8r e-0.32GB 图8SCK与单机K-means对比图 -1.8GB -5.2GB Fig.8 Comparison chart of SCK and single machine K-means 6 +-20.8GB 出 以 图8显示了2种算法在不同数据集中的运行时 间,SCK展现了比较好效率。由于SCK在计算初期 需要进行一些额外的作业部署工作,在数据集较小 2 时,部署时间所占的比例要大于作业计算的时间,所 2345678910 以当数据集较小时SCK没有单机K-means高效;但 集群节点/台 图10SCK的加速比实验 是随着数据集的扩大,SCK展现了优越的性能,而单 Fig.10 The speedup experiments of SCK 机K-means所展现的性能已不能适合进行聚类分 析。SCK通过分布式集群将大数据进行切分部署在 由图10可以看出SCK在不同数据量不同大小 的分布式集群中显示了接近线性增长的趋势,并且 不同的计算节点上,并通过将所需数据读入内存进 在相同集群大小的情况下数据量越大加速比也越 行反复直接访问,有效减少了0操作,缩短了数据 大,但是随着集群的增多加速比会减少,但总的来说 访问时间,并且通过各个独立的处理机提升了数据 随着集群数量的增多加速比会变大。 并行计算的能力,因此能够对大数据进行高效聚类
的准确度为 90.7%,高于单机 K⁃means 聚类算法的 准确度 86.37%,而且各个类别的单独聚类结果也普 遍高于单机 K⁃means 算法结果。 2)实验 2 结果分析 本实验采用 SCK 对采集到的海量智能用电数 据进行聚类分析,并与单机 K⁃means 聚类算法进行 效率对比。 所采集的数据有限,在实验过程中需要 人为不断增加数据规模(0.32、1.8、5.2、20.8 GB),以 考察数据集大小的变化与聚类时间和精度的关系。 对比实验结果如图 8 所示。 表 3 电力用户聚类分析结果 Table 3 Cluster analysis results for electricity users 类别 SCK 正确率/ % 单机 K⁃means 正确率/ % 商业用户 100 80.9 上班族+老人+上学族 92 86 上班族+上学族 90.1 90.9 老人+上学族 85.2 63 老人 84.3 76.6 闲置房 98.7 95.2 图 8 SCK 与单机 K⁃means 对比图 Fig.8 Comparison chart of SCK and single machine K⁃means 图 8 显示了 2 种算法在不同数据集中的运行时 间,SCK 展现了比较好效率。 由于 SCK 在计算初期 需要进行一些额外的作业部署工作,在数据集较小 时,部署时间所占的比例要大于作业计算的时间,所 以当数据集较小时 SCK 没有单机 K⁃means 高效;但 是随着数据集的扩大,SCK 展现了优越的性能,而单 机 K⁃means 所展现的性能已不能适合进行聚类分 析。 SCK 通过分布式集群将大数据进行切分部署在 不同的计算节点上,并通过将所需数据读入内存进 行反复直接访问,有效减少了 IO 操作,缩短了数据 访问时间,并且通过各个独立的处理机提升了数据 并行计算的能力,因此能够对大数据进行高效聚类。 3)实验 3 结果分析 本实验将 SCK 与 MR⁃Kmeans 算法进行效率对 比实验。 将不同大小的数据集分别采用 SCK 和 MR⁃Kmeans 算法进行聚类分析,其实验结果如图 9 所示。 图 9 SCK 与 MR⁃Kmeans 对比图 Fig.9 Comparison chart of SCK and MR⁃Kmeans 图 9 显示了 2 种改进的 K⁃means 算法的 运行时间对比图,由图得知相同数据集下 SCK 运行 时间比 MR⁃Kmeans 算法略快,随着数据集的增大两 者的时间差也在增大,但是 SCK 时间增长比较缓 慢,由此可以得出 SCK 更加适合处理大数据。 4)实验四结果分析 K⁃means 并行化后需要衡量算法并行性的好 坏,本实验在不同集群大小上运行内存并行化的 K⁃ means 算法,利用加速比来衡量并行性的好坏,加速 比公式为 S = t / T (4) 式中:t 为单机运行的时间,T 为集群运行的时间。 将不同大小的数据集分别运行在不同大小的集 群中,其运行结果如图 10 所示。 图 10 SCK 的加速比实验 Fig.10 The speedup experiments of SCK 由图 10 可以看出 SCK 在不同数据量不同大小 的分布式集群中显示了接近线性增长的趋势,并且 在相同集群大小的情况下数据量越大加速比也越 大,但是随着集群的增多加速比会减少,但总的来说 随着集群数量的增多加速比会变大。 ·574· 智 能 系 统 学 报 第 10 卷
第4期 王德文,等:一种基于内存计算的电力用户聚类分析方法 .575. [6]李培强,李欣然,陈辉华,等.基于模糊聚类的电力负 3 结束语 荷特性的分类与综合[J].中国电机工程学报,2005,25 本文针对传统数据分析方法不能满足大数据环 (24):73-78. 境下智能用电行为分析的问题,给出一种基于内存 LI Peiqiang,LI Xinran,CHEN Huihua,et al.The charac- 计算的聚类分析方法,利用并行内存计算框架Spark teristics classification and synthesis of power load based on 对K-means进行改进,实现对智能用电大数据的快 fuzzy clustering [J].Proceedings of the CSEE,2005,25 (24):73-78. 速准确分析。实验结果表明,本方法比单机K- [7]段铷,张彩庆,刘爱芳.模糊聚类在电力用户分类中的 means和MR-Kmeans方法运算速度快并且容易扩 应用[J].电力需求侧管理,2005,7(5):18-20. 展,可以提高聚类精度与处理效率,能够较好满足智 DUAN Ru,ZHANG Caiqing,LIU Aifang.Application of 能用电大数据分析处理的需要。 fuzzy clustering method in classification of electricity cus- 虽然实验环境中数据集的大小受到限制,但所 tomers[J].Power DSM,2005,7(5):18-20. 进行的实验已模拟数据量的增加,实验结果具有参 [8]张素香,刘建明,赵丙镇,等.基于云计算的居民用电 考价值。下一步工作准备对更大规模数据集进行并 行为分析模型研究[J].电网技术,2013,37(6):1542- 行计算分析,并将上述方法应用到智能电网大数据 1546 分析的其他领域。 ZHANG Suxiang,LIU Jianming,ZHAO Bingzhen,et al. Cloud computing-based analysis on residential electricity 参考文献: consumption behavior[J].Power System Technology,2013, 37(6):1542-1546. [1]王蓓蓓,李扬,高赐威.智能电网框架下的需求侧管理 [9]毛典辉.基于MapReduce的Canopy-Kmeans改进算法 展望与思考[J].电力系统自动化,2009,33(20):17 [J].计算机工程与应用,2012,48(27):22-26. 22. MAO Dianhui.Improved Canopy-Kmeans algorithm based WANG Beibei,LI Yang,GAO Ciwei.Demand side man- on MapReduce[J].Computer Engineering and Applica- agement outlook under smart grid infrastructure[J].Auto- tions,2012,48(27):22-26. mation of Electric Power Systems,2009,33(20):17-22. [10]ZAHARIA M,CHOWDHURY M,FRANKLIN M J,et al. [2]何永秀,王冰,熊威,等.基于模糊综合评价的居民智 Spark:cluster computing with working sets [C]//Pro- 能用电行为分析与互动机制设计[J].电网技术,2012, ceedings of the 2nd USENIX Conference on Hot Topics in 36(10):247-252. Cloud Computing.Berkeley,CA,USA:USENIX Associa- HE Yongxiu,WANG Bing,XIONG Wei,et al.Analysis of tion,2010. residents'smart electricity consumption behavior based on [11]赵薇,刘杰,叶丹.基于组件的大数据分析服务平台 fuzzy synthetic evaluation and the design of interactive [J].计算机科学,2014,41(9):75-79. mechanism[.Power System Technology,2012,36(10): ZHAO Wei,LIU Jie,YE Dan.Module based big data a- 247-252. nalysis platform[J].Computer Science,2014,41 (9): [3]宋亚奇,周国亮,朱永利.智能电网大数据处理技术现 75-79. 状与挑战[J].电网技术,2013,37(4):927-935 [l2]赵莉,候兴哲,胡君,等.基于改进k-means算法的海 SONG Yaqi,ZHOU Guoliang,ZHU Yongli.Present status 量智能用电数据分析[J].电网技术,2014,38(10): and challenges of big data processing in smart grid [J]. 2715-2720. Power System Technology,2013,37(4):927-935. ZHAO Li,HOU Xingzhe,HU Jun,et al.Improved k- [4]何清.物联网与数据挖掘云服务[J].智能系统学报, means algorithm based analysis on massive data of intelli- 2012,7(3):189-194. gent power utilization [J].Power System Technology, HE Qing.The Internet of things and the data mining cloud 2014,38(10):2715-2720. service [J].CAAI Transactions on Intelligent Systems, [13]程艳柳.基于云计算的智能电网数据挖掘的研究[D] 2012,7(3):189-194. 保定:华北电力大学,2013:15-20. [5]冯晓蒲,张铁峰.基于实际负荷曲线的电力用户分类技 CHENG Yanliu.Research on smart grid data mining based 术研究[J].电力科学与工程,2010,26(9):18-22. on cloud computing[D].Baoding:North China Electric FENG Xiaopu,ZHANG Tiefeng.Research on electricity us- Power University,2013:15-20. ers classification technology based on actual load curve[J]. [14]ZAHARIA M,CHOWDHURY M,DAS T,et al.Resilient Electric Power Science and Engineering,2010,26(9):18- distributed datasets:a fault-tolerant abstraction for in- 22. memory cluster computing[C]//Proceedings of the 9th
3 结束语 本文针对传统数据分析方法不能满足大数据环 境下智能用电行为分析的问题,给出一种基于内存 计算的聚类分析方法,利用并行内存计算框架 Spark 对 K⁃means 进行改进,实现对智能用电大数据的快 速准确分析。 实验结果表明, 本方法比 单 机 K⁃ means 和 MR⁃Kmeans 方法运算速度快并且容易扩 展,可以提高聚类精度与处理效率,能够较好满足智 能用电大数据分析处理的需要。 虽然实验环境中数据集的大小受到限制,但所 进行的实验已模拟数据量的增加,实验结果具有参 考价值。 下一步工作准备对更大规模数据集进行并 行计算分析,并将上述方法应用到智能电网大数据 分析的其他领域。 参考文献: [1]王蓓蓓, 李扬, 高赐威. 智能电网框架下的需求侧管理 展望与思考[ J]. 电力系统自动化, 2009, 33( 20): 17⁃ 22. WANG Beibei, LI Yang, GAO Ciwei. Demand side man⁃ agement outlook under smart grid infrastructure [ J]. Auto⁃ mation of Electric Power Systems, 2009, 33(20): 17⁃22. [2]何永秀, 王冰, 熊威, 等. 基于模糊综合评价的居民智 能用电行为分析与互动机制设计[ J]. 电网技术, 2012, 36(10): 247⁃252. HE Yongxiu, WANG Bing, XIONG Wei, et al. Analysis of residents’ smart electricity consumption behavior based on fuzzy synthetic evaluation and the design of interactive mechanism[J]. Power System Technology, 2012, 36(10): 247⁃252. [3]宋亚奇, 周国亮, 朱永利. 智能电网大数据处理技术现 状与挑战[J]. 电网技术, 2013, 37(4): 927⁃935. SONG Yaqi, ZHOU Guoliang, ZHU Yongli. Present status and challenges of big data processing in smart grid [ J]. Power System Technology, 2013, 37(4): 927⁃935. [4]何清. 物联网与数据挖掘云服务[ J]. 智能系统学报, 2012, 7(3): 189⁃194. HE Qing. The Internet of things and the data mining cloud service [ J ]. CAAI Transactions on Intelligent Systems, 2012, 7(3): 189⁃194. [5]冯晓蒲, 张铁峰. 基于实际负荷曲线的电力用户分类技 术研究[J]. 电力科学与工程, 2010, 26(9): 18⁃22. FENG Xiaopu, ZHANG Tiefeng. Research on electricity us⁃ ers classification technology based on actual load curve[ J]. Electric Power Science and Engineering, 2010, 26(9): 18⁃ 22. [6]李培强, 李欣然, 陈辉华, 等. 基于模糊聚类的电力负 荷特性的分类与综合[J]. 中国电机工程学报, 2005, 25 (24): 73⁃78. LI Peiqiang, LI Xinran, CHEN Huihua, et al. The charac⁃ teristics classification and synthesis of power load based on fuzzy clustering [ J]. Proceedings of the CSEE, 2005, 25 (24): 73⁃78. [7]段铷, 张彩庆, 刘爱芳. 模糊聚类在电力用户分类中的 应用[J]. 电力需求侧管理, 2005, 7(5): 18⁃20. DUAN Ru, ZHANG Caiqing, LIU Aifang. Application of fuzzy clustering method in classification of electricity cus⁃ tomers[J]. Power DSM, 2005, 7(5): 18⁃20. [8]张素香, 刘建明, 赵丙镇, 等. 基于云计算的居民用电 行为分析模型研究[J]. 电网技术, 2013, 37(6): 1542⁃ 1546. ZHANG Suxiang, LIU Jianming, ZHAO Bingzhen, et al. Cloud computing⁃based analysis on residential electricity consumption behavior[J]. Power System Technology, 2013, 37(6): 1542⁃1546. [9] 毛典辉. 基于 MapReduce 的 Canopy⁃Kmeans 改进算法 [J]. 计算机工程与应用, 2012, 48(27): 22⁃26. MAO Dianhui. Improved Canopy⁃Kmeans algorithm based on MapReduce [ J]. Computer Engineering and Applica⁃ tions, 2012, 48(27): 22⁃26. [10]ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: cluster computing with working sets [ C] / / Pro⁃ ceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Berkeley, CA, USA: USENIX Associa⁃ tion, 2010. [11]赵薇, 刘杰, 叶丹. 基于组件的大数据分析服务平台 [J]. 计算机科学, 2014, 41(9): 75⁃79. ZHAO Wei, LIU Jie, YE Dan. Module based big data a⁃ nalysis platform [ J]. Computer Science, 2014, 41 ( 9): 75⁃79. [12]赵莉, 候兴哲, 胡君, 等. 基于改进 k⁃means 算法的海 量智能用电数据分析[ J]. 电网技术, 2014, 38( 10): 2715⁃2720. ZHAO Li, HOU Xingzhe, HU Jun, et al. Improved k⁃ means algorithm based analysis on massive data of intelli⁃ gent power utilization [ J ]. Power System Technology, 2014, 38(10): 2715⁃2720. [13]程艳柳. 基于云计算的智能电网数据挖掘的研究[D]. 保定: 华北电力大学, 2013:15⁃20. CHENG Yanliu. Research on smart grid data mining based on cloud computing [ D]. Baoding: North China Electric Power University, 2013:15⁃20. [14]ZAHARIA M, CHOWDHURY M, DAS T, et al. Resilient distributed datasets: a fault⁃tolerant abstraction for in⁃ memory cluster computing [ C] / / Proceedings of the 9th 第 4 期 王德文,等:一种基于内存计算的电力用户聚类分析方法 ·575·
.576. 智能系统学报 第10卷 USENIX Conference on Networked Systems Design and Im- clustering based on MapReduce[J].Journal of Computer plementation.Berkeley,USA:USENIX Association, Applications,2014,34(6):1595-1599,1680. 2012:1-14. [19]MCCALLUM A,NIGAM K,UNGAR L H.Efficient [15]LIN X Q,WANG P,WU B.Log analysis in cloud compu- clustering of high-dimensional data sets with application ting environment with Hadoop and Spark [C]//2013 5th to reference matching C//Proceedings of the Sixth ACM IEEE International Conference on Broadband Network SIGKDD International Conference on Knowledge Discovery Multimedia Technology IC-BNMT).Guilin,China: and Data Mining.New York,USA:ACM,2000:169- EEE,2013:273-276. 178. [16]GU L,LI H.Memory or time:performance evaluation for [20]KANUNGO T,MOUNT D M,NETANYAHU N S,et al. iterative operation on Hadoop and Spark[C].2013 IEEE An efficient k-means clustering algorithm:Analysis and 10th International Conference on High Performance Com- implementation[J].IEEE Transactions on Pattern Analysis puting and Communications 2013 IEEE International and Machine Intelligence,2002,24(7):881-892. Conference on Embedded and Ubiquitous Computing 作者简介: (HPCC_EUC).Zhangjiajie,China:IEEE,2013:721- 王德文,男,1973年生,副教授,主 721. 要研究方向为云计算、大数据分析。 [17]海沫,张书云,马燕林.分布式环境中聚类问题算法研 究综述[J].计算机应用研究,2013,30(9):2561- 2564. HAI Mo,ZHANG Shuyun,MA Yanlin.Algorithm review of distributed clustering problem in distributed environ- 孙志伟,男,1987年生,硕士研究 ments[J].Application Research of Computers,2013,30 生,主要研究方向为云计算与大数据 (9):2561-2564. 挖掘。 [l8]余晓山,吴扬扬.基于MapReduce的文本层次聚类并 行化[J].计算机应用,2014,34(6):1595-1599,1680. [责任编辑:刘畅] YU Xiaoshan,WU Yangyang.Parallel text hierarchical 第一届国际智能信息系统应用研讨会 First International Workshop on Applied Intelligent Information Systems (AIIS 2015) Our society needs and expects more high-value services.Such"knowledge-intensive"services can only be delivered if the necessary organizational and technical requirements are fulfilled.In addition,the cost-benefit analysis from the service provider point of view needs to be positive.There is a large and rapidly increasing literature on how artificial intelligence might be used to developmore"intelligent"in- formation systems.The proposed workshop will address all possible research in the Intelligent Information Systems. The workshop will primarily address the following themes: 1)Information Storage and Retrieval; 2)Data Structures,Cryptology and Information Theory; 3)Artificial Intelligence (incl.Robotics); 4)IT in Business; 5)Document Preparation and Text Processing; 6)Industry Sectors; 7)Electronics; 8)IT Software; 9)Telecommunications. Website:http://www.icdim.org/iis.html
USENIX Conference on Networked Systems Design and Im⁃ plementation. Berkeley, USA: USENIX Association, 2012:1⁃14. [15]LIN X Q, WANG P, WU B. Log analysis in cloud compu⁃ ting environment with Hadoop and Spark[C] / / 2013 5th IEEE International Conference on Broadband Network & Multimedia Technology ( IC⁃BNMT ). Guilin, China: IEEE, 2013: 273⁃276. [16]GU L, LI H. Memory or time: performance evaluation for iterative operation on Hadoop and Spark[ C]. 2013 IEEE 10th International Conference on High Performance Com⁃ puting and Communications & 2013 IEEE International Conference on Embedded and Ubiquitous Computing (HPCC_EUC). Zhangjiajie, China: IEEE, 2013: 721⁃ 727. [17]海沫, 张书云, 马燕林. 分布式环境中聚类问题算法研 究综述[ J]. 计算机应用研究, 2013, 30 ( 9): 2561⁃ 2564. HAI Mo, ZHANG Shuyun, MA Yanlin. Algorithm review of distributed clustering problem in distributed environ⁃ ments[J]. Application Research of Computers, 2013, 30 (9): 2561⁃2564. [18]余晓山, 吴扬扬. 基于 MapReduce 的文本层次聚类并 行化[J]. 计算机应用, 2014, 34(6): 1595⁃1599, 1680. YU Xiaoshan, WU Yangyang. Parallel text hierarchical clustering based on MapReduce[ J]. Journal of Computer Applications, 2014, 34(6): 1595⁃1599, 1680. [19] MCCALLUM A, NIGAM K, UNGAR L H. Efficient clustering of high⁃dimensional data sets with application to reference matching[C] / / Proceedings of the Sixth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA: ACM, 2000: 169⁃ 178. [20]KANUNGO T, MOUNT D M, NETANYAHU N S, et al. An efficient k⁃means clustering algorithm: Analysis and implementation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 881⁃892. 作者简介: 王德文,男,1973 年生,副教授,主 要研究方向为云计算、大数据分析。 孙志伟,男,1987 年生,硕士研究 生,主要研究方向为云计算与大数据 挖掘。 [责任编辑:刘畅] 第一届国际智能信息系统应用研讨会 First International Workshop on Applied Intelligent Information Systems (AIIS 2015) Our society needs and expects more high⁃value services. Such " knowledge⁃intensive" services can only be delivered if the necessary organizational and technical requirements are fulfilled. In addition, the cost⁃benefit analysis from the service provider point of view needs to be positive. There is a large and rapidly increasing literature on how artificial intelligence might be used to developmore" intelligent" in⁃ formation systems. The proposed workshop will address all possible research in the Intelligent Information Systems. The workshop will primarily address the following themes: 1)Information Storage and Retrieval; 2)Data Structures, Cryptology and Information Theory; 3)Artificial Intelligence (incl. Robotics); 4)IT in Business; 5)Document Preparation and Text Processing; 6)Industry Sectors; 7)Electronics; 8)IT & Software; 9)Telecommunications. Website: http:/ / www.icdim.org / iis.html ·576· 智 能 系 统 学 报 第 10 卷