ＳＵＭ（ｆｉｅｌｄ４）ａｓａｌｉａｓ２， ……，ＡＶＧ（ｆｉｅｌｄ５

正在加载图片...

·724· 智能系统学报第12卷 SUM(field4)as alias2, S ” ORDER AVG(field5)as alias3, AGG3 …, [S2] COUNT(*)as alias4 CROSS TMP2 PRODUCT AGGD FROM TableExpression TMP2 OUTERJOIN WHERE TMPI (AGG2 [field6 <date'yyyy-mm-dd'-interval 'DELTA ] day(3)] Customer TMPI Orders GROUP BY field6.field7 6 Implementation of Q22 ORDER BY field6,field7] Fig.6 Q22的执行过程根据该语句的执行计划，可以判断查询时对整个表进行了遍历。对于Spark SQL而言，其在大多实验分析对比了不同的查询方式在运行Q22时数查询上的表现优于Hive和Impala。由于Spark的集群资源使用情况（如图7~11所示），包括CPU、内接口丰富和$QL优势，在执行查询时的速度较快。存、网络、磁盘/0。注意到，在查询Q22执行过程 4.3Q22资源消耗情况中，Impala对集群资源的占用是最少的，其次是 Q22的查询语句如下： Hive,Spark SQL占用资源最多。由于Spark SQL是基于内存计算的框架，所以在内存占用方面和磁盘 SELECT cntrycode,COUNT (*as numcust,sum (c_ 读取上更为明显。 acctbal)as totacctbal 70 60 Hive FROM Impala Spark SQL SELECT substring (cphone from 1 for 2)as 30 cntrycode, ★ 10 c_acctbal FROM customer 0 102030405060708090 WHERE substring(c_phone from 1 for 2)in 时间/s ('[I1]','[I2]','[I3]','[4]','[5]','[16]', 图7集群平均CPU使用率 [I7]') Fig.7 Average cluster CPU usage and c_acctbal > 由于Hive和Spark SQL均在JVM之上运行，对 SELECT AVG (c_acetbal) CPU和内存的使用依赖于JVM。如图7所示， FROM customer WHERE c_acctbal 0.00 Impala的CPU占用时间要明显少于Hive和Spark and substring (c_phone from 1 for 2)in SQL,这是由于Impala在执行查询过程中，在每个计 ('[1]','[12]','[13]','[14]','[15]',[16]', 算节点上运行只占用一个CPU线程。而Hive和 '[I7]')) Spark SQL在CPU使用上的优化完全依赖于JVM。 and not exists (SELECT FROM orders where 如图8所示，Impala和Hive内存使用率明显小于 o_custkey=c_custkey) Spark SQL,同时使用线程来执行耗费资源较多的）as custsale Executor Backend进程。 Group BY cntrycode ORDER BY cntrycode; 8230 如图6所示，Q22中作业由3个子查询组成。子 200 150 Hive Impala-Spark SQL 查询S1对customer表进行扫描并将结果保存到临时表Temp1中；子查询S2对Templ进行聚集操作 AGG1后将结果保存到临时表Temp2中；子查询S3 50 在与表Orders执行聚集操作AGG2后依次与Templ 102030405060708090 时间/s 和Temp2进行关联操作求笛卡尔乘积AGG3然后排序。图8集群内存平均使用量 Fig.8 Average cluster memory usageＳＵＭ（ｆｉｅｌｄ４）ａｓａｌｉａｓ２， ……，ＡＶＧ（ｆｉｅｌｄ５）ａｓａｌｉａｓ３， ……，ＣＯＵＮＴ（∗）ａｓａｌｉａｓ４｝ＦＲＯＭＴａｂｌｅＥｘｐｒｅｓｓｉｏｎＷＨＥＲＥ［ｆｉｅｌｄ６＜＝ｄａｔｅ′ｙｙｙｙ⁃ｍｍ⁃ｄｄ′⁃ｉｎｔｅｒｖａｌ ′［ＤＥＬＴＡ］′ ｄａｙ（３）］ＧＲＯＵＰＢＹ［ｆｉｅｌｄ６，ｆｉｅｌｄ７］ＯＲＤＥＲＢＹ［ｆｉｅｌｄ６，ｆｉｅｌｄ７］根据该语句的执行计划，可以判断查询时对整个表进行了遍历。对于ＳｐａｒｋＳＱＬ而言，其在大多数查询上的表现优于Ｈｉｖｅ和Ｉｍｐａｌａ。由于Ｓｐａｒｋ的接口丰富和ＳＱＬ优势，在执行查询时的速度较快。４．３Ｑ２２资源消耗情况Ｑ２２的查询语句如下：ＳＥＬＥＣＴｃｎｔｒｙｃｏｄｅ，ＣＯＵＮＴ（ ∗）ａｓｎｕｍｃｕｓｔ，ｓｕｍ（ｃ＿ａｃｃｔｂａｌ）ａｓｔｏｔａｃｃｔｂａｌＦＲＯＭ（ＳＥＬＥＣＴｓｕｂｓｔｒｉｎｇ（ｃ＿ｐｈｏｎｅｆｒｏｍ１ｆｏｒ２）ａｓｃｎｔｒｙｃｏｄｅ，ｃ＿ａｃｃｔｂａｌＦＲＯＭｃｕｓｔｏｍｅｒＷＨＥＲＥｓｕｂｓｔｒｉｎｇ（ｃ＿ｐｈｏｎｅｆｒｏｍ１ｆｏｒ２）ｉｎ（′［Ｉ１］′，′［Ｉ２］′，′［Ｉ３］′，′［Ｉ４］′，′［Ｉ５］′，′［１６］′， ′［Ｉ７］′）ａｎｄｃ＿ａｃｃｔｂａｌ＞（ＳＥＬＥＣＴＡＶＧ（ｃ＿ａｃｃｔｂａｌ）ＦＲＯＭｃｕｓｔｏｍｅｒＷＨＥＲＥｃ＿ａｃｃｔｂａｌ＞０．００ａｎｄｓｕｂｓｔｒｉｎｇ（ｃ＿ｐｈｏｎｅｆｒｏｍ１ｆｏｒ２）ｉｎ（′［１］′，′［１２］′，′［１３］′，′［１４］′，′［１５］′，′［１６］′， ′［Ｉ７］′））ａｎｄｎｏｔｅｘｉｓｔｓ（ＳＥＬＥＣＴ ∗ ＦＲＯＭｏｒｄｅｒｓｗｈｅｒｅｏ＿ｃｕｓｔｋｅｙ＝ｃ＿ｃｕｓｔｋｅｙ））ａｓｃｕｓｔｓａｌｅＧｒｏｕｐＢＹｃｎｔｒｙｃｏｄｅＯＲＤＥＲＢＹｃｎｔｒｙｃｏｄｅ；如图６所示，Ｑ２２中作业由３个子查询组成。子查询Ｓ１对ｃｕｓｔｏｍｅｒ表进行扫描并将结果保存到临时表Ｔｅｍｐ１中；子查询Ｓ２对Ｔｅｍｐ１进行聚集操作ＡＧＧ１后将结果保存到临时表Ｔｅｍｐ２中；子查询Ｓ３在与表Ｏｒｄｅｒｓ执行聚集操作ＡＧＧ２后依次与Ｔｅｍｐ１和Ｔｅｍｐ２进行关联操作求笛卡尔乘积ＡＧＧ３然后排序。图６ＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＱ２２Ｆｉｇ．６Ｑ２２的执行过程实验分析对比了不同的查询方式在运行Ｑ２２时集群资源使用情况（如图７～１１所示），包括ＣＰＵ、内存、网络、磁盘Ｉ／Ｏ。注意到，在查询Ｑ２２执行过程中，Ｉｍｐａｌａ对集群资源的占用是最少的，其次是Ｈｉｖｅ，ＳｐａｒｋＳＱＬ占用资源最多。由于ＳｐａｒｋＳＱＬ是基于内存计算的框架，所以在内存占用方面和磁盘读取上更为明显。图７集群平均ＣＰＵ使用率Ｆｉｇ．７ＡｖｅｒａｇｅｃｌｕｓｔｅｒＣＰＵｕｓａｇｅ由于Ｈｉｖｅ和ＳｐａｒｋＳＱＬ均在ＪＶＭ之上运行，对ＣＰＵ和内存的使用依赖于ＪＶＭ。如图７所示，Ｉｍｐａｌａ的ＣＰＵ占用时间要明显少于Ｈｉｖｅ和ＳｐａｒｋＳＱＬ，这是由于Ｉｍｐａｌａ在执行查询过程中，在每个计算节点上运行只占用一个ＣＰＵ线程。而Ｈｉｖｅ和ＳｐａｒｋＳＱＬ在ＣＰＵ使用上的优化完全依赖于ＪＶＭ。如图８所示，Ｉｍｐａｌａ和Ｈｉｖｅ内存使用率明显小于ＳｐａｒｋＳＱＬ，同时使用线程来执行耗费资源较多的ＥｘｅｃｕｔｏｒＢａｃｋｅｎｄ进程。图８集群内存平均使用量Ｆｉｇ．８Ａｖｅｒａｇｅｃｌｕｓｔｅｒｍｅｍｏｒｙｕｓａｇｅ ·７２４· 智能系统学报第１２卷

<<向上翻页向下翻页>>

点击下载：【智能系统】基于SQL-on-Hadoop查询引擎的日志挖掘及其应用