正在加载图片...
·1284· 智能系统学报 第14卷 2)在不同查询任务下预测CPU的使用情况, 流进行批量处理,再按照数据流的时间戳,获取 ODRegression模型优于EDKRegression,其中,平 精准查询结果;根据训练数据的持续增长和动态 均绝对误差值(MAE)可降低0.3~0.37,相对绝对 变化的特性,引入具有异常检测功能的增量学习 误差值(RAE)可降低4.4%~5.8%。在预测内存使 模型,用于进一步提高OrientStream+的预测精 用情况方面,ODRegression模型也优于EDKRe- 度。最后,我们在Storm上实现了上述资源配置 gression,其中,平均绝对误差值(MAE)可降低 框架,并进行了大量的实验。实验结果表明,本 0.29~0.33,相对绝对误差值(RAE)可降低 文所提出的OrientStream+框架可在显著降低系统 2.5%5.6%. 资源使用的情况下,进一步降低系统的处理延迟 3.4动态资源配置 并提高系统的吞吐率。 根据增量学习模型的预测结果和在线参数配 针对窗口内的易变数据流,文本利用多级缓 置策略,我们监控了3个查询任务的整体执行过 存和增量学习的方法以获取较优解。接下来,根 程。如图5和图6所示,相对于固定参数配置的 据速率无重复波动的频繁变化问题,我们需要设 查询过程而言,ORDegression算法分别可节省 计更加高效的数据缓存策略,使系统更加稳定和 10%~16%的CPU使用率和32%~45%的内存使用 健壮。 率。相对于使用EDKRegression算法的参数配置 参考文献: 策略而言,ORDegression算法分别可节省1.6% 4.3%的CPU使用率和4.5%~8%的内存使用率。 [1]孙大为,张广艳,郑纬民.大数据流式计算:关键技术及 80 系统实例U.软件学报,2014,25(4:839-862. Fix Configuration SUN Dawei,ZHANG Guangyan,ZHENG Weimin.Big 60 ODRegression data stream computing:technologies and instances[J]. Journal of software,2014,25(4):839-862. 40 [2]崔星灿,禹晓辉,刘洋,等.分布式流处理技术综).计算 机研究与发展,2015,52(2):318-332 CUI Xingcan,YU Xiaohui,LIU Yang,et al.Distributed stream processing:a survey[J].Journal of computer re- 交通监控 单词计数TPCH/Q3 search and development,2015,52(2):318-332 查询任务 [3]王春凯,孟小峰.分布式数据流关系查询技术研究.计 算机学报,2016,39(1):80-96. 图5CPU使用率 Fig.5 The usage of CPU WANG Chunkai.MENG Xiaofeng.Relational query tech- niques for distributed data stream:a survey[J].Chinese Fix_Configuration EDKRegression journal of computers,2016,39(1):80-96. ODRegression [4]TOSHNIWAL A.TANEJA S.SHUKLA A.et al. 1.0 0.8 Storm@twitter[C]//Proceedings of the 2014 ACM SIG- MOD International Conference on Management of Data. 06 Snowbird.Utah.USA.2014:147-156. 0.4 [5]ZHENG Yu,ZHANG Lizhu,XIE Xing,et al.Mining in- 03 teresting locations and travel sequences from GPS traject- ories[Cl//Proceedings of the 18th International Conference 交通监控 单词计数TPC-H/Q3 on World Wide Web.Madrid,Spain,2009:791-800. 查询任务 [6]WANG Chunkai,MENG Xiaofeng,GUO Qi,et al.Orient- 图6内存使用率 Stream:a framework for dynamic resource allocation in Fig.6 The usage of memory distributed data stream management systems[C]//Proceed- 4结束语 ings of the 25th ACM International on Conference on In- formation and Knowledge Management.Indianapolis,Indi- 为应对易变数据流的查询请求,频繁改变资 ana,USA,2016:2281-2286. 源配置会导致系统处理的延迟增加,降低系统性 [7]WANG Chunkai,MENG Xiaofeng,GUO Qi,et al.Auto- mating characterization deployment in distributed data 能。针对此问题,本文提出了OrientStream+框 stream management systems[J].IEEE transactions on 架。根据用户自定义数据处理的延迟阈值,设定 knowledge and data engineering,2017,29(12): 以阈值为间隔片段的微批量样式的数据流传输机 2669-2681. 制;并利用多级别管道缓存,对相同配置的数据 [8]SAX M J.CASTELLANOS M,CHEN Qiming,et al.Ae-2) 在不同查询任务下预测 CPU 的使用情况, ODRegression 模型优于 EDKRegression,其中,平 均绝对误差值 (MAE) 可降低 0.3~0.37,相对绝对 误差值 (RAE) 可降低 4.4%~5.8%。在预测内存使 用情况方面,ODRegression 模型也优于 EDKRe￾gression,其中,平均绝对误差值 (MAE) 可降低 0.29~0.33 ,相对绝对误差 值 (RAE ) 可 降 低 2.5%~5.6%。 3.4 动态资源配置 根据增量学习模型的预测结果和在线参数配 置策略,我们监控了 3 个查询任务的整体执行过 程。如图 5 和图 6 所示,相对于固定参数配置的 查询过程而言,ORDegression 算法分别可节省 10%~16% 的 CPU 使用率和 32%~45% 的内存使用 率。相对于使用 EDKRegression 算法的参数配置 策略而言,ORDegression 算法分别可节省 1.6%~ 4.3% 的 CPU 使用率和 4.5%~8% 的内存使用率。 交通监控 单词计数 查询任务 TPC-H/Q3 0 20 40 CPU 使用率/%60 80 Fix_Configuration EDKRegression ODRegression 图 5 CPU 使用率 Fig. 5 The usage of CPU 交通监控 单词计数 查询任务 TPC-H/Q3 0 0.2 0.4 0.6 0.8 1.0 内存使用率 Fix_Configuration EDKRegression ODRegression 图 6 内存使用率 Fig. 6 The usage of memory 4 结束语 为应对易变数据流的查询请求,频繁改变资 源配置会导致系统处理的延迟增加,降低系统性 能。针对此问题,本文提出了 OrientStream+框 架。根据用户自定义数据处理的延迟阈值,设定 以阈值为间隔片段的微批量样式的数据流传输机 制;并利用多级别管道缓存,对相同配置的数据 流进行批量处理,再按照数据流的时间戳,获取 精准查询结果;根据训练数据的持续增长和动态 变化的特性,引入具有异常检测功能的增量学习 模型,用于进一步提高 OrientStream+的预测精 度。最后,我们在 Storm 上实现了上述资源配置 框架,并进行了大量的实验。实验结果表明,本 文所提出的 OrientStream+框架可在显著降低系统 资源使用的情况下,进一步降低系统的处理延迟 并提高系统的吞吐率。 针对窗口内的易变数据流,文本利用多级缓 存和增量学习的方法以获取较优解。接下来,根 据速率无重复波动的频繁变化问题,我们需要设 计更加高效的数据缓存策略,使系统更加稳定和 健壮。 参考文献: 孙大为, 张广艳, 郑纬民. 大数据流式计算: 关键技术及 系统实例 [J]. 软件学报, 2014, 25(4): 839–862. SUN Dawei, ZHANG Guangyan, ZHENG Weimin. Big data stream computing: technologies and instances[J]. Journal of software, 2014, 25(4): 839–862. [1] 崔星灿, 禹晓辉, 刘洋, 等. 分布式流处理技术综 [J]. 计算 机研究与发展, 2015, 52(2): 318–332. CUI Xingcan, YU Xiaohui, LIU Yang, et al. Distributed stream processing: a survey[J]. Journal of computer re￾search and development, 2015, 52(2): 318–332. [2] 王春凯, 孟小峰. 分布式数据流关系查询技术研究 [J]. 计 算机学报, 2016, 39(1): 80–96. WANG Chunkai, MENG Xiaofeng. Relational query tech￾niques for distributed data stream: a survey[J]. Chinese journal of computers, 2016, 39(1): 80–96. [3] TOSHNIWAL A, TANEJA S, SHUKLA A, et al. Storm@twitter[C]//Proceedings of the 2014 ACM SIG￾MOD International Conference on Management of Data. Snowbird, Utah, USA, 2014: 147-156. [4] ZHENG Yu, ZHANG Lizhu, XIE Xing, et al. Mining in￾teresting locations and travel sequences from GPS traject￾ories[C]//Proceedings of the 18th International Conference on World Wide Web. Madrid, Spain, 2009: 791-800. [5] WANG Chunkai, MENG Xiaofeng, GUO Qi, et al. Orient￾Stream: a framework for dynamic resource allocation in distributed data stream management systems[C]//Proceed￾ings of the 25th ACM International on Conference on In￾formation and Knowledge Management. Indianapolis, Indi￾ana, USA, 2016: 2281-2286. [6] WANG Chunkai, MENG Xiaofeng, GUO Qi, et al. Auto￾mating characterization deployment in distributed data stream management systems[J]. IEEE transactions on knowledge and data engineering, 2017, 29(12): 2669–2681. [7] [8] SAX M J, CASTELLANOS M, CHEN Qiming, et al. Ae- ·1284· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有