处理具有较高的吞吐率和较低的处理延迟。这往往需要用户预先设置相关的系统参

正在加载图片...

第6期王春凯，等：易变数据流的系统资源配置方法 ·1279· 处理具有较高的吞吐率和较低的处理延迟。这往拓扑的策略和基于流量的动态调度策略设计了两往需要用户预先设置相关的系统参数，如查询算个调度算法，以降低元组处理的延迟时间和减少子的并行度、查询进程的内存使用率等。然而，多个拓扑节点间的传输流量。然而，Aeolus和由于数据流的易变性和查询任务的不同，为确保 DRS需要明确每个算子的具体处理时间，并且仅实时处理查询请求的同时尽量减少资源使用情况用于固定的查询应用场景。文献[11]仅考虑传输是一个非常有挑战性的问题。接下来举例说明该延迟，而未关注资源使用的情况，并且不能对算问题的普遍性。子的并行度做动态调整。我们以交通监控系统实时分析路况为例，使 2)机器学习技术。文献[12]提出了一种基于用流处理系统Storm和轨迹数据集GeoLife实混合密度网络)的模型来评估数据流处理任务现如下查询任务。查询包含一个映射处理逻辑，的资源使用情况。该模型可帮助用户判断是否向用于接收由GPS设备采集的轨迹数据，并通过函流处理系统提交新的查询任务。ALOJA项目数映射找到使用该GPS设备的对象所在的道路针对Hadoop1的执行情况开发了开源平台用于信息。此外，包括一个测速处理逻辑接收来自映预测查询任务的执行时间和异常监控。ALOJA 射处理逻辑发送的数据，并实时计算出不同道路是基于ALOJA-MLI设计的框架，ALOJA-ML利上的各GPS设备对象的平均行驶速度。用机器学习技术分析了运行在Hadoop上的不同然而，配置查询任务的参数不能动态感知数查询任务的基准性能数据，并以此支持查询任务据流的变化，导致了查询延迟的增加和系统资源的性能调优。Jamshidi等设计了一种自动优化的浪费。为应对此问题，文献[6-刀已进行了相关流处理系统参数配置的贝叶斯优化算法BO4- 研究。但是，文献「6]需要重启查询任务，数据阻 CO。以MySQL和Postgres为实验平台，Otter-. 塞和查询延迟的问题较为突出；文献[7]通过保 Tunet81利用经验数据的监督学习方法和新搜集存状态信息避免了查询任务的重启操作。然而，信息的非监督学习方法，针对不同查询请求选择针对流速频繁改变的易变数据流，文献[6-7]均会出对系统性能影响最大的参数，并通过历史查询导致系统延迟的缓慢增加，以至于超过用户自定任务对新的查询任务进行预测，利用深度学习框义的查询延迟阈值。为此，本文提出了应对易变架TensorFlow9向用户推荐最佳参数配置。然数据流的系统资源动态配置方法OrientStream+。而，文献[12]不能动态改变流处理系统的调度策与文献[6-7]提出的OrientStream相比，Orient- 略和各个算子的并行度，且不可以预测系统资源 Stream㎡+可较好解决易变数据流的资源配置问题，的使用情况。ALOJA-ML框架仅可预测Hadoop 进一步降低流处理系统的查询延迟并提高系统的的处理平台，OtterTune系统仅可预测数据库管理吞吐率。系统，均不能用于数据流的查询场景。BO4C0只针对系统资源动态配置的相关工作可总结为能以流处理系统的历史数据作为训练集，不能对如下3个方面：新收集的性能数据作增量分析。 I)动态加载调度策略。Aeolus⑧是柏林洪堡 3)针对关系查询系统的资源预测。正如我们大学和惠普实验室联合研发的Storm优化器，用所知，关系查询系统往往具有类SQL的查询接于动态设置算子的并行度和节点内部数据的批量口。因此，有些研究也致力于检测SQL查询的资大小。Aeolus定义了处理单条元组所需时间的代源消耗。针对微软的SOL Server数据库的不同杳价模型，其中包括元组的传输时间、等待时间、计询请求，Li等2o设计了两种特征抽取的机制用于划处理时间和实际处理时间。依据该模型，针对预测SQL查询的资源消耗情况。两种特征包括不同的查询请求和数据流特征（如数据流速、数粗粒度的全局特征和细粒度的算子特征。Ak- 据分布情况等)，Aeolus可计算出算子并行度和数 dere等2u为预测不同查询计划的查询性能，构建据批量传输大小的最佳配置样式。为避免资源浪了3种层次模型：查询计划层模型、算子层模型费或无法实时获取正确的查询结果，FU等9设计和针对嵌套查询的混合模型。然而，模型2仅了基于云环境的大规模数据流管理系统的动态资考虑了静态特征的选择过程，不能对系统进行动源调度器。该调度器借助开放排队网络理论态监控，并且没有考虑位于关系查询系统下面的来度量已使用资源和查询响应时间的关系、制定数据处理系统的有关特征。最佳资源配置方案以及使用最小开销测量系统的本文提出的OrientStream+框架不同于以上工负载等。Aniello等针对Storm平台，利用基于作。OrientStream+构建了以延迟阈值为间隔片段处理具有较高的吞吐率和较低的处理延迟。这往往需要用户预先设置相关的系统参数，如查询算子的并行度、查询进程的内存使用率等。然而，由于数据流的易变性和查询任务的不同，为确保实时处理查询请求的同时尽量减少资源使用情况是一个非常有挑战性的问题。接下来举例说明该问题的普遍性。我们以交通监控系统实时分析路况为例，使用流处理系统 Storm[4] 和轨迹数据集 GeoLife[5] 实现如下查询任务。查询包含一个映射处理逻辑，用于接收由 GPS 设备采集的轨迹数据，并通过函数映射找到使用该 GPS 设备的对象所在的道路信息。此外，包括一个测速处理逻辑接收来自映射处理逻辑发送的数据，并实时计算出不同道路上的各 GPS 设备对象的平均行驶速度。然而，配置查询任务的参数不能动态感知数据流的变化，导致了查询延迟的增加和系统资源的浪费。为应对此问题，文献 [6-7] 已进行了相关研究。但是，文献 [6] 需要重启查询任务，数据阻塞和查询延迟的问题较为突出；文献 [7] 通过保存状态信息避免了查询任务的重启操作。然而，针对流速频繁改变的易变数据流，文献 [6-7] 均会导致系统延迟的缓慢增加，以至于超过用户自定义的查询延迟阈值。为此，本文提出了应对易变数据流的系统资源动态配置方法 OrientStream+。与文献 [6-7] 提出的 OrientStream 相比，OrientStream+可较好解决易变数据流的资源配置问题，进一步降低流处理系统的查询延迟并提高系统的吞吐率。针对系统资源动态配置的相关工作可总结为如下 3 个方面： 1) 动态加载调度策略。Aeolus[8] 是柏林洪堡大学和惠普实验室联合研发的 Storm 优化器，用于动态设置算子的并行度和节点内部数据的批量大小。Aeolus 定义了处理单条元组所需时间的代价模型，其中包括元组的传输时间、等待时间、计划处理时间和实际处理时间。依据该模型，针对不同的查询请求和数据流特征 (如数据流速、数据分布情况等)，Aeolus 可计算出算子并行度和数据批量传输大小的最佳配置样式。为避免资源浪费或无法实时获取正确的查询结果，FU 等 [9] 设计了基于云环境的大规模数据流管理系统的动态资源调度器。该调度器借助开放排队网络[10] 理论来度量已使用资源和查询响应时间的关系、制定最佳资源配置方案以及使用最小开销测量系统的负载等。Aniello 等 [11] 针对 Storm 平台，利用基于拓扑的策略和基于流量的动态调度策略设计了两个调度算法，以降低元组处理的延迟时间和减少多个拓扑节点间的传输流量。然而，Aeolus 和 DRS 需要明确每个算子的具体处理时间，并且仅用于固定的查询应用场景。文献 [11] 仅考虑传输延迟，而未关注资源使用的情况，并且不能对算子的并行度做动态调整。 2) 机器学习技术。文献 [12] 提出了一种基于混合密度网络[13] 的模型来评估数据流处理任务的资源使用情况。该模型可帮助用户判断是否向流处理系统提交新的查询任务。ALOJA 项目[14] 针对 Hadoop[15] 的执行情况开发了开源平台用于预测查询任务的执行时间和异常监控。ALOJA 是基于 ALOJA-ML[16] 设计的框架，ALOJA-ML 利用机器学习技术分析了运行在 Hadoop 上的不同查询任务的基准性能数据，并以此支持查询任务的性能调优。Jamshidi 等 [17] 设计了一种自动优化流处理系统参数配置的贝叶斯优化算法 BO4- CO。以 MySQL 和 Postgres 为实验平台，OtterTune[18] 利用经验数据的监督学习方法和新搜集信息的非监督学习方法，针对不同查询请求选择出对系统性能影响最大的参数，并通过历史查询任务对新的查询任务进行预测，利用深度学习框架 TensorFlow[19] 向用户推荐最佳参数配置。然而，文献 [12] 不能动态改变流处理系统的调度策略和各个算子的并行度，且不可以预测系统资源的使用情况。ALOJA-ML 框架仅可预测 Hadoop 的处理平台，OtterTune 系统仅可预测数据库管理系统，均不能用于数据流的查询场景。BO4CO 只能以流处理系统的历史数据作为训练集，不能对新收集的性能数据作增量分析。 3) 针对关系查询系统的资源预测。正如我们所知，关系查询系统往往具有类 SQL 的查询接口。因此，有些研究也致力于检测 SQL 查询的资源消耗。针对微软的 SQL Server 数据库的不同查询请求，Li 等 [20] 设计了两种特征抽取的机制用于预测 SQL 查询的资源消耗情况。两种特征包括粗粒度的全局特征和细粒度的算子特征。Akdere 等 [21] 为预测不同查询计划的查询性能，构建了 3 种层次模型：查询计划层模型、算子层模型和针对嵌套查询的混合模型。然而，模型[20-21] 仅考虑了静态特征的选择过程，不能对系统进行动态监控，并且没有考虑位于关系查询系统下面的数据处理系统的有关特征。本文提出的 OrientStream+框架不同于以上工作。OrientStream+构建了以延迟阈值为间隔片段第 6 期王春凯，等：易变数据流的系统资源配置方法 ·1279·

<<向上翻页向下翻页>>

点击下载：【知识工程】易变数据流的系统资源配置方法