正在加载图片...
·1282· 智能系统学报 第14卷 CPU为两颗Intel E5-26202.00GHz,Memory为64 时间戳映射 Stream S GB:操作系统为Ubuntu-14.04.3:Storm版本 0.9.5。 Hash:F(x) Stream S 2)查询任务。我们依据不同的查询特征,分 别选取了3个查询任务。 图2映射过程 ①交通监控((traffic monitoring,TM)。此查询 Fig.2 Mapping process 任务的细节请参见第1节相关内容。 2.3.3增量学习模型 ②单词计数(word count,WC)。统计不同语 利用预测精度最高的4个模型(贝叶斯模 句中各个单词的出现频率。该查询任务包含一个 型2、Hoeffding树模型21、在线装袋模型2和 将句子切分成单词的处理逻辑,和一个使用哈希 最近邻模型2小,文献[7]给出了集成学习方法 映射来统计单词出现频率的处理逻辑。我们使 EDKRegression。.但是,在增量学习过程中,由于 用HiBench281提供的单词计数数据集,共涉及 训练数据的动态变化和分布的不均衡性,导致个 300万个句子和超过3000万个单词。 别模型的预测精度和实际值偏差较大。为此,本 ③TPC-H(Q3)。TPC-H2是一个决策支持基 文在EDKRegression算法的基础上,提出了异常 准,其包含的查询和数据具有广泛的行业相关 检测回归模型ODRegression(如算法2所示). 性。为验证多个数据流的查询处理过程,选择 算法2 ODRegression算法 Q3作为第3个查询任务。Q3共包括3个过滤数 输入4个学习模型对样本n的预测值P、 据源的处理逻辑,两个做等值连接的处理逻辑, P2、P3、P4; 一个对连接结果做分组的处理逻辑,以及一个对 输出样本n的预测值 分组结果进行排序的处理逻辑。在查询任务的执 1)E=模型预测值的均值; 行过程中,对每个数据源各取1500万个元组。 2)δ=模型预测值的方差; 3)数据规模。为保证模型预测的准确性,针 3)for (i=1;i=<N;i++)do 对每个训练样本,计算窗口时间内CPU使用率、 4)if(IP-E5) 内存使用率、处理延迟和吞吐率的平均值。对于 5)移除第i个预测模型: 每个查询任务,通过随机设置数据速率和30~120s 6)end if 内的动态窗口大小,分别采集3000个训练样本。 7)end for 3.2延迟与吞吐率 8)调用EDKRegression算法计算预测值; 通过利用微批次的处理方式,OrientStream+ 首先,根据4个预测模型对样本n的预测值 应对易变数据流的效果显著,处理数据的延迟和 P、P2、P,、P4,算法计算出预测值的均值E和方 吞吐率情况均优于Storm和OrientStream。 差(行1~2)。然后,如果模型预测值P,与均值 这里使用3个不同类型的查询任务,对比了 E相差的绝对值大于方差δ时,利用行4的公式 OrientStream+和OrientStream的延迟与吞吐率。 移除偏移较大的预测模型。最后,针对过滤后的 如图3所示,随着数据流速的频繁变化,由于频繁 预测模型,调用集成回归模型EDKRegression算 调整系统的参数配置,OrientStream的查询延迟不 法,计算出样本n的最终回归预测值。通过回归 断增加,超过了用户自定义阈值。OrientStream+ 模型的异常检测,可进一步提高集成学习模型的 利用多管道数据缓存的策略确保了查询任务的延 预测精度。 迟低于用户自定义阈值。同时,如图4所示,O- 3实验与结果分析 entStream+的系统吞吐率在满足用户定义阈值的 前提下,均高于OrientStream的系统吞吐率。 3.1实验准备 3.3在线资源预测 1)实验环境。本文实验平台用1GB网络连 关于资源使用的回归模型预测,我们使用 通14个物理节点,其中5个是使用Kafka的数据 EDKRegression和ODRegression两个模型。针 发送节点,1个是Storm的nimbus节点,其余8个 对不同的查询任务,表1和表2分别给出了使用 是Storm的supervisor节点。数据发送与nimbus 不同模型的测试结果,包括平均绝对误差值 各节点配置如下:CPU为Intel E5-26202.00GHz, (mean absolute error,.MAE)和相对绝对误差值(rel- Memory为4GB。supervisor各节点配置如下: ative absolute error,RAE)K11 Kmn Hash: F(x) Stream S1 Stream Sn 时间戳映射 ... ... 图 2 映射过程 Fig. 2 Mapping process 2.3.3 增量学习模型 利用预测精度最高的 4 个模型 (贝叶斯模 型 [24] 、Hoeffding 树模型[25] 、在线装袋模型[26] 和 最近邻模型[ 2 7 ] ),文献 [7] 给出了集成学习方法 EDKRegression。但是,在增量学习过程中,由于 训练数据的动态变化和分布的不均衡性,导致个 别模型的预测精度和实际值偏差较大。为此,本 文在 EDKRegression 算法的基础上,提出了异常 检测回归模型 ODRegression (如算法 2 所示)。 算法 2 ODRegression 算法 输入 4 个学习模型对样本 n 的预测值 P1、 P2、P3、 P4; 输出 样本 n 的预测值 1) E = 模型预测值的均值; 2) δ = 模型预测值的方差; 3) for (i=1; i=<N; i++) do 4) if(|Pi−E|>δ) 5) 移除第 i 个预测模型; 6) end if 7) end for 8) 调用 EDKRegression[5] 算法计算预测值; 首先,根据 4 个预测模型对样本 n 的预测值 P1、P2、P3、P4,算法计算出预测值的均值 E 和方 差 δ(行 1~2)。然后,如果模型预测值 Pi 与均值 E 相差的绝对值大于方差 δ 时,利用行 4 的公式 移除偏移较大的预测模型。最后,针对过滤后的 预测模型,调用集成回归模型 EDKRegression 算 法,计算出样本 n 的最终回归预测值。通过回归 模型的异常检测,可进一步提高集成学习模型的 预测精度。 3 实验与结果分析 3.1 实验准备 1) 实验环境。本文实验平台用 1 GB 网络连 通 14 个物理节点,其中 5 个是使用 Kafka 的数据 发送节点,1 个是 Storm 的 nimbus 节点,其余 8 个 是 Storm 的 supervisor 节点。数据发送与 nimbus 各节点配置如下:CPU 为 Intel E5-2620 2.00 GHz, Memory 为 4 GB。supervisor 各节点配置如下: CPU 为两颗 Intel E5-2620 2.00 GHz,Memory 为 64 GB;操作系统为 Ubuntu-14.04.3; Storm 版本 0.9.5。 2) 查询任务。我们依据不同的查询特征,分 别选取了 3 个查询任务。 ① 交通监控 (traffic monitoring,TM)。此查询 任务的细节请参见第 1 节相关内容。 ② 单词计数 (word count,WC)。统计不同语 句中各个单词的出现频率。该查询任务包含一个 将句子切分成单词的处理逻辑,和一个使用哈希 映射来统计单词出现频率的处理逻辑。我们使 用 HiBench[ 2 8 ] 提供的单词计数数据集,共涉及 300 万个句子和超过 3 000 万个单词。 ③ TPC-H(Q3)。TPC-H[29] 是一个决策支持基 准,其包含的查询和数据具有广泛的行业相关 性。为验证多个数据流的查询处理过程,选择 Q3 作为第 3 个查询任务。Q3 共包括 3 个过滤数 据源的处理逻辑,两个做等值连接的处理逻辑, 一个对连接结果做分组的处理逻辑,以及一个对 分组结果进行排序的处理逻辑。在查询任务的执 行过程中,对每个数据源各取 1 500 万个元组。 3) 数据规模。为保证模型预测的准确性,针 对每个训练样本,计算窗口时间内 CPU 使用率、 内存使用率、处理延迟和吞吐率的平均值。对于 每个查询任务,通过随机设置数据速率和 30~120 s 内的动态窗口大小,分别采集 3 000 个训练样本。 3.2 延迟与吞吐率 通过利用微批次的处理方式,OrientStream+ 应对易变数据流的效果显著,处理数据的延迟和 吞吐率情况均优于 Storm 和 OrientStream。 这里使用 3 个不同类型的查询任务,对比了 OrientStream+和 OrientStream 的延迟与吞吐率。 如图 3 所示,随着数据流速的频繁变化,由于频繁 调整系统的参数配置,OrientStream 的查询延迟不 断增加,超过了用户自定义阈值。OrientStream+ 利用多管道数据缓存的策略确保了查询任务的延 迟低于用户自定义阈值。同时,如图 4 所示,Ori￾entStream+的系统吞吐率在满足用户定义阈值的 前提下,均高于 OrientStream 的系统吞吐率。 3.3 在线资源预测 关于资源使用的回归模型预测,我们使用 EDKRegression[7] 和 ODRegression 两个模型。针 对不同的查询任务,表 1 和表 2 分别给出了使用 不同模型的测试结果,包括平均绝对误差 值 (mean absolute error, MAE) 和相对绝对误差值 (rel￾ative absolute error, RAE)。 ·1282· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有