《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@x

点击下载：厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，2016）第8章流计算

正在加载图片...

814流计算与Hado0p Hadoop设计的初衷是面向大规模数据的批量处理,每台机器并行运行 MapReduce任务,最后对结果进行汇总输出 · MapReduce是专门面向静态数据的批量处理的,内部各种实现机制都为批处理做了高度优化,不适合用于处理持续到达的动态数据 ·可能会想到一种“变通”的方案来降低批处理的时间延迟——将基于 MapReduce的批量处理转为小批量处理,将输入数据切成小的片段 ,每隔一个周期就启动一次 MapReduce作业。但这种方式也无法有效处理流数据切分成小片段,可以降低延迟,但是也增加了附加开销,还要处理片段之间依赖关系需要改造 MapReduce以支持流式处理结论:鱼和熊掌不可兼得, Hadoop擅长批处理,不适合流计算大数据技术原理与应用》厦门大学计算机科学系林子雨 lin@xmu.edu.cn《大数据技术原理与应用》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn • Hadoop设计的初衷是面向大规模数据的批量处理，每台机器并行运行MapReduce任务，最后对结果进行汇总输出 • MapReduce是专门面向静态数据的批量处理的，内部各种实现机制都为批处理做了高度优化，不适合用于处理持续到达的动态数据 • 可能会想到一种“变通”的方案来降低批处理的时间延迟——将基于 MapReduce的批量处理转为小批量处理，将输入数据切成小的片段，每隔一个周期就启动一次MapReduce作业。但这种方式也无法有效处理流数据 – 切分成小片段，可以降低延迟，但是也增加了附加开销，还要处理片段之间依赖关系 – 需要改造MapReduce以支持流式处理 8.1.4 流计算与Hadoop 结论：鱼和熊掌不可兼得，Hadoop擅长批处理，不适合流计算

<<向上翻页向下翻页>>

点击下载：厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，2016）第8章流计算