云计算 Cloud Computing（PPT讲稿）MapReduce进阶

简介复合键值对的使用用户定制数据类型用户定制输入/输出格式用户定制Partitioner和Combiner 组合式MapReduce计算作业多数据源的连接全局参数/数据文件的传递与使用关系数据库的连接与访问

团购合买资源类别：文库，文档格式：PPT，文档页数：40，文件大小：3.46MB

Cloud Computing MapReduce进阶

主要内容(6学时) 简介复合键值对的使用用户定制数据类型用户定制输入/输出格式用户定制 Partitioner和 Combiner 组合式 MapReduce计算作业多数据源的连接全局参数/数据文件的传递与使用关系数据库的连接与访问

简介 MP( Message Passing Interface)等并行编程方法缺少对高层并行编程模型和统一计算框架的支持,需要程序员处理许多底层细节,为此 Mapreduce在三个层面上做了系统而巧妙的设计构思。 0在大数据处理的基本方法上,对相互计算依赖不大的数据采取“分而治之”的处理策略。借鉴了LSp语言中的思想,用Map和 Reduce两个函数提供了高层的并行编程抽象模型和接口。。对于诸多的底层实现和处理细节 MapReduce提供了一个统一的计算框架,大大减轻了程序员在编程是的负担

 MPI(Message Passing Interface) 等并行编程方法缺少对高层并行编程模型和统一计算框架的支持，需要程序员处理许多底层细节，为此MapReduce在三个层面上做了系统而巧妙的设计构思。 ◦ 在大数据处理的基本方法上，对相互计算依赖不大的数据采取“分而治之”的处理策略。 ◦ 借鉴了Lisp语言中的思想，用Map和Reduce两个函数提供了高层的并行编程抽象模型和接口。 ◦ 对于诸多的底层实现和处理细节MapReduce提供了一个统一的计算框架，大大减轻了程序员在编程是的负担

复合键值对的使用把小的键值对合并成大的键值对 Map计算过程中所产生的中间结果键值对需要通过网络传输给 Reduce节点,大规模的键值对可能会大幅增大网络通信开销,并且降低程序执行速度,为此开采用一个基本的优化方法,即把大量小的键值对合并为较大的键值对。。例如在单词同现矩阵计算中,单词a可能会与多个其他单词共同出现,因而一个Map可能会产生很多个单词a与其他单词的键值对, 如下:

 把小的键值对合并成大的键值对 ◦ Map计算过程中所产生的中间结果键值对需要通过网络传输给 Reduce节点，大规模的键值对可能会大幅增大网络通信开销，并且降低程序执行速度，为此开采用一个基本的优化方法，即把大量小的键值对合并为较大的键值对。 ◦ 例如在单词同现矩阵计算中，单词a可能会与多个其他单词共同出现，因而一个Map可能会产生很多个单词a与其他单词的键值对，如下：

复合键值对的使用 0 →3 a→{b:1,c:3,d:5,e:8,f4} 4 0→8 °<a

◦ 1 ◦ 3 a {b:1,c:3, d:5, e:8, f:4} ◦ 4 ◦ 8 ◦ 4

巧用复合键让系统完成排序丶Map计算过程中,系统自动按照Map的输出键进行排序, 因此进入 Reduce的键值对都是按照key值排序的,但有时希望vaue也按一定规则排序。方法1:在 Reduce过程中对{aue刚表中的值进行本地排序,但当{ value刚列表数据量巨大时必须使用复杂的外排算法,会很耗时。方法2:将vaue中需要排序的部分加入到key中, 形成复合键,这样能利用 Mapreduce系统的排序功能自动完成排序

 Map计算过程中，系统自动按照Map的输出键进行排序，因此进入Reduce的键值对都是按照key值排序的，但有时希望value也按一定规则排序。  方法1：在Reduce过程中对{value}列表中的值进行本地排序，但当{value}列表数据量巨大时必须使用复杂的外排算法，会很耗时。  方法2：将value中需要排序的部分加入到key中，形成复合键，这样能利用MapReduce系统的排序功能自动完成排序

用户定制数据类型 Hadoop内置的数据类型 Booleanwritable:标准布尔型数值 ByteWritable:单字节数值 Doublewritable:双字节数 F| oatwritab|e:浮点数 wrItable:整型数 LongWritable:长整型数 Text:使用UTF8格式存储的文本 Nullwritable:当中的key或vaue为空时使用

 Hadoop内置的数据类型 BooleanWritable：标准布尔型数值 ByteWritable：单字节数值 DoubleWritable：双字节数 FloatWritable：浮点数 IntWritable：整型数 LongWritable：长整型数 Text：使用UTF8格式存储的文本 NullWritable：当中的key或value为空时使用

用户定制数据类型自定义数据类型的实现 0首先实现 Writable接口,以便该数据能被序列化后完成网络传输或文件输入/输出其次,如果该数据需要作为key使用,或者要比较数值大小时,则需要实现 Writable comparable接囗例如将一个三维坐标PX,y,z)定制为一个数据类型 pubic class Point3D implements Writable private float x,y, Z public void readFields(DataInput in) throws IOException public void write(DataOutput out) throws IOException

 自定义数据类型的实现 ◦ 首先实现Writable接口，以便该数据能被序列化后完成网络传输或文件输入/输出； ◦ 其次，如果该数据需要作为key使用，或者要比较数值大小时，则需要实现 WritableComparable接口。 ◦ 例如将一个三维坐标P(x,y,z)定制为一个数据类型 pubic class Point3D implements Writable { private float x,y,z; public void readFields(DataInput in) throws IOException {……} public void write(DataOutput out) throws IOException {……} }

用户定制数据类型如果 Point3D还需要作为主键值使用,或者需要比较大小时,还应该实现 Writab| e comparable接口 pubic class Point 3D implements Writable Comparable private float x, y, z public void read Fields(Datainput in) throws IoException public void write(Data Output out) throws IOException

 如果Point3D还需要作为主键值使用，或者需要比较大小时，还应该实现WritableComparable接口 pubic class Point3D implements WritableComparable { private float x,y,z; public void readFields(DataInput in) throws IOException {……} public void write(DataOutput out) throws IOException {……} }

用户定制输入/输出格式 Hadoop内置数据输入格式和 RecordReader TextInputFormat:是系统默认的数据输入格式,可以文本文件分块逐行读入,读入一行时,所产生的kye为当前行在整个文件中的字节偏移位置,而 ivalue就是行内容。 KeyvalueInputFormat:是另一个常用的数据输入格式, 可将一个安照格式逐行存放的文件逐行读出,并自动解析成相应的key和va|ue

 Hadoop内置数据输入格式和RecordReader ◦ TextInputFormat：是系统默认的数据输入格式，可以文本文件分块逐行读入，读入一行时，所产生的kye为当前行在整个文件中的字节偏移位置，而value就是行内容。 ◦ KeyValueInputFormat：是另一个常用的数据输入格式，可将一个安照格式逐行存放的文件逐行读出，并自动解析成相应的key和value

点击下载完整版文档（PPT格式）

共40页，可试读14页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录