北京大学：《数据结构与算法》课程教学资源（实验班讲义）第八章文件管理和外排序.pdf_大学文库

3 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 13 磁盘存取步骤选定某个盘片选定某个柱面这需要把磁头移动到该柱面，这个移动过程称为寻道( seek ) 确定磁道确定所要读写的数据在磁盘上的准确位置这段时间一般称为旋转延迟( rotational delay 或者rotational latency ) 真正进行读写北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 14 磁盘磁道的组织（交错法）（a）没有扇区交错；（b）以3为交错因子磁头旋转磁头旋转北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 15 磁盘性能指标容量（G）磁盘旋转速度(rpm) 交错因子寻道时间旋转延迟时间北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 16 总存取时间(1) （1）数据连续存放，且给出了平均寻道时间。总存取时间 = [平均寻道时间] + [第一道读取时间] + (总磁道数–1)×[(第二次寻道时间)+(读取整道的时间)] = [平均寻道时间] + [(0.5圈延迟+交错因子) × 每圈所花时间] + (总磁道数–1) × [磁道转换时间+(0.5圈延迟+交错因子)×每圈所花时间] 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 17 总存取时间(2) （2）数据随机存放。总存取时间 = 簇数 × {[平均寻道时间]+[旋转延迟]+[读一簇时间]} = 簇数 × {[平均寻道时间] + [0.5圈延迟×每圈所花时间] + [交错因子×（每簇扇区数/每道扇区数）×每圈时间]} 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 18 例8.1 假定一个磁盘总容为 16.8GB，分布在10个盘片上。每个盘片上有13085个磁道，每个磁道中包含256个扇区，每个扇区512 个字节，每个簇8个扇区。扇区的交错因子是3。磁盘旋转速率是5400 rpm，磁道转换时间是2.2 ms，随机访问的平均寻道时间是9.5 ms

4 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 19 如果读取一个1MB的文件，该文件有2048个记录，每个记录有512字节（1个扇区）。对于以下两种情况，估算进行文件处理的总时间。（1）假定所有记录在8个连续磁道上；（2）假定文件簇随机地散布在磁盘上。北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 20 解：我们先总结出一些共有的特性每个簇为4KB 8个扇区＝ 512 byets × 8 ＝ 4KB 每个磁道有32簇 256个扇区＝ 256 扇区 ÷8（扇区/簇） = 32个簇每个盘片有1.68GB 16.8GB ÷ 10 = 1.68GB 每转一圈的时间为11.1ms (60×1000)ms/5400圈 = 11.1（ms/圈）= 11.1（ms/道）一个磁道是一个整圈，因此，下面计算公式中，所用的单位“圈”等同于“道” 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 21 数据连续存放，而且给出了平均寻道时间。总存取时间 = [平均寻道时间] + [(0.5圈延迟+交错因子) × 每圈所花时间] + (总磁道数–1) × [磁道转换时间+(0.5圈延迟+交错因子)×每圈所花时间] = [9.5ms（平均寻道时间）] + [(0.5（半圈旋转延迟） + 3（交错因子）)×11.1ms/圈 +（8-1）个其他磁道 × [2.2ms磁道转换时间+(0.5圈延迟+3交错因子)×11.1ms/圈] = 9.5ms + 48.4ms + 7 × 41.1ms = 335.7ms 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 22 数据随机存放总簇数：8个磁道 × 32(簇/磁道) = 256簇总存取时间 = 簇数 × {[平均寻道时间] + [0.5圈延迟×每圈所花时间] + [交错因子×（每簇扇区数/每道扇区数）×每圈时间]} = 256 ×{ [9.5ms（平均寻道时间）] + [0.5（半圈旋转延迟） ×11.1ms/圈] + [3(交错因子)×8(扇区/簇 /)÷256(扇区/道) ×11.1ms/圈]} ≈ 256 × {9.5 + 5.55 + 1.04} ≈ 4119.04 ms 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 23 定位并读一簇时间为： [平均寻道时间] + [0.5圈延迟×每圈所花时间] +读一簇数据时间 = [9.5ms(平均寻道)] + [0.5(半圈)×11.1ms/圈]+1.04 ≈ 9.5 + 5.55 + 1.04 = 16.09ms 其中，只是读一簇数据（不包括寻道定位等）的时间为 [3(交错因子)×8(扇区/簇/)÷256(扇区/道) ×11.1ms/圈] ≈ 1.04ms 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 24 读一个扇区的时间 [9.5ms(平均寻道时间)]+[0.5(半圈旋转延迟)×11.1ms/圈+[1扇区÷256(扇区/道) ×11.1ms/圈] ＝ 15.1ms 读一个字节的时间 [9.5ms(平均寻道时间)]+[0.5(半圈旋转延迟)×11.1ms/圈] ＝ 15.05ms “一次访外”操作磁盘一次I/O操作访问一个扇区，通常称为访问“一页”（page），或者“一块”(block)

6 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 31 文件的逻辑结构文件是记录的汇集当一个文件的各个记录按照某种次序排列起来时，各纪录间就自然地形成了一种线性关系。因而，文件可看成是一种线性结构。北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 32 文件的存储结构顺序结构——顺序文件计算寻址结构——散列文件带索引的结构——带索引文件北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 33 文件上的操作检索：在文件中寻找满足一定条件的记录修改：是指对记录中某些数据值进行修改。若对关键码值进行修改，这相当于删除加插入。插入：向文件中增加一个新记录。删除：从文件中删去一个记录。排序：对指定好的数据项，按其值的大小把文件中的记录排成序列，较常用的是按关键码值的排序。北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 34 C＋＋的流文件 C++程序员对随机访问文件的逻辑视图是一个单一的字节流，即字节数组。程序员需要管理标志文件当前位置的文件指针。常见的三个基本文件操作，都是围绕文件指针进行的：把文件指针设置到指定位置（移动文件指针）从文件的当前位置读取字节向文件中的当前位置写入字节北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 35 C＋＋操作二进制文件的常用方式——fstream类 fstream类提供函数操作可随机访问的磁盘文件中的信息。 fstream类的主要成员函数包括 open，close，read，write， seekg，seekp。北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 36 fstream类的主要函数成员 #include//fstream=ifstream+ofstream // 打开文件进行处理。 // 模式示例: ios::in | ios::binary void fstream::open(char* name, openmode mode); // 处理结束后关闭文件。 void fstream::close();

7 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 37 ftream类的主要函数成员（续1） // 从文件当前位置读入一些字节。 // 随着字节的读入，文件当前位置向前移动。 fstream::read(char* ptr, int numbytes); // 向文件当前位置写入一些字节 // (覆盖已经在这些位置的字节)。 // 随着字节的写入，文件当前位置向前移动。 fstream::write(char* ptr, int numbtyes); 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 38 ftream类的主要函数成员（续2） // seekg和seekp：在文件中移动当前位置， // 这样就可以在文件中的任何一个位置 // 读出或写入字节。 // 实际上有两个当前位置， //一个用于读出，另一个用于写入。 // 函数seekg用于改变读出位置， // 函数seekp用于改变写入位置 fstream::seekg(int pos); // 处理输入 fstream::seekg(int pos, ios::curr); fstream::seekp(int pos); // 处理输出 fstream::seekp(int pos, ios::end); 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 39 8.4缓冲区和缓冲池基本概念替换缓冲区的策略虚拟存储北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 40 缓冲目的：减少磁盘访问次数的方法：缓冲( buffering )或缓存 ( caching ) 在内存中保留尽可能多的块可以增加待访问的块已经在内存中的机会北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 41 缓冲区和缓冲池存储在一个缓冲区中的信息经常称为一页( page )，往往是一次 I/O的量缓冲区合起来称为缓冲池( buffer pool ) 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 42 替换缓冲区块的策略新的页块申请缓冲区时，把最近最不可能被再次引用的缓冲区释放来存放新页 “先进先出”(FIFO) “最不频繁使用”(LFU) “最近最少使用”(LRU)

8 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 43 虚拟存储虚拟存储( virtual memory ) 使得程序员能够使用比实际内存更大的内存空间。磁盘中存储虚拟存储器的全部的内容，根据存储器的访问需要把块读入内存缓冲池。北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 44 虚拟存储系统运行到某一时刻，虚拟地址空间中有5个页被读入到物理内存中，现在如果需要对地址为24k-28k的页进行访问，就必须替换掉当前物理内存中的一个页框。 0-4k 4k-8k 8k-12k 12k-16k 16k-20k 0-4k 4k-8k 8k-12k 12k-16k 16k-20k 20k-24k 24k-28k 28k-32k 32k-36k 36k-40k 虚拟地址空间物理内存地址 1 3 0 4 2 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 45 8.5 外排序基本概念置换选择排序二路外排序多路归并-----选择树北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 46 外排序( external sort ) 外存设备上(文件)的排序技术文件很大无法把整个文件的所有记录同时调入内存中进行排序，即无法进行内排序外部排序算法的主要目标是尽量减少读写磁盘的次数北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 47 关键码索引排序索引文件( index file )中关键码与指针一起存储指针标识相应记录在原数据文件中的位置对索引文件进行排序，所需要的I/O操作更少索引文件比整个数据文件小很多。在一个索引文件中，只针对关键码排序 ( key sort )。北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 48 磁盘排序过程顺串：用内排序方法对文件的各段进行初始排序，并存放在外存磁盘排序过程：文件分成若干尽可能长的初始顺串；逐步归并顺串归，最后形成一个已排序的文件

9 北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 49 8.5.1 置换选择排序扫描一遍使得所生成的各个顺串更长减少了初始顺串的个数目的：在合并顺串时减少对数据的扫描遍数北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 50 置换选择算法一个输入缓冲区一个输出缓冲区一个能存放M个记录的RAM内存块可以看成大小为M的连续数组北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 51 排序操作可以利用缓冲区，但只能在RAM中进行平均情况下，这种算法可以创建长度为2M个记录的顺串北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 52 置换选择方法图示产生一个顺串的过程 1. 在RAM中把待排序记录建立堆 2. 从输入文件读取一整块磁盘，存入输入缓冲区 3. 通过置换选择排序，把合适的数据写到输出缓冲区，缓冲区满则输出到一个磁盘块 4. 输入缓冲区空时，从输入文件读取下一块磁盘输入文件输入缓冲区 RAM 输出缓冲区输出顺串文件北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 53 置换选择算法 1. 初始化堆： (a) 从磁盘读M个记录放到数组RAM中。 (b) 设置堆末尾标准LAST ＝ M － 1。 (c) 建立一个最小值堆。北京大学信息学院张铭编写 ©版权所有，转载或翻印必究 Page 54 置换选择算法（续） 2. 重复以下步骤，直到堆为空（即LAST < 0）： (a) 把具有最小关键码值的记录(根结点)送到输出缓冲区。 (b) 设R是输入缓冲区中的下一条记录。如果R的关键码值大于刚刚输出的关键码值…… i. 那么把R放到根结点。 ii. 否则使用数组中LAST位置的记录代替根结点，然后把 R放到 LAST位置。设置 LAST ＝ LAST － 1。 (c)重新排列堆，筛出根结点

北京大学：《数据结构与算法》课程教学资源（实验班讲义）第八章 文件管理和外排序

北京大学：《数据结构与算法》课程教学资源（实验班讲义）第八章文件管理和外排序