高性能计算技术 41 的校验和与指纹值，以及与它们对应的位置信息，因此元

点击下载：《高性能计算发展与应用》：重复数据删除技术研究进展（西安交通大学：姜晓夏、张兴军、王龙翔、伍卫国、董小社）

正在加载图片...

高性能计算技术41 因此元数据量比以上两种方法都要多置信息的校验和与指纹值,以及与它们对应的位置采用 B loom Filter技术,对索引表进行全局抽象。 B loom Filter占用空间小,可以常驻内存,插入和查 5)基于应用的分块询时间都是常数。对于 B loom filter判断为不存在的以上的几种数据划分方法都是通用的,没有指纹,可以直接认为其在索引表中也不存在;对于考虑到数据的语义。如果考虑到不同文件格式的差 Bloom filter判断为存在的指纹,需访问索引表进行进异,为不同的文件类型设计专用的数据划分方法一步验证。采用 Bloom filter有效的避免了对新指纹进就能够获取更高的数据缩减率。 ADMAD眵是一个基行査询时的磁盘访问。 DBLK DE主存储系统提出了于应用的去重归档系统。 ADMAD对于文件的划分是多层 Bloom filter,以使用少量内存存储尽量多的索引与应用相关的,即理解文件语义的。它利用文件的信息元数据,对不同数据类型的文件自动选择与之适应 2)利用数据流重复局部性进行优化的分块策略,并针对MP3,FLV,HTML和 Em ail等文在传统的磁盘到磁盘的备份中,备份客户端将件类型设计了不同的分块策略,实验表明基于应用目录树合并成大文件,或者是客户端产生满足虚拟分块相对于基于内容分块能够获得更高的数据缩减磁带库协议的文件0。以备份操作为例,第一次备份率B。中同一个文件夹下有B、C、D这三个文件。假设按照 6)Delt编码技术 B、C、D的顺序进行处理和存储,那么在后续的备份 Del编码是以字节为粒度进行重复数据删除的中,有极大的可能性B的后面接着C、D文件。在文件技术。采用 shingling、 B lom Filter等相似性检测技术的内部也存在着重复局部性,一个文件可能包含成检测数据的相似性:然后对相似度超过某个阈值的千上万个数据块,即使文件有修改,这些数据块在数据采用 Delta编码的方法,存储一个块相对于基准后续的备份中也有极大的可能性一起出现b。数据块的变化部分。由于Del编码进行数据比对的粒流的重复局部性在这种传统的以任务为粒度的备份度最小,其数据缩减率最高。Dela编码可以作为重中表现得较为明显,对于新型的备份操作,即以单复块检测技术的补充,对于检测为相似的数据块进个文件为粒度的备份操作,或者是增量备份,这种行进一步的编码。但是块的重建会降低系统读取数局部性表现较弱据的性能。数据流的重复局部性对于设计高效的去重系统去重系统的数据缩减率与几个因素有关:第有如下启发。在上面的例子中,如果将B、C、D这数据本身的冗余程度:第二,数据划分策略个文件的索引项连续存放,那么在查询B文件块合适的边界点能够识别出更多的冗余数据块:第指纹的时候,可以连续加载一大段索引表到内存 ,数据块的平均大小,更小的数据块意味着检测这样,对于C和D的指纹查找也极有可能在缓存中命重复的粒度更细,但同时意味着更高的元数据开销中,减少了随机访问磁盘的次数。目前利用数据流和计算开销。在以上提出的不同的数据划分算法的重复局部性减轻磁盘访问瓶颈的系统有很多,以中,WFC和FSC主要被应用于主存储中,而在二级存 EM C Data dom ain系列产品的DDFS和HPD2D产品的储的产品和研究中几乎都用CDC或者其改进算法。 Sparse Indexing技术为代表 DDFS采用了摘要向量,SBL技术,以及保持局 33减轻磁盘索引瓶颈部性的缓存策略LPC,使査询过程中的访问磁盘操作指纹值查询是去重检测过程中关键的一步减少了99%。DDFS将逻辑上连续的数据块在磁盘上在数据量小的时候,整个索引表可以放在内存中连续存放,其对应的索引项也连续存放,以保持数只要索引表在内存中采用的组织方式合理,查询时据流的重复局部性,称为SISL。SISL配合高命中率的间就可以控制在常数范围,并且实现全局去重。但缓存LPC,有效地减少了代价是,索引表会随着数据量的增加而线性增长。对于 HP的D2D备份系统采用基于数据流局部性的稀 8TB的数据,以4KB大小分块,每个索引项40字节疏索引技术。 Sparse Indexing将到达的数据流划分成仅指纹值就要占用80GB的空间。当索引表大到无法相对较大的段,每个段只相对于最为相似的几个段装到内存中时,查询过程就要进行磁盘访问,这种做重复检测。当两个段有多个样本相似的时候,认频繁的随机访问过程成为去重过程的瓶颈为这两个段相似。这种方法减少了指纹查询的比较 )利用 Bloom filter进行优化范围,是一种局部去重的方法。在获得相同数据缩 Ⅴent采用索引缓存和块缓存来减少磁盘访问减量的情况下,采用 Sparse Indexing技术相对DDFS内次数,但是由于哈希值分布的随机性,缓存命中率存用量更小。非常低。 Data dom ain5、 HYDRA stor、 Foundation0 3)利用文件相似性进行L0优化高性能计算技术 41 的校验和与指纹值，以及与它们对应的位置信息，因此元数据量比以上两种方法都要多[17]。 5) 基于应用的分块以上的几种数据划分方法都是通用的，没有考虑到数据的语义。如果考虑到不同文件格式的差异，为不同的文件类型设计专用的数据划分方法，就能够获取更高的数据缩减率。ADMAD[9]是一个基于应用的去重归档系统。ADMAD对于文件的划分是与应用相关的，即理解文件语义的。它利用文件的元数据，对不同数据类型的文件自动选择与之适应的分块策略，并针对MP3，FLV，HTML和Email等文件类型设计了不同的分块策略，实验表明基于应用分块相对于基于内容分块能够获得更高的数据缩减率[9]。 6) Delta编码技术 Delta编码是以字节为粒度进行重复数据删除的技术。采用shingling、Bloom Filter等相似性检测技术检测数据的相似性；然后对相似度超过某个阈值的数据采用Delta编码的方法，存储一个块相对于基准块的变化部分[11]。由于Delta编码进行数据比对的粒度最小，其数据缩减率最高。Delta编码可以作为重复块检测技术的补充，对于检测为相似的数据块进行进一步的编码。但是块的重建会降低系统读取数据的性能。去重系统的数据缩减率与几个因素有关：第一，数据本身的冗余程度；第二，数据划分策略，合适的边界点能够识别出更多的冗余数据块；第三，数据块的平均大小，更小的数据块意味着检测重复的粒度更细，但同时意味着更高的元数据开销和计算开销。在以上提出的不同的数据划分算法中，WFC和FSC主要被应用于主存储中，而在二级存储的产品和研究中几乎都用CDC或者其改进算法。 3.3 减轻磁盘索引瓶颈指纹值查询是去重检测过程中关键的一步。在数据量小的时候，整个索引表可以放在内存中，只要索引表在内存中采用的组织方式合理，查询时间就可以控制在常数范围，并且实现全局去重。但是，索引表会随着数据量的增加而线性增长。对于 8TB的数据，以4KB大小分块，每个索引项40字节，仅指纹值就要占用80GB的空间。当索引表大到无法装到内存中时，查询过程就要进行磁盘访问，这种频繁的随机访问过程成为去重过程的瓶颈。 1) 利用Bloom Filter进行优化 Venti[14]采用索引缓存和块缓存来减少磁盘访问次数，但是由于哈希值分布的随机性，缓存命中率非常低。Data Domain[5]、HYDRAstor[7]、Foundation[40] 采用Bloom Filter[46]技术，对索引表进行全局抽象。 Bloom Filter占用空间小，可以常驻内存，插入和查询时间都是常数。对于Bloom Filter判断为不存在的指纹，可以直接认为其在索引表中也不存在；对于 Bloom Filter判断为存在的指纹，需访问索引表进行进一步验证。采用Bloom Filter有效的避免了对新指纹进行查询时的磁盘访问[5]。DBLK[16]主存储系统提出了多层Bloom Filter，以使用少量内存存储尽量多的索引信息。 2) 利用数据流重复局部性进行I/O优化在传统的磁盘到磁盘的备份中，备份客户端将目录树合并成大文件，或者是客户端产生满足虚拟磁带库协议的文件[19]。以备份操作为例，第一次备份中同一个文件夹下有B、C、D这三个文件。假设按照 B、C、D的顺序进行处理和存储，那么在后续的备份中，有极大的可能性B的后面接着C、D文件。在文件的内部也存在着重复局部性，一个文件可能包含成千上万个数据块，即使文件有修改，这些数据块在后续的备份中也有极大的可能性一起出现[5][6]。数据流的重复局部性在这种传统的以任务为粒度的备份中表现得较为明显，对于新型的备份操作，即以单个文件为粒度的备份操作，或者是增量备份，这种局部性表现较弱[19]。数据流的重复局部性对于设计高效的去重系统有如下启发。在上面的例子中，如果将B、C、D这三个文件的索引项连续存放，那么在查询B文件块指纹的时候，可以连续加载一大段索引表到内存。这样，对于C和D的指纹查找也极有可能在缓存中命中，减少了随机访问磁盘的次数。目前利用数据流的重复局部性减轻磁盘访问瓶颈的系统有很多，以 EMC Data Domain系列产品的DDFS[5]和HP D2D产品的 Sparse Indexing[6]技术为代表。 DDFS采用了摘要向量，SISL技术，以及保持局部性的缓存策略LPC，使查询过程中的访问磁盘操作减少了99%[5]。DDFS将逻辑上连续的数据块在磁盘上连续存放，其对应的索引项也连续存放，以保持数据流的重复局部性，称为SISL。SISL配合高命中率的缓存LPC，有效地减少了I/O代价。 HP的D2D备份系统采用基于数据流局部性的稀疏索引技术。Sparse Indexing[6]将到达的数据流划分成相对较大的段，每个段只相对于最为相似的几个段做重复检测。当两个段有多个样本相似的时候，认为这两个段相似。这种方法减少了指纹查询的比较范围，是一种局部去重的方法。在获得相同数据缩减量的情况下，采用Sparse Indexing技术相对DDFS内存用量更小。 3) 利用文件相似性进行I/O优化

<<向上翻页向下翻页>>

点击下载：《高性能计算发展与应用》：重复数据删除技术研究进展（西安交通大学：姜晓夏、张兴军、王龙翔、伍卫国、董小社）