38 《高性能计算发展与应用》 2014年第三期总第四十八期额外产生的

点击下载：《高性能计算发展与应用》：重复数据删除技术研究进展（西安交通大学：姜晓夏、张兴军、王龙翔、伍卫国、董小社）

正在加载图片...

38<性能计算发展与应用2年第三总第四十人朋额外产生的元数据s之和。其中,元数据s包括两部2.2重复检测分:记录文件对应哈希序列的元数据和索引表元数重复检测这一过程非常关键。它是将计算好据。对于同一个数据集,越大,重复数据删除效果的各指纹值与己存储的数据的指纹值进行比较的过越好程。去重系统需要维持一张索引表以供查询,其中重复数据删除系统的吞吐率也是一个重要的衡每个索引项记录了一个指纹以及该指纹对应的数据量指标,这里说的吞吐率是写吞吐率。吞吐率衡量内容在磁盘上的存储位置和引用次数。对于数据量了单位时间内被重复数据删除系统所处理和存储的大的系统,完整的索引表需要存储在磁盘上,加载逻辑数据量。相比于一般的存储系统,重复数据删到内存中的索引项通常以散列表或者B+树的形式进除系统可能会因为引入的额外计算和查询过程造成行组织,以加快查询速度。在内存查询不命中时需吞吐率的降低,但是也有可能因为减少了大量重复要进行随机的磁盘访问,因此在数据量大的时候, 数据的实际读写过程而使吞吐率增大。目前有很多重复检测过程是去重系统的性能瓶颈。研究专注于提高系统的吞吐率b9。通过查询索引表,可以获取指纹值是否已经存重复数据删除系统的读性能可以用单位时间在的信息。对于已经存在的指纹值,不再进行对应内从去重系统读取的数据量来度量。由于数据块共数据内容的存储,只是更新索引项中数据块的引用享,逻辑上连续的数据经过去重后在物理上不再连次数:对于新的指纹值,进行数据存储和元数据更续,因此重复数据删除系统的数据读取速度比一般新。在冗余消除的过程中,有的时候为了降低数据的存储系统要差。对于二级存储,读取速度即恢复块分布的碎片化程度,会进行选择性的消除,以保速度,决定了系统是否能在要求的恢复时间窗口完持数据恢复性能2。成数据恢复:对于主存储系统则决定了系统的读延。针对提高恢复速度也开展了大量研究u5m。2.3数据存储对于上一步重复检测判断为不存在的指纹,需 2.重复数据删除的一般过程将其数据内容和元数据信息写入磁盘。元数据信息重复数据删除的一般执行过程可以划分成即一个索引项的全部内容,包括指纹值、数据块位个阶段。首先对接收到的数据流进行划分和指纹计置、引用次数。如果以数据块或者索引项为单位进算,然后对获得的指纹值进行重复检测,最后根据行写入,则会引起大量的随机I 检测的结果进行相应的数据存储或者元数据更新操在一些利用数据流的重复局部性进行性能优化的系统中,数据内容和元数据以 con tainer为单位进行存储和读写B。 Con taine是一个自治的单位,大小 2.1数据划分和指纹计算般能够存放一千到几千个数据块及它们对应的元在这一阶段,首先根据预先设定好的策略对数数据。经检测为不重复的数据,先写入内存中为该据进行划分,然后对划分好的数据单元(可以是文数据流开放的 con tainer缓存中,如果 con tainer已满则件、或者数据块)分别计算指纹,最后记录构成每将其整个写到磁盘中。恢复过程中也是以 con tainer为个文件的指纹序列。单位加载数据和元数据。这么做的目的有四:第指纹是指利用抗冲突特性好的哈希算法(如,充当写缓存,避免了过多的磁盘随机I0:第 SHA-1,MD5)对数据内容计算得到的一个固定长二, con tainer中的数据和元数据都维持了数据流的逻度的值,该值可以用来唯一标识数据内容。在判别辑顺序,存在数据流重复局部性:第三,在读的时数据单元内容是否相同的时候,采用逐字节的方法候以 con tainer为单位进行预取,可以提高缓存命中本身比对过程慢,而且需要先将原先存储的内容读率;第四,合理的 Icon taine大小可以使底层的RAD达出,对系统吞吐率影响非常大師。因此,重复数据删到全条带写。除系统通过指纹来判断数据内容的相同与否。对于一个EB级的存储系统,采用160位的SHA 3.重复数据删除技术研究现状 1算法,发生哈希冲突的概率在10-2以下B。如果未对重复数据删除技术的研究集中在以下几个方来数据量继续增大,可以选择位数更多的哈希算法面降低哈希冲突的概率,NST提供了256、384、512位 1)数据集研究的SHA算法。因此两个指纹值相同的数据块或者文件对于不同应用场景下数据集特征的研究对设计可以被认为完全相同。存储系统来说非常重要。 M icrosof2和EMC分别对主存储和二级存储文件系统上的文件的一般特征进38 《高性能计算发展与应用》 2014年第三期总第四十八期额外产生的元数据sm之和。其中，元数据sm包括两部分：记录文件对应哈希序列的元数据和索引表元数据。对于同一个数据集，r越大，重复数据删除效果越好。重复数据删除系统的吞吐率也是一个重要的衡量指标，这里说的吞吐率是写吞吐率。吞吐率衡量了单位时间内被重复数据删除系统所处理和存储的逻辑数据量。相比于一般的存储系统，重复数据删除系统可能会因为引入的额外计算和查询过程造成吞吐率的降低，但是也有可能因为减少了大量重复数据的实际读写过程而使吞吐率增大。目前有很多研究专注于提高系统的吞吐率[5][6][7][8][19][20]。重复数据删除系统的读性能可以用单位时间内从去重系统读取的数据量来度量。由于数据块共享，逻辑上连续的数据经过去重后在物理上不再连续，因此重复数据删除系统的数据读取速度比一般的存储系统要差。对于二级存储，读取速度即恢复速度，决定了系统是否能在要求的恢复时间窗口完成数据恢复；对于主存储系统则决定了系统的读延迟。针对提高恢复速度也开展了大量研究[15][21][22][23]。 2. 重复数据删除的一般过程重复数据删除的一般执行过程可以划分成三个阶段。首先对接收到的数据流进行划分和指纹计算，然后对获得的指纹值进行重复检测，最后根据检测的结果进行相应的数据存储或者元数据更新操作。 2.1 数据划分和指纹计算在这一阶段，首先根据预先设定好的策略对数据进行划分，然后对划分好的数据单元（可以是文件、或者数据块）分别计算指纹，最后记录构成每个文件的指纹序列。指纹是指利用抗冲突特性好的哈希算法（如 SHA-1，MD5）对数据内容计算得到的一个固定长度的值，该值可以用来唯一标识数据内容。在判别数据单元内容是否相同的时候，采用逐字节的方法本身比对过程慢，而且需要先将原先存储的内容读出，对系统吞吐率影响非常大[5]。因此，重复数据删除系统通过指纹来判断数据内容的相同与否。对于一个EB级的存储系统，采用160位的SHA- 1算法，发生哈希冲突的概率在10-20以下[37]。如果未来数据量继续增大，可以选择位数更多的哈希算法降低哈希冲突的概率，NIST提供了256、384、512位的SHA算法。因此两个指纹值相同的数据块或者文件可以被认为完全相同。 2.2 重复检测重复检测这一过程非常关键。它是将计算好的各指纹值与已存储的数据的指纹值进行比较的过程。去重系统需要维持一张索引表以供查询，其中每个索引项记录了一个指纹以及该指纹对应的数据内容在磁盘上的存储位置和引用次数。对于数据量大的系统，完整的索引表需要存储在磁盘上，加载到内存中的索引项通常以散列表或者B+树的形式进行组织，以加快查询速度。在内存查询不命中时需要进行随机的磁盘访问，因此在数据量大的时候，重复检测过程是去重系统的性能瓶颈[14]。通过查询索引表，可以获取指纹值是否已经存在的信息。对于已经存在的指纹值，不再进行对应数据内容的存储，只是更新索引项中数据块的引用次数；对于新的指纹值，进行数据存储和元数据更新。在冗余消除的过程中，有的时候为了降低数据块分布的碎片化程度，会进行选择性的消除，以保持数据恢复性能[22][23]。 2.3 数据存储对于上一步重复检测判断为不存在的指纹，需将其数据内容和元数据信息写入磁盘。元数据信息即一个索引项的全部内容，包括指纹值、数据块位置、引用次数。如果以数据块或者索引项为单位进行写入，则会引起大量的随机I/O。在一些利用数据流的重复局部性进行性能优化的系统中，数据内容和元数据以container为单位进行存储和读写[5][6][24]。Container是一个自治的单位，大小一般能够存放一千到几千个数据块及它们对应的元数据。经检测为不重复的数据，先写入内存中为该数据流开放的container缓存中，如果container已满则将其整个写到磁盘中。恢复过程中也是以container为单位加载数据和元数据。这么做的目的有四：第一，充当写缓存，避免了过多的磁盘随机I/O；第二，container中的数据和元数据都维持了数据流的逻辑顺序，存在数据流重复局部性；第三，在读的时候以container为单位进行预取，可以提高缓存命中率；第四，合理的container大小可以使底层的RAID达到全条带写。 3. 重复数据删除技术研究现状对重复数据删除技术的研究集中在以下几个方面。 1) 数据集研究对于不同应用场景下数据集特征的研究对设计存储系统来说非常重要。Microsoft[25]和EMC[26]分别对主存储和二级存储文件系统上的文件的一般特征进

<<向上翻页向下翻页>>

点击下载：《高性能计算发展与应用》：重复数据删除技术研究进展（西安交通大学：姜晓夏、张兴军、王龙翔、伍卫国、董小社）