高性能计算技术 43 CBR忽略了在一个段中数据块的顺序，避免了上面的问

点击下载：《高性能计算发展与应用》：重复数据删除技术研究进展（西安交通大学：姜晓夏、张兴军、王龙翔、伍卫国、董小社）

正在加载图片...

高性能计算技术43 CBR忽略了在一个段中数据块的顺序,避免了上面的DDFS采用RAD6,最多可容忍两个磁盘故障问题前的重复数据删除系统通过应用传统的副本为了在写的过程中减少数据在磁盘上分布的碎策略和纠错编码技术来实现可靠性。如何达到数据片化程度,确保恢复性能,现有的研究采用的都是缩减率和可靠性的平衡是一个具有挑战性的问题选择性去重,即以少量数据缩减率的损失换取读性能的提升。 3.6可扩展性研究 3)提出在恢复过程中提高性能的方法重复数据删除系统的可扩展性也是一个研究文献B4提出了一种高效的缓存和预取机制热点。去重最开始都在单节点上实现。但随着企业在恢复的过程中提升性能。之前在对恢复性能的研数据量的迅速增长,单个节点很快无法满足吞吐率究中广泛使用的是以 con taine为单位的LRU缓存四, 和容量要求。解决这一问题的方法之一是采用集群而在去重系统的恢复过程中,可以提前从文件元数存储,目前由数十甚至上百个存储节点构成大规模据中获取将要恢复的数据块。文献β4]利用这一特分布式存储系统在企业越来越普遍。集群存储具有性,减少对无用数据块的缓存,并且减少了同一个如下好处:①解除了单节点性能和容量上的限制 con tainer的换入换出次数,采用该机制在测试集上表②方便添加冗余节点和错误保障与恢复机制,以使现出的性能是LRU的1.2-4.3倍。系统可靠运行:③便于添加或删除存储节点,以适以往对重复数据删除技术的研究关注点在提高应存储容量的动态需求数据缩减率和提高系统吞吐率。但随着恢复时间窗文献⑦J9]B6]B7]B8]就重复数据删除技术在集口越来越小,数据量越来越大,保持恢复性能显得群存储中应用的可扩展性问题进行了研究。重复数至关重要。如何在保证数据缩减率的情况下改善数据删除系统的可扩展性研究主要需解决以下问题。据块的磁盘分布,提高数据的恢复性能是今后的 1)全局去重和局部去重个研究方向。在集群重复数据删除系统中,索引表分布在各个存储节点,由去重服务器转发指纹值到各个节点 3.5可靠性研究中进行重复检测。大多数的重复数据删除集群为了去重导致一个关键的数据块被很多文件共享保证性能,达不到与单节点时一样的数据缩减率。这一关键数据块的丢失会造成很多文件不可恢复由于每个节点中只存储了部分索引表,因此指纹值在用Del编码进行去重的系统中,一个原始版本的能进行部分比对,如果要与其他节点上的索引表文件很可能成为随后众多版本文件的参考文件,如进行比较,则需要与其他节点进行通信,这会带来果依赖树很深,那么关键的根节点的丢失会造成所较大的通信开销。一种解决方法是在每个节点用少有后续版本的损坏υ。如何在降低数据冗余度和提高量内存存储其他节点索引表的摘要,当自身查找不数据可靠性之间进行平衡,是重复数据删除技术研命中时,则查询其他节点在本地的索引表摘要。究中一个具有挑战性的问题B一些研究者提出通过 2)节点的动态添加和删除问题冗余复制技术域或者纠错编码技术以来增加去重好的集群存储系统,应该允许用户动态的添加系统的可靠性。和删除节点,以满足不断变化的容量和性能需求。文献B5]根据块的重要性程度进行副本添加和在用户添加存储节点的时候,现存各节点的副本分布。它假定每一个数据块至少有一个冗余哈希表和数据需要平滑的过渡到新的节点上,使各并且对引用次数非常高的数据块设置了最大冗余次节点的空间利用率和系统负载重新达到平衡。文献数。同一个块的冗余数据块存放在不同的设备,以B6冲中采用数据迁移的方法,在其他操作进行的过程确保一个设备的损坏不会导致同个块的多个副本损中透明的将旧的数据和索引表迁移到新的节点,重坏。而属于同一个文件的数据块则尽量放在一台设新达到负载平衡。同样,在用户删除一个节点时, 备中,以使设备的故障损坏尽可能少的文件这个节点中的数据也应该可以平滑的转移到其他的 HYDRAstor采用纠删码技术来增加系统可靠节点上。性。对于每个数据块,将其分成n个片,编码后形成 3)路由问题 m个片(m>n),将这m个片存储在不同的物理节点路由是指指纹值和数据块转发到各个重复数据上。只要保证皿个片里有任意n个正确,就可以正确检测和存储节点的策略。路由策略主要涉及到以下的恢复整个块。相比冗余复制技术,纠删码技术更两个问题。节省空间,但在存储和重建的过程中都需要大量的 i路由粒度计算,使Ⅰ路径变长,增加了系统设计的复杂度路由可以按照整个文件9、超级块、单个数据高性能计算技术 43 CBR忽略了在一个段中数据块的顺序，避免了上面的问题。为了在写的过程中减少数据在磁盘上分布的碎片化程度，确保恢复性能，现有的研究采用的都是选择性去重，即以少量数据缩减率的损失换取读性能的提升。 3) 提出在恢复过程中提高性能的方法文献[34]提出了一种高效的缓存和预取机制，在恢复的过程中提升性能。之前在对恢复性能的研究中广泛使用的是以container为单位的LRU缓存[22]，而在去重系统的恢复过程中，可以提前从文件元数据中获取将要恢复的数据块。文献[34]利用这一特性，减少对无用数据块的缓存，并且减少了同一个 container的换入换出次数，采用该机制在测试集上表现出的性能是LRU的1.2-4.3倍。以往对重复数据删除技术的研究关注点在提高数据缩减率和提高系统吞吐率。但随着恢复时间窗口越来越小，数据量越来越大，保持恢复性能显得至关重要。如何在保证数据缩减率的情况下改善数据块的磁盘分布，提高数据的恢复性能是今后的一个研究方向。 3.5 可靠性研究去重导致一个关键的数据块被很多文件共享，这一关键数据块的丢失会造成很多文件不可恢复[11]。在用Delta编码进行去重的系统中，一个原始版本的文件很可能成为随后众多版本文件的参考文件，如果依赖树很深，那么关键的根节点的丢失会造成所有后续版本的损坏[10]。如何在降低数据冗余度和提高数据可靠性之间进行平衡，是重复数据删除技术研究中一个具有挑战性的问题[2]。一些研究者提出通过冗余复制技术[10][17][35]或者纠错编码技术[7]来增加去重系统的可靠性。文献[35]根据块的重要性程度进行副本添加和副本分布。它假定每一个数据块至少有一个冗余，并且对引用次数非常高的数据块设置了最大冗余次数。同一个块的冗余数据块存放在不同的设备，以确保一个设备的损坏不会导致同个块的多个副本损坏。而属于同一个文件的数据块则尽量放在一台设备中，以使设备的故障损坏尽可能少的文件。 HYDRAstor[7]采用纠删码技术来增加系统可靠性。对于每个数据块，将其分成n个片，编码后形成 m个片（m>n），将这m个片存储在不同的物理节点上。只要保证m个片里有任意n个正确，就可以正确的恢复整个块。相比冗余复制技术，纠删码技术更节省空间，但在存储和重建的过程中都需要大量的计算，使I/O路径变长，增加了系统设计的复杂度。 DDFS采用RAID6[5]，最多可容忍两个磁盘故障。目前的重复数据删除系统通过应用传统的副本策略和纠错编码技术来实现可靠性。如何达到数据缩减率和可靠性的平衡是一个具有挑战性的问题。 3.6 可扩展性研究重复数据删除系统的可扩展性也是一个研究热点。去重最开始都在单节点上实现。但随着企业数据量的迅速增长，单个节点很快无法满足吞吐率和容量要求。解决这一问题的方法之一是采用集群存储，目前由数十甚至上百个存储节点构成大规模分布式存储系统在企业越来越普遍。集群存储具有如下好处：①解除了单节点性能和容量上的限制； ②方便添加冗余节点和错误保障与恢复机制，以使系统可靠运行；③便于添加或删除存储节点，以适应存储容量的动态需求。文献[7][19][36][37][38]就重复数据删除技术在集群存储中应用的可扩展性问题进行了研究。重复数据删除系统的可扩展性研究主要需解决以下问题。 1) 全局去重和局部去重在集群重复数据删除系统中，索引表分布在各个存储节点，由去重服务器转发指纹值到各个节点中进行重复检测。大多数的重复数据删除集群为了保证性能，达不到与单节点时一样的数据缩减率[36]。由于每个节点中只存储了部分索引表，因此指纹值只能进行部分比对，如果要与其他节点上的索引表进行比较，则需要与其他节点进行通信，这会带来较大的通信开销。一种解决方法是在每个节点用少量内存存储其他节点索引表的摘要，当自身查找不命中时，则查询其他节点在本地的索引表摘要[37]。 2) 节点的动态添加和删除问题好的集群存储系统，应该允许用户动态的添加和删除节点，以满足不断变化的容量和性能需求。在用户添加存储节点的时候，现存各节点的哈希表和数据需要平滑的过渡到新的节点上，使各节点的空间利用率和系统负载重新达到平衡。文献 [36]中采用数据迁移的方法，在其他操作进行的过程中透明的将旧的数据和索引表迁移到新的节点，重新达到负载平衡。同样，在用户删除一个节点时，这个节点中的数据也应该可以平滑的转移到其他的节点上。 3) 路由问题路由是指指纹值和数据块转发到各个重复数据检测和存储节点的策略。路由策略主要涉及到以下两个问题。 i. 路由粒度路由可以按照整个文件[19]、超级块[36]、单个数据

<<向上翻页向下翻页>>

点击下载：《高性能计算发展与应用》：重复数据删除技术研究进展（西安交通大学：姜晓夏、张兴军、王龙翔、伍卫国、董小社）