正在加载图片...
高性能计算技术43 CBR忽略了在一个段中数据块的顺序,避免了上面的DDFS采用RAD6,最多可容忍两个磁盘故障 问题 前的重复数据删除系统通过应用传统的副本 为了在写的过程中减少数据在磁盘上分布的碎策略和纠错编码技术来实现可靠性。如何达到数据 片化程度,确保恢复性能,现有的研究采用的都是缩减率和可靠性的平衡是一个具有挑战性的问题 选择性去重,即以少量数据缩减率的损失换取读性 能的提升。 3.6可扩展性研究 3)提出在恢复过程中提高性能的方法 重复数据删除系统的可扩展性也是一个研究 文献B4提出了一种高效的缓存和预取机制 热点。去重最开始都在单节点上实现。但随着企业 在恢复的过程中提升性能。之前在对恢复性能的研数据量的迅速增长,单个节点很快无法满足吞吐率 究中广泛使用的是以 con taine为单位的LRU缓存四, 和容量要求。解决这一问题的方法之一是采用集群 而在去重系统的恢复过程中,可以提前从文件元数存储,目前由数十甚至上百个存储节点构成大规模 据中获取将要恢复的数据块。文献β4]利用这一特分布式存储系统在企业越来越普遍。集群存储具有 性,减少对无用数据块的缓存,并且减少了同一个如下好处:①解除了单节点性能和容量上的限制 con tainer的换入换出次数,采用该机制在测试集上表②方便添加冗余节点和错误保障与恢复机制,以使 现出的性能是LRU的1.2-4.3倍。 系统可靠运行:③便于添加或删除存储节点,以适 以往对重复数据删除技术的研究关注点在提高应存储容量的动态需求 数据缩减率和提高系统吞吐率。但随着恢复时间窗 文献⑦J9]B6]B7]B8]就重复数据删除技术在集 口越来越小,数据量越来越大,保持恢复性能显得群存储中应用的可扩展性问题进行了研究。重复数 至关重要。如何在保证数据缩减率的情况下改善数据删除系统的可扩展性研究主要需解决以下问题。 据块的磁盘分布,提高数据的恢复性能是今后的 1)全局去重和局部去重 个研究方向。 在集群重复数据删除系统中,索引表分布在各 个存储节点,由去重服务器转发指纹值到各个节点 3.5可靠性研究 中进行重复检测。大多数的重复数据删除集群为了 去重导致一个关键的数据块被很多文件共享 保证性能,达不到与单节点时一样的数据缩减率。 这一关键数据块的丢失会造成很多文件不可恢复 由于每个节点中只存储了部分索引表,因此指纹值 在用Del编码进行去重的系统中,一个原始版本的能进行部分比对,如果要与其他节点上的索引表 文件很可能成为随后众多版本文件的参考文件,如进行比较,则需要与其他节点进行通信,这会带来 果依赖树很深,那么关键的根节点的丢失会造成所较大的通信开销。一种解决方法是在每个节点用少 有后续版本的损坏υ。如何在降低数据冗余度和提高量内存存储其他节点索引表的摘要,当自身查找不 数据可靠性之间进行平衡,是重复数据删除技术研命中时,则查询其他节点在本地的索引表摘要。 究中一个具有挑战性的问题B一些研究者提出通过 2)节点的动态添加和删除问题 冗余复制技术域或者纠错编码技术以来增加去重 好的集群存储系统,应该允许用户动态的添加 系统的可靠性。 和删除节点,以满足不断变化的容量和性能需求。 文献B5]根据块的重要性程度进行副本添加和 在用户添加存储节点的时候,现存各节点的 副本分布。它假定每一个数据块至少有一个冗余 哈希表和数据需要平滑的过渡到新的节点上,使各 并且对引用次数非常高的数据块设置了最大冗余次节点的空间利用率和系统负载重新达到平衡。文献 数。同一个块的冗余数据块存放在不同的设备,以B6冲中采用数据迁移的方法,在其他操作进行的过程 确保一个设备的损坏不会导致同个块的多个副本损中透明的将旧的数据和索引表迁移到新的节点,重 坏。而属于同一个文件的数据块则尽量放在一台设新达到负载平衡。同样,在用户删除一个节点时, 备中,以使设备的故障损坏尽可能少的文件 这个节点中的数据也应该可以平滑的转移到其他的 HYDRAstor采用纠删码技术来增加系统可靠节点上。 性。对于每个数据块,将其分成n个片,编码后形成 3)路由问题 m个片(m>n),将这m个片存储在不同的物理节点 路由是指指纹值和数据块转发到各个重复数据 上。只要保证皿个片里有任意n个正确,就可以正确检测和存储节点的策略。路由策略主要涉及到以下 的恢复整个块。相比冗余复制技术,纠删码技术更两个问题。 节省空间,但在存储和重建的过程中都需要大量的 i路由粒度 计算,使Ⅰ路径变长,增加了系统设计的复杂度 路由可以按照整个文件9、超级块、单个数据高性能计算技术 43 CBR忽略了在一个段中数据块的顺序,避免了上面的 问题。 为了在写的过程中减少数据在磁盘上分布的碎 片化程度,确保恢复性能,现有的研究采用的都是 选择性去重,即以少量数据缩减率的损失换取读性 能的提升。 3) 提出在恢复过程中提高性能的方法 文献[34]提出了一种高效的缓存和预取机制, 在恢复的过程中提升性能。之前在对恢复性能的研 究中广泛使用的是以container为单位的LRU缓存[22], 而在去重系统的恢复过程中,可以提前从文件元数 据中获取将要恢复的数据块。文献[34]利用这一特 性,减少对无用数据块的缓存,并且减少了同一个 container的换入换出次数,采用该机制在测试集上表 现出的性能是LRU的1.2-4.3倍。 以往对重复数据删除技术的研究关注点在提高 数据缩减率和提高系统吞吐率。但随着恢复时间窗 口越来越小,数据量越来越大,保持恢复性能显得 至关重要。如何在保证数据缩减率的情况下改善数 据块的磁盘分布,提高数据的恢复性能是今后的一 个研究方向。 3.5 可靠性研究 去重导致一个关键的数据块被很多文件共享, 这一关键数据块的丢失会造成很多文件不可恢复[11]。 在用Delta编码进行去重的系统中,一个原始版本的 文件很可能成为随后众多版本文件的参考文件,如 果依赖树很深,那么关键的根节点的丢失会造成所 有后续版本的损坏[10]。如何在降低数据冗余度和提高 数据可靠性之间进行平衡,是重复数据删除技术研 究中一个具有挑战性的问题[2]。一些研究者提出通过 冗余复制技术[10][17][35]或者纠错编码技术[7]来增加去重 系统的可靠性。 文献[35]根据块的重要性程度进行副本添加和 副本分布。它假定每一个数据块至少有一个冗余, 并且对引用次数非常高的数据块设置了最大冗余次 数。同一个块的冗余数据块存放在不同的设备,以 确保一个设备的损坏不会导致同个块的多个副本损 坏。而属于同一个文件的数据块则尽量放在一台设 备中,以使设备的故障损坏尽可能少的文件。 HYDRAstor[7]采用纠删码技术来增加系统可靠 性。对于每个数据块,将其分成n个片,编码后形成 m个片(m>n),将这m个片存储在不同的物理节点 上。只要保证m个片里有任意n个正确,就可以正确 的恢复整个块。相比冗余复制技术,纠删码技术更 节省空间,但在存储和重建的过程中都需要大量的 计算,使I/O路径变长,增加了系统设计的复杂度。 DDFS采用RAID6[5],最多可容忍两个磁盘故障。 目前的重复数据删除系统通过应用传统的副本 策略和纠错编码技术来实现可靠性。如何达到数据 缩减率和可靠性的平衡是一个具有挑战性的问题。 3.6 可扩展性研究 重复数据删除系统的可扩展性也是一个研究 热点。去重最开始都在单节点上实现。但随着企业 数据量的迅速增长,单个节点很快无法满足吞吐率 和容量要求。解决这一问题的方法之一是采用集群 存储,目前由数十甚至上百个存储节点构成大规模 分布式存储系统在企业越来越普遍。集群存储具有 如下好处:①解除了单节点性能和容量上的限制; ②方便添加冗余节点和错误保障与恢复机制,以使 系统可靠运行;③便于添加或删除存储节点,以适 应存储容量的动态需求。 文献[7][19][36][37][38]就重复数据删除技术在集 群存储中应用的可扩展性问题进行了研究。重复数 据删除系统的可扩展性研究主要需解决以下问题。 1) 全局去重和局部去重 在集群重复数据删除系统中,索引表分布在各 个存储节点,由去重服务器转发指纹值到各个节点 中进行重复检测。大多数的重复数据删除集群为了 保证性能,达不到与单节点时一样的数据缩减率[36]。 由于每个节点中只存储了部分索引表,因此指纹值 只能进行部分比对,如果要与其他节点上的索引表 进行比较,则需要与其他节点进行通信,这会带来 较大的通信开销。一种解决方法是在每个节点用少 量内存存储其他节点索引表的摘要,当自身查找不 命中时,则查询其他节点在本地的索引表摘要[37]。 2) 节点的动态添加和删除问题 好的集群存储系统,应该允许用户动态的添加 和删除节点,以满足不断变化的容量和性能需求。 在用户添加存储节点的时候,现存各节点的 哈希表和数据需要平滑的过渡到新的节点上,使各 节点的空间利用率和系统负载重新达到平衡。文献 [36]中采用数据迁移的方法,在其他操作进行的过程 中透明的将旧的数据和索引表迁移到新的节点,重 新达到负载平衡。同样,在用户删除一个节点时, 这个节点中的数据也应该可以平滑的转移到其他的 节点上。 3) 路由问题 路由是指指纹值和数据块转发到各个重复数据 检测和存储节点的策略。路由策略主要涉及到以下 两个问题。 i. 路由粒度 路由可以按照整个文件[19]、超级块[36]、单个数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有