华为OceanStor 9000大数据存储系统技术白皮书

更新时间:2024-06-23 12:33:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

OceanStor 9000大数据存储系统

技术白皮书

文档版本 发布日期

01 2015-06-27

华为技术有限公司

版权所有 ? 华为技术有限公司2015。 保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司

地址: 网址: 客户服务邮箱:

深圳市龙岗区坂田华为总部办公楼 邮编:518129 http://support.huawei.com/enterprise ChinaEnterprise_TAC@huawei.com

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

i

OceanStor 9000大数据存储系统技术白皮书 目 录

目 录

1 概述 ............................................................................................................................................ 1 2 OceanStor 9000大数据存储系统架构 ...................................................................................... 2

2.1 产品逻辑结构 .......................................................................................................................................... 2 2.2 OceanStor DFS分布式文件系统 .............................................................................................................. 3 2.3 存储硬盘 ................................................................................................................................................. 4 2.4 交换设备 ................................................................................................................................................. 4 2.5 管理子系统 .............................................................................................................................................. 4

3 组网及环境要求......................................................................................................................... 6

3.1 组网概述 ................................................................................................................................................. 6 3.2 10GE组网描述(前端和后端网络均采用10GE组网) ......................................................................... 6 3.3 IB组网描述(前端和后端网络均采用IB组网) ................................................................................... 7 3.4 前端10GE后端IB组网描述(前端网络采用10GE,后端网络采用IB)........................................... 8 3.5 系统运行环境 .......................................................................................................................................... 8

4 软件特性 .................................................................................................................................... 9

4.1 OceanStor DFS分布式文件系统 .............................................................................................................. 9

4.1.1 技术背景......................................................................................................................................... 9 4.1.2 技术原理........................................................................................................................................10 4.1.3 技术特点........................................................................................................................................ 11 4.1.4 客户价值........................................................................................................................................12 4.2 分布式数据可靠技术 .............................................................................................................................12

4.2.1 技术背景........................................................................................................................................12 4.2.2 技术原理........................................................................................................................................15 4.2.3 技术特点........................................................................................................................................16 4.2.4 客户价值........................................................................................................................................17 4.3 全局缓存 ................................................................................................................................................18

4.3.1 技术背景........................................................................................................................................18 4.3.2 组成要素........................................................................................................................................18 4.3.3 技术原理........................................................................................................................................19 4.3.4 客户价值........................................................................................................................................20 4.4 负载均衡技术 .........................................................................................................................................21 文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

ii

OceanStor 9000大数据存储系统技术白皮书 目 录

4.4.1 技术背景........................................................................................................................................21 4.4.2 技术原理........................................................................................................................................22 4.4.3 技术特点........................................................................................................................................22 4.4.4 客户价值........................................................................................................................................28 4.5 动态分级存储技术 .................................................................................................................................28

4.5.1 技术背景........................................................................................................................................28 4.5.2 技术原理........................................................................................................................................29 4.5.3 技术特点........................................................................................................................................30 4.5.4 客户价值........................................................................................................................................30 4.6 配额管理技术 .........................................................................................................................................31

4.6.1 技术背景........................................................................................................................................31 4.6.2 技术原理........................................................................................................................................32 4.6.3 技术特点........................................................................................................................................32 4.6.4 客户价值........................................................................................................................................34 4.7 快照技术 ................................................................................................................................................34

4.7.1 技术背景........................................................................................................................................34 4.7.2 技术原理........................................................................................................................................34 4.7.3 技术特点........................................................................................................................................35 4.7.4 客户价值........................................................................................................................................36 4.8 远程复制技术 .........................................................................................................................................36

4.8.1 技术背景........................................................................................................................................36 4.8.2 技术原理........................................................................................................................................37 4.8.3 技术特点........................................................................................................................................38 4.8.4 客户价值........................................................................................................................................40 4.9 WORM技术 ............................................................................................................................................41

4.9.1 技术背景........................................................................................................................................41 4.9.2 技术原理........................................................................................................................................41 4.10 技术特点...............................................................................................................................................42 4.11 客户价值 ...............................................................................................................................................43

5 缩略语和术语 .......................................................................................................................... 44

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

iii

OceanStor 9000大数据存储系统技术白皮书 1 概述

1 分布式NAS系统具有高扩展、高可靠、高性能、易管理等特点。 ? 具备在每个节点上都提供NAS服务的能力,减少瓶颈点的发生。

提升。

概述

? 将大量节点组织成统一系统,提供增删节点的能力,大大增加了系统可扩展性。 ? 将数据分片打散到系统内多个节点的硬盘上,分布式NAS的可靠性大大提升。

? 在大容量需求下分布式NAS不需要部署多套,管理界面只有一个,可维护性大大

华为OceanStor 9000大数据存储系统是华为自研的针对大数据的存储系统,本文档将介绍其技术的相关细节。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

1

OceanStor 9000大数据存储系统技术白皮书 3 组网及环境要求

图3-2 前端和后端网络均采用10GE交换机组网方案示意

组网说明:

?

当OceanStor 9000使用10GE组网时,前端网络对接用户10GE交换网后端网络使用内部10GE交换机。前后端交换机冗余配置。

GE交换机通过网线连接管理网口和IPMI网口,仅用于管理维护。

?

3.3 IB组网描述(前端和后端网络均采用IB组网)

前后端均采用IB交换机组网的典型配置方案如图3-3所示。 图3-3 前端和后端网络均采用IB交换机组网方案示意

组网说明:

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

7

OceanStor 9000大数据存储系统技术白皮书

?

3 组网及环境要求

当OceanStor 9000使用全IB组网时,前端网络对接用户IB交换网后端网络使用内部IB交换机。前后端交换机冗余配置。

GE交换机通过网线连接管理网口和IPMI网口,仅用于管理维护。

?

3.4 前端10GE后端IB组网描述(前端网络采用10GE,后端网络采用IB)

前端网络采用10GE交换机,后端网络采用IB交换机组网的典型配置方案如图3-4所示。

图3-4 前端网络采用10GE交换机,后端网络采用IB交换机组网方案示意

组网说明:

?

前端网络使用10GE交换机,后端网络使用InfiniBand交换机。前后端交换机冗余配置。

GE交换机通过网线连接管理网口和IPMI网口,仅用于管理维护。

?

3.5 系统运行环境

OceanStor 9000大数据存储系统通过NFS共享、CIFS共享等方式为用户提供文件服务。对最终用户来说,OceanStor 9000就是一个文件服务器,用户通过该文件服务器存取文件。用户所在的环境可能是比较复杂的,如AD域、NIS域、LDAP等环境,需要OceanStor 9000系统也能支持这些环境。OceanStor 9000提供对以上环境的支持,用户只需要进行相应的配置,即可将OceanStor 9000系统在现有的域环境中运行起来供应用主机访问。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

8

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

4 4.1 OceanStor DFS分布式文件系统

4.1.1 技术背景

软件特性

OceanStor DFS解决了传统存储体系结构存在的难题(容量不易扩展、性能不易扩展)。OceanStor DFS将三个传统的存储体系结构层(文件系统、卷管理器和 RAID)组合为一个统一的软件层,从而创建一个跨越存储系统中所有节点的单一智能文件系统。

传统的存储设备(DAS,SAN和非集群NAS)存在一些缺陷:它是静态的,其设计不具备可扩展性。

DAS不能提供数据共享能力,如果多个应用需要共用同一份数据,往往需要花费大量的时间进行数据迁移,导致环境中存在多份相同的数据,并且多份数据之间同步困难。而且DAS不易扩展。

SAN相比DAS更具灵活性和可扩展性,但是SAN也不具备数据共享能力。 NAS系统能够给应用服务器提供统一的文件系统空间,满足多台应用服务器之间共享数据的需求。非分布式集群的NAS设备一般使用双控或者多控节点提供服务,每个节点支持特定的业务负载,当容量不够时通过扩展硬盘框的方式增加存储容量。这种方式并不完美:首先业务和节点的绑定,意味着一个业务及其关联的文件系统只在一个节点上工作,容易造成系统整体的负载不均;其次,这种系统本质上是Scale-up的扩容方式,追求单机性能,无法做到系统性能随容量的增加线性增加。

作为OceanStor 9000系统的软件基础,OceanStor DFS采用全Active的Share nothing方式,系统的数据和管理数据(元数据)分布在各个节点上,避免了系统资源争用,消除了系统瓶颈;即使出现整节点故障,系统也能够自动识别故障节点,自动恢复故障节点涉及的数据和元数据,使故障对业务透明,完全不影响业务连续性。整系统采用全互联全冗余的组网机制,全对称分布式集群设计,实现存储系统节点的全局统一命名空间,从而允许系统中任何节点并发访问整系统的任何文件;并且支持文件内的细粒度的全局锁,提供从多个节点并发访问相同文件的不同区域,实现高并发高性能读写。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

9

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

4.1.2 技术原理

文件的条带化

为实现数据保护和高性能读写,OceanStor DFS对数据进行按节点条带化处理,首先,创建新文件时文件系统会按照配置的保护级别挑选符合要求的节点,然后写数据时文件系统将用户的数据平均分布在各节点上,读数据时文件系统从所有节点并行读取。 图4-1 文件条带化示意图

上图所示例的OceanStor 9000系统由3个节点组成,用户的数据平均分布在3个节点上。实际使用中用户的数据分布需要根据配置而定,关于分布式文件系统所支持的具体分布方式细节请参考“分布式数据可靠技术”。

统一命名空间

OceanStor DFS对外提供CIFS/NFS访问接口,即用户以文件名来操作文件,那么文件命名的有效范围就称之为命名空间。

通常一个本地文件系统,如ext3文件系统,一个命名空间只能与一台计算机或文件系统相关联,本地文件系统将元数据和数据都存储在本地硬盘,访问文件数据时文件系统首先从本地硬盘读取元数据信息,然后通过元数据信息得知文件数据在本地硬盘存储的布局和位置,再去读写本地硬盘完成访问文件操作。所以本地文件系统的命名空间范围都有限。

OceanStor DFS采用全对称结构,将所有节点的命名空间整合为统一命名空间,将整个系统的所有节点的存储容量组成一个大的虚拟存储池,元数据和数据保存在每个节点上,每个节点都是元数据服务器同时也是数据服务器,访问文件数据时OceanStor DFS首先Hash计算1定位到文件所归属的元数据服务器,然后通过元数据服务器获取文件的数据分布,即获取文件分布在哪些节点上以及在节点上的具体位置,再去访问这些节点完成数据读写操作。

备注1:9000系统文件的元数据信息是采用DHT Hash方式分布存储的。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

10

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

图4-2 统一命名空间功能示意图

图4-22中所示例的OceanStor 9000系统由3个节点组成,这3个节点对用户都是透明的,用户并不会感知到是哪个节点在提供服务。假如用户访问不同的文件,实际上是由不同的节点在提供服务。

OceanStor DFS支持最大60PB全局命名空间,用户不用管理多个命名空间,从而减轻管理复杂度。消除多个命名空间,也消除了多个命名空间带来的数据孤岛。

4.1.3 技术特点

无缝扩展

OceanStor DFS支持节点动态扩展,节点数目从3~288随需而定,而且节点扩展中业务不中断。OceanStor DFS支持针对不同的应用需求提供不同的硬件节点类型。 图4-3 无缝扩展功能示意图

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

11

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

4.1.4 客户价值

典型应用场景

用户按照初始需求进行设备部署,可以将不同的节点混合部署。所有应用统一通过NFS或CIFS协议进行访问。 图4-4 典型应用示意图

客户价值

OceanStor DFS是一个弹性、易于扩展的存储系统,可以随着用户的需求的改变而改变,在提供了高可靠性、高性能系统同时降低了系统拥有成本。

4.2 分布式数据可靠技术

4.2.1 技术背景

现代的存储系统,都是由多块硬盘组成的。在单个存储系统中,硬盘的数量越多,系统的故障率就越高。数据保护技术就是为了防止因部分硬盘故障导致丢失数据而产生的,它是大规模的存储系统中最重要的技术之一。

传统的数据保护技术是使用RAID方式,把数据存放在一个RAID组内的不同硬盘上,当其中有硬盘损坏时,通过RAID重构,恢复坏盘上的数据。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

12

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

图4-5 传统RAID数据保护技术

这类存储系统常用的RAID方式有RAID-0\\1\\5\\6等,其中可靠性最高的RAID-6最多只能支持2块硬盘同时发生故障。另外一方面,这类存储系统使用控制器执行RAID

数据存储,为了预防控制器故障,它们通常使用双控制器的方式来保证服务的可用性,但当2个控制器同时发生故障时,还是会导致服务中断。虽然这类系统还可以通过在多个节点间进行同步/异步的数据复制,进一步提高系统可靠性,但这会导致硬盘利用率很低,让用户承担较高的TCO(总体拥有成本)。 OceanStor 9000的数据保护技术,是建立在分布式、节点间冗余的基础上的。数据进入系统之后,首先被切分为N个数据条带,然后计算出M个冗余条带,并最终保存在N+M个不同的节点中。

图4-6 OceanStor 9000 N+M数据保护技术

由于同一条带的数据保存在不同节点中,所以OceanStor 9000存储系统中的数据不仅能支持硬盘级的故障,而且能够支持节点级的故障,保证数据不丢失。只要系统中同时故障的节点数不超过M,系统就可以持续提供服务。通过数据重构过程,系统可以恢复出损坏的数据,恢复整系统的数据可靠性。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

13

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

另外OceanStor 9000系统还提供一种N+M:B的保护方式,可以支持M个硬盘故障或者B个节点故障。这种保护方式在节点数量少于N+M的小容量系统中非常有效。 图4-7 OceanStor 9000 N+M:B数据保护技术

OceanStor 9000的数据保护方式与传统RAID相比,能达到类似于传统RAID在多节点数据复制的高可靠性,同时仍可保持N/(N+M)的高硬盘利用率。另外,在OceanStor 9000系统中,任意可用空间都可以作为“热备”空间使用,不需要像传统RAID那样预先划分独立的热备盘,因此可进一步提高存储利用率。

N+M详解

OceanStor 9000存储系统提供多种N+M(或者N+M:B)的冗余比配置,用户可根据业务需求在管理界面上进行配置。配置的范围可以是任意目录,对目录配置冗余后,目录下的文件都采用该冗余配比保存;用户甚至可以对目录与此目录下的子目录配置不同的冗余比。这意味着用户可以灵活多变地根据自己的实际需求来指定数据冗余,从而设置最适合的可靠性。

OceanStor 9000系统内的节点可划分为多个Node Pool(节点池),每个节点池的节点最少为3个,最多为20个,在部署和扩容时可根据需要来划分节点池。

在实际配置中,OceanStor 9000提供智能配置,用户只需要指定其数据的可靠性(支持几个节点同时故障,或者支持几块硬盘同时故障),即只需对目录/文件设置相应的+M(或者+M:B)即可。OceanStor 9000系统会根据系统当前Node Pool(节点池)的节点数量,自动选取最合适的冗余比。目前OceanStor 9000系统支持的M为1到4(当配置为+M:B时,B可选为1)。在不同的节点数目下,不同的配置对应的实际N+M(或N+M:B)如下表所示,其中括号内为存储利用率: 图4-8 OceanStor 9000 冗余配比对照表

配置 节点数 3 4 +1 +2 +3 +4 +2:1 +3:1 2+1(66%)3+1(75%)4+2:1(66%) 4+3:1(57%) 6+4:1(60%)4+2:1(66%)4+3:1(57%)4+2:1(66%) 4+3:1(57%) 6+4:1(60%)6+2:1(75%)8+3:1(72%)文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

14

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

567891011121314151617181920

4+1(80%)4+1(80%)6+1(85%)6+1(85%)8+1(88%)8+1(88%)8+1(88%)8+1(88%)12+1(92%)12+1(92%)12+1(92%)12+1(92%)16+1(94%)16+1(94%)16+1(94%)16+1(94%) 4+2:1(66%) 4+3:1(57%) 6+4:1(60%)8+2:1(80%)4+2(66%)4+3:1(57%)6+4:1(60%)8+2:1(80%)4+2(66%)4+3(57%)6+4:1(60%)12+2:1(85%)6+2(75%)4+3(57%)6+4:1(60%)12+2:1(85%)6+2(75%)6+3(66%)6+4:1(60%)16+2:1(88%)8+2(80%)6+3(66%)6+4(60%)16+2:1(88%)8+2(80%)8+3(72%)6+4(60%)16+2:1(88%)8+2(80%)8+3(72%)8+4(66%)16+2:1(88%)8+2(80%)8+3(72%)8+4(66%)16+2:1(88%)12+2(85%)8+3(72%)8+4(66%)16+2:1(88%)12+2(85%)12+3(80%)8+4(66%)16+2:1(88%)12+2(85%)12+3(80%)12+4(75%)16+2:1(88%)12+2(85%)12+3(80%)12+4(75%)16+2:1(88%)16+2(88%)12+3(80%)12+4(75%)16+2:1(88%)16+2(88%)16+3(80%)12+4(75%)16+2:1(88%)16+2(88%)16+3(84%)16+4(80%)16+2:1(88%) 12+3:1(80%) 12+3:1(80%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 16+3:1(84%) 4.2.2 技术原理

OceanStor 9000的分布式数据保护技术,是通过数据条带化和集群对象存储两项技术来实现的。

数据条带化

OceanStor 9000系统可以针对目录/文件配置不同的数据保护方式。不同的数据保护方式,是通过不同的数据条带化方式实现的。

使用Erasure Code(纠删码)方式时,写入OceanStor 9000系统的数据,会按照128KB或者16KB为一个条带,可以按照目录配置为128KB或者16KB,切分为多个原数据条带,然后对每N个原数据条带,计算得到M个冗余数据条带,最终这N+M个条带组成一个分条,写入到系统中。当系统出现故障,丢失了其中的某些条带时,只要一个分条中丢失的条带数目不超过M,就可进行正常的数据读写。通过数据恢复算法,丢失的条带可从剩余条带中计算得到。在这种方式下,空间的利用率约为 N/(N+M),数据的可靠性由M值的大小决定,M越大可靠性越高。

使用镜像方式时,写入OceanStor 9000的数据也会按照128KB进行切片,不同的是,系统对每个原始数据条带,都按照复制的方式存储为多份,只要其中任意一份不损坏,就可进行正常地读写。执行数据恢复时,丢失的镜像数据直接从完好的数据中复制即可。同样,系统可以配置不同的镜像数目,以得到不同的空间利用率和数据可靠性。

集群对象存储系统

OceanStor 9000的分布式文件系统,是以底层的集群对象存储系统为基础的,文件系统的数据和元数据经过数据条带化后生成条带和分条,最终以对象的形式存储到硬盘中。以一个3+1方式保护的文件数据举例,如图4-9所示。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

15

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

其中纵向的虚线框代表不同硬盘,横向虚线框代表一个数据分条(Stripe),每个分条落在单个硬盘上的部分我们称之为对象或者条带(Strip)。 图4-9 条带与对象

OceanStor 9000内部实现为一种基于对象的分布式存储系统。基于对象的存储是一种区别于传统的基于块的存储的新型存储,它具有高并发、高吞吐量等优点。OceanStor 9000的对象存储系统,是将系统中所有的设备格式化成对象存储设备后,通过网络连接组成的一个集群系统。

OceanStor 9000大数据存储系统,是保证系统中数据持久可靠的关键。它不间断的监视着系统内的节点、硬盘的状况。当有硬盘或者节点损坏时,集群对象存储系统会自动发现故障,并自动发起对象级别的数据恢复。这种对象级恢复只恢复真正的数据,不会像传统RAID那样进行全盘重构,因此具有更高的恢复效率。另外,在恢复过程中,受损的对象会选择不同的节点和硬盘作为恢复目标,并发地执行恢复过程,相对于传

统RAID只能恢复到一块热备盘上的方式,对象级的恢复可以达到非常高的恢复速度。 OceanStor 9000大数据存储系统,还具有动态负载平衡的功能。当它检测到有负载不均衡发生时,它会自动发起对象迁移,使系统重新达到负载均衡。在数据恢复过程中,它也会调整各节点的负载情况,为对象恢复选择合适的目标,防止出现IO瓶颈,保证数据恢复的速度。

4.2.3 技术特点

高效的数据保护技术

OceanStor 9000大数据存储系统采用的N+M数据保护技术 – InfoProtector,是华为公司的专利技术,此技术基于可靠的数学构造,并利用 Reed-Solomon 编码来提供冗余和可用性。它可以提供针对最多同时故障4个全节点的数据保护。并且硬盘故障时,InfoProtector确保将单个故障盘的重新构建时间缩至最短,在典型场景的6节点4+2冗余下恢复大文件时达到1TB数据只需要1小时恢复时间。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

16

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

数据可靠性的精细化管理

OceanStor 9000大数据存储系统,提供目录级的数据保护方式配置,并且支持目录与此目录下的子目录的不同配置。在实际使用中,用户可以针对目录甚至整系统做基础配置,然后针对系统中的关键目录设定较高的冗余比。这样在解决关键数据可靠性问题的同时有效保护了用户的投资。

针对小文件的优化

OceanStor 9000大数据存储系统专门针对小文件存储进行了优化。可以对小文件所在的文件夹配置条带大小为16KB,从而提高空间利用率。

融合架构下一致的数据保护

OceanStor 9000大数据存储系统,以集群对象存储系统为基础,在这个基础上,进一步实现多种存储服务的融合。由于OceanStor 9000系统的数据可靠性是建立在对象存储系统之上的,因此可以为不同的数据存储服务提供一致的数据保护方式,简化用户的管理。

4.2.4 客户价值

典型应用场景

在媒资数据管理场景中,系统需要保存大量的视频、音频、文档等素材数据。用户可使用OceanStor 9000的Capacity node搭建起PB级甚至几十PB规模的集群系统,对重要素材配置+3甚至+4的高可靠的数据保护方式。这样,只需要单一集群即可提供永久的数据保护和不间断的数据服务。

在在线数据业务处理的场景中,如视频点播系统,用户可使用OceanStor 9000的Performance node搭建小规模集群,配置+1的数据保护,可在保证可靠性的前提下,减少硬件的投入。

在复杂的场景下,用户仍可使用一套OceanStor 9000系统,满足不同数据的不同保护需求的同时,最大程度的提高存储利用率。如,对业务处理中产生的中间过程数据使用+1的保护方式,对普通的数据采用+2的保护方式,对重要数据采用+3甚至+4的保护方式。

客户价值

OceanStor 9000系统提供从+1到+4等多种级别的数据保护方式,可以支持针对1个到4个节点故障的数据保护,在小容量场景下支持针对1块到4块硬盘的故障的数据保护,基本覆盖了用户各种使用场景的可靠性需求。

OceanStor 9000系统提供的数据保护方式,将用户从繁琐的硬盘管理中解放出来。系统中任意硬盘发生故障,系统都可以进行自恢复,不需要配置“热备盘”。用户只需要聚焦于业务,根据数据的类型选择相应的保护方式即可。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

17

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

OceanStor 9000系统提供灵活的数据保护配置策略,可以在一套系统中提供多种数据保护方式。这样一套系统即可满足各种需求,不仅降低了硬件成本,而且减少了管理、维护费用。

此外,OceanStor 9000系统的高可靠性,还同时伴随了服务的高可用性,用户甚至不用担心业务中断,从而免去了建立本地备份系统的成本。

4.3 全局缓存

4.3.1 技术背景

随着计算机技术、网络技术及人类生活信息化的发展,人们对存储系统的存储容量、存储性能的要求越来越高,存储系统由原来的计算机自带存储器发展到后来的存储阵列和网络存储(NAS)等独立存储存储系统,再到当前大型的高并发的分布式存储技术。

随着高清超高清视频监控、3D电影电视的出现和发展,视频在线编辑、高性能计算等应用对存储系统的访问性能提出了更具挑战性要求。

当前在SAN或NAS存储系统中,每个存储服务器上的缓存空间都是独立的,每个存储服务器只能访问缓存在本节点上的数据,造成不同的存储服务器上缓存相同的数据,这样就导致内存利用率低,无法充分发挥缓存的优势等问题。

OceanStor DFS中的Global Cache使所有存储服务器上的内存空间在逻辑组成一个统一内存资源池,缓存在任何一个存储服务器上的数据,在后续其它任何存储服务器接收到访问该数据请求时都可以在全局缓存中命中,同时所有用户数据在整个集群系统中只缓存一份(校验数据不缓存)。

4.3.2 组成要素

一级缓存

一级缓存是位于与协议服务对接的分布式文件系统客户端引擎(Client Agent)层,该客户端引擎代表客户对文件系统进行访问,该层以文件数据作为缓存对象,以文件分条(Stripe)为缓存单位,一级缓存主要用于针对文件的访问模型预测后用于文件数据预取和加速热点文件分条的缓存。该级缓存是整系统全局共享的,即只要缓存在任意一个节点上的文件分条数据,其它任意节点再次收到该数据的访问请求后都可以从一级缓存中命中该数据。

通常在大规模分布文件系统中只有少量文件是热度比较高的文件,大部分都是冷数据。因此,缓存热点文件数据和对数据进行预取是充分发挥缓存的优势,降低后端存储硬盘访问的压力提高业务的响应速度的最有效方法。

二级缓存

二级缓存有SSD盘和数据块元数据及数据块缓存,该级缓存只用于缓存本节点所有硬盘上的热点数据。主要用于加速该节点上条带(Strip)或分条(Stripe)的访问速度,减少频繁访问的热点数据对硬盘的压力及加快数据块请求的响应速度。如:每块硬盘上的超级块、对象集到对象的描述符及关键对象描述符等数据。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

18

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

保电缓存

保电缓存(NVDIMM)主要作为写缓存使用,来自客户端的写操作数据刷新一级缓存后,对数据切片并进行数据冗余计算后将所有数据片通过存储后端网络发送到每个节点的保电缓存中,便可立即响应客户端写操作成功。数据进入保电缓存就表示数据已经安全,因此,不需要立即刷到对应的硬盘中,这些驻留到保电内存中的数据便可以进行去重和合并处理,即如果对一个数据进行多次修改,则只需要将最新修改的数据刷到硬盘中,对该数据块之前的修改则可以直接丢弃;如果多个数据块是属于一个对象的并且在逻辑上是连续的,则可以将这些逻辑上连续的数据写入到物理连续的硬盘上,这样在数据被访问的时候便可以提高数据的在硬盘的顺序性和连续性,从而提高数据的访问性能。

分布式锁管理

分布式锁管理(DLM)是用于保证全局缓存有效运行,保证全局缓存共享性、一致性的基础。分布式锁管理负责创建分布式锁管理数据结构,该数据结构包括共享资源锁请求、存储共享资源的内存以及锁类型等其它相关内容。只要有进程对该资源有加锁请求,共享资源就始终存在,如果没有任何进程对该资源有加锁请求,分布式锁管理器才能删除该资源。如果进程异常退出。与该资源相关的锁也就被异常退出,与该资源相关的锁也就被异常释放。

4.3.3 技术原理

图4-10 全局缓存原理示意

说明:

D:代表用户原始文件切成的数据条带 S:代表文件系统超级块

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

19

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

M:代表硬盘上管理数据条带块的元数据

P:代表文件条带化时,每个分条(Stripe)中的校验条带数据块(Strip Data)。

缓存与读取

当Node1上的文件系统服务收到数据读请求时,首先向分布式锁服务器申请分条资源读锁,加锁成功后,会检查所读数据的缓存是否在全局缓存中以及缓存在哪个节点上,如果该文件分条资源在Node2节点上的缓存中,则直接从Node2节点上的全局缓存中获数据并返回客户端,如果不在全局缓存中,则Node1上的文件系统服务直接从各个节点上读取该分条数据的所有条带数据后构造出分条数据后再返回给客户端。

缓存与写入

当Node1上的客户端CA收到数据写请求时,CA首先向分布式锁服务器申请分条资源写锁,加锁成功后,CA首先将用户数据接收到本节点上的全局缓存中,然后将该条带数据根据该文件指定的保护级别进行切片处理,对所有切片后的原始数据通过

ErasureCode进行计算生成校验数据片,最后将包括校验数据片在的数据片写到对应的节点上的保电内存中,写各节点的保电内存成功后则本次写操作成功。

当其它节点上的客户端再次访问该文件分条时,可以直接从该节点的全局缓存中直接读取,而不需要从分条所在的所有节点上的硬盘中读取数据。

缓存释放

? 数据召回

缓存的数据被客户端修改,该客户端的CA会加写锁,其他缓存该数据的节点读锁被召回,相应的缓存区数据被释放。 ? 数据老化

当节点缓存空间达到老化阈值时,会按照LRU来释放最长时间未被访问的缓存数据。

4.3.4 客户价值

典型应用场景

在高并发场景中,当应用软件通过不同的客户端访问同一文件数据时,只有第一次访问该文件数据时需要从集群中的硬盘中获取文件数据,一旦该文件数据进入全局缓存,则客户端后续再对该文件数据的访问都会直接从全局内存中访问,而不需要再次从硬盘中获取数据。

当应用软件只通过少数客户端访问集群中的数据时,这些客户端同样会把整个群集中那些没有被应用访问的客户端所在节点上的内存利用起来。

当在高性能计算应用场景时,客户需要会根据业务对数据的访问模型进行预测,提前将预计即将被访问的文件或某些目录中的所有文件提前预计取整系统的全局缓存中,从而提高应用获取数据的效率。

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

20

OceanStor 9000大数据存储系统技术白皮书 4 软件特性

当应用软件频繁修改某些文件的数据或文件元数据时,可以对同一块数据的多次修改进行去重或合并。从而减小这种场景下对后端存储的压力。

客户价值

OceanStor DFS文件系统中的Global Cache将所在存储服务器上的内存空间在逻辑上整合为一个系统全局统一的内存资源池,所有用户数据在整个分布式存储系统中只缓存一份并且对于一个文件分条来说,只在内存中缓存用户的数据条带不缓存校验数据条带。同时,只要位于分布式存储系统中任意一个存储服务器内存中的数据,CA无论通过哪个存储服务器访问该文件分条数据,都能够从缓存该分条数据的存储服务器内存中命中该数据,从而保证优先访问缓存在全局缓存在中的数据,如果在全局缓存中不命中才从硬盘上读取数据。

这一技术和现有技术相比,OceanStor 9000的全局缓存技术大大提高了整系统内存空间的利用率,对于系统内的热点数据尽可能得避免了不必要硬盘IO与网络IO,充分利用缓存技术提升系统的访问性能。

4.4 负载均衡技术

4.4.1 技术背景

负载均衡(又称为负载分担),英文名称为Load Balance,其意思就是将负载(工作任务)进行平衡、分摊到多个操作单元上进行执行,例如Web服务器、FTP服务器、企业关键应用服务器和其它关键任务服务器等,从而共同完成工作任务。负载均衡建立在现有网络结构之上,它提供了一种有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。

常见的负载均衡技术有如下几种:

?

DNS负载均衡:最早的负载均衡技术是通过DNS来实现的,在DNS中为多个地址配置同一个名字,因而查询这个名字的客户机将得到其中一个地址,从而使得不同的客户访问不同的服务器,达到负载均衡的目的。

代理服务器负载均衡:使用代理服务器,可以将请求转发给内部的服务器,使用这种加速模式显然可以提升静态网页的访问速度。因此可以考虑该技术,使用代理服务器将请求均匀转发给多台服务器,从而达到负载均衡的目的。

地址转换网关负载均衡:支持负载均衡的地址转换网关,可以将一个外部IP地址映射为多个内部IP地址,对每次TCP连接请求动态使用其中一个内部地址,达到负载均衡的目的。

协议内部支持负载均衡:除了以上三种负载均衡方式之外,有的协议内部支持与负载均衡相关的功能,例如HTTP协议中的重定向能力等,HTTP运行于TCP连接的最高层。

基于统一IP的负载均衡,所有的业务数据包都需要经过负载均衡服务节点进行转发,负载均衡服务节点容易成为性能的瓶颈。

OceanStor 9000为了减少负载均衡服务对整系统性能的影响,并对外提供域名访问,所以OceanStor 9000 InfoEqualizer 客户端连接负载均衡采用了基于DNS域名的负载均衡技术。在域名解析阶段,OceanStor 9000负载均衡服务根据负载算法分配集

?

?

?

?

文档版本 01 (2015-06-27)

华为专有和保密信息 版权所有 ?

华为技术有限公司

21

本文来源:https://www.bwwdw.com/article/gb23.html

Top