HACMP 认证学习系列文档

更新时间:2023-04-25 18:27:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

IBM HACMP 资源中心

Sim su E-mail:sim.hua@f8d0ce8a650e52ea54189820 msn:sim.1985@f8d0ce8a650e52ea54189820

Multiprocessing)作为 IBM p 系列主机最重要的高可用集群软件,自 1991 年问世以来,为无数的企

业级用户提供了令人满意的解决方案。随着技术的不断发展,HACMP 的功能日趋完善,现在它已经几乎

成了 IBM 集群软件的代名词。

HACMP 对于初级的 AIX 系统管理员来说是一个必须去掌握的内容,也是成为高级管理员的必经之路。目

前,HACMP 的学习内容已经有不少了,但是真正把相关内容总结起来确不是很多。我们在这里,为您总

结了AIX and UNIX 专区拥有的和 HACMP 相关的内容,让您更方面和快捷地找到您需要的资源。希望能够对您学习 HACMP 有所帮助。

新手入门

HACMP 认证学习系列,第 1 部分:入门

本文包含对 IBM High Availability Cluster Multi-Processing (HACMP) for AIX 产品系列的介绍,以及作为 IBM 高可用性产品基础的概念。

设计

HACMP 认证学习系列,第 2 部分:计划与设计

在规划和设计高可用性集群时,必须遵守所有的客户需求。您应该充分了解硬件和网络配置,以及将要实现高可用性的应用程序。

您还应该能够控制应用程序在故障情况下的行为。本文带领您了解设计 HACMP 时所需要设计的内容。

HACMP 5.x 完全手册,第 1 部分:设计和安装

本系列文章的作者通过自己长期的实际项目工作经历,总结出了他对于 HACMP 设计实施的经验。本系列会分为 4 部分,会向您详细地介绍实施 HACMP 过程中会经历的各个过程,如设计,配置,安装,测试等。本文为第 1 部分,会向您介绍 HAMCP 实施的设计和安装过程。

安装和配置

HACMP 认证学习系列,第 3 部分:安装和配置(1)

在本文中,我们将介绍一些基本的 HACMP 安装问题和各种安装过程。

HACMP 认证学习系列,第 3 部分:安装和配置(2)

在本文中,我们将介绍 HACMP 在定义、配置节点以及配置节点之间连接的内容。

HACMP 认证学习系列,第 3 部分:安装和配置(3)

在本文中,我们将介绍 HACMP 在配置资源组时候需要完成的内容。

使用 SSA Target 模式配置 HACMP

本文主要描述 SSA 卡做心跳的规划、配置、检测过程,读者可以根据文章的描述在自己的环境中学习配置。

IBM System p5 服务器 HACMP 方案安装指南

本教程向您详细地描述了 HACMP 在 IBM System p5 系列服务器上的安装过程,一步一步地通过示例向您演示了整个安装步

骤,包括系统的准备,关键软件包的安装,安装过程中的各项参数的选择等重要步骤。

测试和维护

HACMP 认证学习系列,第 4 部分:集群验证和测试

尽管 HACMP 是一个功能强大的组件,如果没有正确的测试,在实现后很有可能出现不同的故障和问题,这将会给您的管理工作带来跟大的麻烦和繁重的工作量。在本文中,我们将详细介绍一些基本的测试过程。

HACMP 5.x 完全手册,第 3 部分:测试和维护

本文会向您介绍在 HACMP 安装配置完毕后需要进行的测试工作,以及在 HACMP 正式上线后需要定期进行的维护工作。

HACMP 5.x 完全手册,第 4 部分:脚本设计和经验共享

本文首先会向您介绍一些编写 HACMP 脚本的注意事项和经验,然后作者会分享一下他对于 HACMP 实施的一些经验。HAMCP 扩展模式应用

使用HACMP/XD + GLVM 实现高可用性集群

本教程向您详细地描述了 HACMP/XD+GLVM 在 IBM System p5 系列服务器上的安装过程,一步一步地通过示例向您演示了整个安装步骤,包括系统的准备,关键软件包的安装,安装过程中的各项参数的选择等重要步骤。

相关其它资源

IBM HAMCP 官方网站

HACMP 红皮书

HACMP 在线信息中心

HACMP 认证学习系列,第 1 部分:入门

本文包含对IBM High Availability Cluster Multi-Processing (HACMP) for AIX 产品系列的介绍,以及作为 IBM 高可用性产品基础的概念。

其中将讨论以下主题:

什么是 HACMP?

历史和发展

高可用性概念

高可用性与容错的对比

什么是 HACMP?

在解释什么是 HACMP 之前,我们必须定义高可用性的概念。

高可用性

在当今的复杂环境中,为应用程序提供连续的服务是成功的 IT 实现的重要组成部分。高可用性屏蔽或消除计划内和计划外的系统和应用程序停机时间,是帮助为应用程序客户端提供连续服务的组件之一。这是通过消除硬件和软件单点故障(single points of failure,SPOF)来实现的。

高可用性解决方案将确保任何解决方案组件(无论是硬件、软件还是系统管理)的故障不会导致应用程序及其数据对用户不可用。

高可用性解决方案应该通过适当的设计、规划、硬件选择、软件配置和精心控制的变更管理规程来消除单点故障 (SPOF)。

停机时间

停机时间是应用程序不能为其客户端提供服务的时间范围。可以将停机时间划分为:

计划内停机:

?硬件升级

?维修

?软件更新/升级

?备份(离线备份)

?测试(需要定期测试以实现集群验证。)

?开发

计划外停机:

?管理员错误

?应用程序故障

?硬件故障

?环境灾难

用于 AIX 的 IBM 高可用性解决方案High Availability Cluster Multi Processing 基于久经考验的 IBM 集群技术,并包括两个组件:

?高可用性:通过使用重复和/或共享资源来确保应用程序可供使用的过程。

?集群多处理:运行在相同节点上并具有共享或并发数据访问的多个应用程序。

基于 HACMP 的高可用性解决方案提供了自动化的故障检测、诊断、应用程序恢复和节点重新集成。使用适当的应用程序,HACMP 还可以为并行处理应用程序提供并发数据访问,从而提供卓越的水平可伸缩性。

图 1 显示了一个典型的 HACMP 环境。

图 1 HACMP 集群

历史和发展

IBM High Availability Cluster Multi-Processing 可追溯到 20 世纪 90 年代初。

HACMP 的开发始于 1990 年,目的是为运行在 RS/6000 服务器上的应用程序提供高可用性解决方案。

我们不提供有关每个早期版本的信息,因为那些版本在本书编写之际已不再被支持或不再使用,我们仅提供有关最近版本的重点介绍。

HACMP V4.2.2

与HACMP Classic (HAS) 一起,此版本引入了增强的可伸缩性版本(enhanced scalability version,ES),ES 是基于并行系统支持计划(Parallel Systems Support Program,PSSP)所产生的可靠的可伸缩集群技术(Reliable Scalable Clustering Technology,RST)拓扑、组和事件管理服务。

HACMP V4.3.X

除了其它方面以外,此版本还引入了对 HACMP/ES 的 32 节点支持、C-SPOC 增强功能、ATM 网络支持、HACMP 任务指南(用于简化集群配置的 GUI)、多个事件前和事件后脚本、FDDI MAC 地址接管、监视和管理支持增强功能、逐个节点的迁移,以及 AIX 快速连接支持。

HACMP V4.4.X

此版本中的新项目包括与 Tivoli? 的集成、应用程序监视、无退回的级联(cascading with out fallback)、C-SPOC 增强功能、改进的迁移支持、HA-NFS 功能集成,以及软拷贝文档(HTML 和 PDF)。

HACMP V4.5

在此版本中,AIX 5L 是必需的,并且存在自动化的配置发现功能、每个网络适配器上的多个服务标签(通过使用 IP 别名)、持久 IP 地址支持、64 位功能的 API,以及监视和从卷组定额丧失中恢复。

HACMP V5.1

这是引入了重大变更的版本,涵盖从配置简化和性能增强到更改 HACMP 术语的范围。

HACMP V5.1 中的部分重要新功能包括:

?SMIT “标准”和“扩展”配置路径(过程)

?自动化的配置发现

?自定义资源组

?基于通过磁盘的心跳检测的非 IP 网络

?快速磁盘接管

?卷组的强制启用(varyon)

?通过 IP 别名的心跳检测

?HACMP Classic (HAS) 已被丢弃;现在仅存在基于 IBM 可靠的可伸缩集群技术的 HACMP/ES

?改进的安全性,通过使用集群通信守护进程(消除了对使用标准 AIX“r”命令的需要,从而消除了对 /.rhosts 文件的需要)来实现

?改进的集群自定义和同步性能

?HACMP 术语的规范化

?配置和维护的简化

?在线规划工作表增强功能

?卷组的强制启用

?自定义资源组

?接管节点上的服务 IP 地址/标签的心跳信号监视

?通过 IP 别名的心跳检测

?通过磁盘的心跳检测

?各种 C-SPOC 增强功能

?GPFS 集成

?集群验证增强功能

?改进的资源组管理

HACMP V5.2

从 2004 年 7 月开始,新的 HACMP V5.2 添加了管理、配置简化、自动化和性能方面的更多改进功能。

下面是 HACMP V5.2 中的改进功能摘要:

?两节点配置助手,同时带有 SMIT 菜单和 Java? 接口

(另外还有 SMIT“标准”和“扩展”配置路径)。

?文件收集。

?用户密码管理。

?不再使用传统资源组,自定义资源组已将其取代。

?自动化的测试过程。

?自动集群验证。

?改进的在线规划工作表(Online Planning Worksheets,OLPW)现在可以从现有的 HACMP 集群导入配置。

?事件管理(Event management,EM)已由资源监视和控制(resource monitoring and a control,RMC)子系统(AIX 中的标准组件)所取代。

?增强的安全性。

?资源组依赖性。

?自我修复的集群。

注意:在本红皮书编写之际,HACMP V5.1 和 V5.2 都已经可用。认证考试仅包含 HACMP V5.1 主题。

高可用性概念

什么对象需要受到保护?最终,关键环境中的任何 IT 解决方案的目标都是提供连续的服务和数据保护。

高可用性只是实现连续操作目标的一个构件。高可用性基于硬件、软件(操作系统及其组件)、应用程序和网络组件的可用性。

若要实现高可用性解决方案,您需要:

?冗余服务器

?冗余网络

?冗余网络适配器

?监视

?故障检测

?故障诊断

?自动化的故障转移

?自动化的重新集成

HACMP 的主要目标是消除单点故障 (SPOF)(请参见第 7 页上的表1)。

表 1 单点故障

集群对象消除单点故障的方法

节点(服务器)多个节点

电源多个电路和/或电源

网络适配器冗余网络适配器

网络用于连接节点的多个网络

TCP/IP 子系统非 IP 网络以便为 TCP/IP 提供后备

磁盘适配器冗余磁盘适配器

磁盘冗余硬件和磁盘镜像或 RAID 技术

应用程序配置应用程序监视和备份节点,以获取应用程序引擎和数据

表 1 中的“集群对象”列中列出的每个项目是一个物理或逻辑组件,如果该组件发生故障,则会导致应用程序无法为客户端提供服务。

高可用性与容错的对比

可以将用于硬件和软件故障检测及处理的系统定义为两个组:

?容错系统

?高可用性系统

容错系统

提供容错功能的系统旨在几乎无中断地操作,而不管可能发生的故障如何(也许由于自然灾害导致的完全站点故障除外)。在此类系统中,至少为所有的软件或硬件组件配置了重复组件。

因而,CPU、内存和磁盘具有特殊的设计,即使在一个子组件发生故障时也可以提供连续的服务。

此类系统非常昂贵,并且极其专门化。实现容错解决方案需要大量的精力和所有系统组件的高度自定义。

在不能接受任何停机时间的场合(生命保障等等),容错设备和解决方案是必需的。

高可用性系统

为高可用性而配置的系统是以如下方式配置的硬件和软件组件的组合:即确保在发生故障时,能够使用最短的可接受停机时间实现自动化的恢复。

在此类系统中,相关软件将检测环境中的问题,然后将应用程序传输到另一台计算机,从而接管原始计算机(节点)的身份。

因而,消除环境中的所有单点故障 (SPOF) 是非常重要的。例如,如果计算机只有一个网络连接,则应该在同一个节点中提供第二个网络接口,以便在提供服务的主适配器发生故障时接管工作。

另一个重要问题是镜像数据,并将数据放在可从集群中的任何一台计算机访问的共享磁盘区域,从而保护数据。

高可用性集群多处理(High Availability Cluster Multi-Processing,HACMP)软件提供了用于在高度可用的系统中集成应用程序的框架和一组工具。

要在 HACMP 集群中集成的应用程序需要相当多的自定义,此自定义不是在应用程序级别进行,而是在 HACMP 和 AIX 平台级别进行。

HACMP 是一个灵活的平台,允许运行在 AIX 平台上的通用应用程序实现集成,从而以合理的成本提供高度可用的系统。

高可用性解决方案

与其他解决方案相比较,高可用性 (HA) 解决方案可以提供许多优点。表 2 描述了一些 HA 解决方案及其特征。

表 2 HA 解决方案的类型

解决方案独立系统增强的独立系统高可用性集群容错系统

停机时间两天两小时视情况而定(通常三分钟)永不停机

数据可用性上次的完全备份上一个事务上一个事务无数据损失高可用性解决方案提供了以下优点:

?标准的组件

?可与现有的硬件一起使用

?适用于几乎任何应用程序

?可使用广泛的磁盘和网络类型

?以合理成本实现卓越的可用性

针对IBM Eserver pSeries 的 IBM 高可用性解决方案提供了一些独特的优点。此类优点包括:

?经证实的解决方案(超过 14 年的产品开发历史)

?灵活性(在独立 AIX 系统上运行的几乎任何应用程序都可以使用 HACMP 来保护)

?使用“现成的”硬件组件

?经证实的客户支持承诺

提供高可用性解决方案的注意事项包括:

?全面的设计和详细的规划

?消除单点故障

?选择适当的硬件

?正确的实现(不要走“捷径”)

?训练有素的系统管理实践

?有文档记录的操作过程

?详尽的测试

HACMP 概念

HACMP 的基本概念可按如下方式进行分类:

?集群拓扑

包含基本集群成员节点、网络、通信接口、通信设备和通信适配器。

?集群资源

将要使其高度可用的实体(例如,文件系统、原始设备、服务 IP 标签和应用程序)。资源在资源组(resource group,RG)中分组在一起,HACMP 将资源组作为单个实体来保持其高度可用。

资源组可从单个节点使用,或在并发应用程序的情况下,可以同时从多个节点使用。

?故障转移

表示资源组响应活动节点上的故障而从该活动节点转移到另一个节点(备份节点)。

?退回

表示资源组在先前的节点变得可用时从备份节点转移到先前的节点。此转移通常是为了响应先前发生故障的节点的重新集成。HACMP 术语

要理解 HACMP 的正确功能和用途,必须知道一些重要的术语:

?集群 (Cluster)

独立系统(节点)或 LPAR 的松散耦合的集合,组织到一个网络中以便共享资源和彼此通信。

HACMP 定义了操作系统之间的关系,其中当某个集群节点无法提供服务时,对等的集群节点将提供该节点所提供的服务。

在任何集群组件发生故障的情况下,这些单独的节点共同维持一个或多个应用程序的功能。

?节点 (Node)

运行 AIX 和 HACMP 的IBM Eserver pSeries 计算机(或 LPAR),被定义为集群的一部分。每个节点都有一个资源集合(磁盘、文件系统、IP 地址和应用程序),在节点发生故障的情况下,可以将该资源集合转移到集群中的另一个节点。

?资源 (Resource)

资源是集群配置的逻辑组件,可从一个节点移动到另一个节点。提供高度可用的应用程序或服务所必需的所有逻辑资源在资源组 (RG) 中分组在一起。

在节点发生故障的情况下,资源组中的组件一起从一个节点移动到另一个节点。集群可能具有多个资源组,从而允许高效地使用集群节点(从而实现 HACMP 中的“多处理”)。

?接管 (Takeover)

接管是指在集群内的节点之间转移资源的操作。

如果一个节点由于硬件问题或 AIX 崩溃而发生故障,其资源应用程序将移动到另一个节点。

?客户端 (Client)

客户端是能够通过局域网访问运行在集群节点上的应用程序的系统。客户端运行客户端应用程序,连接到运行应用程序的服务器(节点)。

回页首

HACMP/XD(扩展距离)

High Availability Cluster Multi-Processing for AIX (HACMP) 基本软件产品处理部分连续操作问题。它处理单个站点的计算联合体中的计算机、适配器或局域网的故障恢复。

图 2 显示了典型的 HACMP/XD 高可用性地理集群(High Availability Geographic Cluster,HAGEO)。

图 2 典型的 HACMP/XD HAGEO 配置

若要在发生重大灾难(站点故障)的情况下保护应用程序,将需要附加的软件。HAGEO 提供了:

?配置具有地理分离站点的集群的能力。

HAGEO 将 HACMP 扩展到包括两个地理位置上的远程数据中心或站点。此扩展可以防止个别站点成为集群中的单点故障。

地理镜像过程为每个站点提供了基本数据的更新副本。

任一个站点都可以运行关键应用程序,从而确保在故障或灾难导致一个站点失效的情况下,任务关键型计算资源在地理上分离的另一个站点上连续可用。

?自动的故障检测和通知。

HAGEO 与 HACMP 合作提供了站点或地理网络故障的自动检测。它启动恢复过程,并将有关检测到的所有故障及其所执行的响应操作的信息通知系统管理员。

?自动化故障转移

HAGEO 包括事件脚本,以处理站点或地理网络故障的恢复。这些脚本与标准 HACMP 事件脚本集成在一起。

可以通过添加事件前或事件后脚本来自定义配置的行为,就像对 HACMP 所做的那样。

?快速的灾难恢复。

HAGEO 还在可操作的站点提供了数据和应用程序的快速恢复。地理镜像过程确保在灾难降临时,数据已经在第二个站点可用。

恢复时间通常要花几分钟,其中不包括应用程序恢复时间。

?站点恢复期间的自动数据重新同步

HAGEO 作为站点恢复过程不可或缺的一部分处理每个站点上的镜像的重新同步。重新加入的站点上的节点将自动使用在该站点发生故障时接收的数据进行更新。

?可靠的数据完整性和一致性。

HAGEO 的地理镜像和地理消息组件确保在站点发生故障时,幸存站点的数据与故障站点的数据保持一致。

当故障站点重新集成到集群中时,HAGEO 使用来自可操作站点的最新数据来更新该站点,从而再次确保数据一致性。

?灵活、可伸缩的配置。

HAGEO 软件支持广泛的配置,允许您按自己的需要配置独特的灾难恢复解决方案。

HAGEO 集群中最多可以有八个节点,每个站点的节点数量各不相同。

HAGEO 与文件系统和数据库无关,因为地理镜像设备的行为与它所支持的磁盘设备的行为相同。由于镜像是透明的,配置为使用地理镜像的应用程序不必进行任何方式的修改。

HACMP/XD:HAGEO 组件

该软件具有三个重要功能:

?GeoMirror:

包括一个逻辑设备和在第二个站点上执行镜像的伪设备驱动程序;数据在一个站点输入。TCP/IP 用作镜像数据的传输协议。GeoMirror 可以在异步或同步模式下使用,具体取决于站点之间的通信带宽,以及应用程序事务量(将决定更改的数据量)。

?GeoMessage:

在两个站点的 GeoMirror 设备之间提供可靠的数据和消息传输。

?地理拓扑:

提供用于将地理镜像功能与 HACMP 功能集成的逻辑,以提供自动的故障检测和从影响整个站点的事件中恢复。

?从灾难中恢复

当灾难导致站点故障时,幸存站点的节点上的集群管理器将快速检测情况,并采取操作以保持地理镜像的应用程序可用。

同样,如果集群由于全局地理网络故障而被分割,则配置为非主控 (non-dominant) 的站点上的集群管理器将关闭自身,以便避免数据偏差。

HACMP/XD:HAGEO 基本配置

可以按照 HACMP 基本软件所支持的任何一种配置来配置 HAGEO 集群。这些配置包括备用(standby)、单边接管(one-sided takeover)、相互接管(mutual

takeover)和并发访问(concurrent access)配置。

?备用配置

备用配置是一种传统冗余硬件配置,其中集群中的一个或多个节点保持空闲,直到某个服务器节点发生故障。

在 HAGEO 中,这转变为使用一个空闲站点。该站点并非完全空闲,因为它还参与了地理镜像过程。但是该站点的节点不执行应用程序工作。

?接管配置

在接管配置中,所有节点都在执行处理;不存在空闲节点。

配置包括:

o站点内(本地)接管

o远程单边接管

o远程相互接管

?并发配置

在并发访问配置中,一个站点的所有节点可以同时访问并发卷组,并拥有相同的磁盘资源。

另一个站点以相同的方式进行设置。

如果某个节点离开站点,资源的可用性不会受到影响,因为其他节点已启用并发卷组。

如果某个站点发生故障,另一个站点可以提供该站点上的节点所提供的并发访问。并发应用程序可由集群中的所有节点访问。

HACMP Cluster Lock Manager 必须在集群中的所有节点上运行。并非所有数据库都可用于涉及到跨地理位置的节点的并发访问。HACMP/XD PPRC 集成功能

在两个站点都使用了IBM Enterprise Storage Server? 并且对等远程复制(Peer to Peer Remote Copy,PPRC)功能提供了存储卷镜像的环境中,同时在HACMP V4.5 PTF5 和 HACMP V5.1中引入的此功能可以提供自动化的站点故障转移和应用程序数据的远程副本激活。

在主站点发生故障的情况下,数据应该在辅助站点可供使用(通过 PPRC 进行复制)。必须激活辅助站点中的数据副本才能将其用于处理。

HACMP/XD PPRC 集成功能在主站点发生故障时提供自动化的副本拆分,在主站点变得可用时提供自动化的重新集成。

有关详细信息,请参见High Availability Cluster Multi-Processing XD (Extended Distance) V5.1: Concepts and Facilities for HAGEO Technology, SA22-7955。

HACMP 认证学习系列,第 2 部分:计划与设计

在规划和设计高可用性集群时,必须遵守所有的客户需求。您应该充分了解硬件和网络配置,以及将要实现高可用性的应用程序。您还应该能够控制应用程序在故障情况下的行为。

了解应用程序在故障情况下的行为,对于控制集群在此类情况下应当如何反应是非常重要的。

规划和实现集群所必需的信息应该涵盖应用程序、环境、硬件、网络、存储,同时还要涵盖支持和变更过程。

本章将介绍以下 HACMP 集群主题:

?节点规模调整注意事项

?集群硬件规划

?软件规划

?存储规划

?灾难恢复规划

注意:规划是成功的实现的一半,但是就 HACMP 而言,如何强调正确规划的重要性都不为过。如果规划不当,您可能会在以后某个时候发现自己陷入种种限制之中,而要摆脱这些限制可能是非常痛苦的经历。因此,请保持镇定从容,并使用产品附带的规划工作表;这些工作表对于任何迁移或问题确定情形或者对于规划的文档记录都是非常有价值的。

规划注意事项

在规划高可用性集群时,您应该考虑节点、存储、网络等方面的规模调整,以便即使是在接管情况下,也能够提供应用程序正确运行所必需的资源。

规模调整:选择集群中的节点

在开始集群的实现之前,您应该了解需要多少个节点,以及应该使用什么节点类型。就应用程序所需要的资源而言,将要使用的节点类型是非常重要的。

节点的规模调整应该涵盖以下方面:

?CPU(CPU 的数量和速度)

?每个节点中的随机访问存储器 (RAM) 容量

?磁盘存储(内部)

?每个节点中的通信和磁盘适配器数量

?节点可靠性

集群中的节点数量取决于要实现高可用性的应用程序的数量,同时还取决于所需的可用性程度。在集群中为每个应用程序准备多个备用节点可以提高应用程序的总体可用性。

注意:HACMP V5.1 集群中的最大节点数量是 32。

HACMP V5.1 支持各种各样的节点,涵盖从桌面系统到高端服务器的范围。SP 节点和逻辑分区(Logical Partition,LPAR)也受支持。有关进一步的信息,请参阅红皮书《HACMP for AIX 5L V5.1 Planning and Installation Guide》

(SC23-4861-02)。

集群资源的共享基于应用程序的需求。有些节点执行的任务与要实现高可用性的应用程序并不直接相关,并且不需要与应用程序节点共享资源,应该将此类节点配置在单独的集群中以简化实现和管理。

所有的节点都应该提供足够的资源(CPU、内存和适配器),以维持所有指定的应用程序在故障转移(接管故障节点中的资源)情况下的执行。

如果可能,应该在集群中包括附加的节点,以提高集群的可用性;这还可以在执行节点故障转移、重新集成和维护操作时提供更大的灵活性。

建议使用具有相似硬件配置的集群节点,

在实现具有相互接管(mutual takeover)或并发配置的应用程序的集群时尤其是如此。这样使得分发资源和执行管理操作(软件维护等等)变得更加容易。

规模调整:存储注意事项

在最常用的配置中,要实现高可用性的应用程序需要一个共享存储空间来存储应用程序数据。该共享存储空间或者用于并发访问,或者用于使数据对接管节点上的应用程序可用(在 fail-over 情况下)。

要在集群中使用的存储应该允许每个应用程序从所有的指定节点进行共享访问。当前支持的 HACMP 共享存储技术包括SCSI、SSA 和光纤通道(Fibre Channel.)。

根据应用程序的需求,应该将存储配置定义为非共享(“私有”)或共享存储。私有存储可以保留在内部磁盘上,并且不参与任何接管活动。

考虑到以下原因,共享存储应该提供访问控制机制:

?放在共享存储中的数据必须能够从可能在某个时间点运行应用程序的任何一个节点进行访问。在某些情况下,应用程序一次仅在一个节点上运行(非并发),但是在另一些情况下,必须提供对数据的并发访问。

?在非并发环境中,如果共享数据被错误的节点更新,这可能会导致数据破坏。

?在并发环境中,应用程序应该提供自己的数据访问机制,因为平台并发软件 (AIX/HACMP) 会绕过由存储控制的访问机制。

网络注意事项

在规划 HACMP 集群时,应该考虑以下方面:

?IP 网络拓扑(路由、交换机等等)

?IP 网络性能(速度/带宽、延迟和冗余)

?ATM 和/或 X.25 网络配置

IP 网络用于使客户端访问运行在集群中的节点上的应用程序,以及用于在集群节点之间交换心跳信号消息。在 HACMP 集群中,心跳信号消息是通过 IP 网络和点对点(非 IP)网络进行交换的。

HACMP 旨在通过基于 TCP/IP 的网络、X.25 和 ATM 网络提供客户端的访问。

回页首HACMP 集群规划

集群规划也许是实现成功的配置过程中最重要的步骤。HACMP 规划应该包括以下方面:

?硬件规划

o节点

o网络

o存储

?软件规划

o操作系统版本

o HACMP 版本

o应用程序兼容性

?测试和维护规划

o测试过程

o变更管理

o管理操作

硬件规划

实现高可用性配置的目标是通过消除单点故障(硬件、软件和网络),以及通过屏蔽服务中断(无论是计划内还是计划外的中断),从而提供高度可用的服务。

节点规划的决策因素包括:

?支持的节点:计算机类型、功能、支持的适配器、电源(AC、DC、双电源与单电源等等)。

?连接和电缆:电缆类型、长度、接头、型号、导线管布线、电缆槽容量需求,以及可用性。

节点配置

HACMP V5.1 支持在一个集群中使用IBM Eserver pSeries(独立和 LPAR 模式)、IBM SP 节点以及现有的 RS/6000 服务器的任何节点组合。节点必须满足内部内存、内部磁盘、可用 I/O 插槽数量和操作系统兼容性(AIX 版本)的最低要求。

要考虑的项包括:

?内部磁盘(磁盘数量、容量以及是否使用 LVM 镜像)

?共享磁盘容量和存储数据保护方法(RAID 和 LVM 镜像)

?I/O 插槽限制及其对导致单点故障 (SPOF) 的影响

?对集群的客户端访问(网络适配器)

?其他 LAN 设备(交换机、路由器和网桥)

?I/O 适配器和子系统冗余

?电源冗余

网络配置

规划群集网络时的主要目标是评估所需的冗余程度,以消除网络组件成为单点故障的可能性。应该考虑以下方面:

?网络:连接到多个物理网络的节点

?对于 TCP/IP 子系统故障:使用非 IP 网络以帮助决策过程

?网络接口:每个网络上的冗余网络适配器(以防止在单个网络接口发生故障情况下的资源组故障转移)

在规划集群网络配置时,必须为节点连接选择正确的组合:

?集群网络拓扑(交换机、路由器等等)。

?连接集群节点的 IP 和非 IP(点到点)网络组合和每个节点到所有网络的连接数量。

用于提供高可用性服务 IP 地址的方法:

?通过 IP 别名的 IP 地址接管(IP address takeover,IPAT)

?通过 IP 替换的 IPAT。

有关 HACMP 配置中支持的节点和适配器的完整列表,请参阅红皮书《HACMP for AIX 5L V5.1 Planning and Installation Guide》(SC23-4861-02);另请访问位于以下地址的 IBM 支持网站:

f8d0ce8a650e52ea54189820/servers/eserver/pseries/ha/

HACMP 网络术语

从 HACMP V5.1 开始,用于描述 HACMP 配置和操作的术语已发生了很大的变化。做出此更改是为了简化 HACMP 的总体使用和维护,同时也是为了使术语与 IBM 产品系列保持一致。

例如,在早期的 HACMP 版本中,取决于上下文,术语“适配器”可以具有不同的含义,从而使配置变得非常令人混淆和困难。

IP 标签 (IP label)

术语“IP 标签”表示与特定 IP 地址相关联的名称,此名称是在集群节点上使用的名称解析方法(DNS 或静态 - /etc/hosts)中定义的。此术语取代“主机名称”(host name),后者可能与 hostname 命令的输出产生混淆,并且可能没有与任何 IP 地址相关联。

在 HACMP V5.1 中,术语“适配器”(Adapter) 已替换如下:

?服务 IP 标签/地址(Service IP Label / Address):通过其提供服务的 IP 标签/地址。此 IP 标签/地址可能与单个节点绑定,也可能由多个节点共享,并且 HACMP 保持其高度可用。

?通信接口 (Communication Interface):支持 TCP/IP 协议并由其基本 IP 地址表示的物理接口。

?通信设备 (Communication Device):表示点到点非 IP 网络连接的一端的物理设备,例如 /dev/tty1、/dev/tmssa1、/dev/tmscsi1 和 /dev/hdisk1。

?通信适配器 (Communication Adapter):用于提供高度可用的通信链路的 X.25 适配器。

服务 IP 地址/标签(Service IP address/label)

服务 IP 地址是用于客户端访问的 IP 地址。此 IP 地址(及其关联的标签)由 HACMP 监视,并且是资源组的一部分。

存在两种类型的服务 IP 地址(标签):

?共享服务 IP 地址(标签):可以配置在多个节点上的 IP 地址,并且是一次只能在一个节点上处于活动状态的资源组的一部分。

?与节点绑定的服务 IP 地址(标签):只能配置在一个节点上(不由多个节点共享)的 IP 地址。通常,此类服务 IP 地址与并发资源组相关联。

服务 IP 地址在 HACMP 已启动并且关联的资源组处于在线状态时变得可用。

HACMP 通信接口(HACMP communication interface)

HACMP 中的通信接口定义是以下内容的逻辑分组:

?逻辑网络接口一个名称,AIX 将某个物理网络适配器端口(例如,en0)解析为此名称。

?服务 IP 地址是一个 IP 地址,将通过该 IP 地址提供诸如应用程序等服务,并且客户端节点将通过该 IP 地址进行通信。

?服务 IP 标签是映射到服务 IP 地址的标签。

通信接口指的是基于 IP 的网络和网络适配器。

连接到公共物理网络的网络适配器组合为 HACMP 所使用的逻辑网络。

每个网络适配器能够承载多个 TCP/IP 地址。在配置集群时,您要定义 HACMP 将监视的 IP 地址(基本或启动 IP 地址)和 HACMP 将保持其对 HACMP 高度可用的 IP 地址(服务 IP 地址)。

HACMP 中的心跳信号通过通信接口进行传递。HACMP 使用 RSCT 子系统的心跳检测功能(通过 UDP)来监视其网络接口和 IP 地址。每当 HACMP 服务在该节点上启动,HACMP 就将 ODM 中定义和存储的网络拓扑传递给 RSCT,并且 RSCT 将向 HACMP 提供故障通知。

HACMP 通信设备(HACMP communication device)

HACMP 还提供点对点非 IP 网络的监视。点对点网络的两端都是 AIX 设备(在 /dev 目录中定义)。这些设备是通信设备,并包括串行 RS232 连接、目标模式 SCSI、目标模式 SSA 和磁盘检测信号连接。

点对点网络也由 RSCT 监视,并且 HACMP 使用它们的状态来区分节点故障和 IP 网络故障。

例如,通过磁盘的心跳检测使用磁盘设备名称(例如,/dev/hdisk2)作为在连接的每一端配置到 HACMP 的设备。

建议此类网络至少要在集群中的任何两个节点之间配置一个非 IP 网络。

在磁盘心跳检测的情况下,建议使用一个点对点网络,此网络由每个物理机箱的每个节点对的一个磁盘组成。不能将一个物理磁盘用于两个点对点网络。

通信适配器和链路(Communication adapter and link)

可以将以下通信链路定义为 HACMP 中的资源:

?LAN 网络适配器 (ent*) 上配置的 SNA

?X.25 适配器上配置的 SNA

?本机 X.25 链路

HACMP 将这些链路作为资源组的一部分进行管理,从而确保高可用性通信链路。在物理网络接口故障、X.25 链路故障或节点故障的情况下,高度可用的通信链路(连同相同资源组中的所有资源一起)将被迁移到同一个节点或接管节点上的另一个可用的适配器。

IP 别名

IP 别名是通信(网络)接口上配置的除基本 IP 地址以外的 IP 地址。IP 别名是受 HACMP 支持的一个 AIX 功能。AIX 支持在每个通信接口上使用多个 IP 别名。适配器上的每个 IP 别名可以在单独的子网上。

AIX 还允许为接口配置具有不同子网掩码的 IP 别名;HACMP 尚不支持此功能。

IP 别名在 HACMP 中同时用作用于 IP 地址接管的服务和非服务地址,以及用于心跳配置。

网络接口功能(Network interface function)

对于 IP 网络,建议您在每个节点上为每个网络配置多个通信接口。那些通信接口将分别具有特定的作用,具体取决于HACMP 集群的状态。

?服务接口 (Service Interface)

服务接口是配置了一个或多个服务 IP 地址(标签)的通信接口。取决于为每个网络定义的 IP 地址接管 (IPAT) 方法,将在基本 IP 地址之外添加服务 IP 地址(通过别名的 IPAT),或者服务 IP 地址将取代通信接口的基本(启动)IP 地址。此接口用于提供对运行在该节点上的应用程序的访问。服务 IP 地址由 HACMP 通过 RSCT 心跳信号进行监视。

?启动接口 (Boot Interface)

这是由在 AIX 配置中定义的基本(启动)IP 地址表示的通信接口。如果使用了通过 IP 别名进行的心跳检测,则 HACMP 将不监视此 IP 地址,而是通过 HACMP 在启动时分配的 IP 别名来监视通信接口。

启动接口不传输任何客户端流量;然而,如果服务接口失败,HACMP 将把服务 IP 地址转移到非服务接口上。如果某个节点发生故障,接管节点上的另一个接口将在执行资源组故障转移时配置服务 IP 地址。

注意:对于每个网络,一个节点可以具有零到七个非服务接口。在同一个网络上使用多个非服务接口可以消除通信接口的单点故障。

?持久节点 IP 标签(Persistent Node IP Label)

持久节点 IP 标签是一个 IP 别名,可以将其分配给集群网络上的某个特定节点。持久节点 IP 标签:

o与节点绑定(始终保持在同一个节点上)。

o能够在已经定义了某个服务或非服务 IP 标签的网络适配器上共存。

o具有不需要在该节点上安装附加物理网络适配器的优点。

o不属于任何资源组。

分配持久节点 IP 标签可以提供一个与节点绑定的 IP 地址,并且对于管理目的来说非常有用,因为到持久节点 IP 标签的连接始终会确定该特定的集群节点,即使 HACMP 服务没有在该节点上启动时也是如此。

注意:可以在每个节点上为每个网络配置一个持久节点 IP 标签(地址)。例如,如果有一个连接到 HACMP 中定义的两个网络的节点,可以通过两个分别用于每个网络的持久 IP 标签(地址)来确定该节点。

持久 IP 标签是在 HACMP 配置中定义的,并在 HACMP 第一次在每个节点上启动时变得可用。一经配置,持久 IP 标签(地址)将在配置它们的适配器上保持可用,即使 HACMP 已在节点上停止或节点已重新启动时也是如此。

可以在以下类型的基于 IP 的网络上创建持久节点 IP 标签:

o以太网

o令牌环网

o FDDI 网

o ATM 局域网模拟器

限制:不能在 SP 交换机、ATM 传统 IP 或非 IP 网络上配置持久节点 IP 标签。

持久 IP 标签的行为如下:

o如果某个配置了服务 IP 标签的网络适配器发生故障,并且该网络适配器上还定义了一个持久标签,则会将持久 IP 标签(地址)连同服务 IP 标签(地址)一起转移到同一个非服务接口上。

o如果指定节点上用于集群网络的所有网络适配器均发生故障,则持久节点 IP 标签将变得不可用。持久节点 IP 标签始终保持在同一个网络上,并保持在同一个节点上;它不会在集群中的节点之间移动。

用于心跳检测的 IP 别名(IP aliases used for heartbeat)

这些 IP 地址是从专用的不可路由地址池中分配的,并用于监视通信接口,而不需要更改通信接口的基本(启动)IP 地址。

这在某些情况下是非常有用的,例如,当更改每个节点上的网络适配器的基本 IP 地址不适宜(因为它们是在 AIX 中定义的),并且那些地址不符合 HACMP 要求(它们在同一个子网中,因此不能监视网络适配器)的时候。

为此目的,HACMP 提供了通过 IP 别名的进行心跳检测的方法。

网络类型

在 HACMP 中,“网络”这个术语用于定义一个逻辑实体,此逻辑实体将用于集群中的节点间通信和用于客户端访问的通信接口和设备分组在一起。可以将 HACMP 中的网络定义为 IP 网络和非 IP 网络。

IP 网络和非 IP 网络均用于在节点之间交换心跳信号(“Keep Alive”)消息。通过这种方式,HACMP 维护有关集群节点及其各自的通信接口和设备状态的信息。

HACMP V5.1 中支持的 IP 网络类型包括:

?以太网 (ether)

?令牌环网 (token)

?FDDI 网 (fddi)

?SP Switch 和 SP Switch2 网 (hps)

?ATM 网 (atm)

下列 IP 网络类型不受支持:

?串行光纤通道转换器网 (SOCC)

?串行线路 IP 网 (SLIP)

?光纤通道交换网 (FCS)

?802.3

?IBM 高性能交换网 (HPS)

非 IP 网络是两个集群节点之间的点对点连接,HACMP 将其用于控制消息和心跳信号。在 IP 网络(或节点上的 TCP/IP 子系统)发生故障的情况下,这些网络可以为 HACMP 提供附加级别的保护。

HACMP 中的非 IP(基于设备)网络支持下列设备:

?目标模式 SCSI (tmscsi)

?目标模式 SSA (tmssa)

?磁盘心跳信号 (diskhb)

?串行 RS232

注意:在AIX 5L V5.1 和AIX 5L V5.2 中,HACMP 现在还支持将以太网聚合 (Etherchannel) 通信接口用于 IP 地址接管。不支持将 Etherchannel 用于:

?硬件地址接管

?PCI 热插拔

此外,在当前版本中,HACMP 不支持 AIX 虚拟 IP 功能 (VIPA) 和 IPV6。

选择 IP 地址接管 (IPAT) 方法

在实现集群时要做出的关键决策之一是资源组和与之关联的服务 IP 地址的行为。

由于 HACMP 在大多数时间都用于保护独立的非并发应用程序,因此必须选择将要用于提供高度可用的服务 IP 地址的方法。

在启动应用程序或将其连同关联的资源组一起移动到另一个节点时,可以通过两种方式配置服务 IP 地址:

?通过替换通信接口的基本(启动时)IP 地址;

此方法称为“通过 IP 替换的 IP 地址接管 (IPAT)”。

?通过为通信接口配置一个除现有 IP 地址之外的附加 IP 地址;此方法称为“通过 IP 别名的 IP 地址接管”。

HACMP V5.1 中的缺省 IPAT 方法是通过别名(通过别名的 IPAT)。要更改此缺省行为,必须使用 HACMP 扩展配置菜单来更改网络属性。

IP 地址接管

IP 地址接管是一种恢复 IP 地址标签的机制,其方法是在初始物理网络适配器发生故障时,将服务 IP 标签转移到另一个节点上的另一个物理网络适配器。IPAT 确保用于向客户端节点提供服务的 IP 地址(标签)保持可用。

IPAT 和服务 IP 标签

可以将两种 IPAT 方法和这些方法控制服务 IP 标签的方式作如下解释:

?通过 IP 别名的 IP 地址接管

将服务 IP 地址/标签用作某个现有通信接口的别名,而不更改(替换)该接口的基本地址。

HACMP 使用 ifconfig 命令来执行此操作。

注意:在此配置中,节点上定义的所有基本(启动)IP 地址/标签必须配置在不同的子网上,并且还要与服务 IP 地址(标签)不同。此方法还可以节省硬件,但是需要额外的子网。图1。

图 1 通过 IP 别名的 IPAT

HACMP 使用 AIX 的 IP 别名网络功能来支持不同类型的网络上的 IP 地址接管。通过 IP 别名的 IPAT 可以在某些类型的网络上使用无故ARP (gratuitous ARP) 功能。

通过 IP 别名的 IPAT 使单个网络适配器可以支持多个服务 IP 地址(标签)。因此,同一个节点可以同时承载多个资源组,而不会将资源组的数量限制为可用的通信接口的数量。

相对于通过 IP 替换的 IPAT,通过别名的 IPAT 提供了以下优点:

o通过 IP 别名的 IP 地址接管比通过 IP 替换的 IPAT 速度更快,因为与在同一个接口上添加一个 IP 别名相比,替换 IP 地址要花显著更长的时间。

o IP 别名允许多个服务标签在同一个网络接口上共存,因此可以在集群中使用更少的物理网络接口卡。

注意:在 HACMP V5.1 中,通过 IP 别名的 IPAT 是用于保持服务 IP 标签高度可用的缺省机制。

?通过 IP 替换的 IP 地址接管

服务 IP 地址替换网络接口上的现有(启动/基本)IP 地址。

使用此方法,同一网络接口上一次仅配置有一个 IP 地址/标签。

注意:在此配置中,服务 IP 地址必须与其中一个节点的通信接口启动地址在同一个子网上,而备用通信接口的基本 IP 地址必须在一个不同的子网上。此方法还可以节省子网,但是需要额外的硬件。

图 2 通过 IP 替换的 IPAT

如果包含服务 IP 地址的通信接口发生故障,在使用通过 IP 替换的 IPAT 时,HACMP 将把服务 IP 地址转移到在同一个节点并在同一网络上的另一个可用接口;在此情况下,关联的资源组不受影响。

如果同一个节点上没有可用的接口,则将资源组连同服务 IP 标签一起转移到另一个具有可用通信接口的节点上。

在使用通过 IP 替换的 IPAT(也称为“传统 IPAT”)时,还可以配置硬件地址接管 (HWAT)。硬件地址接管的实现方式是使用本地管理地址(locally administered address,LAA)来屏蔽通信接口的本机 MAC 地址,从而确保客户端上的 ARP 缓存中的映射保持不变。

网络安全规划

规划网络安全性对于避免集群节点上未经授权的访问也是非常重要的。

从 HACMP V5.1 开始,通过为节点之间所有与 HACMP 配置相关的通信提供公共通信基础设施(守护进程),从而引入了一种新的安全机制。

新的集群通信守护进程 (clcomdES) 的引入在 HACMP 集群中提供了增强的安全性,同时还加快了与配置相关的操作速度。

存在三个级别的通信安全性:

?标准级别

o缺省安全级别。

o直接由集群通信守护进程 (clcomdES) 实现。

o使用 HACMP ODM 类别和 /usr/es/sbin/cluster/rhosts 文件来确定合法伙伴。

?增强级别

o在 SP 集群中使用。

o利用基于 Kerberos 提供的第三方身份验证方法的增强身份验证方法。

?虚拟专用网(Virtual Private Network,VPN)

o VPN 是在 AIX 中配置的。

o然后将 HACMP 配置为使用 VPN 来进行所有与节点间配置相关的通信操作。

通过使用集群安全通信子系统,HACMP 消除了对每个集群节点上的 /.rhosts 文件或 Kerberos 配置的需要。

但是,可能仍然需要 /.rhosts 来支持需要这种远程通信机制的应用程序的操作。

注意:并非所有集群通信都通过 clcomdES 进行保护;其他守护进程具有自己的通信机制(不是基于“r”命令)。

?集群管理器 (clstrmgrES)

?集群锁守护进程 (cllockdES)

?集群多对等扩展通信守护进程 (clsmuxpdES)

clcomdES 用于集群配置操作,例如集群同步、集群管理 (C-SPOC) 和动态重新配置 (DARE) 操作。

通过使用“最低权限”原则,集群通信守护进程 clcomdES 提供安全的远程命令执行和 HACMP ODM 配置文件更新。

因而,只有存在于 /usr/es/sbin/cluster/ 中的程序才以 root 身份运行;其他所有程序都以“nobody”用户身份运行。除了clcomdES 以外,还使用了以下程序:

?cl_rsh 是集群远程 Shell 执行程序。

?clrexec 用于以 root 身份运行特定的危险命令,例如修改 /etc 目录中的文件。

?cl_rcp 用于复制 AIX 配置文件。

这些命令硬编码在 clcomdES 中,不支持由用户运行。

集群通信守护进程 (clcomdES) 具有以下特征:

?由于集群通信不需要标准 AIX“r”命令,因此可以消除对 /.rhosts 文件的依赖性。因而,即使在“标准”安全模式下,集群安全性也得到了增强。

?为其他节点在本地节点(从中执行配置变更和同步的节点)上的 ODM 副本提供可靠的缓存机制。

?限制可在远程节点上作为 root 身份执行的命令(只有 /usr/es/sbin/cluster 中的命令才以 root 身份运行)。

?clcomdES 从 /etc/inittab 启动,并由系统资源控制器(system resource controller,SRC)子系统进行管理。

?提供自己的心跳检测机制,并发现活动的集群节点(即使是在集群管理器或 RSCT 未运行的情况下)。

注意:ClcomdES 为诸如 clverify、godm、rsh 和 rexec 等各种 HACMP 服务提供了传输机制。

针对传入连接的 clcomdES 身份验证过程的基础是对照以下文件检查节点的身份:

?HACMPadapter ODM 类别(此类别中定义的 IP 标签)

?HACMPnode ODM(用作集群中节点的通信路径的 IP 地址/标签)

?/usr/sbin/cluster/etc/rhosts 文件

如果 /usr/sbin/cluster/etc/rhosts 文件丢失,或者未包含针对远程发起节点的条目(IP 地址或可解析的 IP 标签),则不允许进入的连接。

如果 HACMPnode、HACMPadapter ODM 类别和 /usr/sbin/cluster/etc/rhosts 文件为空,则 clcomdES 假设集群正在进行配置,并接受传入的连接,然后在初始配置完成后,将对等节点的 IP 标签(地址)添加到 /usr/sbin/cluster/etc/rhosts 文件。

如果请求连接的 IP 地址与上述位置(HACMPadapter、HACMPnode 和 /usr/es/sbin/cluster/etc/rhosts)中的某个标签匹配,则 clcomdES 将反过来连接到请求节点,并要求提供 IP 标签(主机名称);如果返回的 IP 标签(主机名称)与请求 IP 地址匹配,则身份验证成功完成。

注意:如果 /usr/es/sbin/cluster/etc/rhosts 文件中存在不可解析的标签,则拒绝所有自远程节点的 clcomdES 连接。

回页首HACMP 心跳检测

与在许多其他类型的集群中一样,心跳检测用于监视网络接口、通信设备和 IP 标签(服务、非服务和持久 IP 标签)的可用性,从而监视节点的可用性。

从 HACMP V5.1 开始,心跳检测完全基于 RSCT 拓扑服务(因而 HACMP V5.1 只是“Enhanced Scalability”版本;使用直接由集群管理器守护进程监视的传统网络接口模块 (NIM) 的心跳检测已不再使用)。

执行心跳检测的方法是通过每个通信接口或设备在集群中的节点之间交换消息(Keep Alive 数据包)。

每个集群节点以特定间隔向其他集群节点发送心跳信号消息,并预期以特定间隔接收来自对应节点的心跳信号消息。如果消息接收停止,则 RSCT 将此情况视为故障,并告诉 HACMP,后者将采取适当的恢复操作。

心跳信号消息可通过以下网络发送:

?TCP/IP 网络

?点对点非 IP 网络

为了防止集群分割(split brain),HACMP 必须能够区分节点故障和 TCP/IP 网络故障。TCP/IP 网络故障可能由有故障的网络元素(交换机、集线器和电缆)导致;在这种情况下,集群中的节点不能通过 IP 发送和接收检测信号消息(Keep Alive,KA),因此每个节点认为对等节点发生了故障,并尝试获取资源。这具有潜在的数据破坏风险,在使用并发资源时尤其是如此。

非 IP 网络是节点之间的直接连接(点对点),并且不使用 IP 来进行检测信号消息交换,因此不太容易受到 IP 网络元素故障的影响。如果使用了这些网络类型,则在 IP 网络发生故障的情况下,节点仍然能够交换消息,因此得出的判断是网络故障,从而不执行任何资源组活动。

为了避免 HACMP 中发生分割,我们建议:

?配置冗余网络(IP 和非 IP)

?同时使用 IP 和非 IP 网络。

若要了解一个建议的两节点集群配置,图3。

图 3 HACMP 集群中的信号检测

通过磁盘的信号检测

通过磁盘的心跳检测 (diskhb) 是 HACMP V5.1 中引入的新功能,旨在提供预防集群分割的附加保护和简化的非 IP 网络配置,尤其是用于太难或无法实现 RS232、目标模式 SSA 或目标模式 SCSI 连接的环境。

此类网络可以使用任何类型的共享磁盘存储(光纤通道、SCSI 或 SSA),只要用于交换 KA 消息的磁盘是 AIX 增强并发卷组的一部分。用于信号检测网络的磁盘并不专门用于此目的;可以将它们用于存储应用程序共享数据(有关更多信息,请参见图3)。

客户提出了使用目标模式的光纤通道连接请求,但是由于异构(非标准发起设备和目标功能)的 FC 环境(适配器、存储子系统、SAN 交换机和集线器),此方法很难实现和支持。

通过使用共享磁盘来交换消息,非 IP 网络的实现更加可靠,并且不依赖所使用的硬件类型。

此外,在 SAN 环境中,当使用光纤来连接设备时,这种非 IP 连接的长度具有与 SAN 相同的距离限制,

因而允许实现超长的点对点网络。

通过将某个磁盘定义为增强的并发卷组的一部分,该磁盘的一部分(扇区)将不用于任何 LVM 操作,此磁盘部分将用于在两个节点之间交换消息。

使用通过磁盘的信号检测的规范如下:

?一个磁盘可用于两个节点之间的一个网络。同时在两个节点上使用 LVM 分配的物理卷 ID(physical volume ID,PVID)来标识要使用的磁盘。

?用于磁盘信号检测网络的建议配置是在每个存储机箱中将一个磁盘用于一对节点。

本文来源:https://www.bwwdw.com/article/ghbq.html

Top