51CTO下载-IT设备运维巡检操作指导书

更新时间:2023-06-01 01:39:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

IT设备运维巡检操作指导书

XXXXX有限公司

2011年8月

注意事项

本文档中的观点和决定都不代表任何官方立场。它仅用于交流科技信息。

本文档中所列内容操作的技术人员应通过原厂商专业认证后方可操作在线系统巡检。本文中所有内容均属XXXXX有限公司和(客户)的商业秘密。未经允许,不得作任何形式的复制和传播。

目录

序....................................................................................................................................6一、项目概要及分析.....................................................................................................7

(一)项目背景.....................................................................................................7(二)市场分析.....................................................................................................7(三)风险意识.....................................................................................................7二、项目管理................................................................................................................8

(一)项目组织结构..............................................................................................8(二)项目技术人员简历.......................................................................................9

1.项目经理:XXX...........................................................................................92.技术总监:XXX...........................................................................................93.AIX高级工程师:XXX.................................................................................94.服务工程师:XXX.......................................................................................95.服务工程师:XXX.......................................................................................96.ORACLE资深工程师:XXX........................................................................9(三)项目实施计划............................................................................................10

1.启动阶段....................................................................................................102.正常服务阶段............................................................................................103.收尾阶段....................................................................................................10

三、巡检管理..............................................................................................................11

(一)巡检的目的................................................................................................11(二)巡检容易存在的一些问题..........................................................................11(三)巡检服务流程............................................................................................11

1.巡检服务流程图.........................................................................................112.设计巡检方案............................................................................................133.审核巡检方案............................................................................................134.与客户召开启动会时,沟通并确定巡检计划和方案..................................135.设备运行数据采集设定和环境准备............................................................146.按照方案提供巡检服务..............................................................................147.编写巡检报告,组织技术专家进行分析和讨论..........................................148.在提交客户前,审核巡检报告...................................................................14

四、IT巡检工具方法...................................................................................................15

(一)概述..........................................................................................................15

1.范围定义....................................................................................................152.内容说明....................................................................................................15(二)巡检维度...................................................................................................15

1.基础设施状况............................................................................................152.容量状况....................................................................................................163.性能状况....................................................................................................164.信息安全....................................................................................................175.业务连续性................................................................................................20(三)巡检内容...................................................................................................22

1.系统整体架构............................................................................................222.机房环境....................................................................................................223.网络系统....................................................................................................234.存储系统....................................................................................................245.主机系统....................................................................................................246.Oracle数据库系统.....................................................................................257.备份与恢复系统.........................................................................................26(四)巡检方法...................................................................................................28

1.IBM主机....................................................................................................282.IBMHACMPCluster..................................................................................293.PCServer主机..........................................................................................304.Oracle数据库.............................................................................................315.网络部分....................................................................................................34(五)巡检过程分析............................................................................................35

1.机房环境....................................................................................................352.网络系统....................................................................................................353.存储系统....................................................................................................364.主机系统....................................................................................................395.PCServer系统..........................................................................................416.Oracle数据库系统.....................................................................................47

五、应急预案及服务保障............................................................................................50

(一)应急预案...................................................................................................50(二)服务保障...................................................................................................50

IT设备系统健康检查服务是XXXXX有限公司(以下简称XXXXX)提供的关键业务支持服务的重要组成部分。本文档的目的是使XXXXX有限公司和(客户)共同明确IT运维系统健康检查服务的内容和实施结果,帮助(客户)了解目前IT系统的健康状况。

通过XXXXX有限公司系统健康检查服务帮助客户检查系统目前的状态,并分析其潜在的问题,进而给出解决这些问题的建议和方法。这样,可以利用XXXXX有限公司工程师及XXXXX有限公司多年在系统维护方面的经验,帮助客户检查出系统可能存在的潜在问题,最大限度地减少由于系统维护不当所带来的危害,并通过提出将来日常维护系统的进一步建议,避免产生新的系统问题。

目的是利用XXXXX有限公司在系统维护方面的丰富经验,帮助(客户)检查IT系统中存在的潜在问题,最大限度地提高系统可用性,减少由于系统维护不当所带来的危害;并对(客户)的IT系统维护状况,提出进一步的建议,避免产生类似的系统问题。

一、项目概要及分析

(一)项目背景

(客户)近年来先后引进了一批国际先进的服务器及网络设备,这些计算机系统作为(客户)的业务系统的核心处理设备发挥着极其重要的作用,已经取得了非常好的社会效益与经济效益,所以其安全稳定运行对日常生产起着至关重要的影响。

为有效确保这些核心系统的正常运行安全,……

(二)市场分析

……

(三)风险意识

IT设备的操作存在着不可预知的风险,针对本项目,XXXXX有限公司在实施IT设备运维巡检前会把本次巡检操作的所有命令及步骤整理成文档提交客户审核,通过后方可实施。

在巡检操作的过程中一般以超级用户(root)操作,所以提请客户指定人员在旁监督输入命令的执行。

尽可能避开生产系统忙点进行巡检操作。

不在双机系统同时进行巡检操作,应先巡检完成一台系统后再作另一台操作。

二、项目管理

工程实施中的许多不确定因素将影响工程设计的落实,为确保工程实施的规范化,我们……

(一)项目组织结构

按照项目需求和项目管理的组织设计原则,在整个维护服务项目的实施过程中,不但有XXXXX有限公司的人员负责项目管理运维服务等主要具体的工作,而且需要(客户)相关人员的大力配合协助开展工作。

XXXXX有限公司根据(客户)设备的具体情况和系统运行的重要性,特成立项目技术服务小组,项目组由1名项目经理负责,组内4名有丰富经验的工程师,并指定客

(二)项目技术人员简历

1.项目经理:XXX

XXX认证证书

2.技术总监:XXX3.AIX高级工程师:XXX

XXX认证证书

4.服务工程师:XXX

XXX认证证书

5.服务工程师:XXX

XXX认证证书

6.ORACLE资深工程师:XXX

XXX认证证书

(三)项目实施计划

……

1.启动阶段

……

2.正常服务阶段

……

3.收尾阶段

……

三、巡检管理

(一)巡检的目的

巡检(系统健康检查)服务的目的是收集用户业务系统的配置和运行状态信息,发现和消除故障隐患,同时帮助用户根据业务发展需求和目前资源状况,制定合理、可行的系统扩容、改造和维护计划,提高生产的安全性。

(二)巡检容易存在的一些问题

巡检是一个主动问题管理服务过程,以往的巡检服务存在以下一些问题: 每次巡检检查的内容千篇一律,而且比较简单,客户认为帮助不大; 巡检报告中更多的是对系统状态的记录,缺少分析和建议; 巡检过程中与客户交流不够; 巡检报告提交不及时,内容简单。

导致巡检服务效果不佳的主要原因如下:

没有对巡检服务进行系统设计,没有标准化的服务流程; 巡检模板、巡检报告模板等基本工具不统一、不专业; 巡检工程师的技术水平和现场行为参差不齐,不够规范;

售前过程中,缺乏对客户期望值的管理,没有向客户灌输标准服务的概念。

(三)巡检服务流程

1.巡检服务流程图

Page 12 of 50

2.设计巡检方案

在设计项目维护服务方案时,同时设计巡检方案,巡检方案应包括以下内容:

客户系统环境和巡检需求巡检设备范围

每次巡检的时间安排、巡检方式和巡检内容

设备数据采集时间、操作规程、数据采集范围和方式、数据采集工具/脚本/命令、网络安全协议等详细技术细节

巡检模板的客户化和巡检报告的格式

服务项目的一年服务周期内,一般需要提供2-

4次巡检服务,在巡检方案中需要对这几次的巡检内容进行设计,建议在标准巡检内容之上,每次巡检能够有所变化,同时突出重点。例如,可按以下表格设计一年四次的巡检内容:

数据采集脚本需要事先编写完成,并经过测试。

巡检模板必须使用技术服务中心统一模板,可以根据客户实际情况进行客户化,但必查项不能省略。数据采集脚本和巡检模板请到知识库中下载。

3.审核巡检方案

巡检方案需由部门经理审核后,方可与客户讨论。

4.与客户召开启动会时,沟通并确定巡检计划和方案

项目经理在与客户召开项目启动会时,需同时讨论并确定巡检方案,主要内容包括:

对客户系统环境和需求进行调查

确定巡检具体实施方案和实际操作时间表

和客户技术人员一起制定设备数据采集时间、操作规程、数据采集范围和方式、数据采集脚本(命令)、网络安全协议等详细技术细节

确定巡检报告的提交方式

5.设备运行数据采集设定和环境准备

在客户的系统上安装必要的数据采集工具或脚本以实现设备数据的自动采集(为了符合客户的保密制度,密码和数据采集设定需要预先得到客户安全部门的批准)。客户提供的密码应该事先经过了验证,保证可以使用。

6.按照方案提供巡检服务

准备工作完成后,项目经理应按照确定的巡检方案安排专业工程师为客户提供巡检服务。

在第一次巡检完成后,项目经理需要为项目建立配置管理数据库。工程师每次巡检的时间为1-2天,现场工作流程如下:

工程师到达客户现场后,首先与客户技术负责人进行访谈,向客户介绍整体服务方案和巡检方案,了解运行情况,出现的问题和客户的疑问

收集必要的信息,包括静态信息和动态信息。

如发现系统存在问题或隐患,应作为突发事件及时向服务台或项目经理报告,转突发事件处理流程。同时配合处理该问题。

根据收集到的信息填写巡检报告。

经项目经理同意后,将巡检中检查到的问题和可能的隐患向客户进行汇报,并向客户说明详细的分析和解决方案建议会在巡检完成后一周内提供。

7.编写巡检报告,组织技术专家进行分析和讨论

巡检完成后,项目经理须组织技术专家对现场巡检信息进行分析和讨论,以形成最终巡检报告。如发现系统存在问题或隐患,应作为突发事件转突发事件处理流程。

项目经理将最终形成的巡检报告打印装订,形成最终文档。

8.在提交客户前,审核巡检报告

巡检报告提交客户前,须经过部门经理审核。

项目经理按照和用户预先预定的时间表向客户提交报告,并详细解释该报告的内容,同时组织相关技术讨论。

巡检报告要同时递交到客户的较高层级领导。

四、IT巡检工具方法

(一)概述

1.范围定义

对IT系统巡检的逻辑组成,通过对范围定义的与IT系统相关的维度的评估,定位当前IT系统的健康状况,指导建立改进方案与方针。

2.内容说明

对IT系统巡检的具体评估指标,用于支持对范围所定义的维度评估结论,提供具体的数据支持;用于给客户提供巡检类报告的数据提供数据支持。

(二)巡检维度

对IT系统巡检的评估维度主要包括以下五个方面:

一个完备的IT系统建设应该包括上述所有相关解决方案,而客户应用系统中在这几方面体现了不同的完备程度。由于用户行业与业务特点,对这些范围的侧重程度不同,因此我们在评估特定行业用户的IT系统之初,要充分考虑这种行业因素,所得出的结论也是对特点行业用户有指导意义的评估结果。

1.基础设施状况

IT基础设施包括系统软件平台和硬件基础设平台。系统软件平台主要包括操作系统、数据库、中间件。

硬件基础设平台主要包括网络通讯平台和服务器系统平台以及存储系统平台。对基础设施状况的评估内容包括:

IT系统运维环境状况IT系统硬件运行状况IT系统软件平台运行状况IT系统链路状况

2.容量状况

由于IT系统的业务和服务需求可能每天都在发生变化,信息系统有时会遇到带宽和存储能力不足的问题。要与IT系统当前和将来的业务需求相符意味着必须经常地测定容量。容量规划是一种性能价格比很高的手段,可以根据以往的性能统计数字预知潜在的资源短缺情况。

正确的对当前IT系统的容量状况做出评估,是掌握和预测系统当前和未来可用程度的一个重要标志之一,进而也以此为依据做出合理的容量规划。

对容量状况的评估主要包括:

网络带宽负载状况存储的容量状况主机系统负载情况业务系统所能承载的吞吐量软件平台参数配置适用度。

3.性能状况

IT系统所提供的业务的性能,是当前业界评价IT系统实施成功与否的主要标准之一。

通常对IT系统性能状况评估的对象为具体的业务功能模块,但并不是针对所有的业务功能模块,对这些模块的选取一般遵循以下原则:

系统日常运行中,使用频率高的功能模块;

系统日常运行中,业务容易产生相对大并发量的功能模块;涉及到的大数据量表操作的功能模块;用户反映性能问题突出的模块。

通过选取具有代表性的功能模块,进行性能评测,得出当前系统的性能状况,而这种巡检的环境需要接近真实环境才具有说服力。而本IT系统预防性巡检活动通常是在真实的生产环境下完成,因此需要采取适合现场环境的性能评估手段来完成。

对IT业务系统的性能评估主要包括以下三个方面:

业务系统的响应性能状况业务系统的稳定性性能状况业务容量性能状况

业务系统的响应性能指的是在正常业务并发负载下,以响应时间为主要关注点的业务模块操作的执行时间,通常单位为秒;

业务系统的稳定性性能的主要关注点则是在长时间较大负载压力下,业务系统能够正常完成业务操作的程度;

业务容量性能状况指的是当前业务系统负载承受能力,目的是了解系统的业务压力可承受的范围,以便在峰值到来之前做出应对措施,通常关注的性能指标为并发量和业务的吞吐量。

4.信息安全

这里把信息安全定义为信息系统数据不会被非法用户在未经授权的情况下取得或破坏。信息安全所涉及的技术与业务层面很广,以下是对其简要分类:

1.物理安全

保护信息系统的机房环境、设备、设施、媒体和信息免遭自然灾害、环境事故、人为物理操作失误、各种以物理手段进行的违法犯罪行为导致的破坏、丢失。

2.网络系统安全

网络防护安全是数中心据安全的重要组成部分。网络安全模式要求数据中心首先分析自己的网络系统,并从中找出不同业务、数据和安全策略的分界线,在这些分界线上构建IT系统安全等级不同的安全域。

在安全域划分的基础上,通过采用入侵检测、漏洞扫描、病毒防治、防火墙、网络隔离、安全虚拟专网(VPN)等成熟技术,利用物理环境保护、边界保护、系统加固、节点数据保护、数据传输保护等手段,通过对网络和系统安全防护的统一设计和统一配置,实现IT系统全系统高效、可靠的网络安全防护。

3.操作系统安全

操作系统提供若干种基本的机制和能力来支持信息系统和应用程序安全,如身份鉴别、访问控制、审计等等。目前主流的商用操作系统主要有UNIX、LINUX和Windows平台。由于商用的普遍性特点,这些系统都存在许多安全弱点,甚至包括结构上的安全隐患,比如超级管理员/系统管理员的不受控制的权限、缓冲区溢出攻击、病毒感染等。

操作系统的安全是上层应用安全的基础。提高操作系统本身的安全等级尤为关键,除了及时打Patch外,还要采用如下的加强措施:

身份鉴别机制:实施强认证方法,比如口令、数字证书等;访问控制机制:实施细粒度的用户访问控制、细化访问权限等;数据保密性:对关键信息、数据要严加保密;

完整性:防止数据系统被恶意代码比如病毒破坏,对关键信息进行数字签名技术保护;

系统的可用性:不能访问的数据等于不存在,不能工作的业务进程也毫无用处。因此操作系统要加强应对攻击的能力,比如防病毒、防缓冲区溢出攻击等;

审计:审计是一种有效的保护措施,它可以在一定程度上阻止对信息系统的威胁,并对系统检测、故障恢复方面发挥重要作用。

4.数据库安全

数据库安全性问题应包括两个部分:一、数据库数据的安全。它应能确保当数据库系统DownTime时,当数据库数据存储媒体被破坏时以及当数据库用户误操作时,数据库数据信息不至于丢失;二、数据库系统不被非法用户侵入。它应尽可能地堵住潜在的各种漏洞,防止非法用户利用它们侵入数据库系统。

5.数据的传输安全

为保证业务数据在传输过程的真实可靠,需要有一种机制来验证活动中各方的真实身份。安全认证是维持业务信息传输正常进行的保证,它涉及到安全管理、加密处理、PKI及认证管理等重要问题。应用安全认证系统采用国际通用的PKI技术、X.509证书标准和X.500信息发布标准等技术标准可以安全发放证书,进行安全认证。当然,认证机制还需要法律法规支持。安全认证需要的法律问题包括信用立法、电子签名法、电子交易法、认证管理法律等。

6.应用身份鉴定

由于传统的身份认证多采用静态的用户名/口令身份认证机制,客户端发起认证请求,由服务器端进行认证并响应认证结果。用户名/口令这种身份认证机制的优点是使用简单方便,但是由于没有全面的安全性方面的考虑,所以这种机制存在诸多的安全隐患。可以采用:双因子认证和CA认证两种解决方案。

7.应用授权管理

权限管理系统是IT系统信息安全基础设施的重要组成部分,是ICDC信息系统授权管理体系的核心。它将授权管理和访问控制决策机制从具体的应用系统中剥离出来,采用基于角色的访问控制(RBAC,RoleBasedAccessControls)技术,通过分级的、自上而下的权限管理职能的划分和委派,建立统一的特权管理基础设施(PMI,PrivilegeManagementInfrastructure),在统一的授权管理策略的指导下实现分布式的权限管理。

权限管理系统能够按照统一的策略实现层次化的信息资源结构和关系的描述和管理,提供统一的、基于角色和用户组的授权管理,对授权管理和访问控制决策策略进行统一的描述、管理和实施,提供基于属性证书和LDAP的策略和授权信息发布功能,构建高效的决策信息库和决策信息库的更新、同步机制,面向各类应用系统提供统一的访

问控制决策计算和决策服务。建立统一的权限管理系统,不仅能够解决面向单独业务系统或软件平台设计的权限管理机制带来的权限定义和划分不统一、各访问控制点安全策略不一致、管理操作冗余、管理复杂等问题,还能够提高授权的可管理性,降低授权管理的复杂度和管理成本,方便应用系统的开发,提高整个系统的安全性和可用性。

8.应用访问控制

访问控制是IT系统安全防范和保护的主要核心策略,它的主要任务是保证信息资源不被非法使用和访问。访问控制规定了主体对客体访问的限制,并在身份识别的基础上,根据身份对提出资源访问的请求加以控制。它是对信息系统资源进行保护的重要措施,也是计算机系统最重要和最基础的安全机制。

根据控制手段和具体目的的不同,数据中心的访问控制技术包括以下几个方面:入网访问控制、网络权限控制、目录级安全控制、属性安全控制等,只有各种安全策略相互配合才能真正起到保护作用。

9.应用审计追踪

IT系统的安全审计提供对用户访问系统过程中所执行操作进行记录的功能,将用户在系统中发生的相关操作(如:系统登陆/退出、系统操作)记录到数据库中,以确保在需要的时候,对用户历史访问系统的操作进行追溯。

通常审计跟踪与日志恢复可结合起来使用,日记恢复处理可以很容易地为审计跟踪提供审计信息。如果将审计功能与告警功能结合起来,就可以在违反安全规则的事件发生时,或在威胁安全的重要操作进行时,及时向安检员发出告警信息,以便迅速采取相应对策,避免损失扩大。审计记录应包括以下信息:事件发生的时间和地点;引发事件的用户;事件的类型;事件成功与否。

在IT系统中,审计可以是独立工作的不相关的组件的集合,也可以是相互关联运作的组件的集合。审计范围包括操作系统和各种应用程序。

10.安全管理与策略

IT系统安全管理系统应包括管理策略、管理组织保障、管理法规制度以及管理技术保障等内容。

IT系统安全是一个动态不断调整的过程,它随着IT系统业务应用和基础设施的不断发展而不断改变,例如IT系统信息系统各个信息网络、信息安全部件的具体设置规则,包括特定系统(设备)的口令管理策略、特定防火墙的过滤规则、特定认证系统中的认证规则、特定访问控制系统中的主体访问控制表、安全标签等。为了保证IT系统信息安全,及时进行安全策略调整是必要。

管理组织保障,实现对人员、系统、安全设备、物理环境和系统运行的安全管理。另外,IT系统安全策略应遵照相关行业的法律、规定。

管理技术保障是IT系统安全运行管理的技术保证。

5.业务连续性

连续性是指一个数据中心类应用为了维持其生存,一旦发生突发事件或灾难后,在其所规定的时间内必须恢复关键业务功能的强制性要求,这就需要预先发现可能会影响企业关键业务能力和过程的所有事件,采取相应的预防和处理策略,以保证企业在事件发生时业务不被中断。通过业务连续性计划保证数据中心业务的不间断能力,即在灾难、意外发生的情况下,无论是数据中心组织结构、业务操作和IT系统,都可以以适当的备用方式继续业务运作。

严格的说,业务持续计划的建立和实施过程,实际上是涉及数据中心运营,因此也涉及到项目管理的方方面面。通过多年的实践,根据自身实践经验并参照国际灾难恢复协会(DRI)与业务连续性协会(BCI)的标准,总结出业务持续计划的模型,经过长时间的验证,该业务持续计划模型能够给数据中心带来有效及彻底的业务持续管理。

灾难恢复的技术实现和级别

容灾按级别可分为数据容灾和应用容灾两部分:

数据容灾:在异地建立一个数据拷贝,这个拷贝在本地生产系统的“数据系统”出现不可恢复的“物理故障”时,提供可用的数据。

应用容灾:在异地提供一个完整的应用和数据系统拷贝(不一定要求同当量),这个拷贝在本地生产系统出现不可恢复的“物理故障”时,提供即时可用的生产系统。

1.平台安全性

平台完整性解决ICDC内部业务平台和接入平台的高可靠性问题。主要包括服务器、存储和网络层面的技术。

平台完整性涉及的技术主要包括:服务器、存储器、及相应网络连接的部件级可靠性技术;平台的集群技术;ApplicationServer的高可靠技术;数据库的高可靠技术。

2.备份和恢复完整性

备份和恢复完整性实现IT系统内部对业务数据平台的保护。包括服务器和存储层相关技术。

备份完整性涉及的技术主要包括基于磁带、光盘等离线介质的备份技术(或称定点拷贝);以及基于在线存储介质(磁盘)进行的生产数据快照技术。

实现备份完整性目标,首先需要映射业务种类所需要的数据集。即根据容灾备份系

统的需求,明确哪些业务状态数据需要备份,事实上,需要提供最完善备份的是稳定的业务状态数据,而处理流程当中的中间临时数据的备份需求较低。

另外,在备份完整性的实施过程中,应该区分备份数据和存档数据。备份数据是为满足容灾备份的要求,具有较短的时效性,备份数据会根据一定的备份频度被反复覆盖。存档数据则按照业务或法规的要求,有较长的时效性,并具有不断累积的特性。

在绝大多数数据中心应用场合,备份是经常性的工作,恢复是十分偶然的操作,因此,恢复往往是难以经过充分巡检、优化的容灾备份技术---这就更加要求恢复操作具有明确的可预见性。

3.信息完整性

信息完整性实现对业务数据平台的跨ICDC生产中心的保护,实现信息完整性技术是将业务连续性扩展到容灾阶段的一个十分关键的步骤。

信息完整性技术将生产中心的业务状态数据完整地复制到备份中心。实现信息完整性可以采用同步或异步复制技术。4.处理完整性

处理完整性即对业务支撑系统平台的完整的、跨越生产中心的保护。

实现处理完整性,需要比较复杂的系统集成工作,包括详细的系统设计和规划。目前的大多数关键业务及其关联子业务系统的容灾的级别要求为处理完整性。

实现处理完整性的关键在于以下三个要素:

对数据平台的保护-远程数据复制技术(即信息完整性)和对业务平台的保护-服务器、数据库等冗余及切换技术以及应用软件切换技术的集成

对接入平台的保护和切换-外部接口的冗余和切换系统的监控和切换

5.业务连续性管理

业务连续性管理是IT信息安全政策的宏观管理文件,该规范清楚说明业务连续性计划对于保障信息安全所采取态度、监管责任以及信念。

业务连续性管理规范包含《灾难恢复预案》、《业务连续性计划》等文件。这些规范从宏观层面,涵盖了灾难备份建设所涉及的内容,其目的是要保护信息安全。根据这些规范,建立业务连续性计划、灾难恢复预案,其中主要包括:灾难应急小组的组织架构和人员职责,应急队伍、联络清单及各类应急处理流程,普及教育及人员培训计划和演习计划等,并报主管部门备案。

主管部门要对各单位灾难恢复预案进行全面审核,评估灾难恢复预案的完整性和可

本文来源:https://www.bwwdw.com/article/moy1.html

Top