机房IT运维技术方案1.0 - 图文

更新时间：2023-10-07 08:30:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

数据中心机房运维方案推荐度：
相关推荐

第一章项目综述

1.1 项目背景

随着社会经济及科学技术的飞速发展，计算机网络的逐渐普及，XXX（建设单位）作为行业的领先者在IT建设方面投入大量的资金，建立起多种的业务系统，为企业的长远发展提供源动力及运营保障。伴随着XXX（建设单位）业务系统的不断增加，IT硬件和软件应用的也不断增涨，其环境复杂，多系统、多数据库和多应用平台、多厂商网络及系统设备的网络运行环境，使网络维护难度成几何倍数的增长，系统管理人员的工作压力越来越大。

在XXX（建设单位）网络系统的日常管理中，IT基础设施的故障和性能监控是很重要的一个环节，它是网络系统稳定、可靠的保证。如果XXX（建设单位）的网络失效或运行状态不佳，数据流就会受到阻塞，关键数据就不能得到有效共享，导致各项业务工作效率的下降，XXX（建设单位）对外提供的社会服务及内部企业运行流程都将受到影响。为保证网络畅通，网管人员需要对XXX（建设单位）现有网络设备、链路和多种操作系统的服务器进行7X24的监测，降低网络管理工作的复杂性，提高网络管理的工作效率。

1.2 需求分析

1.2.1

IT管理现状

随着XXX（建设单位）业务系统的不断完善，XXX（建设单位）缺少统一IT综合监控管理平台，网络运维人员经常是在故障发生后，才能去进行处理，工作处于被动状态。由于缺少及时有效了故障发现工具，需要花费很长时间去寻找和诊断故障，极大地影响了工作效率。缺少直观的业务服务拓扑功能，应用系统的监测和管理显得非常繁琐。无法对各种应用系统进行有效的监测管理，如何不断提高各种业务系统的服务质量，是XXX（建设单位）系统管理人员急需解决的问题。

网络运维人员急需建立起一套IT统一综合监测管理平台及时把握其业务系统的健康运行情况，对网络运行状态进行趋势分析，做到及时防范、及时告警、及时处理，需要对网络设备、服务器系统资源及应用软件的运行状况进行实时监测。形成对网络的集中、统一的管理，从而在整体上把握各业务系统运行性能。

1.2.2

存在的问题

目前XXX（建设单位）的IT管理主要面临以下问题： ? 网络管理的覆盖范围不足 ? 缺乏统一的网络管理平台

? IT系统运维的状态无法全景的展现

作为网络管理员，必须有效地了解网络中数据传输是否正常、服务器以及网络设备是否过载运行、应用系统是否可以正常使用、局域网内部以及局域网与互联网的连接是否正常、局域网是否受到非法者的攻击、用户之间的数据传输是否正常等等，同时，在遇到网络时断时续、网络内部用户不能正常上网等网络故障时，必须能快速定位故障点并将其排除。由于网络之间的数据传输的不透明性，管理手段落后，没有统一的网络管理平台，无法实时掌握整体IT环境的运行状态，管理模式分散，无法了解整个IT环境的变化，经常性的造成“一叶障目、不见泰山”的运维管理局面。网络管理人员很难及时准确了解IT资源运行趋势、网络运维的瓶颈、突发事件的故障点等问题，造成事故处理过程冗长，无法满足现代化IT运维工作的整体要求。

? 网络性能得不到充分发挥。

由于没有网络性能方面的管理工具，网管人员不能对网络进行有效的调整和优化。

? 机房动力环境运行监测薄弱

对机房场地的动力环境集中监控薄弱，需对机房动力系统(包括主要配电设备、UPS电源监控)、环境系统(机房专用精密空调系统、漏水系统、温湿度)、保安系统(门禁)以及消防系统等实行完善的监控和控制功能，能对发生的各种事件都结合机房的具体情况非常务实的给出处理信息，提示值班人员进行操作。实现机房设备的统一监控，智能化实时声光、短信、电话报警（声光报警器连接至保安监控室），实时记录事件；减轻机房维护人员负担，有效提高系统的可靠性，清理事件关系，实现机房可靠的科学管理。

1) 供配电系统

通过由精密配电系统厂家提供的数字电表、通讯协议及智能通讯接口实时监视机房市电三相电压、电流，频率、功率因数、有功功率等。一旦供配电系统工作状态不正常，系统会实时报警，告知值班人员。

2) UPS系统

对机房内UPS进行故障诊断，对UPS内部整流器、逆变器、电池、旁路、负载等各部件的运行状态进行实时监视，一旦有部件发生故障，系统会自动报警。

3) 空调设备

通过由空调厂家提供的通讯协议及智能通讯接口对机房的精密空调（艾默生）进行全面诊断监控。对空调内部的压缩机、风机、冷凝器、加湿器、去湿器、加热器等部件实时进行监视。一旦部件发生故障，系统会直观地在画面上显示出来并报警。

4) 漏水检测系统

漏水检测系统采用带漏水感应线的漏水探测器，对五楼机房内空调的四周进行漏水检测。一旦有漏水发生，系统会实时告警，把报警信息告知值班人员及有关人员。

5) 温湿度检测

在机房不同位置安装温湿度传感器，其输出连接到工控模块，可实时地监测现场温湿度状况，一旦温湿度超出设定范围，系统会弹出报警画面以及声光报警并发出短信，把报警信息告知值班人员及有关人员。

6) 机房门禁系统

机房玻璃隔断门和防火门加装电子门禁系统，可保存出入记录并供查询, 门禁系统需单独配电，当有紧急消防报警时，可通过发送系统电平信号，控制门锁的空开，使其断电，门锁打开。

对于XXX（建设单位）这个集生产业务网络和电子政务外网混合组网并且跨越多省市县等地区的广域计算机网络系统来讲，如果没有一个有效而集中的工具进行管理和分析网络的运行趋势，找到隐藏的性能瓶颈， IT运维的容量管理缺乏数据支撑，网络系统管理的长期规划缺乏数字依据，将难以保证网络及各项业务应用的顺利运行。

1.3 项目建设目标

本次IT综合监控管理平台的建设，我们最终实现以下管理目标：

建设全面的监控管理平台，消除监控死角。XXX（建设单位）信息技术中心的各个系统采用了多个厂家的网络设备、服务器、中间件、数据库、存储设备、虚拟化、硬件监控，因此本项目首先要解决的问题是通过建设全面的监控管理平台将目前各个业务系统中的各种设备、软件、业务应用均能够纳入到监控平台中来。消除管理对象之间的差别，消除管理软件的差别，对各种不同数据来源统一处理、统一展现、统一用户登录、统一权限控制。

建设看得见的IT运维模式，网络运行透明化。IT综合管理平台应建立全景拓扑的展示模式，将用户的业务视图、网络视图、应用视图、虚拟化视图和存储视图融合在一起，完整展现用户统一的IT架构，让用户一览众山小，全局掌握IT系统整体的运行情况。

建设开放、具有良好扩展性的IT管理平台。IT综合监控管理平台应具有很好的开放性，具备跟相关系统的集成能力。监控管理平台应具有良好的扩展性，不仅可以满足现阶段XXX（建设单位）系统管理的需要，未来，随着XXX（建设单位）业务的不断发展，监控功能添加，或管理节点数量增加时，IT综合监控管理平台也可以很好满足XXX（建设单位）的需求。

1.4 IT综合监控管理平台效益分析

达到自动化运维模式：IT综合监控管理平台建设完成后，可以将日常IT运维中大量的重复性工作，由过去的手工执行转为自动化操作，从而减少乃至消除运维中的延迟，实现“零延时”的IT运维。全天候自动巡检与及时报警实现了IT运维的“全天候无人值守”，大大降低IT运维人员的工作负担。自动化运维不仅仅是代替人工操作，更重要的是深层探知和全局分析，帮助用户在现有条件下实现性能与服务最优化，同时保障投资收益最大化。使网络运维人员从繁重的日常巡检、关注IT资源细节运行状态的工作中解脱出来，做到故障的提前预测、及时告警、精确定位，提高XXX（建设单位）的信息中心的运行管理水平和服务保障能力。

降低管理随机性和盲目性：IT综合监控管理平台建设完成后，实时监控网络运行状态、记录网络运行数据，当被管理对象的运行状态发生变化时，超过预定义

的阈值就会产生事件；如果该事件满足故障级别定义，则会产生故障报警。将为XXX（建设单位）的网络管理提供详实的运行数据，网管员可以根据运行状态记录及事件告警，对关键业务的关键问题进行有针对性的处理，真正做到网络运行管理的把握全局、突出重点，从而保证XXX（建设单位）核心业务系统连续、稳定的运行。

同时为网络运维的管理者提供真实网络运行报告，为下一步网络的的规划、建设提供数据支撑；形成网络的建设、维护工作以业务为中心，全力保障XXX（建设单位）利润中心的业务系统稳定运行，减少管理的随机性和盲目性，为XXX（建设单位）业务的长远发展献计献策、保驾护航。

第二章总体分析

2.1 总体需求

通过对目前IT系统环境和管理现状的分析，我们需要建设一套统一的网络、业务系统监测和机房动力环境监测平台，这个平台应该包括以下的管理需求：

? 基于统一、集中的管理体系，统一的数据处理和展现，统一的告警平台。

统一的数据处理和展现，消除各个监控工具之间各自为政、系统管理员在各个界面间频繁切换的情况，摆脱旧监控工具的数据和事件的现状，统一在新的监控平台中实现，并通过统一的展现界面进行展现。统一的告警平台，将所有告警纳入监控管理监控平台，并通过短信、邮件和桌面客户端统一告警。

? 将建立全景视图，用户的业务视图、网络视图、应用视图、虚拟化视图、

存储视图和动力环境视图融合在一起，完整展现用户统一的IT架构。实时掌握整体IT环境的运行状态，并且通过线路和设备的颜色、指标可以清楚的看到整个IT环境的变化，

? 采用的技术成熟、先进，并具有较强的集成性和可扩充性的管理平台。 ? 建立CMDB关系网，全景展现网络设备、虚拟架构、SAN架构、服务器、

应用的关联与配置关系、动力环境的运行状况，快速精确定位故障源头，完成事件的深入关联分析。

? 易于使用和维护。统一的中文界面，浏览器管理方式，可以多人同时通

过浏览器进行访问和操作。

? 解放人力，依靠智能化技术化的管理手段，降低故障发生率，降低维护

成本，并同时提高维护效率。

? 对主机系统资源的占用比较少的情况下，实现对各种服务器(Linux、

AIX、Windows2003等)监控管理。包括主机硬件、操作系统、文件系统、进程和应用等。主机监控的重点是对操作系统关键指标，如CPU、内存、进程、文件系统等进行全面的监控管理，要求不仅能够在状态改变或性能指标超越门限值时生成告警，同时还应该提供实时和历史的性能数据展现，并能够保存历史性能数据，以形成统计分析报表。

? 各种数据库（Oracle,Sqlserver等）监控管理，包括数据库的重要配置参

数以及运行状况的监控。主要关注数据库的关键指标，如SGA使用率、表空间占用情况、锁竞争和使用情况、缓冲区命中率等。

? 其它应用的监控管理。比如IIS,Tomcat,Weblogic监控，重点保证服务的

可用性和性能。

? 实现对存储架构的管理。可以实现对光纤通道交换机、存储阵列、磁带

库、HBA卡等存储资源的全面监控

? 实现对虚拟化的管理。可以对Vmware的VCenter、DataCenter、Cluster、

ESXi服务器、虚拟机进行监控，针对虚拟化系统提供了性能、可用性、配置的监控。直观展现虚拟化系统的状态，以及被虚拟主机的可用性。 ? 实现IT资源管理和业务系统的关联，可以从业务的视角进行IT管理。

当某台主机或者应用发生问题、产生告警时，系统管理员可以在第一时间发现该设备影响了哪个应用的正常运行。

? 实现动力环境运行的可视化管理，包括主要配电设备、UPS电源监控、

环境系统(机房专用精密空调系统、漏水系统、温湿度)、保安系统(门禁)以及消防系统等运行状况的管理和控制。

? 实现自动化巡检。能够根据预设时间点，对监控资源的实时运行数据进

行提取，形成报表，代替手工巡检。

? 统一的报告和报表，多台设备性能比较，支持多种格式导出，柱图、XY

坐标、饼图、折线图，定期的运维报告等等

2.2 机房设备统计

序号 1 2 3 4 5 6 7 8 产品名称规格型号品牌数量 2.3 功能需求

2.3.1

具备事件管理功能

当被管理对象的运行状态发生变化时，超过预定义的阈值就会产生事件。如果该事件满足故障级别定义，则会产生故障报警。

系统提供告警管理功能，应包含两部分，一部分为“当前告警”，指当前正在发生的，还没有解决的告警；另一部分为“历史告警”，指已经解决或自恢复的告警。这两部分都应支持查询功能，并支持将查询的告警内容导出为其他格式（如EXCEL、PDF）的文件。

系统提供告警事件的处理功能。主要记录报警发生的时间、事件信息、事件分类、处理状态、处理评注及建议等功能，使运维管理人员清楚了解系统故障的处理状态，及时掌握系统运行的故障和警报，及时进行处理，保障系统的正常、稳定运行。

2.3.2

灵活、直观的管理视图

操作人员可以根据自己管理的需要，灵活定制管理视图。例如，业务人员可以定制业务视图、网络管理人员可以灵活定制全景拓扑图、管理员可以灵活定制首页展示内容等。

监控系统控制台提供远程访问功能。提供统一的管理和展现页面。在系统管理范围内的所有主机、应用系统、存储架构、虚拟架构、中间件以及应用系统都可以按照多种方式进行展现，并且在展现视图中以明显的颜色来表示被管资源的状态、主要性能信息以及当前的告警状态等。

系统提供的视图，要求分层次地展现所有应用系统所涉及的所有被管理资源，并在视图中动态反映被管资源的性能、告警、配置等方面的变化。

提供对重要资源的特殊展现视图，对重要的服务器、数据库、中间件等资源，实现可视化监控管理视图，可支持全屏，以实时动态的方式，用不同颜色和动态效果，醒目的展现当前该资源的运行情况。

在全景拓扑的管理将用户的业务视图、网络视图、应用视图、虚拟化视图和存储视图融合在一起，完整展现用户统一的IT架构，需支持多个子拓扑的双击关联操作，可以定义展现指标，对用户关注的数据直接展示。提高拓扑的可操作性，

适合复杂拓扑结构的个性化排布，满足不同用户对拓扑美学和行业习惯的要求可通过建立多种业务视图的方式对拓扑资源进行查看，实现对网络运行环境的全盘掌控。

提供业务服务综合展现界面，可将业务用户、应用系统、IT资源形成有效的影响度关联视图，并支持以大屏方式展现，一目了然地了解当前应用系统的运行状态、用户影响范围以及相关IT资源的运行情况等。

2.3.3

灵活的查询功能

系统应能对系统各类信息进行灵活查询，并能将结果以文本列表、图形方式（直方图、曲线图、面积图等）显示、打印或转存为Excel、PDF报表方式输出。

信息查询应能够对信息的单项内容条目设置查询条件，也能够对主要的条目进行组合过滤查询，在用户设置如时间、日期等查询条件时，应能提供对输入内容的合法性检查功能。

可自行指定需要查询的IT资源以及指标名称，按需产生对应的查询操作。

2.3.4

严格的权限控制

具备监控各个应用系统用户和角色授权管理机制，对于不同角色，可以设置对被监测设备与被监测业务的读取和操作权限。并记录用户对系统的访问过程，对于非法访问、滥用授权及时报警，确保应用系统的安全。并且，由于监控管理平台自身是集中统一的监控管理中心，因此应提供较高的安全保障。

2.3.5

提供多种告警方式

各类告警信息均报送到统一的报警平台上。提供多种告警策略和告警方式，须提供短消息、邮件、页面告警等方式。管理人员可以根据自己的需要定制告警方式。采用基于角色的处理和分发机制，根据告警事件类型分发给相应运维人员，结合完整的事件处理流程，确保各种事件和故障信息的快速、有效解决，要求对报警能够过滤并能够按照应用系统关联多个事件，以避免报警风暴的产生。

2.3.6

完善的报表工具

系统应能够对各种查询结果进行某一维度的统计分析，并能将统计分析以结果文本列表、图形方式（直方图、曲线图、面积图等）或报表方式显示、打印或转存为Excel、PDF报表方式输出，报表须采用中文格式。

报表功能应具有报表生成的灵活性和呈现的多样性，并能够根据用户需要进行报表自定义，以适应用户不断变化的需求，并可通过报表模板的方式实现。

系统应提供操作员增加、编辑自动生成报表任务的功能，能够确定任务自动执行时间，以及对任务队列进行查询、删除等管理操作。系统自动生成的报表可基于系统已有的报表模板，自动生成任务中包括一个或多个报表模板，以及用户预设的报表生成条件。

第三章 IT统一综合监测管理平台建设方案

3.1 IT运维管理平台

3.1.1

IT运维系统价值

IT运维系统能够辅助IT部门进行如下工作：

IT部门具有对IT资产和配置的掌控能力。需要对每一个IT组件的配置，以及IT组件之间，IT组件与业务应用之间的关系进行梳理，形成配置的逻辑关系，并形成配置基线。 ?

IT部门对IT系统具有整合管理能力。IT系统本身是一个有机的整体，各个系统之间围绕着业务形成了关联和互动，所以对于IT系统的监测和管理也应当是整体全面的，使IT部门始终保持对IT系统完整巡视的能力。 ?

IT应用服务运行状态的感知能力。 IT系统的建设是围绕着业务应用进行的，所以针对业务应用应当具有可用性的统计，以及容量的负载统计。 ?

IT运维流程的管控能力。IT部门通过IT运维流程管理，使得IT运维工作变得更加规范，但同时需要对运维流程本身的效率和效能进行监控，以便能够管理运维流程。同时IT部门需要的是一个系统化的管理体系，而不是割裂的，独立的运维流程。

3.1.2

IT运维系统架构

IT运维系统通过四个层面的功能实现完整的IT运维管理。

配置管理层面：实现对IT组件及其配置的识别，并形成具有逻辑关系视图的配置管理数据库（CMDB）和配置基线。在配置管理层面形成了对上层流程的信息支持，并通过上层的变更管理流程形成对配置管理数据库（CMDB）的管控。整合管理层面：依据配置管理数据库（CMDB）的逻辑信息，对IT系统进行整合监测，形成完整的IT系统事态管理（Event Mgmt）。IT系统的整合管理包括：网络系统、服务器主机系统、数据库及中间件系统、存储系统。

业务服务管理层面：依据配置管理数据库（CMDB）的逻辑信息，形成组织机构的业务应用与IT组件的支撑关系，同时依靠IT组件的整合管理数据，完成对业务应用的可用性状态感知和容量管理。

流程管理层面：在具有了配置管理数据库（CMDB）的基础上，可为IT部门提供依据ISO \\IEC 20000标准的IT运维管理体系，为用户形成“服务支持中心”和“服务交付中心”。

3.1.3

IT运维管理成熟度模型

通过IT运维管理模型的规划逐步提升对IT系统运维的效率和质量：

阶段一初始阶段：没有自动化工具进行监测，IT系统故障依靠技术人员发现。对于故障的处理、配置的变更等没有明确的流程定义。阶段二被动阶段：强化主动监控，实现集中管理。

通过实施对IT系统的集中自动化监控，提高了对IT系统故障监测的效率帮助定位故障。

通过建立“事态管理管理流程”快速恢复系统运行。阶段三主动阶段：规范运行管理，有序开展IT运维。

通过建立“知识和问题管理流程” 共享运维经验，完善知识库。

通过建立“变更管理流程“和”发布管理流程“避免或降低因为人为操作因素而导致的故障，从而形成对IT基础设施的主动保障流程。阶段四面向服务阶段：形成面向业务服务的IT服务管理。

通过对业务应用的优先级设置，确定服务响应的标准，以确保最关键的业务得到最大程度的保障。

通过对业务应用的可用性管理，当系统资源（如服务器、网络等）发生故障时，能快速定位受影响的业务区域。。

通过对业务应用的容量管理，对IT系统资源（如服务器、网络等）进行合理利用。阶段五价值阶段：IT部门与业务部门的协作改善了业务流程。

3.1.4

IT运维管理系统解决方案

IT运维管理解决方案，围绕人、流程、技术为核心，进行整体规划、分步实施：

? 人：关注人员角色的定位和职责划分。

? 流程：逐步建立基于流程化的工作机制，提高运维工作规范性，提高IT

服务交付质量。

? 技术：以IT系统监测技术为依托，强化集中监控，提高运维效率。通过四个主要功能模块，采用里程碑式的方法，逐步实现完整的IT运维管理：

? IT资产及配置管理：对IT资产和配置有掌控能力。 ? IT基础设施的事态整合管理：对IT系统有整合管理能力。 ? 业务服务管理：对IT业务应用的运行状态和容量有感知能力。 ? 运行维护：以流程为基础进行运维工作，对运维流程有管控能力。

3.1.4.1 IT系统资产及配置管理

3.1.4.1.1 IT系统资产及配置管理的目标和价值

IT系统资产及配置管理的目标：定义并控制服务和基础架构的组件，并维护准确的配置信息。 IT系统资产及配置管理的价值：

1．通过识别IT系统的资产和配置，为自动化监测IT系统提供有关IT基础

架构配置的准确信息，从而反映了哪些IT组件出现故障将会影响哪些业

务和客户的信息。

2．通过配置管理数据库为事态管理管理、问题管理、变更管理和发布管理等

运维流程提供了的运作基础。

3．由于配置管理数据库中记录了IT组件和业务应用系统之间的逻辑关系，

所以配置管理数据库是业务服务管理的基础。

4．计量组织和服务中所使用的所有IT资产和配置项的价值。

3.1.4.1.2 IT系统资产及配置管理概述

IT 环境是一个蕴含众多依存关系的高度复杂环境，而这些依存性正日益成为关乎组织成败的重要因素。在IT运维的过程中需要一个精确的“地图”。

IT运维人员可以通过电子表格和拓扑等文件对IT系统的配置进行了记录，例如、共有多少台服务器，哪些应用安装于哪些服务器，网络中共有多少个VLAN等。这对于IT运维人员会带来两个挑战：

1．对于IT系统的配置通过手动记录的方式，工作量很大，如何保证准确性，同时如何保证这些配置文件能够与未来的变更保持同步。

2．在出现需要配置信息的时候，例如、当故障出现需要排错或需要判断某个系统变更是否可行时，都需要配置信息作为故障根源和变更影响度判断的依据。而通过查阅文件形式的记录将会降低信息查阅的效率。

在IT服务管理中，配置管理的任务就是提供精确的系统基础结构信息。而IT系统资源配置管理数据库（CMDB）由于存储了组织机构里用于提供和管理IT服务的细节信息。因此，实施IT系统资源配置管理数据库（CMDB）是配置管理的核心。

IT运维系统方案中的IT系统资产及配置管理模块，通过自动识别形成的配置管理数据库首先极大提高了配置管理数据库的构建效率及识别的准确度，同时在今后需要配置管理信息的时候可以做到联动查询。

IT运维能否满足业务运作的要求很大程度上取决于支持IT运维的IT基础架构的配置及运行情况。配置管理数据库不仅保存IT基础架构中特定组件的配置信息，而且还包括各配置项相互关系的信息。配置管理数据库需要根据变更实施情况将进行不断的更新，以保证配置管理中保存的信息总能反映IT基础架构的现实配置情况，以及配置项之间的相互关系。 IT系统资产管理和配置管理的区别：

IT系统资产管理主要面向资产类信息的管理，而配置管理主要面向运维信息的管理。IT运维系统应当同时具备以下两类信息的整合管理。 ?

IT系统资产管理中记录了IT组件以及IT设备的资产属性，例如、IT组件的生命周期、购买价格和维护费用信息、IT组件的位置等。 ?

IT配置管理中记录了该IT组件在运维过程中的一系列运维属性，例如、IT组件与IT组件之间的关系、IT组件的故障处理记录、IT组件的变更记录、

IT组件的发布记录、IT组件的软硬件配置等。

3.1.4.1.3 IT运维系统资产及配置管理的具体功能

3.1.4.1.3.1 IT运维系统资产及配置管理的范围

IT运维系统资产及配置管理的范围包括： ?

各个生命周期中的IT组件，包括：在线使用中的、备件、保修、订购及开发中的。 ? ? ?

各个生命周期中的IT服务，例如、各类业务应用系统。

与IT服务有关的人员和机构，包括：IT服务的客户和供应商，以及IT部门。与IT服务运维有关的文档，包括：受控文档、质量文档、手册等。

3.1.4.2 IT组件的识别与控制

IT组件是一系列构成组织机构IT系统的基本元素，例如数据库系统、服务器、路由器。根据组织机构的具体情况一个IT组件的定义可以是一个完整的系统（包括所有硬件、软件和文档），也可能是一个模块或较小的硬件组件。 IT运维系统可实现40%到80%的IT组件自动识别和归类。

3.1.4.2.1 IT组件识别步骤：发现IP网段配置信息

如下图，首先在向导中配置可用于管理和收集信息的SNMP 团体名，根据实际情况可配置多个SNMP 团体名，系统可自动匹配共同体名称。

如下图，通过从“网关为起点学习”或“手动指定起点学习”，IT运维系统将自动发现网段配置信息，从而确定IT系统的管理范围。同时系统支持手动填写网段地址。

3.1.4.2.2 IT组件识别步骤：识别IT组件及类型

如下图，系统可自动发现IT组件，并识别和归类IT组件类型，以便确定对IT组件的监测方式。

3.1.4.2.3 IT组件识别步骤：识别IT组件配置

如下图，将IT组件的软硬件配置进行获取，形成历史基线。同时与新获取的IT组件配置进行比对，以便发现IT组件软硬件配置变化。

3.1.4.2.4 IT组件识别步骤：识别IT组件关系

自动化识别IT组件关系，将提高IT组件关系准确度和构建配置管理数据库的效率。通过识别IT组件关系，形成配置管理的基础关系数据。IT组件关系为两部分：

? 物理关系：“组成关系”、“连接关系”、“使用关系”。 ? 逻辑关系：“复制关系”、“涉及关系”、“被用于关系”。如下图，自动识别IT组件关系及配置。

3.1.7

运维流程管理

3.1.7.1 运维流程管理的目标和价值

运维流程管理的目标：通过构建系统化的管理体系，协助IT部门提高运维流程的规范化，从而提高IT运维的质量。运维流程管理的价值：

1．构建系统化的运维管理体系，而不是割裂和孤立的流程堆砌。

2．通过KPI监测，建设对效率和效能可测量、可视化的流程系统，从而辅助IT部门对运维流程的管理。

3.1.7.2 运维流程管理概述

IT部门可以通过IT运维系统辅助建立可衡量，预先定义、可重复、可追溯、可优化，有预先定义结果的运维流程，规范和明确各个服务实体的功能，IT运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。这些可以定义的流程包括：事态管理。

IT运维系统的服务管理职能规划凝聚了行业经验及目标客户与行业伙伴在运维IT系统时取得的丰富实践经验。IT服务管理职能规划的指导原则取材于 IT 服务管理知识，并从 ITIL 所收录的最佳实践经验中汲取营养。

事态管理（事故）管理的目标是在尽可能小地影响客户和用户业务的情况下使IT系统尽快恢复到服务级别协议所定义的服务级别，同时记录事故以便为其他流程提供支持：

事态管理（Incident）是指引起或有可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。

3.1.8

系统技术架构

IT运维系统基于Microsoft.NET 平台开发,采用智能客户端(SmartClient)技术。大幅度提高用户使用响应速度，使用互联网应用如同使用office。在很大领域上的使桌面程序优越功能在互联网应用上成为了现实，比之B/S结构体系架构更适IT运维人员的应用，在相当大的功能上跨越了B/S架构应用不可逾越的鸿沟。

IT运维系统在体系架构层面同时具备

了C/S高性能响应的以及B/S结构的安装维护简易、跨越互联网的优势： ? ? ? ? ?

吸引人的桌面客户端程序，很好的可用性在线和离线的无缝切换,具备更高的相应速度服务器数据安全访问低成本的安装和维护

客户端应用自动更新，无需任何人为干预

如下图，图形化呈现IT组件配置及关系。

3.1.4.2.5 手动添加IT组件

IT运维系统在支持自动化构建配置管理数据库的同时也支持手动添加IT组件，并配置相应的管理凭证和类别。

3.1.4.3 运维相关配置项的管理

在IT系统中除了硬件和软件设施以外，还有“文档”、“IT运维中的角色”、“组织机构”等，同样需要管理。

3.1.4.3.1 管理IT运维相关文档

文档管理是针对文档创建和管理的过程，用以确保服务特性、管理政策、计划被适时的、恰当的描述，以便控制和管理与质量体系有关的文档资料，确保对质量管理体系有效运行起重要作用的各个场所都能得到和使用相应体系文档的有

效版本。

3.1.4.3.2 IT运维的角色管理

角色的定义：角色是人员和职责的集合，根据需要，一个角色可以包含多个人员，也可以一个人员承担多个角色的任务。

角色与IT业务服务：由于角色定义了明确的职责（职责由任务和任务的周期组成），所以根据服务目录的需要，一个IT业务服务可以由一个或多个角色共

同承担支撑运维工作。

例如、某人即是网络二线小组的成员，同时又是组织运维知识管理的负责人。 IT运维系统中设置了技术职能角色和流程管理两类角色。

3.1.4.3.3 组织机构管理

组织机构：基本包括服务实体和用户两大类。服务实体是专门对应某功能模块服务的一个人或者一个团队。用户是IT服务的最终使用者，用户不参与IT系统的具体运行维护工作而更加关注IT系统的使用性和功能，例如：财务部、人力资源部。

3.1.4.4 图形化呈现IT组件及关系

配置项关系:配置管理中体现业务系统与IT环境的关系，业务系统之间的关系，在业务系统变更的时候能够直观的指导会影响到那些其他的系统。

3.1.5

IT基础设施的整合监测管理

3.1.5.1 IT基础设施整合监测的目标和价值

IT基础设施整合监测管理的目标：通过实时的监测IT 服务健康状

况并进行前瞻的预警及报警，以降低服务事故和系统事件的所造成的影响。

IT基础设施整合监测管理的价值：

1．整合的管理IT系统运行状态，为IT部门提供整体IT系统的完整信息。 2．通过自动化监测，提高对IT系统中潜在和存在的故障侦测效率，缩短处理事态管理的时间。

3．监测信息为事态管理管理和问题管理提供客观依据。

3.1.5.2 IT基础设施整合监测概述

IT系统是由各个相互独立且有相互依赖的技术模块组成，这些技术模块包括服务器主机、网络系统、安全系统、中间件及应用系统、数据库及文件系统、存储系统等。

面对异构化的IT环境，更加需要整合的管理，既一个管理平台监测整体IT系统，打破异构IT系统管理壁垒。

3.1.5.3 IT基础设施整合监测的具体功能

3.1.5.3.1 网络系统管理

IT运维系统支持对国内外的主流产品的自动化监测、具体包括：H3C、Tippingpoint、Cisco PIX/ASA、天融信、Fortinet、StoneSoft、

Juniper/Netscreen、Microsoft ISA、CheckPoint/Nokia、Extreme、网域神州、F5、Radware、Foundry ServerIron /Broadcade等。

3.1.5.3.2 网络拓扑管理

可通过拓扑的方式对网络进行管理，在拓扑中呈现每条链路的畅通和网络协议的运行状态是体现网络整体运行状态的关键指标。

如下图，通过拓扑图可呈现各个区域IT组件的连通及运行状态。

如下图，在拓扑图上可快速统计当前的故障信息、IT组件负载信息、线路负载信息，并以TopN的形式排列。

如下图，拓扑图的IT组件可按照实际业务情况进行合并成为“区域”概念。

IT运维系统可针对“区域”进行Vlan配置、VTP配置、STP配置的分析。如下图，在形成了“区域”的网络中，分析Vlan配置。

为便于更加直观的呈现IT系统状态，根据IT系统的规模大小，用户可创建拓扑子图，并进行切换或链接。

如下图，将部分服务器和网络设备组合成为拓扑子图，并可进行切换或链接。

网络设备相关端口的流入流量、流出流量、流出速率、流入速率，端口利用率、端口丢包率、端口误码率。

监控的信息可以按照天、周、月、年等方式以图形和报表的方式展示。

3.1.5.3.3 终端接入管理

IT运维系统支持对终端内部接入的监测，能够发现接入近来的无线控制器和集线器。同时通过设置终端合法性，可识别接入网络的外部设备。

如下图，可图形化呈现终端接入情况。

3.1.5.3.4 网络设备管理

网络设备的管理可对每台网络设备的控制层面、转发层面、基础环境层面进行管理。

? 控制层面的处理能力：CPU利用率、内存利用率、防火墙等网络安全设备的

连接数。

? 数据层面的转发能力：链路的带宽利用率、丢包率、错包率、CRC校验错误

包率、网络协议的运行性能等。 ? 设备的基础环境：温度、电源、风扇。

3.1.5.3.5 服务器主机系统管理

IT运维系统本身支持对Windows服务器系统和Linux及Unix服务器系统的监测。同时通过各类报表，可以进行容量的趋势分析，查询系统的性能瓶颈。

操作系统监控参数：

? 服务器系统的连通性：监测网络设备是否可连通，连通的耗时。

? 服务器系统的处理能力：监测网络设备的CPU、内存、磁盘容量、磁盘性

能，每秒的平均读取数，及当前队列数。

? 服务器系统的服务能力：监测网络设备的服务支撑系统能力和重要进程是否

存在，进程[进程运行实例数，占CPU、内存量，线程数，I/O读写、句柄数]。

备注：本文仅罗列了基本的监测参数，具体监测内容请见详细指标。

3.1.5.3.6 数据库系统监控

IT运维系统的数据中心管理模块用于帮助用户保证 Oracle、IBM DB2?、Microsoft? SQL Server、Sybase 、IBM Informix? 服务器的可用性和最优性能。消除数据库管理员 (DBA) 时常遇到的决定监控什么、如何监控、如何解释监控结果并给出对策等难题，给 DBA 留出更多时间来关注更复杂、重复率更低的任务。

数据库系统的基本监测参数：数据库系统监视器 Oracle、MS SQL Server、My 事务/秒、事务数 SQL、DB2、Sybase、Informix 数据库内存占用率缓冲池命中率连接数/会话数游标数接受字节速率、发送字节速率连续工作总秒数用户连接数批注请求数/秒数据库文件对磁盘的占用率锁的数量平均锁等待时间数据库增量表空间增长率、表空间利用率数据库访问安全备注：本文仅罗列了基本的监测参数，具体监测内容请见详细指标。

3.1.5.3.7 中间件及应用系统管理

IT运维系统支持对中间件系统和应用系统的监测管理，具体包括对：WebSphere系统、WebLogic系统、Tuxedo系统、IIS系统、Apache系统、Exchange系统、Mirapoint系统、Lotus系统的可用性。

部分中间件系统的基本监测内容：层面监视器中间件及应用WebSphere [JVM内存使用率、CPU利用率、用户会话及相关信息、平台能力层面 Enterprise JavaBeans 、Thread Pool、Java Database Connectivity Pool] IIS [总用户数、每秒用户访问数、每秒接收字节数、每秒发送字节数、当前用户数、当前连接数、锁总数] Tomcat [连接响应时间、传输字节速率、每秒请求数、以用内存、剩余内存、内存总数] Apache [连接响应时间、CPU负载、每秒传输字节、每个请求传输字节数、正常运行持续时间、被访问次数、活动线程数、非激活线程数、每秒请求数] IBM WebSphere [连接响应时间、CPU负载、每秒传输字节、每个请求传输字节数、正常运行持续时间、被访问次数、活动线程数、非激活线程数、每秒请求数] Exchange [系统平台[用户连接数、动态连接数、活动线程数、工作队列线程数、地址堆栈长度] Mirapoint [UCE、每秒接收邮件数、发送邮件数、垃圾邮件数、病毒邮件数、队列数、内存、温度、Touch、CPU、POP连接数、SMTP连接数、SSL连接数、活动数、写入延迟、读取延迟、] WebLogic [WebLogic opened sockets、WebLogic 当前JVM堆中内存状况、WebLogic 运行状态、WebLogic 性能] Tuxdeo [Server status、完成的transaction数] 备注：本文仅罗列了基本的监测参数，具体监测内容请见详细指标。

3.1.5.3.8 日志中心

日志的收集和分析工作是IT运维人员的重要维护手段，而在整个IT系统中一套统一的日志收集平台是提高效率和及时性的至关重要的工具。日志是一种工业标准的功能，允许一个设备通过IP网络把通告信息传递给日志服务器。在日志

整合方案中，IT运维系统即是统一的日志存贮中心，也是分析中心。

通过收集IT系统中各个IT组件的日志，IT运维系统会自动进行优先级的归类和趋势的分析。IT运维人员需要通过根据优先级的趋势发展来进行相应的动作，例如：严格审核来自网络设备的配置命令日志，如果有“系统不可用”级别的日志则应当立即检查相应的IT组件和IT服务的工作情况。

信息中心可以根据重点的IT组件或者IT服务以及以往的经验，进行自定义的日志策略的设置。自定义日志策略设置可以包括“IP”，”关键字”，“优先级”，“报警动作”，“紧急度”，“优先级”字段。

IT运维人员可以通过IT运维系统查看自定义的日志策略趋势分析。

在对日志归类策略进行计划和配置后，应当对配置后的重要策略编辑报警功能。例如当某一重要服务器出现了Emergency级别的日志信息，则IT运维系统立即触发故障管理系统并触发报警系统，使得IT运维人员第一时间得知该系统问题。

3.1.5.3.9 快速比对分析和统计

IT运维系统支持对网络接口的流量、服务器性能的快速分析比对，协助IT运维人员分析IT组件的性能比对。

如下图，IT运维系统支持对接口流量的快速统计比对。

如下图，IT运维系统支持对IT组件按照CPU使用率、内存使用率等进行的快速排列。

如下图，IT运维系统支持对多台服务器主机的性能进行比对：

3.1.5.3.10 报表提供统计分析和决策支持

报表系统是协助IT运维人员周期性统计IT系统总体运行能力趋势的功能模块，为IT部门提供统计分析和决策支持。

统计报表能够自动的按照日、周、月、年生成报告，报告的监测器范围可以任意指定。全面的展示监测目标的运行情况和统计信息，为系统扩容和企业决策提供科学的依据。

3.1.5.4 IT系统巡检

针对IT系统的主动巡检工作是信息中心IT运维人员必备的日常运维工作之一，而在巡检的过程中，往往寻找异常信息或者故障是占用时间最多的内容，并且根据组织机构人员及工作职责不同，很难保障每一次的巡检工作都完全按照既定的巡检标准准确的被执行。IT运维系统的巡检职能可以辅助IT运维人员巡检工作，以达到提高效率，降低错误的效果。

如下图，每一次的巡检工作都是由IT运维人员手动发起的，IT运维系统可以清晰的记录巡检的工作执行情况并形成分析报告。

3.1.5.5 阀值配置

根据IT组件及业务运行的实际情况制定相应的阈值，当IT组件在运行过程中指标超过规定的阈值后，系统进行多种方式的报警。

IT运维系统提供用户根据系统的性能和服务级别管理对阀值进行设定： ?

错误阀值：反映如果所收集到的数据与该阀值匹配则反映用户系统已出现严重故障，用户看到此状态应立即解决此类问题。 ?

告警阀值：反映如果所收集到的数据与该阀值匹配则反映用户系统已出现故障的趋势，当用户看到此状态应进行关注并采取适当措施。 ?

正常阀值：反映如果所收集到的数据与该阀值匹配则反映用户系统此时正常，用户只需要在报告系统中关注该阀值的趋势。

在不增加操作复杂度的同时，保障阀值配置的灵活度，IT运维系统提供了多种阀值配置的方式。

如下图，批量配置单个IT组件的阀值策略。

如下图，批量配置一组IT组件的阀值策略。

如下图，配置单个配置项的阀值策略。

3.1.5.6 故障预警和告警模块