BMC产品方案 - 图文

更新时间:2024-06-30 14:55:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

集中综合结算系统网络设备及监控

方案建议书

2010年7月2日

目 录

第1章 1.1 1.2 1.2.1 1.2.2 1.3 1.3.1 1.3.2 1.3.3 1.3.4 1.4 1.4.1 1.4.2 1.5 1.6 1.6.1 1.6.2 1.6.3 1.7

集中监控系统方案 ..................................................................................................... 1 逻辑结构设计 ............................................................................................................. 1 采集层功能介绍 ......................................................................................................... 2

采集层的功能 ......................................................................................................... 4 采集层模块功能 ..................................................................................................... 6

数据处理层功能介绍 ............................................................................................... 38

统一事件管理平台 ............................................................................................... 39 配置数据自动发现工具 ....................................................................................... 44 业务影响管理 ....................................................................................................... 49 事件集成 ............................................................................................................... 53

系统展现层功能介绍 ............................................................................................... 56

门户管理 ............................................................................................................... 57 报表管理 ............................................................................................................... 60

管理软件自身的监控 ............................................................................................... 62 二次开发说明 ........................................................................................................... 62

开发工具种类 ....................................................................................................... 62 二次开发方法 ....................................................................................................... 63

API接口 ............................................................................................................... 65 安全控制 ................................................................................................................... 66

I

第1章 集中监控系统方案

1.1 逻辑结构设计

针对错误!未找到引用源。错误!未找到引用源。的需求,结合BMC的BSM解决方案,集中监控系统解决方案逻辑结构设计如附图1. 所示。

系统展现层PortalReporting服务影响数据性能数据告警数据配置数据模型数据CMDB数据处理层配置数据Discovery Tools业务影响管理(服务模型)告警数据事件及告警处理告警数据告警数据Remedy 可用性、性能数据处理采集层BMC 监控管理产品(用于平台和业务的可用性和性能数据的采集)EntuityIT基础架构数据层主机数据库应用网络 附图1. 集中监控系统逻辑结构设计

在集中监控系统逻辑结构设计中,包含采集层、数据处理层及系统展现层三个层面。

-1-

在结构设计图中,采集层将通过安装在被管系统的上的BMC监控产品,对主机、数据库、中间件、应用等,进行各种技术参数的采集,实时监控被管理系统的运行状况,并送到数据处理层进行数据处理。

数据处理层包括“可用性、性能数据处理”、“事件及告警处理”、“业务影响管理”、“CMDB”、“Discovery Tools”等模块。

“可用性、性能数据处理” 模块对接受到的可用性、性能数据进行处理,将告警信息送交“事件及告警处理” 模块进行告警处理。

“事件及告警处理” 模块,作为整个系统的集中的事件管理平台,将收集整个系统中各种各样的事件和告警信息,并通过与其他管理软件的集成收集各个被管理系统的告警信息(比如与Whatsup, CACTI集成收集网络方面的事件信息)。“事件及告警处理” 模块将收集到的各种事件和告警信息进行必要的压缩、过虑、关联处理后,将其提交到“业务影响管理”模块作出业务影响管理;同时进行邮件、短信、声音等通知动作。同时也可以将告警数据转入IT服务流程管理系统(BMC Remedy)中,触发事件管理流程,实现IT服务管理的各种相关流程管理。

“业务影响管理”模块通过自动化的发现工具“Discovery Tools”,结合手工录入、批量导入等手段,利用模型创建工具,自动建立业务模型和影响度模型,将业务和IT紧密的结合起来,形成以业务为中心的IT服务平台,从而实现业务影响分析。

系统展现层负责监控告警信息和各种监控视图的综合展现。经过数据处理层处理的可用性、性能、故障、配置、服务影响等数据,在系统展现层进行展现。

下面将针对采集层、数据处理层、系统展现层,分别介绍其功能及特点。

1.2 采集层功能介绍

采集层主要功能是完成对主机、数据库、中间件和应用等进行数据采集,采集的内容包括:告警数据、性能数据、配置数据、其他数据等。

-2-

在采集层中,主要采用BMC ProactiveNet Performance Management系列产品,实现对IT基础架构和业务类等各种监控对象的数据采集。具体产品如下:

? 网络监控——Entuity Network Monitoring for BMC ProactiveNet Performace

Management.

? 主机硬件监控——Sentry Software Monitoring for BMC ProactiveNet

Performance Management - Hardware Monitoring,主机硬件监控,如CPU、内存、磁盘、电源、风扇、电压、温度等;

? 主机监控——BMC ProactiveNet Performance Management–Server,可实时

监控服务器上网络、CPU、内存磁盘空间、文件系统、交换区、进程或服务、用户等关键指标,BPM通过自带的开发语言PSL和相应的开发平台十分容易的实现对业务应用的监控,同时支持标准化的方式对应用的监控,如SNMP、日志文件、SQL查询、脚本程序、JMX等。

? 应用、数据库、中间件、Web服务器等监控——BMC ProactiveNet Performance

Management–Application, Database and Middleware,实时监控应用、数据库、中间件、Web服务器等的运行情况,对于数据库可以监控实例状态、缓冲区的命中率、表空间的使用状况、用户登录及会话情况、用户互锁情况、数据库资源的开销情况、数据库的性能情况、空间碎片程度等;对于中间件可以监控应用服务器的运行情况,如JVM堆栈空间的使用情况、JVM垃圾回收的情况、JVM线程的使用情况、内存泄露的情况、EJB的效率情况、Servlet的效率情况、JSP的效率情况、JDBC的使用情况等,当关键指标当超出报警范围时自动产生报警事件。

? Transaction Management Application Response Time,对业务服务可用性的指

标进行采集,同时采取精选综合性指标的方式,形成关键质量指标(KQI),并选择关键业务流程进行用户体验式管理。可支持录制模拟业务操作脚本,并按配置进行回放。

-3-

1.2.1 采集层的功能

本平台从错误!未找到引用源。业务应用角度出发,着重于及时发现错误!未找到引用源。内的各类告警和性能异常,进行数据分析和整合,同时以适当的形式进行呈现;另一方面,维护人员借助该系统能够进行相关操作,及时完成维护职能。

采集层,主要是完成各类数据的采集工作,建立相关的数据采集接口,并能够根据需要定制在特定的时间(或周期性)进行数据的采集,并为数据处理层提供相关的数据。这一层主要是由通过设置在各个点的各类采集代理组成。

BMC ProactiveNet Performance Management系列产品,支持Agent和Agentless方式,支持agent实时采集、系统/业务日志读取、DB读取、第三方脚本/系统命令获取、SNMP/TRAP获取、监控系统北向接口、业务模拟、手工/文件批量导入等方式进行数据采集。

该层管理IT基础架构组件和应用系统的运营状况、可用性及性能等,被管对象主要为平台部件,包括主机、数据库、中间件、Web服务器等。主要功能:

? 采集数据,包括告警数据、性能数据和配置数据

? 从服务器、数据库、中间件以及其它方面监视基础设施的运行状况 ? 确定和诊断事件,快速恢复服务 ? 控制环境并将其自动化

系统通过获取相应的数据达到监控整个系统的目标。告警数据用于及时反映系统运行状态。性能数据用于评价平台运行质量,通过分析历史指标的情况、预测未来的发展,提升管理层次,达到面向服务品质的管理。配置数据整体描述系统的资源状况。

-4-

1.2.1.1 告警数据

告警数据分为故障告警、性能阀值告警等。

? 故障告警:指平台的非正常状态触发的告警事件,以及从平台日志中提取的

故障事件。

? 性能阀值告警:指性能指标数据超过设定阀值触发的告警事件。

同时,为了保护用户的已有投资,利用事件管理平台,实现与第三方管理软件的集成,如IBM Tivoli、HP Openview、CA Unicenter等,共同完成对各类应用及其服务器设备等各类告警数据进行实时的数据采集,及时发现影响业务系统的各类告警和性能异常,发送告警事件。

1.2.1.2 性能数据

性能KPI分为二级:

? 一级性能指标:指对系统运行最重要的,属于核心和常用的,有明确阀值定

义,能够判断系统是否正常运行的性能指标。

? 二级性能指标:对于分析系统性能有参考意义的,一般不设定阀值。

性能指标通过设定阀值来触发相应的性能阀值告警,对于性能指标的阀值定义,原则上采用忙时、闲时、正常时段设置不同阀值,或同一时段可设多个阀值进行分级告警。

1.2.1.3 配置数据

配置数据的采集利用BMC Atrium Discovery and Dependency Mapping自动发现工具,结合其他维护方法,实现配置数据的处理。通过自动发现工具,将所有的配置数据统一存储在数据库中,供监控管理平台和服务管理平台所共享。

-5-

1.2.2 采集层模块功能

整个采集层主要提供对主机、中间件、数据库和业务等的监控与管理,并提供集中的用户监控管理界面对系统性能和可用性以进行集中监控,使用集中的配置管理界面对监控策略进行集中的配置和管理。

IT系统维护人员通过统一的门户系统监控IT基础架构的运行情况,,同时监控IT部件的事件和性能信息。

1.2.2.1 网络监控

网络监控将采用Entuity Network Monitoring for BMC ProactiveNet Performance Management产品实现。对LAN利用率、WAN利用率、端口误码率、丢包率、CPU、内存、缓存等实现监控。

1.2.2.1.1 网络故障管理及拓扑管理

Entuity Network Monitoring for BMC ProactiveNet Performance Management网络管理系统可以自动发现生成网络拓扑图并且实时更新,所显示的网络拓扑图能够与网络的逻辑结构一致。可以建立地理位置或层次拓扑结构,根据广域网、局域网、交换机、路由器、服务器、PC机进行分组管理。并且,支持管理维护人员分层管理功能。

? 网络拓扑及故障管理

Entuity Network Monitoring for BMC ProactiveNet Performance Management采取以下三步骤来进行IP发现和网络拓扑解析:

? 发现SNMP设备; ? 探测巳发现的设备; ? 物理拓扑解析。

-6-

Entuity Network Monitoring for BMC ProactiveNet Performance Management以图形化的方式显示如下的信息系统的网络部件:

? 路由器; ? 2层交换机; ? 4到7层交换机; ? 防火墙;

? 服务器(Windows、HP、Solaris、?); ? 打印机;

? 用户工作站(没有SNMP的代理程序)。

Entuity Network Monitoring for BMC ProactiveNet Performance Management自动发现各网络部件之间的连接情况。附图2. 所示是Entuity Network Monitoring for BMC ProactiveNet Performance Management发现的网络设备和相应的网络拓扑图。

-7-

附图2. 网络拓扑图

可以基于网络拓扑图或网络层次树形结构查询网络部件,如厂家、设备类型、IP地址、MAC等等。当进行树形结构查询时,可使用过滤器对其进行过滤。 Entuity Network Monitoring for BMC ProactiveNet Performance Management的过滤器支持以下几种过滤器:

? 拓扑结构:可选择属于一个网络、一个VLAN、一个VLAN主干或同一个

网络设备相临的所有设备;

? 统计/性能:选择在某一时间段内超过门槛值的设备、线路或应用程序; ? 物品清单:根据指定的属性(路由器、交换机)、特定厂家或设备类型选择选

择设备、线路或应用程序。 下图所示是一查询树的示意图。

-8-

附图3. 查询树

下图是在查询树上选择相应设备后在网络拓扑图上呈现出来的巳选择设备和相应路径。

-9-

附图4. 设备路径显示

Entuity Network Monitoring for BMC ProactiveNet Performance Management支持多层的网络拓扑图。

? 流量监控

Entuity Network Monitoring for BMC ProactiveNet Performance Management从设备的SNMP MIB库中收集以下的数据信息:

? 性能数据:带宽的利用率、输入、输出、…;

? 负载信息:CPU、内存、ORACLE的负载、ERP的负载、发送的邮件数、…; ? 错误信息:丢包数;

? VLAN:基于端口和地址的VLAN、…。

对每个设备或线路,Entuity Network Monitoring for BMC ProactiveNet Performance Management支持用户定义映射模式,每个设备或线路可显示两个指标值的信息,具体的指标由用户指定,相应的图标和相应的颜色也可由用户指定。如用户不指定,根据设备类型,Entuity Network Monitoring for BMC ProactiveNet Performance Management选择最适合的指标。

Entuity Network Monitoring for BMC ProactiveNet Performance Management可实时或历史数据回放的方式在网络拓扑图上显示网络性能数据,用户可选择以哪些指标来显示网络流量显示图。用户可根据管理的需要显示某部分的VLAN图或显示全局的VLAN图。附图5. 所示是某一局部的VLAN图和相应的流量及流向显示。

-10-

附图5. VLAN视图和相应的流量及流向显示

附图6. 所示是一全局性VLAN和流量及流向显示图。

附图6. 全局性VLAN和流量及流向显示图

网络管理人员可以基于某一网络设备对其相应指标值进行性能分析与预测。附图7. 所示是一网络设备的指标值分析图。

-11-

附图7. 网络设备的指标值分析图

利用Entuity Network Monitoring for BMC ProactiveNet Performance

Management特有的流量映射功能很容易找出网络异常时巳影响的网络部件或将会受到影响的网络部件。下图所示是某一工作站对数据库进行大量访问,占有大量网络带宽,从而在一段时间内阻止其它工作站对该数据库服务器进行访问。

-12-

附图8. 利用流量映射功能发现网络异常

下图所示的是通过流量映射功能很快找出一个配置错误的进行负载均衡的骨干交换机。

-13-

附图9. 利用流量映射功能发现负载均衡

Entuity Network Monitoring for BMC ProactiveNet Performance Management可同BMC ProactiveNet Performance Management Agent进行集成,从而在网络拓扑图上显示系统、数据库或应用的性能数据。

? 故障管理

BEntuity Network Monitoring for BMC ProactiveNet Performance Management故障管理模块在网络拓扑图上实时更改不同网络部件的状态,它支持整个网络拓扑图及其相关的子网的状态。

Entuity Network Monitoring for BMC ProactiveNet Performance Management故障管理模块的主要功能如下:

1. 管理两类的状态信息。

? 来自网络部件的报警信息(SNMP Trap)。来自于被监控设备的SNMP

Trap V1和V2以及性能Trap(例如来自于BMC PROACTIVENET PERFORMANCE MANAGEMENT(PATROL) Visualis)被存储在数据库中以备将来分析,受该事件影响的网络部件会以不同的颜色显示在网络拓扑图上。

? 辅助的轮询机制(是否可到达)。通过对SNMP设备的主动轮询或通过

对无SNMP代理的ICMP的轮询来确定设备的可到达性。轮询频率可由用户定义。

2. 根据报警更改设备的状态。 3. 更改网络拓扑图的显示。

4. 将报警传送给告警管理模块并执行相应的动作。

-14-

1.2.2.1.2 网络性能分析

Entuity Network Monitoring for BMC ProactiveNet Performance Management着重于网络性能分析,主要功能如下:

Entuity Network Monitoring for BMC ProactiveNet Performance Management提供网络的性能管理,着眼于提高网络的服务质量(QoS),帮助网络管理人员优化网络的报务水平。

Entuity Network Monitoring for BMC ProactiveNet Performance Management的特点包括:

? 辨别能力:瓶颈在哪里,哪些是过载的网络设备,哪些是空闲的网络设备; ? 预测能力:网络拥塞和过饱和; ? 优化:整个网络的功能,广域网的费用;

? 确证:当前、未来投资的有效性,恰如其分的网络功能;

? 统计:SNMP管理、接口、DLCI、协议、实时数据、历史数据、SNMP、

RMON、RMON2、NetFlow、Ganymede;

? 报告:SNMP指示器,网络功能报告、例外处理,单点查看,高级诊断、

报告的客户化;

? 通知、报警:发送报告的电子邮件,多个/交叉使用报警阈值,SNMP的

trap发送到第三方的NMS工具;

? 预测、计划:可以对整个网络、网络域、网络子域、每个网络设备进行性

能预测;

Entuity Network Monitoring for BMC ProactiveNet Performance Management与其他厂商的产品相比,其独到之处在于:

? 实施非常快:5分钟的安装,15分钟网络自动发现完成,15分钟后产生

第一个报告;

? 基于Web的最新技术:

? 100%使用Java,客户机/服务器结构;

-15-

? 利用WEB浏览器可访问到所有的功能。

? 非常有效的报告; ? 通知、报警。

? 性能管理体系结构

Entuity Network Monitoring for BMC ProactiveNet Performance Management性能管理是基于Web的客户机/服务器体系架构,服务器自动发现设备、收集SNMP数据、存储数据在自己的对象数据库中并产生相应的系统报表。一个Entuity Network Monitoring for BMC ProactiveNet Performance Management包括以下部件:

? 一个优化的SNMP收集器,因此不会增加网络负载;

? 一个存储数据的对象数据库,数据可导入到关系数据库ORACLE中; ? 基于TOMCAT的HTTP的Web服务器,用户可用任一浏览器连接到该

Web服务器监控网络的性能;

? 一整套API,可用来同其它网络管理产品进行集成。

整个Entuity Network Monitoring for BMC ProactiveNet Performance Management架构如下所示:

Web Client HTTP Server Servlets API User Interface Services Statistics Polling Engine Engine SNMP Stack Scheduler MIB & Statistics database Web Client CLIENT PATROL DASHBOARD SERVER

附图10. 性能管理体系结构

? 网络数据采集和存储

-16-

Entuity Network Monitoring for BMC ProactiveNet Performance Management收集设备或接口(物理或虚拟)的性能、负载和错误信息,并存储在自己的数据库中,它对每一个对象采集大量的性能数据并按指标值(可在Entuity Network Monitoring for BMC ProactiveNet Performance Management中进行配置)进行聚集操作,一个对象可以是一台设备(路由器、交换机、集线器、…)、一个物理接口(以太网的端口、ATM、ISDN、令牌)、一个虚拟接口(帧中继、DLCI、ATM、VP/VC)、VPN、一种协议(HTTP、SMTP、TCP的端口)等等。

? 门限值管理

Entuity Network Monitoring for BMC ProactiveNet Performance Management可在跟踪的每一个指标值上以门限值的方式定义可接受的值的范围,当监控的值超过门槛值时,将产生一个例外,这将通过信息SNMP触发SNMP Trap和/或EMAIL将相应发送给负责该设备的网络管理人员。网络管理人员可利用Entuity Network Monitoring for BMC ProactiveNet Performance Management也可以集成到BMC ProactiveNet Performance Management平台,实现统一的基础架构管理。

? 趋势分析

Entuity Network Monitoring for BMC ProactiveNet Performance Management提供趋势分析报表,它既包括对整个网络环境的趋势分析,也包括对每一个监控的指标值的未来情况的预测。Entuity Network Monitoring for BMC ProactiveNet Performance Management针对每一个被监控的指标提供短期和长期的演变趋势。下图是一趋势分析的示例图。

附图11. 网络性能趋势分析

-17-

Entuity Network Monitoring for BMC ProactiveNet Performance Management既可以产生基于某一网络节点的趋势分析图,还能产生基于某一网段、某个省公司、全集团公司的网络运行趋势图。

? 应用响应时间测量

Entuity Network Monitoring for BMC ProactiveNet Performance Management可以管理集成在Cisco设备上的SAA应用程序。SAA允许建立“应用”请求(HTTP、FTP、TCP、UDP、JITTER、…)并测量从Cisco设备至另一设备(如HTTP服务器)的响应时间。Entuity Network Monitoring for BMC ProactiveNet Performance Management也可定义两个设备间的响应时间测量。下图所示是一响应时间监控图。

附图12. 响应时间监控图

? 自我诊断

Entuity Network Monitoring for BMC ProactiveNet Performance Management Diagnostic Module可以查找网络响应时间增长的原因所在。每晚,Entuity Network Monitoring for BMC ProactiveNet Performance Management基于所有引起响应时间下降情况计算它们之间的相关性,然后给出一个引起响应时间下降的原因所在。下图所示是一自我诊断的示例图。

-18-

附图13. 自我诊断

? 网络可用性测量

Entuity Network Monitoring for BMC ProactiveNet Performance Management基于趋势分析报表来度量网络部件的可用性。趋势分析报表每天自动产生并发送给在Entuity Network Monitoring for BMC ProactiveNet Performance Management中定义好的网络管理人员。下图是一示例的网络趋势报表。

附图14. 网络趋势报表

? 实时监控网络部件的性能情况

Entuity Network Monitoring for BMC ProactiveNet Performance Management可实时监控网络设备或模块的性能情况,下图所示是一实时网络部件性能图。

-19-

附图15. 实时网络部件性能

1.2.2.1.3 网络事件集成

BMC ProactiveNet Performance Management- Event Management提供同Entuity Network Monitoring for BMC ProactiveNet Performance Management的集成模块,能够将Entuity Network Monitoring for BMC ProactiveNet Performance Management生成的事件统一集成到事件平台统一处理,同时BMC PROACTIVENET PERFORMANCE MANAGEMENT- EVENT MANAGEMENT也能够接收各种网络管理软件的事件及网络设备的SNMP Trap,把来自不同设备的告警集中到一个管理平台上。把集成上来的故障事件可以与其他系统的告警事件做整合,关联和集成报警,实现网络和业务系统的集成管理。

BMC PROACTIVENET PERFORMANCE MANAGEMENT- EVENT MANAGEMENT能够将网络故障事件和故障恢复网络事件自动关联归并,如收到端口Up的网络事件时,能够自动触发查找过去曾经发生的同一设备的同一端口Down的网络事件,然后系统自动把这2条网络事件归并和清除

-20-

1.2.2.2 操作系统监控

操作系统的监控采用BMC ProactiveNet Performance Management–Server产品。BMC ProactiveNet Performance Management–Server能够支持广泛的操作系统类型,如HP-UX、IBM AIX、Solaris、Linux、Windows NT/2000/2003/2008、AS400等多种系统平台。

通过在被管的服务器上安装BMC ProactiveNet Performance Management–Server监控代理,可实现对被管服务器上操作系统运行情况的监控。它可以自动监控CPU,硬盘,网卡,操作系统日志文件,内存及交换区等诸多参数的工作情况,为操作系统提供不间断监测,发现问题时提出警告,并提供自动修复功能,不仅使管理员从费时的重复工作中解脱出来,专心于其它任务关键的活动,而且帮助系统管理员从被动的事后管理转化为主动的事前监控,从而保障了系统的高可用行和高可靠性。

附图16. 是BMC监控产品针对某一Unix操作系统采集的性能数据的展示图。

-21-

附图16. Unix操作系统采集的性能数据

针对操作系统的监控提供以下主要功能:

(1)提供对被监控服务器的重要特定资源进行实时监控。 (2)提供对SOC系统citrix应用运行状态的实时监控。

(3)提供对邮件系统domino应用运行状态的实时监控,连续监控、分析、管理Domino服务器和数据库,有效地管理应用系统定义、指令、参数和恢复行动。实现客户化并提供系统实时运作的详细资料,以便快速、便利地分析系统运行性能并清楚地识别系统资源运作的高峰、低谷和趋势。。

(4)提供对AS400运行状态的实时监控,包括:CPU使用率、ASP状态、磁盘使用率、磁盘I/O状态、作业运行状态及日志、实时网络状态及流量、硬件状态、object是否损坏等。

-22-

(5)BMC ProactiveNet Performance Management–Server对服务器系统资源监控的参数配置灵活、简便,并且能定制增加新的监控指标。

(6)可以在不同时间段对某个性能指标定义不同的告警阀值,例如生产系统白天空闲,晚上某个时间段内繁忙,则此生产系统cpu的告警阀值可以在白天设置为80%,晚上设置为95%。

(7)可以根据不同情况设置不同报警级别、预警阈值,在系统出现临界状态,系统能自动报警、自动响应和根据设置自动处理。

(8)BMC ProactiveNet Performance Management–Server对系统监控提供对历史数据的查看、分析和统计,并能生成性能监控历史分析图和预测分析。

(9)BMC ProactiveNet Performance Management–Server可以实现服务器日志的监控管理。

(10)BMC ProactiveNet Performance Management–Server可以实现跨系统/子系统的警告的联合设定,能够指出多个警告同时出现是一个严重问题,并发出严重/红色警告。

(11)提供实时以及历史性数据分析:并可展现成长条图,直线图,及扇形图,因此可分析其趋势以指出未来可能隐藏的问题。

(12)BMC ProactiveNet Performance Management利用Sentry Software Monitoring for BMC ProactiveNet Performance Management - Hardware Monitoring产品实现监控主机硬件状态的集中监控。

(13)可以监控磁盘基本信息:包括磁盘名监控: 监控当前文件系统Mount的物理盘名称;系统名监控:监控当前系统的主机名等。

(14)可以对Inode监控:监控磁盘当前的Inode总数、正在使用的Inode的数量、剩余的Inode数量、某个文件系统上分配的Inode数量,以及Inode使用率等内容,统计值包括平均、最大、最小及总计使用率等。

-23-

(15)提供对Mount点监控:监控当前文件系统Mount点的路径名等。 (16)提供对文件系统监控:包括文件系统尺寸监控,统计值包括平均、最大、最小及总计使用率等。

(17)提供对空间监控:包括当前可用的磁盘空间、可用的磁盘空间百分比、磁盘空间使用率等,统计值包括平均、最大、最小及总计使用率等。

(18)提供对磁盘性能监控:包括平均磁盘请求队列监控,平均磁盘访问等待时间监控,磁盘数据传输时间百分比,当物理磁盘使用时间百分率过高时,监控系统会产生“磁盘时间百分率很高”的报警事件。

(19)当磁盘每秒读取过多的数据时,监控系统会产生“每秒读取字节数很高”的报警事件。

(20)监控文件的名称、文件大小、文件的类型、文件所在的路径名、文件和目录的访问权限、链接名、拥有者、所属组信息,以及文件最近被访问时间,上次修改时间等。

(21)监控所有网络接口的帧平均冲突率、平均接收率、平均发送率,平均接收错误率、平均发送错误率、采样周期可以自定义。

(22)网卡流量统计:包括在一个给定的采样周期内收到帧的数量、发送帧的数量、帧冲突、接收错误。

(23)监控所有网络接口的包接收率,包冲突率、接收错误率、发送率、发送错误率、采样周期可以自定义。

(24)最大传输单元监控(FMTU):监控网卡上传输包的最大尺寸,统计值包括平均、最大、最小及总计使用率等。

(25)进程监控参数包括:进程组ID、用户ID、父进程ID、进程会话ID、以及占用系统CPU时间、用户CPU时间、占用内存的百分比、占用的虚拟内存地址、进程开始时间、进程运行时长、启动该进程的命令行等。

-24-

(26)进程状态监控如:监控处于不存在、活动、正在运行、停止、睡眠、等待状态的进程等。

(27)监控启动该进程的终端名、用户名、Major Fault、Minor Fault、进程的优先级等。

(28)在处理器中当前运行的进程监控,处于运行队列中等待CPU的进程监控,进程Idle时间监控,进程等待CPU时间、处于等待锁状态的进程监控等。

(29)当系统有多个处理器且最多使用和最少使用的处理器的使用百分率之差很高时,监控系统会产生“使用率差值百分率很高”的报警事件。

(30)当系统中安装的一个或多个设备占用过多处理器时间时,监控系统会产生“硬件忙”的报警事件。

(31)当某个进程使用处理器时间百分率过高时,监控系统会产生“进程数很高 ”的报警事件。

(32)检测在一定的时间范围内,平均CPU繁忙时间、平均用户CPU时间、平均系统CPU时间,应能自定义采样周期。

(33)当处理器使用率很高,但并不是由于特定进程或设备在运行时,监控系统会产生“处理器忙”的报警事件。

(34)监控处于等待I/O的状态的CPU时间,当系统调用达到监控策略中的规定值时,监控系统会就此问题产生报警事件。

(35)在多处理器环境中监控CPU状态包括CPU ID 、Online、Offline状态等。

(36)监控有关内存的使用情况,可以识别系统中可用内存过低,SWAP可用空间过低,额外的或异常的系统页面调度,如page-in或page-out,当这些情况的发生频率达到监控策略中的规定值时,监控系统会就此问题产生报警事件,并即时发送到故障控制台和业务管理控制台。

-25-

(37)在一定的采样周期内,当存在过度从磁盘物理块读取或向磁盘物理块写入等情况时,监控系统会产生相应的报警事件。

(38)在一定的采样周期内,当存在过度从磁盘逻辑块读取或向磁盘逻辑块写入等情况时,监控系统会产生相应的报警事件。

(39)监控系统的平均负载,当系统内核运行队列中存在的进程超过监控策略中的规定值时,监控系统会就此问题产生报警事件;

(40)监控系统调用,当系统调用达到监控策略中的规定值时,监控系统会就此问题产生报警事件。

(41)检测与用户有特定关联的属性,主要关注:用户名、用户ID、Idle时间、位置信息、登录时间、登录终端等。

(42)BMC ProactiveNet Performance Management–Server能够将监控到的服务器故障事件转发到集中事件管理平台进行集中的事件处理,详见“1.3.1统一事件管理平台”一节。

1.2.2.3 数据库监控

数据库监控采用BMC ProactiveNet Performance Management–Application, Database and Middleware产品。数据库监控产品可以对不同的数据库进行告警和性能数据的采集,包括Oracle、Sybase、Informix、DB2、SQL Server等。

下面是Oracle数据库的监控视图。

-26-

附图17. Oracle数据库的监控视图一

附图18. Oracle数据库的监控视图二

-27-

针对Oracle数据库的监控提供以下主要功能:

1)监控从Oracle告警日志中收集的详细信息。包括:消息内容;消息时间戳;上次相同错误发生时间;上次管理操作错误发生时间;间隔期内管理操作次数;间隔期内错误发生总数;实例启动后管理操作次数;实例启动后错误总数等信息。

2)监控实例的SGA,提供SGA的相关监控信息,包括:数据缓存大小及命中率;日志缓存大小及命中率;字典缓存大小及命中率;库缓存大小及命中率;共享池大小及命中率;SGA总空间;SGA最小空闲百分比;SGA最大空闲百分比等信息。

3)监控PGA的使用情况,包括:各个进程使用的PGA的大小;各个进程使用的PGA各个组件的大小;总PGA大小及命中率;PGA最小空间百分比;PGA最大空闲空间百分比等;在内存中排序的百分比等信息。

4)监控服务器内闩的竞争情况,包括:是否有闩等待和闩自旋发生,各种类型闩的GETS、MISSES、SLEEPS、IMMEDIATE GETS、IMMEDIATE MISSES等监控信息。

5)监控指定样本时间内锁的发生情况,包括:报告最大允许的DML锁的数量;各种类型锁的发生次数;监控锁等待和锁冲突;报告被锁阻塞的用户SID;被阻塞对象类型和锁模式;被阻塞会话锁住的对象名称、类型;阻塞会话的用户SID;锁模式;等待锁的用户SID;死锁数和死锁超时数等信息。

6)监控数据库的性能和可用性,包括:归档日志模式是否启用;是否启用自动归档;监控实例的性能统计信息,提供逻辑和物理读写的平均数;当前打开的游标数;检查点发生平均间隔;最长被阻塞交易时间;间隔期内全表扫描次数等信息。

7)监控Listener的状态:包括:Listener名称,Listener端口,Listener协议,Listener状态等信息。

-28-

8)监控回滚数据的使用和状态:具体包括:回滚段的平均区段数量;所有回滚段上的平均活动交易数和总活动交易数;总回滚段数;活动回滚段大小;总在线活动回滚段数;总等待离线回滚段数;总回滚段的区段数、收缩次数;监控每个活动回滚段,报告其状态、大小、交易负载、收缩等,详细包括:平均收缩字节数、活动区段平均字节数、每次回滚段写入字节数、当前回滚段写入字节数、回滚段内活动交易数、回滚段收缩次数、回滚段状态等。

9)监控服务器实例的所有进程信息,包括:活动系统进程等,详细包括:系统ARCH、CKPT、LWGR、SMON、PMON、DBWR等进程状态;实例的最大并发进程数;活动进程与最大并发进程数所占百分比;进程共使用CPU时间百分比;请求平均等待时间;后台活动进程数;前台活动进程数等信息。

10)监控表空间内包含段的信息,包括:段的大小、空间使用和碎片信息;具体为:段剩余空间不足警告;段内初始区段大小;段内最大区段数;段内最小区段数;下一次扩展的区段大小;段的Freelist Group数量;段的FreeList数量;已分配区段百分比;未分配区段数;段是否存在碎片;段是否存在行迁移和行链接;段名;段所属用户;段类型;段所属表空间名;段所属表空间或文件的总大小等信息。

11)监控各个对象的统计值收集情况,包括:对各个对象的统计值的收集进行监控,当对象的统计值比较陈旧时(长时间未收集),进行警告。

12)监控服务器实例,包括:操作系统类型;Oracle版本状态; SQL Trace工具是否正在使用;实例启动具体时间;Archive目标设备的剩余空间及已使用空间;各个Dump目标设备空间使用率;实例的数据库状态(nomount、mount、open等);服务器实例使用CPU百分比;服务器状态;实例已启动时间等信息。

13)监控服务器实例中的各个会话状态,详细包括:进程ID、用户会话ID;会话正在执行的SQL;会话是否处于等待状态;会话正在等待的资源名称;会话正在等待的锁的地址;会话正在进行的等待事件;会话内最大可开启游标数;会话

-29-

所属进程地址;进程执行程序名称;进程执行时间;会话 Module;会话Serial#;会话缓存命中率;会话状态;会话类型;会话内被阻塞数;会话内发生的物理读次数等信息。

14)监控实例内的所有会话信息,包括:报告总会话数量;最大会话数量和等待锁的会话数量等等;具体监控内容有:活动会话数量;某时间段内实例可支持活动的会话总数;非活动会话数量;等待被清除的会话数量;已活动的会话百分比;等待锁的会话总数;使用共享进程的会话数量;实例内总会话数量等信息。

15)监控表空间和所包含文件,包括:监控系统、用户、回滚、临时等各种类型表空间的名称,状态(在线、脱机、恢复等);各个表空间总空间和空闲空间比率;表空间包含的文件ID,文件名,文件状态,文件大小,空间信息,碎片等文件管理信息;表空间最大空闲区段大小;表空间内最大连续空闲空间比例;文件已分配的区段数、空闲块数;表空间最近备份时间戳。

16)监控数据库各个表空间和所包含文件的I/O情况,对于超过阀值的I/O产生警告或严重警告。

17)分CPU占用、逻辑读、物理读、软解析数、硬解析数等方面,监控数据库中占用资源最多的TOP–SQL。

18)监控数据库实例目前的TOP等待事件,包括:等待事件的总等待时间;等待事件的平均等待时间;等待事件占用的总CPU大小等。

19)监控数据库实例中各种对象的状态,对于失效的对象,报告失效对象的对象名称、对象所属用户、所属表空间。

20)BMC ProactiveNet Performance Management–Application, Database and Middleware将监控到的Oracle数据库故障事件转发到集中事件管理平台进行集中的事件处理,详见“1.3.1统一事件管理平台”一节。

-30-

1.2.2.4 IIS监控

IIS监控采用BMC ProactiveNet Performance Management–Application, Database and Middleware产品。

针对IIS监控提供以下主要功能:

(1)监控HTTP, HTTPS,ASP, DNS, FTP, LDAP, TCP/IP, SMTP, POP3等协议是否正常;

(2)本地 Web 服务器和外部站点上检查状态正常否、超文本链接的能力正常否;

(3)监控 Web 服务器存取日志 (4)监控关键的 TCP/IP 网络状态参数 (5)实时监控用户连接数

(6)监控请求响应时间较慢的程序 (7)捕获响应时间较长的SQL语句

1.2.2.5 应用监控

关于应用的监控,可以通过监控应用的相关进程、日志等方式实现,也可以在BMC ProactiveNet Performance Management–Server产品的基础上,通过开发相应的监控指标,实现对应用系统进行发现、监测和检查事件、采取正确操作以及告警的功能。

对应用的监控功能包括:

? 事件报警的定制,如是否产生报警、报警范围值的定义、报警恢复动作的设

置、报警的通知机制等与事件相关的处理;

-31-

? 针对不同用户管理界面和管理范围的定制,如不同用户可管理不同范围内的

不同管理对象,是否可更改管理对象的一些设置还是只能查看管理对象的当前运行状态;

? 各种日志的管理,如对用户应用的日志进行分析以捕获应用运行过程中的各

种问题;

? 对管理对象细节化的定制,如监控的应用进程CPU、内存等信息,监控用

户Session信息、应用进程是否在运行、捕获用户提交的SQL语句、监控指定的DBSpace、监控指定的表等被监控对象的信息。

? 同时应该还支持各种基于运行环境的开发,如:

? 使用各种操作系统的脚本程序,如sh程序等来监控指定对象并集成到监

控系统中,它将作为一个监控参数,保存有历史数据信息;

? 使用SQL语言查询和操作数据库并将其作为一个参数集成到监控系统

中,保存有历史数据信息,如每天各类交易的数目;

? 使用各类应用程序,如应用程序本身的监控输出来产生监控参数并集成

到监控系统中,保存有历史数据信息,如文件传输的当前状态。 下图为针对某一用户的应用开发的监控功能。

-32-

附图19. 针对应用的监控功能

1.2.2.6 业务可用性监控

在错误!未找到引用源。错误!未找到引用源。项目中,还需要对业务服务可用性的指标进行采集,通过录制模拟业务操作脚本,并按配置进行回放。为了实现这一目标,在本方案中,将采用BMC 的交易管理软件TM ART(Transaction Management Application Response Time)产品。

在错误!未找到引用源。的管理环境中,通过TM ART的脚本生成器来生成指定业务的仿真脚本,并通过部署在指定位置点的执行器来执行该业务的仿真脚本,从而确认相关业务的性能和可用性。

TM ART获取的业务仿真的业务响应时间及可用性信息可集成到BPM中进行实时显示,也可同SIM中的服务模型相关联来显示指定业务的运转情况。

TM ART支持的业务应用种类包括C/S和B/S结构两类应用。针对错误!未找到引用源。业务应用的可用性管理,BMC TM ART交易管理解决方案是一个真

-33-

正的集成和关联业务应用数据、最终用户体验、基础架构监控的解决方案,确保实时的业务服务,提供跨主机和分布环境的多层管理系统,瞻前的发现业务的故障、隔离故障,快速诊断和解决故障。

业务可用性体现在交易操作响应的时间,交易操作缓慢将会导致客户的流失和业务收入的降低。一种最简单的案例是Web站点响应缓慢而低效,这个很可能是成为你客户最不满意的地方,从而去考虑其他的产品。在实际生产环境中客户程序在处理各种操作的过程中,很可能导致在一段时间内比如几天、几周或者几年内响应时间变得愈来愈慢,而使得在交易过程中更多的时间用于等待上,从而造成浪费。更重要的是,不能达到服务水平目标的话,将会受到服务水平合同的惩罚。当然对于C/S结构的业务应用监控和管理,同样可以通过TM ART交易管理解决方案实现,BMC TM ART交易管理解决方案支持广泛的业务应用,如B/S、C/S 、J2EE、.NET、Web services、ERP/CRM等。

BMC TM ART交易管理解决方案提供如下功能:

? 提供一个动态的实时的有关业务系统性能状态的全局视图;

? 通过drill down可以了解某项业务应用、业务活动或者交易的详细信息; ? 展示业务应用的信息;

? 展示业务应用、业务活动或者交易的概要信息以及健康状况; ? 展示关于使用率和超出阀值的交易的Top N 图形。

1.2.2.7 主机硬件监控

主机硬件监控采用Sentry Software Monitoring for BMC ProactiveNet

Performance Management - Hardware Monitoring产品,实现对被管服务器硬件系统运行情况的监控,如主机电源、风扇、CPU、内存、电压、温度等监控,当硬件发生故障时,进行告警。

-34-

附图20.

主机硬件监控视图

Sentry Software Monitoring for BMC ProactiveNet Performance Management - Hardware Monitoring将主机硬件的监控与操作系统、数据库、应用、存储等的监控集成在一起,通过BMC ProactiveNet Performance Management产品实现集中统一的监控,并将监控到的设备故障事件转发到集中事件管理平台进行集中的事件处理,详见“1.3.1统一事件管理平台”一节。

Sentry Software Monitoring for BMC ProactiveNet Performance Management - Hardware Monitoring产品支持基于第三方服务器硬件监控软件(IBM Director、HP Insight Manager、Dell Open Manager)的整合。

-35-

1.2.2.8 存储设备监控

对存储设备告警和性能数据的采集主要通过在存储设备所连接的服务器上加载Sentry Software Monitoring for BMC ProactiveNet Performance Management - Storage Monitoring产品,实现对存储设备告警和性能数据的采集,并可设置阀值、报警的触发条件、报警时的恢复动作等。相关的告警和性能数据可在本地按用户指定的天数值进行保存。

Sentry Software Monitoring for BMC ProactiveNet Performance Management - Storage Monitoring将存储设备的监控与操作系统、数据库、应用、存储等的监控集成在一起,通过BMC ProactiveNet Performance Management产品实现集中统一的监控,并将监控到的存储设备故障事件转发到集中事件管理平台进行集中的事件处理,详见“1.3.1统一事件管理平台”一节。

对于存储设备的监控功能如下:

? FC交换机——端口流量、状态,以及电源温度、风扇、电压状态 ? 磁盘阵列——物理磁盘、RAID状态、逻辑磁盘、逻辑卷,以及电源温度、

风扇、电压状态

? 磁带库——驱动器、磁带等的状态

FC Switch监控视图:

-36-

存储设备监控视图:

-37-

1.3 数据处理层功能介绍

数据处理层的主要任务是实现错误!未找到引用源。错误!未找到引用源。招标要求中的统一事件管理平台功能,即将网络、主机硬件、服务器、数据库、中间件、Web服务器等采集的告警事件数据、性能数据和配置数据进行汇总和处理,并根据需要分别进行展现。我们推荐使用BMC ProactiveNet Performance Management- Event Management实现统一事件管理平台功能。

统一事件管理平台,根据预定义的事件处理策略对接受到的告警事件进行处理,并进行后续的各种处理动作,如以声音、颜色、电子邮件、短信等各种方式通知相关的处理人员;在Remedy服务台中产生故障工单等。

? 性能数据的汇总

-38-

本文来源:https://www.bwwdw.com/article/afu3.html

Top