APG40紧急恢复
更新时间:2023-09-27 08:55:01 阅读量: 综合文库 文档下载
APG紧急恢复
1、概述
当遇到APG紧急故障时,也许因为未能找到适合的文档或者OPI,或者因为OPI过于繁琐而影响了处理故障的效率。以下文档主要根据一些常见的OPI资料和一些处理经验总结而成,用以处理一些简单的APG紧急故障。根据当前GMCC的网络结构,本文主要覆盖了基于APG40C/2硬件的Windows NT系统的R10 APG 2、发生在AP1上的紧急故障
以下故障基于Windows NT系统能够正常被引导启动的故障。 2.1、AP1 Undefined
AP Undefined 故障表现为: 这表明Cluster Server未被或着正在被启动。 首先我们需知道系统重启对于修故AP 系统上的错误是很有帮助的,它能修复系统盘Windows NT上的许多问题(数据盘上的问题除外,处理数据盘问题时需特别小心),所以必要时要多重启 :P 查找以确定Cluster Server是否已经启动,使用指令: net start |find \ C:\\>net start |find \ Cluster Server 如果找到Cluster Server,表明Cluster Server正在或已被启动。 如果Cluster Server未被启动,可手工启动Cluster Server Manual Starting of Cluster -------------------------- net start clussvc net start ACS_FCH_Server 等待一到两分钟,Cluster Server应该能被启动。但启动Cluster Server时,您有可能经常得到的FaultCode 有: 1722 The RPC server is unavailable 1717 The interface is unknown 70 The remote server has been paused or is in the process of being started 1069 The service did not start due to a logon failure. 2813717 FC 70和1717表明Cluster Server 正在启动,但未完全起来,这是可能Cluster Server启动前的中间状态,请耐心等待几分钟 如果长时间得到类似FC70 的错误,可尝试双边AP node同时重启动的方法,正常的话,AP nodeB会先完成重启,并成为Active node FC1069表明AP应用所使用的系统帐号失效了,对于这种情况: 一般可使用指令: Setupservices Net start Clussvc 如果依旧有Fault Code 1069 在NodeA使用, nbtstat -RR ## on PDC to reset WINS cache 在NodeB使用, netdom BDC /RESET ## on BDC only 然后在要起Cluster Server的node上执行 Setupservices –r Net start Clussvc Cluster Server 有可能因为系统Quorum Log的损坏而无法启动,即使使用前面提到的方法,此时AP两边node都是undefined的,在这种情况下,我们能够采用以下方法处理问题: 首先在MKTR的Eventlog中,你能找到以下Event: Event 1019 :the quorum logfile for the cluster was found to be corrupt Event 1069 :resource \ 这时你可确认Cluster Server问题是由Quorum Log引起了。 方案一: 1. 首先尝试在任意一个AP Node上启动Cluster Server,Telnet登陆APG的其中一个node Net start clussvc –noquorumlogging 或者 Net start clussvc -fixquorum 如果cluster server能够启动,则继续,如果不能,采用方案二。 2. 执行命令行: ren j:\\mscs\\Quolog.log Quolog.old del j:\\mscs\\*.tmp Net stop clussvc Net start clussvc ------------------ 不加参量启动Cluster Server 3. 登陆入另外一个APG node Net start clussvc 4.收集相关数据,mktr.zip Quolog.old,打TR给APG support 方案二、 此方案需要使用PCanywhere或者Onsite 1. Telnet 到APG node B,shut down APG node B Prcboot –s 2. 进入到Node A 的Windows NT操作界面下 点击控制面板:Start->Setting->Control Panel 双击Devices 选择设备Cluster Disk并点击?Startup…?按钮 修改Startup Type为 Disabled 确认后关闭控制面板 2. 重启AP node A : prcboot 3. 登陆入AP nodeA后,执行命令行 ren j:\\mscs\\Quolog.log Quolog.old del j:\\mscs\\*.tmp 4.修改成功后,点击控制面板:Start->Setting->Control Panel 双击Devices 选择设备Cluster Disk并点击?Startup…?按钮 修改Startup Type为 System 确认后关闭控制面板 5. 重启动AP node A. prcboot 6. 登陆入APG node A后,启动Cluster Server Net start clussvc 7. Node A Cluster Sever 成功启动后,启动Node B Fcc_reset other 8. 登陆AP node B,确认Cluster Server已启动。 net start |find \检查所有Resource已online Cluster res |findstr –ive online 9. 收集相关数据,mktr.zip Quolog.old,打TR给APG support 2.2、AP循环重启 AP的循环重启通常都是由于Cluster资源的问题引起的,当然不排除有操作系统本身的问题或者是AP硬件问题引起的重启。通常Cluster Server在自动重 启三次后,系统就会把其启动方式由Automatic变成System,并且在再次重启不成功后,AP将不再重启,停留在undefined状态下。 然而在这段时间我们需要抑制其重启,可在Cluster Server起来后,不断地尝试把ACS_PRC_ClusterControl资源offline,直至成功。 Cluster res ACS_PRC_ClusterControl_0 /off /wait Cluster res ACS_PRC_ClusterControl_1 /off /wait 成功后, ACS_PRC_ClusterControl_0, ACS_PRC_ClusterControl_1, ACS_PRC_EventAnalyser_0, ACS_PRC_EventAnalyser_1 资源将offline 此时Cluster Server将趋于稳定,再根据实际情况对具体问题进行检查和分析。 2.3、MML或者网管无法联机CP,但Cluster Server已启动 1.Telnet到APG后,mml无法登陆CP 可尝试重启MML Server,使用指令: Cluster res |findstr –ive online Cluster res MCS_ADH_ADM /Fail 或者 Cluster res MCS_ADH_ADM /off /wait Cluster res MCS_ADH_ADM /on /wait 检查Cluster res,把未启动的Resource也带起来。 Cluster res |findstr –ive online 如果不能解决,需检查MML server软件和已定义数据 AP: Swrprint Cuals CP: IOUAP:USER=ALL; IOUGP; 2. 网管CHA无法联机 可尝试重启MML Telnet Server,使用指令: Cluster res MCS_MTS_ADM /Fail 或者 Cluster res MCS_MTS_ADM /off /wait Cluster res MCS_MTS_ADM /on /wait 简单处理后,无法解决,请找APG support 2.4、APG系统盘Restore 对于一些未知的软件故障,在一般处理无法解决的情况下而且AP的系统备份也足够新的话,系统盘Restore是不错的选择。以下只针对AP需要做双边node Restore的情况,不针对APG单边 (单边一般不算Emergency :P) 1. 在双边node,准备MKTR数据以备系统重装后,分析旧数据 Mktr YYMMDD-HHMM –c 2. 用Burverify –d 检查两个node的D盘备份是否完备,是否足够新。确认可用的话,跳到第5步。不可用的话,继续第3步。 3.如果此时能够访问数据盘,也就是说Cluster Server数据盘对应的资源是online的。 Node A: Burbackup –imgsrc \\\\\\images\\nodea\\ Burbackup imgsrc \\\\\\images\\nodeb\\ 4.如果此时Cluster Server无法Start,或者K Drive数据盘资源无法online Telnet 到APG node B,shut down APG node B Prcboot –s 使用PcAnywhere进入到Node A 的Windows NT操作界面下 点击控制面板:Start->Setting->Control Panel 双击Devices 选择设备Cluster Disk并点击?Startup…?按钮 修改Startup Type为 Disabled 确认后关闭控制面板 重启AP node A : prcboot 登陆入AP nodeA后,执行命令行 Copy k:\\images\\nodea\\ Partition 1 Drive Letter:R Size: 3999.98 MB Logical number:1 Partition 2 Drive Letter:S Size: 2000.0 MB Logical number:2 Partition 3 Drive Letter:V Size: 8000.0 MB Logical number:3 Partition 4 Drive Letter:G Size: 2400.0 MB Logical number:4 Disk 3 Signature: F2026D12 Partition 1 Drive Letter:Q Size: 1999.98 MB Logical number:0 Partition 2 Drive Letter:Y Size:14000.0 MB Logical number:0 2.6.无法Telnet 到APG 因为?Net Logon?未启动而无法使用Telnet登陆APG,现象如下: C:\\>telnet xxx.xxx.xxx.xxx Telnet Client for Windows/NT (Release 2000) Build Date Aug 14 2003 (c) Copyright 1994-2000 Pragma Systems, Inc. http://www.pragmasys.com Gateway mode! Trying... Connected to xxxxxxx. 7h Pragma Systems Inc. Welcome to Pragma TelnetServer 2000 for Windows NT (C) Copyright 1994-2000 Pragma Systems, Inc. login name: administrator password: Windows NT Domain: User Account verification is being performed. Please Wait. An attempt was made to logon, but the network logon service was not started. 使用本地连接LCT或者PCanywhere,进入到: Start->Run cmd.exe net start ?Net Logon? Telnet 到 APG40 节点 connection refused 使用本地连接LCT或者PCanywhere,进入到: Start-->Control Panel-->Services 点击选择Service InetD 点击Stop 再点击Start 3、发生在AP2上的紧急故障 现行使用的计费倒换文档: 其中提到的RPC补丁应采用NWARP2509,N01RP-2375和NNAVM-0148 3.1、AP2上FTP Server down,导致计费文件无法传到计费中心 可首先尝试做AP的倒边,激活备用边AP,使用备用边的FTP Server。 要修复当前FTP Server,可采用以下方法: 尝试启动FTP Server: net start msftpsvc 如果出现输出结果: ... The process could not be started for an unknown reason 则执行: cd /d c:\\scriptit\\iis40\\op4 mdutil ENUM_ALL 如果结果输出不类似于以下输出,则metabase.bin文件可能已损坏了。 MaxBandwidth : [IS] (DWORD) 0xffffffff={-1} 1001 : [IS] (DWORD) 0xffffffff={-1} KeyType : [S] (STRING) \[/IISADMIN] [/IISADMIN/EXTENSIONS] [/IISADMIN/EXTENSIONS/DCOMCLSIDS] 1028 : [S] (MULTISZ) \11D0-A6A0-00A0C922E752}\[/W3SVC] …. … … 从D盘备份或者K盘备份提取好的metabase.bin文件 Copy D:\\WINNT\\SYSTEM32\\INETSRV\\metabase.bin c:\\temp 或者 pkzip25 -extract -include=winnt\\system32\\inetsrv\\metabase.bin \\\\\\images\\nodeA(B)\\ net stop ACS_PRC_LBB net stop iisadmin /Y cd c:\\WINNT\\SYSTEM32\\INETSRV ren metabase.bin metabase.bak copy C:\\TEMP\\metabase.bin C:\\WINNT\\SYSTEM32\\INETSRV\\. net start ACS_PRC_LBB 检查ACS_PRC_LBB 、\和\是否已经启动 Net start Command: net start Output: . ACS_PRC_LBB . . FTP Publishing Service . IIS Admin Service . 有些情况下,无法找到适用的metabase.bin文件,可以使用以下附件。但使用后相应的虚拟目录需要局上要求自行添加,使用命令vdcreate,可参照另外的Node的定义。 一般的,对于AP2只需加: vdls -n \ vdcreate -n \ 3.2.计费文件无法生成 在R10的计费中,与计费有关的资源有: ACS_RTR_Service ACS_MSD_Service AES_AFP_Server AES_CDH_Server 出现问题时,首先应该检查这四个资源状态。 Cluster res ACS_RTR_Service Cluster res ACS_MSD_Service Cluster res AES_AFP_Server Cluster res AES_CDH_Server 检查目录Y:\\ACS\\Data\\RTR\\CHS_cp0ex\\dataFiles\\Reported中是否真无计费文件生成。 出现问题时,可对这些资源做重启,或者重启动AP 具体定位故障,一般地,可以参考以下方法: 检查计费输出: SAAEP:SAE=500,Block=chop; C:\\>msdls -m CHS -s cp0ex Common part: firstMessNo: {0000000000, 0117922303} lastMessNo: {0000000000, 0117926540}------AP计费接收正常时该数值应不断增长 lastAckMess: {0000000000, 0117926014} in file: Q:\\ACS\\data\\ACA\\CHS\\cp0ex\\dataFiles\\117922303_210---当前正在使用的计费AP Buffer文件 firstFile: 00210, lastFile: 00210, noOfFiles: 00001 maxNoOfMess: 06000, maxMessSize: 04096, maxNoOfFiles: 00040 File part: 00000: fileName: Q:\\ACS\\data\\ACA\\CHS\\cp0ex\\dataFiles\\117922303_210 firstMessInFile: {0000000000, 0117922303}, noOfMess: 04238 Unlinked: No, MTAPFileNo: 210---红色部分表明AP Buffer文件正在使用,未关闭。有时计费拥塞在AP Buffer里时,File Part中可能将有多个文件。已关闭的Buffer 文件,在已正常输出到Y盘后,系统会自动删除它。 Q盘目录结构为: Directory of Q:\\Acs\\Data\\ACA\\CHS\\cp0ex 07/20/04 09:58p
08/17/05 08:50a 125,044 commitFile 11/09/05 01:28p
08/17/05 07:56a 128 statisticsFile 08/17/05 08:51a 1 versionFile 6 File(s) 125,173 bytes
计费的Messages Store可以是多个的,系统将根据cxc137440.par文件中的配臵,在Q盘生成对应的Messages Store。
与RTR有关的parameter files是CXC1371036.par 四个与计费有关的正确的Private Properties应为:
C:\\>cluster res ACs_msd_service /priv
Listing private properties for 'ACs_msd_service':
R Name Value
- -------------------------------- ------------------------------------ StopTime 10000 (0x2710) ServiceName ACS_MSD_service
StartupParameters -name CHS -site cp0ex rtr
正在阅读:
APG40紧急恢复09-27
2019春四年级语文下册第12课小溪流的歌整体感知教学设计冀教版03-14
造价员培训讲义(工程计量与计价实务部分)03-07
现代广告招贴设计06-06
第十六章眼屈光与视光学试题01-14
机械行业安全工作创新点奖励办法正式样本04-29
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 恢复
- 紧急
- APG40
- 谈建安七子的文学成就
- 全国2017年10月自学考试《财务报表分析(一)》试题和答案00161 - 图文
- 2013-2018年中国薰衣草精油洗发水行业发展分析及投资前景预测报告
- OPC 访问三菱Q系列PLC方法
- 北京市建筑日照间距规定
- 普通物理力学试题1
- 靶动物耐受性评价指南0519
- 大专计算机专业毕业论文
- 客观与主观的变奏:原因力与过错(上)
- 2014河南招警考试面试技巧:命题人如何选热点5
- 摄影大赛展前言
- 2019年中国时尚服饰市场分析预测及前景趋势报告(定制版)目录
- 新青岛版四年级数学下册第四单元认识多边形试题
- 在平凡的岗位上做群众忠实的贴心人
- 2009年一级建造师机电工程管理与实务真题及答案
- 二线船闸毕业设计
- GIS应用综合实习 - 图文
- 单片机谷云龙1剖析
- 相信,用英语怎么说,有几种表达方式
- 广东省农村环境综合整治行动计划 - 图文