aix常用命令及问题解决

更新时间:2024-04-02 08:35:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

AIX中测试端口的方法

下面以80端口为例,介绍测试某一个端口是否工作的方法: 1. 编辑/etc/services文件,找到如下两行 http 80/tcp # World Wide Web HTTP http 80/udp # World Wide Web HTTP

用#将这两行注释掉,并添加新的两行,即如下: #http 80/tcp # World Wide Web HTTP #http 80/udp # World Wide Web HTTP telnet2 80/tcp telnet2 80/udp

2. 编辑/etc/inetd.conf文件,找到如下一行

telnet stream tcp6 nowait root /usr/sbin/telnetd telnetd -a 在其下添加一行

telnet2 stream tcp6 nowait root /usr/sbin/telnetd telnetd -a 3. # refresh -s inetd

4. # lssrc -ls inetd 在输出中确认有一行

telnet2 /usr/sbin/telnetd telnetd -a active 5. # netstat -an

该命令的输出中能看到80端口在侦听,即 tcp 0 0 *.80 *.* LISTEN

6. 尝试从别的AIX机器上用如下命令登陆这个服务器,如果能正常登陆,说明80端口工作正常。

# telnet 80

7. # netstat -an | grep 80

可以看到通过80端口建立了连接,类似如下输出:

tcp4 0 0 9.181.50.90.80 9.181.50.107.3750 ESTABLISHED

8. 测试完成。 请注意,测试完成后,请将/etc/services和/etc/inetd.conf文件修改回之前的状态,并刷新inetd服务: # refresh -s inetd

拨号访问RS/6000的快速配置方法

AIX/RS6000 支持多种拨号访问的方法.如PPP/SLIP等,但其配置较为复杂.现介绍一种使用WIN95的超级终端Hyper Terminal访问RS/6000的方法

RS/6000 端:

1. 定义tty, 并设置enable login , flow control=rts

2. 编辑/etc/uucp/Devices, 加入一行:Direct tty# - 9600 direct 3. 连接Modem到tty# port 4. #pdisable tty# 5. #cu -ml tty# 6. at<---/ 7. ats0=1 8. ~.<----/

9. penable tty# WIN95/98 端: 拨号方问RS/6000

关于/etc/security/limits的中文解释

前一阵子,跟公司的数据库工程师为新机器P560Q和P55A安装系统和数据库,AIX为5304,oracle9207,在oracle建库是总是在jvm处失败,并报了一堆错,经查与/etc/security/limits限制有关,下面是这个文件的解释: time(seconds) unlimited

此用户的一个进程能占用的CPU处理时间 file(blocks) unlimited

此用户的进程可以生成和扩展的最大文件大小 data(kbytes) 131072

此用户的进程可分配使用的最大数据段大小(数据段可以有多个) stack(kbytes) 32768

此用户的进程可使用的最大堆栈段大小 memory(kbytes) 32768

一个用户进程可以使用的最大物理内存数量(系统并不强制限制) coredump(blocks) 2097151

可生成的最大coredump文件大小 nofiles(descriptors) 2000

一个用户进程可同时打开的文件描述符数量(基本等同于可打开文件数量)

将这几个值都改成了-1,安装成功!

Oracle的网络参数的设置

/usr/sbin/no –p -o udp_sendspace=65536 /usr/sbin/no –p -o udp_recvspace=655360 /usr/sbin/no –p -o tcp_sendspace=65536 /usr/sbin/no –p -o tcp_recvspace=65536 /usr/sbin/no –p -o rfc1323=1

卷组问题

问题:由于操作失误(chdev -l hdiskx -a pv=yes) 使得 hdiskx 的PVID发生改变, 硬盘上的内容尽管没被破坏,但由于与VGDA区的描述不一致,造成卷组无法访问, 该怎么办?

可用recreatevg命令来重新创建一内容相同的卷组, 以达到修复的目的。

1.首先将原卷组的定义从系统的ODM库中删除: # exportvg vgname

2. 检查硬盘上VGDA 区的信息,从中得到有关逻辑卷的名称及定义: 如:

#lqueryvg -Atp hdisk2 Max LVs: ------256 PP Size: ------26 Free PPs: -----538 LV count: -----2 PV count: -----1 Total VGDAs: --2 Conc Allowed --0 MAX PPs per ---1016 MAX PVs: ------32 Conc Autovar --0 Varied on Co --0

Logical: ------0003f62a00004c00000000f52f1737c5.1 --datalv1 1 ---------------0003f62a00004c00000000f52f1737c5.2 --datalv2 1 Physical: -----0003f62a2f135f0e --------------2 ----0 Total PPs: ----542 LTG size: -----128 HOT SPARE: ----0 AUTO SYNC: ----0 VG PERMISSIO --0

3. 创建逻辑卷名对应表文件。 第一字段为VGDA区中的逻辑卷的名,第二字段为在新卷组中新的逻辑卷名,可相同也可不同;为了修复原有卷组的内容,通常逻辑卷名保持不变。

如:

#vi -/tmp/lvname -----datalv1:datalv1 -----datalv2:datalv2

4. 在硬盘上重新创建卷组,保留原有卷组的数据结构。 #recreatevg -y vgname ---l lv_file hdisk_name... 如:

#recreatevg -y forrecr2 ---l /tmp/lvname hdisk2 经过上述步骤, 在hdisk2 上创建了一个卷组 forrecr2, 原有的 datalv1, datalv2 逻辑卷的内容也保留了下来。 此时硬盘的PVID与新卷组VGDA的一致。

5. 如果卷组上有文件系统,还需修改 /etc/filesystems ,使对应的文件系统的加载点与原来的一致。

6加载光驱

mount -r -v cdrfs /dev/cd0 /mnt

加载iso文件

# mklv -y isolv -s n -L /dev/isolv rootvg 500M

# dd if=/opt/software/iso/fim_console_rios_aix_5.iso of=/dev/isolv # vi /etc/filesystems /iso:

dev = /dev/isolv vfs = cdrfs mount = false options = ro account = false

# mount -v cdrfs -o ro /dev/isolv /iso

7克隆磁盘

第一步:alt_disk_install -CBO hdisk1

第二步:alt_disk_install -X hsidk1

第三步:关闭服务器,把hdisk1 拔出,插入另一台没有系统的服务器。

设备排序问题

P5

先lsslot -c slot,查到interface对应的pci父设备

然后,将网卡,端口全删除,然后按着你的顺序,做: cfgmgr -l pcix (X指的是设备序号)

lsslot 常用参数

lsslot –c pci 查看物理设备 lsslot –c phb 查看逻辑设备

HMC的问题

一台非出厂配置参数的p5服务器, 由于不知道HMC端口的IP地址(HMC端口的缺省IP地址是192.168.2.147和192.168.3.147),现无法控制该服务器。用什么方法能知道原来的 HMC端口的IP地址?

解答 进入控制面板上的功能30, 就能读出HMC端口的IP地址。

具体步骤如下:

a. 为服务器接通电源,直到控制面板上的显示不再变化,且电源指示灯缓慢闪烁。 b. 使用控制面板的 <↑> 或 <↓> 按钮选择功能2 . 按< → > 按钮 进入功能2,按<→> , 选中N(Normal), 使用<↑> 或 <↓> 按钮将 N 改成 M(Manual)按2次 <→> 退出 功能2.

b. 使用<↑> 或 <↓> 按钮选择功能30, 按 < → > 按钮进入。控制面板显示 30**

c. 使用<↑> 或 <↓> 按钮,使面板显示3000 或 3001,然后按 < → > ,就能控制面板上读出所对应HMC端口的IP 地址了。 如: SP_A:_ETH0:_ _ _T5 9.5.105.243_ _ _ _ _ _

HMC0端口的IP地址是 9.5.105.243. d. 检查完成后,使用控制面板的 <↑> 或 <↓> 按钮选择功能2 . 按< → > 按钮 进入功能2,按<→> , 选中N, 使用<↑> 或 <↓> 按钮将 M 改成 N 然后按2次<→> 退出 功能2

e. 选择功能1 ,进入正常的操作模式。

其它系统问题

关于登录显示界面的修改:

修改/etc/motd这个文件的内容可以使用户登录的时候显示预先设置的信息。

修改用户进程连接数(默认128)

时间同步问题

使用timed是比较简单的方法,设置步骤如下:

以一台时间准确的机器为timed服务器 startsrc -s timed -a \

以要调整时间的机器为timed客户端 startsrc -s timed,若几分钟内仍没有同步,可以refresh -s timed 。 几点说明:

timed只能同步同一VLAN内的机器,不能跨路由;

时间同步结束后,若两台机器的时区不同,则它们的本地时间必定不同,差距与时区差相同;

若要开机自动启动timed,可将timed的启动语句加到 /etc/rc.tcpip 中,但不建议这样做,建议只使用timed进行临时时间同步,同步完立即用stopsrc -s timed停止; IBM将timed看作是一种旧的时间守护程序,IBM推荐用 xntpd 代替它。 3、关于如何检查两台AIX服务器时间是否一致 timedc命令可以做到,如:

aixserver3#/> timedc clockdiff aixserver1

time on aixserver1.iipc.hk.ibm.com is 37628680 ms. behind time on aixserver3 aixserver3#/> 几点说明:

timedc命令与timed没有必然的关系,不运行timed,timedc同样可以正常工作,且两台机器可以在不同的VLAN;

同timed类似,timedc同样存在时区差的问题,即:如果时区不一致,即使timedc命令的结果报无差异,两机的本地时间也肯定不一致。

系统备份问题

系统备份(mksysb) 的介质可以是磁带,也可以是CD和DVD。想要验证所做的系统备份是否可用,比较简单且最可靠的办法是找一台闲机器试着恢复一遍。在不允许恢复的情况下, 可以用lsmksysb或listvgbackup命令来列出系统备份的内容,如果系统备份是用磁带做的,也可以验证系统备份rootvg中每个文件的头 是否可读。

例如,要列出cd0上的系统备份的内容,用下面的命令: # listvgbackup -f /dev/cd0 或

# lsmksysb -f /dev/cd0

要验证rmt0上的系统备份rootvg中每个文件头的可读性,命令如下: # lsmksysb -V -f /dev/rmt0

# listvgbackup -V -f /dev/rmt0

还可以用smit verifybackup来验证系统备份。

实际上listvgbackup命令是调用lsmksysb命令来完成验证系统备份的,listvgbackup命令是一个Shell脚本程序。这两个 命令只能对备份介质上的大部分信息进行验证,并不能验证介质是否可以引导恢复或引导安装,要验证系统备份介质是否可以正常引导机器,惟一的办法是试着从系 统备份介质引导机器。

Hacmp的问题

修改hacmp的性能参数 Smitty hacmp---〉

Extended configuration—〉

Extend performance tuning parameters configuration—〉

修改系统同步时间,系统默认是60秒,改成15秒

对io进行修改 high water 32,low water 24

#smitty 工具

使用配置助手配置应用程序脚本

veritas启动命令 jnbSA

配置Hacmp的时候/etc/hosts文件配置格式范本

#host1 ---bootip

192.168.1.1 host1_if1 192.168.2.1 host1_if2 #host2 ---bootip

192.168.1.2 host2_if1 192.168.2.2 host2_if2 #service ip ---服务ip 10.1.1.1 svc1 10.1.2.1 svc2

#persistent ip ---永久ip 192.168.9.1 host1_persistent 192.168.9.2 host2_persistent

如果在同步的时候有告警 nonlocsrroute set 0可以执行下面的命令解决 no -p -o nonlocsrcroute=1 no -p -o ipsrcrouterecv=1

启动停止脚本标准格式

#!/usr/bin/ksh echo server startd banner \echo server stop exit 0

测试rs232心跳 :server1上面:cat /etc/hosts > /dev/tty0 server2上面:cat < /dev/tty0

测试磁盘心跳: /usr/sbin/rsct/bin/dhb_read

server1上面:/usr/sbin/rsct/bin/dhb_read -p hdisk5 -r server2上面:/usr/sbin/rsct/bin/dhb_read -p hdisk5 -t 看补丁是否已经安装完成 #instfix -i | grep ML

从系统中删除hacmp 查看cluster配置信息

/usr/es/sbin/cluster/utilities/cltopinfo

SYBASE在AIX下的启动和停止脚本

# vi start_sybase.sh

su – Sybase –c ―$SYBASE/ASE-12_0/install/startserver –f $SYBASE/ASE-12_0

/install/RUN_ServerName‖

sleep 15 (以秒为单位,具体时间根据现场数据库启动的时间为准)

su – sybase –c ―$SYBASE/ASE-12_0/install/startserver –f $SYBASE/ASE-12_0 /install /RUN_BackupServerName‖ # chmod 0700 start_sybase.sh

2. 配置SYBASE停止脚本

在命令行下,以root用户身份编辑stop_sybase.sh启动文件,文件内容如下.并修改 该文件的运行权限.

# vi stop_sybase.sh SYBASE = $SYBASE export SYBASE

SYBASE_ASE = ASE-12_0 LIB = $SYBASE/OCS-12_0/lib

PATH = $SYBASE /ASE-12_0/bin: $SYBASE/ASE-12_0/install: $SYBASE /OCS-12_0 /bin: export PATH

$SYBASE/OCS-12_0/bin/isql –Usa –P –SServerName < shutdown SYB_BACKUP go exit EOF

$SYBASE/OCS-12_0/bin/isql –Usa –P –SserverName< use master go

checkpoint go

shutdown with nowait go exit EOF sleep 5

# chmod 0700 stop_sybase.sh

删除hacmp的步骤

1、停止所有节点

2、从hacmp 中删除cluster

3、从/etc/es/sbin/cluster/etc/rhosts 中删除所有信息

4、installp -u cluster 从系统中删除hacmp的安装文件 5、rm -r /usr/es/* 删除遗留文件(必须做) 6、重新启动服务器

查看cluster状态

#lssrc -ls topsvcs (诊断)

或者 #cldump

查看资源组的状态 #clRGinfo #clRGinfo -p

#smitty clsa

磁盘心跳:必须使用增强的并发卷组 ECVG

网卡故障

用命令:# ps –ef | grep cluster,确认所有节点上的HACMP 已启动。 用命令:# errclear 0,清空系统错误日志。

用命令:# tail –f /tmp/hacmp.out,监控HACMP 的运行状态。 用命令:# ifconfig en0 down,宕掉Service 网卡。

用命令:# netstat –in,查看Standby 网卡是否接管了宕掉的Service 网卡的IP 地址和MAC 地址。

用命令:# ifconfig en1 down,宕掉接管了Service 网卡IP 地址和MAC 地址后的 Standby 网卡。

用命令:# netstat –in,查看Service 网卡是否将IP 地址和MAC 地址接管回来。

网卡连接电缆故障:

用命令:# ps –ef | grep cluster,确认所有节点上的HACMP 已启动。 用命令:# errclear 0,清空系统错误日志。

用命令:# tail –f /tmp/hacmp.out,监控HACMP 的运行状态。 断开与Service 网卡连接的网线。 用命令:# netstat –in,查看Standby 网卡是否接管了Service 网卡的IP 地址和MAC 地址。 重新连接上与原Service 网卡连接的网线。

用命令:# netstat –in,查看此时原Service 网卡的IP 地址和MAC 地址是否为原 Standby 网卡的IP 地址和Service 地址。 断开与原Standby 网卡连接的网线。

用命令:# netstat –in,查看Service 网卡的IP 地址和MAC 地址是否恢复为原来 的Service 网卡的IP 地址和MAC 地址。 重新连接上与Standby 网卡连接的网线。

用命令:# netstat –in,查看Standby 网卡的IP 地址和MAC 地址是否恢复为原来 的Standby 网卡的IP 地址和MAC 地址。

节点故障:

模拟*作系统崩溃:

用命令:# ps –ef | grep cluster,确认所有节点上的HACMP 已启动。 用命令:# errclear 0,清空系统错误日志。

用命令:# tail –f /tmp/hacmp.out,监控HACMP 的运行状态。 用命令:# cat /etc/hosts > /dev/kmem,模拟*作系统崩溃状态。

用命令:# netstat –in、# lsvg –o、# ps –ef APP_PID,查看备份节点是否接 管了故障节点的Service 地址、共享卷组和应用程序。 重新启动故障节点,并启动HACMP。

用命令:# netstat –in、# lsvg –o、# ps –ef APP_PID,查看该节点是否将原 属于他的Service 地址、共享卷组和应用程序接管回来了。 模拟CPU 故障:

用命令:# ps –ef | grep cluster,确认所有节点上的HACMP 已启动。 用命令:# errclear 0,清空系统错误日志。

用命令:# tail –f /tmp/hacmp.out,监控HACMP 的运行状态。 直接断开某个节点的电源,模拟CPU 故障。

用命令:# netstat –in、# lsvg –o、# ps –ef APP_PID,查看备份节点是否接 管了故障节点的Service 地址、共享卷组和应用程序。 重新启动故障节点,并启动HACMP。

用命令:# netstat –in、# lsvg –o、# ps –ef APP_PID,查看该节点是否将原 属于他的Service 地址、共享卷组和应用程序接管回来了。

P系列服务器故障及其解决方法

一 故障的定义

.弄清楚系统发生了什么问题

.系统现在能做什么?不能做什么? .故障什么时候发生的? .有没有做平时不同的操作?

.故障有没有规律?定时还是不定时?发生的频率有多高? .是一台机器出现故障还是多台机器故障?故障现象是否相同?

.最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。

二 故障信息的收集

1)收集故障信息对于判断、诊断故障原因,修复系统非常重要。 2)系统故障记录(errorlog)

errdemon 进程在系统启动时自动运行 记录包括硬件、软件及其他操作信息

故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析 errpt 命令的使用(普通用户权限也可使用) #errpt |more 列出简短出错信息

ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION

192AC071 0723100300 T 0 errdemon Error logging turned off 0E017ED1 0720131000 P H mem2 Memory failure

9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR

AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION

TIMESTAMP: MMDDHHMMYY (月日时分年)

T(类型): P 永久; T 临时; U 未知 (永久性的错误应引起重视) C(分类): H 硬件; S 软件; O 用户; U未知

#errpt -d H 列出所有硬件出错信息 #errpt -d S 列出所有软件出错信息

#errpt -aj ERROR_ID 列出详细出错信息

# errpt -aj 0502f666 <--- ERROR_ID用大小写均可 例:

LABEL: SCSI_ERR1 ID: 0502F666

Date/Time: Jun 19 22:29:51 Sequence Number: 95

Machine ID: 123456789012 Node ID: host1 Class: H Type: PERM

Resource Name: scsi0 Resource Class: adapter Resource Type: hscsi Location: 00-08

VPD: <--- Virtal Product Data Device Driver Level.........00 Diagnostic Level............00

Displayable Message.........SCSI EC Level....................C25928 FRU Number..................30F8834 Manufacturer................IBM97F Part Number.................59F4566 Serial Number...............00002849 ROS Level and ID............24 Read/Write Register Ptr.....0120 Description

ADAPTER ERROR

Probable Causes

ADAPTER HARDWARE CABLE

CABLE TERMINATOR DEVICE

Failure Causes ADAPTER

CABLE LOOSE OR DEFECTIVE

Recommended Actions

PERFORM PROBLEM DETERMINATION PROCEDURES CHECK CABLE AND ITS CONNECTIONS

Detail Data SENSE DATA

0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 3)控制面板上的LED 代码

.8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。 .4 位代码,通常是Exxx。

.3 位代码,通常为0yyy,只看后3位。

.8 位和4位代码可查看系统服务手册 (Service Guide)。

3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。 .闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。

888-102 一般为软件故障(888-102-207 例外) 系统会产生一个dump。

888-102-xxx-0C9 系统正在做dump, 请等待。 888-102-xxx-0C0 系统dump完成,可关电重启。 888-103 或 105

硬件故障,一般有 SRN 代码及位置代码。 4)SMS (System Management Service) 故障记录

如何进入SMS 菜单

当主控台出现键盘图标后(LED 显示E1F1时)按1键。 选择\

选择\抄下8位故障代码

(在SMS 中还可以更改系统启动顺序表) 5) MAIL #mail

系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。

6)运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。

当发现有硬件故障时应立即使用diag

#diag

> 选高级诊断(Advance Diagnostic)

> 选问题诊断(Problem Determination) 或 选系统检查(System Verification) (选PD 会对系统错误记录进行分析)

diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。 7)其他用于收集系统信息的命令 lsdev -C 系统设备信息 #lsdev -Cc disk

hdisk0 Available 00-06-00-2,0 4.5 GB 16 Bit SCSI Disk Drive hdisk1 Available 00-06-00-1,0 4.5 GB 16 Bit SCSI Disk Drive hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive

lspv 查看物理卷信息 #lspv

hdisk0 0007821160af3d76 rootvg hdisk1 000782117f571294 rootvg hdisk2 0000000045c45bde datavg

lsvg 查看卷组信息 #lsvg datavg

VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b VG STATE: active PP SIZE: 4 megabyte(s)

VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt MAX LVs: 256 FREE PPs: 1 (4 megabytes) LVs: 3 USED PPs: 2168 (8672 megabyt OPEN LVs: 2 QUORUM: 2

TOTAL PVs: 1 VG DESCRIPTORS: 2 STALE PVs: 0 STALE PPs: 0 ACTIVE PVs: 1 AUTO ON: yes

MAX PPs per PV: 2032 MAX PVs: 16

#lsvg -l rootvg rootvg:

LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT hd5 boot 1 1 1 closed/syncd N/A ...

lv00 jfs 51 102 1 closed/stale /ibmcxx lv01 jfs 1 1 1 open/syncd /cics_regions lv02 jfs 4 4 1 open/syncd /var/mqm

lslpp 查看文件组信息 # lslpp -L |grep 23100020 ....

devices.pci.23100020.rte 4.3.2.7 C IBM PCI 10/100 Ethernet Adapt

看某个文件组是否已安装,如以太网卡驱动。也用于查询补丁程序的版本。

lsattr 查看设备参数设置 # lsattr -El ent2

busio 0x7fffc00 Bus I/O address False busintr 9 Bus interrupt level False intr_priority 3 Interrupt priority False

tx_que_size 512 TRANSMIT queue size True rx_que_size 256 RECEIVE queue size True

rxbuf_pool_size 384 RECEIVE buffer pool size True media_speed 10_Half_Duplex Media Speed True

use_alt_addr no Enable ALTERNATE ETHERNET address True alt_addr 0x000000000000 ALTERNATE ETHERNET address True ip_gap 96 Inter-Packet Gap True

lscfg 查看VPD信息(Virtual Product Data) # lscfg -vl ssa1

DEVICE LOCATION DESCRIPTION

ssa1 30-68 IBM SSA Enhanced RAID Adapter (14104500)

Part Number.................097H0645

FRU Number..................097H0645 <-- 备件号 Serial Number...............C8217227 EC Level....................0000F20825 Manufacturer................IBM053

ROS Level and ID............7201 <-- 微码版本 Loadable Microcode Level....04 Device Driver Level.........00

Displayable Message.........SSA-ADAPTER Device Specific.(Z0)........DRAM=032 Device Specific.(Z1)........CACHE=0

Device Specific.(Z2)........000000062955dab2 Device Specific.(YL)........P2-I7 <-- 槽号

不同的硬件设备有不同的VPD,所含的格式和信息都不一样。通常备件号和微码 版本最有参考价值。注:FRU(Field Replace Unit)才是真正的备件号。

查找设备驱动

cfgmgr -i /dev/cd0 -v

三 硬件故障定位方法

IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRNs。

Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。 IPL 流程

当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤: . Phase 1: Service Processor 的初始化

Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 或9xxx checkpoints代码 。 . Phase 2: 由 Service Processor 引导的硬件初始化

Phase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 。91FF 是最后的代码标志着第三步骤的开始 . Phase 3: 系统固件的初始化

在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示 Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码( 位置码代表着系统的每一个部分) . Phase 4: AIX 启动

当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。

Error Code 当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。

SRNs (Service request numbers,服务请求码 )当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。

以上所有代码都会有相应的步骤解决。由于代码繁多,请在出现问题后记录下代码,并致电IBM服务热线。 系统的启动顺序:

.系统不能启动

系统停在Stage 1,可能为电源、系统板、CPU、内存等硬件故障。记录故障代码通知IBM工程师。

系统停在Stage 2,可能是启动顺序表(bootlist)损坏或I/O子系统故障。可尝试进入SMS 菜单检查启动顺序表,并修改。若在选择bootlist时没有硬盘设备可选或显示的硬盘信息不正确则可能是硬盘故障。若根本没有SCSI设备可选则链路有问题。

系统停在Stage3,可能是硬盘数据损坏,系统设置文件出错,或I/O子系统故障。 .系统停在551,555或557

发生在系统启动的第三阶段 (Stage 3),可能是:

文件系统损坏

文件系统日志(jfslog)损坏 rootvg中有坏硬盘

修复方法

用系统光盘或系统备份带启动(必须与硬盘中的操作系统版本一致)

启动后选择选项3

\> \olume Group\

> \before mounting the file systems\格式化文件系统日志(jfslog) # /usr/sbin/logform /dev/hd8

检查修复文件系统

# fsck -y /dev/hd1 (/home 文件系统) # fsck -y /dev/hd2 (/usr 文件系统) # fsck -y /dev/hd3 (/tmp 文件系统) # fsck -y /dev/hd4 (/ 文件系统)

# fsck -y /dev/hd9var (/var 文件系统) ... ...

用 exit 命令退出,文件系统会自动 mount 起来。

重建bootimage

# lslv -m hd5 找出bootimage所在的硬盘,如hdisk0 # bosboot -ad /dev/hdisk0

# bootlist -m normal /dev/hdisk0 重建启动顺序表。 重启动系统 # shutdown -Fr

如上述步骤不奏效

用系统备份带恢复系统。

如备份带不能恢复,用诊断光盘(Diagnostic CDROM)检查是否坏硬盘。

.CDE图形界面挂死

CDE 运行时不要更改网络参数(如:主机名和IP 地址)

更改网卡设置,请先退出CDE图形环境,选择命令行方式登录,在字符界面下更改。 如CDE 已经挂死 远程 telnet 登录

找出所有dt有关的进程用kill命令杀掉 # ps -ef |grep dt ... ...

# kill PID

检查当前主机名 # hostname tscf50

查看主机名是否对应有效的IP地址 # netstat -i |grep tscf50

tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0

更改主机名或IP地址,使主机名与当前有效的IP地址存在对应关系。 # smitty tcpip

重新启动CDE界面 # /etc/rc.dt

HACMP环境下可把主机名alias到127.0.0.1上 # cat /etc/hosts

127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg

.系统dump

发生在系统崩溃时,AIX会做dump(系统内存的快照)。 此时机器会显示闪动的888 102 xxx 0cx 代码:

0c9 系统dump 进行中。0c9状态可能会维持超过2分钟, 不要关电和按reset, 等待dump做完。 0c0 dump 成功完成,这时可以断电重起。 0c2 手动启动dump 功能

0c4 dump 设备空间不足,只有部分信息保存下来

0c5 不明原因导致dump 失败

一般dump是由于软件出错引起(888-102-207 除外),机器通常可以重启。重启时可能提示用户插入磁带拷贝dump文件,不要选择退出,这样会丢失重要的故障信息。 dump的有关设置

估算系统dump的大小,在系统最繁忙时(内存使用最多) # sysdumpdev -e

0453-041 Estimated dump size in bytes: 53477376 # lsps -a

Page Space Physical Volume Volume Group Size %Used Active paging00 hdisk0 rootvg 480MB 1 yes hd6 hdisk1 rootvg 544MB 1 yes 当前的设置 #sysdumpdev -l

primary /dev/hd6 <-- dump的主设备 secondary /dev/sysdumpnull

copy directory /var/adm/ras <-- dump拷贝的目录 forced copy flag TRUE always allow dump TRUE hd6应比估算值稍大。

/var/adm/ras 是默认的dump拷贝目录,比较估算值,保证/var文件系统有足够的剩余空间

拷贝dump文件。否则机器重起时会提示用户插入磁带。 dump文件名为vmcore.#

对PCI机型如要手动做dump,须把\先设成true。 # sysdumpdev -K dump打包

# snap -a -o /dev/rmt# 或

# snap -a -c 把/tmp/ibmsupt目录做成一个压缩文件 snap.tar.Z如果/tmp文件系统空间不够,

可用-d directory 参数指定别的目录代替/tmp/ibmsupt

四 7133-D40 SSA磁盘柜的故障定位

当SSA 磁盘柜出现故障时,在磁盘柜前面板的液晶显示屏上会显示相应的SRNs,同时黄色的显示灯会闪动,在AIX的error log中也会有记载错误信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。请在出现问题后记录下代码,并致电IBM 服务热线。

五 软件故障定位方法

软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。

1) 文件系统空间不够。

查看有没有―满‖的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。用df –k 查看。

# df -k (查看AIX的基本文件系统)

Filesystem 1024-blocks Free %Used Iused %Iused Mounted on /dev/hd4 24576 1452 95% 2599 22% /

/dev/hd2 614400 28068 96% 22967 15% /usr /dev/hd9var 8192 4540 45% 649 32% /var /dev/hd3 167936 157968 6% 89 1% /tmp /dev/hd1 16384 5332 68% 1402 35% /home

除/usr文件系统,其他文件系统都不应太满,一般不超过80%。

处理方法1:删除垃圾文件 # du -sk * |sort -rn |head

查 找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止 后空间才释放,有时甚至需要重起系统。 处理方法2:增加文件系统大小 # smitty chjfs

文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。

2) 检查文件系统的完整性

# umount filesystem_name # fsck -y filesystem_name

注意:文件系统必须先umount,再做检查和修复,否则可导致未 知的后果。

3)查看卷组信息(lsvg -l vg_name):

有没有\状态的逻辑卷。 若有,用syncvg 命令修复\逻辑卷。

4)检查内存交换区(paging space)使用率(lsps -s):

使用率是否超过70% ,若有则用chps –sX pgname增加X个PP或用 mkps –a –n –sX myvg在myvg上增加一个PP数为X的内存交换区。

5) 小型机内存泄漏问题 小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。

通常我们可以用ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。 (a) ps

# ps gv|head -n 1; ps gv|egrep -v \

PID TTY STAT TIME PGIN SIZE RSS LIM TSIZ TRS %CPU %MEM COMMAND 15674 pts/11 A 0:01 0 36108 36172 32768 5 24 0.6 24.0 ./tctestp 22742 pts/11 A 0:00 0 20748 20812 32768 5 24 0.0 14.0 ./backups 10256 pts/1 A 0:00 0 15628 15692 32768 5 24 0.0 11.0 ./tctestp 2064 - A 2:13 5 64 6448 xx 0 6392 0.0 4.0 kproc 1806 - A 0:20 0 16 6408 xx 0 6392 0.0 4.0 kproc SIZE virtual size (in the pagingspace), in kilobytes,

RSS real-memory (resident set) size in kilobytes of the process.

通过不同时间输出的比较,就能观察出内存和CPU占用率的基本情况。找出其中占用内存数不断变大的进程,这个进程可能就已经发生了内存泄漏。

(b) sar 指令也可以查看CPU占用率,但统计的结果不是很准确。通常使用sar令的格式为: #sar -P ALL 2 10 Average 0 3 2 10 85 1 4 3 8 85 - 4 2 9 85

表示2秒钟输出一次结果总共有10次结果,然后平均。 目前,如果发现内存泄漏,最好重新启动系统。

六 HACMP环境下的排错

在一般情况下,HACMP软件很少需要手工干预,但一旦有问题发生,诊断和恢复的技巧是很重要的.需要能很快地断定问题然后运用你对HACMP的理解来恢复HACMP的正常运作.

一般地,HACMP环境下的排错包括: .了解问题的存在. .判断问题的出处. .解决问题.

一 了解问题的存在

您可以通过以下途径了解到一个CLUSTER环境下出现了问题. .最终用户的投诉,他们无法访问应用程序. .控制台上出现一些HACMP的信息.

1.应用服务无法访问

最 终用户的抱怨通常预示CLUSTER出现了问题.他们无法正常执行应用或是无法登录到系统.我们必须采集到详细的信息以判断到底那里出现了问题.是否有错 误的信息提示?如果可能的话,让用户重复步骤以确定那里是错误的开始.您也可以在自己的系统上重复.要知道用户应用不可用并不代表HACMP有问题.问题 可能出现在应用程序本身或是它的启动或终止脚本出现了问题.因此应用程序本身的排错也应是HA排错的一部分. 2.控制台上出现一些HACMP的信息

在HACMP启动,终止或出错时,控制台上会出现一些HACMP的信息,同时也会写入相应的文件中.

二 判断问题的出处

当错误出现时,我们应尝试发现错误的所在.但我们常常被错误的表面所误导.以下的步骤可以使我们得到更详细的信息.

1.保存好一些LOG文件.(/tmp/hacmp.out & /tmp/cm.log).因为它们可能被覆盖. 2.仔细检查HACMP所产生的LOG文件.它们能提供最初的判断线索. 3.用HACMP的工具和AIX的命令来检查HACMP的部件是否正常. 4.打开HACMP的跟踪工具来产生更详细的信息.

.HACMP的LOG文件:以下文件都是文本文件,可以用VI来看.每个日志文件都含有每个信息的产生时间.

/usr/adm/cluster.log :记录了HACMP的状态,由HA的守护进程所产生. /tmp/hacmp.out :记录了HA的详细脚本.

/usr/sbin/cluster/history/cluster.mmdd :记录了HA的各个事件的发生. /tmp/cm.log :由clstrmgr进程产生,每次HA重起时会被覆盖.

.HACMP FOR AIX的结构

应用层

HACMP软件层 LVM & TCPIP 层 AIX 层 物理网络层

物理硬盘层 硬件层

在 物理网络层,物理硬盘层,硬件层,LVM & TCPIP 层,AIX 层 我们可以用AIX系统命令来看是否硬件和系统出现了问题.一般地,在用errpt命令来看没有类型为PH的错误,lsvg -o 来看我们所须的VG已varyon,mount来看我们所须的文件系统已安装, netstat -i来看我们所须的service IP是UP的状态(或用ifconfig en*),cluster node 之间的service 与service IP ,standby与 standby IP 互相可以ping通.在各个节点上执行stty<在HACMP软件层上,我们可以用vi /tmp/hacmp.out来看,如果出现event failed的字段,则有可能问题出现在该层,如果在问题出现的时段,hacmp.out无信息出现,则问题可能出现在应用层.

以下是HA排错的一些守则:

.在第一时间保存好相关的日志文件,特别是那些会被覆盖的文件. .尝试去重复问题的出现.不要被用户所反映的问题迷惑.

.渐进地去重复问题,如果有多个可能导致问题的出现,一个一个地去重复,而不要一次重复多个可能.

.不要凭经验来判断问题,而是要在各种测试后,由结果来判断.

.隔离问题的来源,根据我们上面所叙述的层次关系,至顶向下地诊断.

.由简到繁地做测试,我们先从一个简单的环境来做测试,不要尝试在一个复杂的环境中测试. .一次做一次改动,否则我们无法知道是那个改动解决了问题.

.不要忽略各种可能,因小可失大,留心系统的每一个细节,包括电源,插头,连线等. .保持各种测试的记录以及解决的步骤,用做将来排错的参考.

.拨打IBM服务热线,将问题现象和您所做的测试结果告诉IBM的工程师,他们将在CALL CENTER的测试中心重复试验,必要时会派工程师到场解决问题.

如何在aix系统下面建立虚拟光驱:

用处不大,在实在没有刻录机的时候,可以一用, :) 经测试,在aix4.3.3和aix5.1都可以。

1、建立一个逻辑卷,大小和ISO image相同或者大些。

2、在/etc/filesystems文件中加入并编辑该逻辑卷条目,设置vfs为cdrfs 例如:

# vi /etc/filesystems

/isocd:

dev = /dev/isocd vfs = cdrfs mount = false options = ro account = false

3) 为该LV创建加载点 /iso_dir

4) 用dd命令拷贝该iso images到该LV # dd if=/cdrom/domino.iso of=/dev/isocd 5) 和mount CD-ROM一样,mount该

[color=red][size=18] # mount -rv cdrfs /dev/isocd /iso_dir[/size][/color]

6) cd /iso_dir就可以看到你想要的东东了。没有刻录机也没有关系啦 :)

三 IBM HACMP 双机系统的管理和维护

本节将说明HACMP 双机软件的一些基本管理和维护命令这些命令将会在HACMP 双机 系统的日常工作中经常用到. 1 HACMP 双机系统的启动

要启动HACMP 双机系统必须要有root 用户的特权分别进入到系统各节点主机在命令 行上执行下述命令即可. # smit clstart 或

# /usr/sbin/cluster/etc/rc.cluster -boot -N –I

需要注意的是在双机系统中HACMP 双机软件先启动的节点将成为主节点拥有资源 并对外提供关键服务后启动的节点将成为备节点.

另外在启动HACMP 前需要启动双机上的INFORMIX 和SCP 应用. 2 HACMP 双机系统的关闭

要关闭某节点上的HACMP 双机软件必须要有该节点root 用户的特权以root 用户进入到 该节点主机在命令行上执行下述命令即可. # smit clstop 或

# clstop -gr

需要注意的是若该节点是主节点并且备节点上的HACMP 软件亦正常运行则需注意

clstop 关闭模式的三种选项的不同1 forced 是指立即关闭双机软件不调用任何客户应用的 善后处理例程.2 graceful 是指在关闭双机软件时将调用客户应用预定义的善后处理例程.3 takeover 是指该节点将关闭双机软件并释放资源请求备节点进行接管.如该节点是备节点 则关闭模式选项没有多大意义.

另外关闭HACMP 将关闭manager 和informix. 3 查询HACMP 双机系统的状态

在双机系统的运行当中操作员经常需要知道双机系统的当前状态才有可能对双机系

统出现的异常情况进行恢复处理才能保证双机系统的高可用性和高容错性.查询HACMP 双机系统的状态只需以root 用户进入需要查询的节点进行下列操作 首先检查HACMP 双机软件在该节点是否已启动命令如下 # lssrc -g cluster

若是系统显示出下面类似的信息则说明HACMP 双机软件已正常启动. Subsystem Group PID Status clstrmgr cluster 22500 active clsmuxpd cluster 23674 active clinfo cluster 28674 active

在已确认双机软件HACMP 正常启动的情况下在命令行执行下述命令来察看双机系统的当前状态

# /usr/sbin/cluster/clstat -a

如果双机系统一切工作正常则系统将显示下述类似信息 clstat - HACMP for AIX Cluster Status Monitor

------------------------------------------------------------------------------------- Cluster: scp_cluster(80) Thu Jan 20 08:45:17 TAIST 2000 State: UP Nodes: 2 SubState: STABLE Node: mscp1 State: UP

Interface: mscp1_svc (0) Address: 192.9.1.60 State: UP

Interface: mscp1_tty (1) Address: 0.0.0.0 State: UP

Node: mscp2 State: UP

Interface: mscp2_svc (0) Address: 192.9.1.61 State: UP

Interface: mscp2_tty (1) Address: 0.0.0.0 State: UP

七 常用的系统状态查询命令:

# lsdev –C –s scsi

列出各个SCSI设备的所有相关信息:如逻辑单元号,硬件地址及设备文件名等。 # ps -ef

列出正在运行的所有进程的各种信息:如进程号及进程名等。 # netstat -rn

列出网卡状态及路由信息等。 # netstat -in

列出网卡状态及网络配置信息。 # df -k

列出已加载的逻辑卷及其大小信息。 # mount

列出已加载的逻辑卷及其加载位置。 # uname -a

列出系统ID 号,系统名称,OS版本等信息。 # hostname

列出系统网络名称。

# lsvg –l rootvg,lsvg –p rootvg

显示逻辑卷组信息,如包含哪些物理盘及逻辑卷等。 # lslv –l datalv,lslv –p datalv

显示逻辑卷各种信息,如包含哪些盘,是否有镜像等。

八 网络故障定位方法

网络不通的诊断过程:

ifconfig 查看网卡是否启动 (up) netstat –i 查看网卡状态

Ierrs/Ipkts 和 Oerrs/Opkts是否>1% ping自己网卡地址 (ip 地址)

ping其它机器地址,如不通,在其机器上用diag检测网卡是否有问题。 在同一网中, subnetmask 应一致。 网络配置的基本方法:

(1) 如需修改网络地址、主机名等,一定要用 chdev 命令 # chdev –l inet0 –a hostname=myhost

# chdev -l en0 -a netaddr=9.3.240.58 -a netmask=255.255.255.0’ (2) 查看网卡状态:# lsdev –Cc if (3) 确认网络地址:# ifconfig en0 (4) 启动网卡:# ifconfig en0 up (5) 配置路由

有两种方式加入路由: 永久路由

# chdev -l inet0 -a route=’10.47.0.0’,’9.3.240.59’ 临时路由

# route add 10.47.1.2 9.3.240.59 用命令 netstat -rn 查看路由表

使用mktcpip与 chinet修改ip地址的区别 mktcpip 会造成/etc/hosts文件内容的改变 chinet 不会修改/etc/hosts文件

网卡聚合命令

#smitty etherchannel 三

附:常用命令列表:

Any XXXX, ####, ****, or X is to be substituted by a name, resource name or #, fn = filename DIR = Directory | = pipe symbol

bosboot -a -d /dev/hdiskx -rebuilds boot record/image on boot device(hdiskx) cat -view contents of a file

cat /tmp/****.1 -view a file, look at output

cat fn fn > newfile -combines two files to a single file cd -will return you to default DIR cd / -will put in root DIR

cd /xxxx -change you to a DIR anywhere is system cd .. -will drop you out of 1 DIR at a time

cd xxxxx -will change you to a DIR in current dir cfgmgr -will auto config devices

cfgmgr -v & -(-v) shows processes (&) puts in background chps -s xx hd# -increase paging space (xx=# of addtl PPs) cp oldfn newfn -copy a file

cp oldfn Dirn -copy a file to another directory crontab -l -list crontab entries for the current user ctrl + v -will page down 1 page ctrl + 6 -will page up 1 page

del fn -same as rm -i,promts to remove fn df -I -shows status of file systems (no inodes)

df -Ik -(k) show status in 1024 bites(1mb)(only AIX 4 diag -a -updates changes in hardware configuration

diag ***** -****= a device type(as tape,disk....Fastpath) diag -cd rmtX -resets tape drive

dosformat -formats a diskette to DOS dosdir -list files on dos formated diskette

dosread XX YY -copies dos file XX to aix file YY doswrite YY XX -copies aix file YY to dos file XX errpt -generates a one line synopsis of logged errors

errpt | pg -list errorlog 1 page @ a time(1st column is ID) errpt -a -displays detailed information of logged errors

errpt -s Mmddhhmmyy -select entries posted later than date

errpt -aj XXXXXXX -list detail error by ID number.(XXX=1st column) errpt -d S -list software errors

errpt -j XXXXXXX -list summary report by ID number.

errpt -aN XXXXXX -list detailed report by resource name column errpt -N XXXXXXX -list summary report by resource name column errclear 0 -clears errorlog

errclear -N XXXXX 0 -clears errorlog by resource name, 0=all enter errclear -j XXXXX 0 -clears errorlog by ID number. finger -same as who but with more details flcopy -copies a diskette to another diskette

format -formats a diskette in default diskette drive

format -l -formats in lower denity: 1.44 on 2.44 / 720 on 1.44 hostname -responds with host system name host (hostname) -responds with internet address

instfix -ik IPAR# -lists ipar fix was completely installed lppchk -v -checks install status of LPPs

lppchk -v 2> /dev/lpX -sends output of lppchk to printer lpx lpstat -a all -view all printer queues

lptest 80 5 > /dev/lp0 -send test pattern to lp0 ls -list names of files & directories in current dir ls -lia -list details of files, current dir & subdir

ls -al -list details of files or dir in current dir

lsattr -El xxxxxx -list specific settings on a device lsdev -C | sort -d -f -list system hardware (devices) lsdev -C | grep 00-0X -list resourses for a adapter

lsdev -Cc xxxxx -H -list devices(xxx=tty,printer,disk,memory,adpt lsdev -Cs scsi -list scsi devices(not serial or raid) lsdev -Cc tape -list tape devices lsdev -Cs pci -list pci devices lsdev -Cs isa -list isa devices lscons -lists the assigned console

lscfg -list hardware list (same as diags list)

lscfg -rl mem* |pg -lists the memory on PCI bus machines

lscfg -vl XXXXX -list config info from a device.(rmt0,hdisk,etc) lscfg -vl sysplanar0 -lists the machine type, model, s/n on SMP lsfs -list all filesystems + data from \lslpp -l | grep BROKEN -lists incomplete ptfs lslv -m hd5 -finds boot drive under pv1 column lsps -a -checks available paging space lsps -s -checks available paging space

lspv -lists information about the physical volumes lspv hdisk# -list drive info

lspv -l hdisk# -lists logical volume group disk in lsuser -f ALL -lists all attributes for all users lsvg -lists volume groups

lsvg -p XXXXXX -lists disks in volume group (xxxxx= volume name) more -reads files and displays the text one screen at a time. mpcfg -df -list all setting the machine is set to (smp)

mpcfg -cf 11 1 -changes to fast IPL on SMP machines (smp) mv fn (path fn) -move and rename a file

oslevel -shows AIX version (3.2.4 and above) pg -reads and displays text one screen at a time.

pdisable -makes unavailable or shows all disabled ttys pdisable tty# -disables a tty

penable -makes available or shows all enabled ttys penable tty# -enables a tty

ps -el |pg -look at process running on system pwd -list what DIR you are currently in r -repeats last command

rm -i ******* -remove a file & will prompt you if you are sure rmdev -l XXXXX -removes a device and defines it to data base

rmdev -l XXXXX -d -removes a device and deletes it from data base set -o vi -sets up to veiw cammands that have been run :wq -write(save) and quit file

Esc + k -used with SET command to list last command

k,l -k=list next command ran, l=steps you thru command I -use with SET command inserts characters j -steps you backwards

cw -cw=removes a word,just type in new word (use with Esc)

a,x,r -a=added text, x=delete text, r=replace text(r+letter) R -lets you type over letters or words

smit ***** -(*****= tape,disk,tty,etc.fastpath) su -stands for switch user,(NOT super user)

su -switches to root id or prompts you for password su XXXXXX -switches to XXXXXXs id Uncompress *.tar.Z 解压文件

tar -cvf /dev/rmtX /etc -will copy /etc to a tape drive tar -tvf /dev/rmtX -will read a tape drive

tctl -f /dev/rmtX rewoffl -rewind & eject tape

tctl -f /dev/rmtX.1 fsf 3 -forward advances a tape to be read by TAR tctl -F -list avail commands(-F flag is not correct) tctl retension -retensions tape in tape drive

& -put any command in background with process ID

uptime -how long since last IPL and how many users on system vmstat # # -reports virtual memory statistics and more iostat # # -reports CPU,disk & cdrom statistics

use with vm & iostat -1st #(how many sec to repeat), 2nd #(how many times) who -shows users on system

who am i -shows user id on your terminal & tty number USE the following with other commands. ---------------------------------------------------

>/tmp/****.1 -creates a file (used with lsXXX command) >/dev/lp# -redirectes output to a printer(use with a comd) |grep -is useful to search for text in a file.

|pg -use after any command to view one page at a time | -pipe sign - Takes the output of one command and feeds it to the input of another. > -redirect sign or greater than sign / -slash sign -back slash sign

>> -double redirect will add text to end of file

& -put any command in background with process ID

MUST unmount file system 1st to run fsck & dfsck/only use with a problem ---------------------------------------------------------------------------------------------- fsck XXXXXXX -will check a file system for errors & prompt

dfsck /XXXX /XXXX -will check 2 different file sys at the same time

FOLLOWING command lines will delete a group of devices as a group, the #, sign is the hdisk#s that you want to delete.(this is an exampe.)

-------------------------------------------------------------------------------------------------- for disk in # # # # -this line and the next 3 line work together do -the prompt will be > (REMEMBER to hit enter)

rmdev -l hdisk# {disk} -d -the prompt will be > (brackets around disk change) done -the prompt will be > (on a printout. change to -) SSA RELATED COMMANDS -----------------------------------------

lsattr -El ssaX -list attributes of SSA adapters lscfg -vl ssaX -list VPD of SSA adapters lsdev -C | grep SSA -list all SSA devices lslpp -L | grep SSA -list SSA device drivers maymap -ap -maymap display of SSA loop maymap -alph -maymap display of SSA loop lscfg -vl pdisk* -list VPD of pdisks

ssaxlate -l hdiskX -list hdisk to pdisk assignment ssaxlate -l pdiskX -list pdisk to hdisk assignment ssa_rescheck -l hdiskX -show hdisk reservation status

FOLLOWING CMDS LIST, COPY, AND RESTORE FOR cpio,tar,dd,backup,dos: NOTE: The fd0 is just a dev. so you may use any media you desire. ----------------------------------------------------------------------------------- LIST COPY ------ --------

cpio -itv < /dev/fd0 ls /tmp/fn | cpio -ov > /dev/fd0 tar -tvf /dev/fd0 tar -cvf /dev/fd0 fn dd li -l | dd dd if=fn of=/dev/fd0

restore -Tf /dev/fd0 backup -0 -uf /dev/fd0 fn By INODE

restore -Tf /dev/fd0 find / -print | backup -i -f/dev/fd0 By NAME dosdir doswrite -a (AIX fn) (fn.ext) TO RESTORE -------------------

cpio -iv fn < /dev/fd0 tar -xvf /dev/fd0 dd of=/dev/fd0 if=fn

restore -xvf /dev/fd0 fn BY NAME/INODE, restore understands unless special flags were used.

dosread -a (fn.ext) (AIX fn)

TO DOCUMENT THE SYSTEM -------------------------------------------

lscfg -v > /dev/lpx -to list sys config/VPD lsuser -f ALL > /dev/lpX -to list users lsdev -Cc tty -H -to list all ttys lsdev -Cc lp -H -to list all lps

lsattr -El ttyX > /dev/lpX -to list ttyX parameters (do for each tty) lsattr -El lpX > /dev/lpX -to list lpX parameters (do for each lp)

lpstat > /dev/lpX -to list queues lsfs > /dev/lpx -to list filesystems lspv > /dev/lpx -to list hard drives

lspv hdiskx -to list hard drive config (do for each drive) lspv -l hdiskx -to list files on drive lsvg rootvg -to list rootvg data plus printout of or save to diskette: ------------------------------------------ /etc/inittab

/etc/objrepos/Cu* /etc/passwd /etc/filesystems /etc/security/passwd /etc/hosts /sbin/rc.boot

Js21刀片服务器

通过vol已串口方式访问js21刀片

telnet 192.168.70.125 (默认的管理模块ip,管理模块必须设置成允许telnet) #list –l 2 (列出刀片机箱中的刀片)

#power –on –c -T blade[x] (把刀片x 开机)

# console –T blade[X] (通过串口登陆刀片服务器,X表示的是刀片服务器的位置)

lpstat > /dev/lpX -to list queues lsfs > /dev/lpx -to list filesystems lspv > /dev/lpx -to list hard drives

lspv hdiskx -to list hard drive config (do for each drive) lspv -l hdiskx -to list files on drive lsvg rootvg -to list rootvg data plus printout of or save to diskette: ------------------------------------------ /etc/inittab

/etc/objrepos/Cu* /etc/passwd /etc/filesystems /etc/security/passwd /etc/hosts /sbin/rc.boot

Js21刀片服务器

通过vol已串口方式访问js21刀片

telnet 192.168.70.125 (默认的管理模块ip,管理模块必须设置成允许telnet) #list –l 2 (列出刀片机箱中的刀片)

#power –on –c -T blade[x] (把刀片x 开机)

# console –T blade[X] (通过串口登陆刀片服务器,X表示的是刀片服务器的位置)

本文来源:https://www.bwwdw.com/article/tdhr.html

Top