硬盘检测主要方法

更新时间:2023-09-09 03:45:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

一、磁盘检测主要命令及判断方法。

----------------------------------------------------------------------------------------------------------------------

1:对于Dell的机器并且配备了LSI的raid卡,那么Megacli自带的命令是最直观最可靠的硬盘检测方法。

#/opt/MegaRAID/MegaCli/MegaCli64 -pdlist -aall 以其中的一块硬盘为例。 Enclosure Device ID: 32 Slot Number: 2

Enclosure position: 0 Device Id: 2 //ID号

Sequence Number: 2

Media Error Count: 0 //如果error数值较多,那么需要更换硬盘 Other Error Count: 0

Predictive Failure Count: 0 //可理解为预知性的错误,这个数值较多意味着硬盘即将坏掉,现场会黄绿灯交叉闪烁

Last Predictive Failure Event Seq Number: 0 PD Type: SAS

Raw Size: 136.732 GB [0x11177328 Sectors]

Non Coerced Size: 136.232 GB [0x11077328 Sectors]

Coerced Size: 136.125 GB [0x11040000 Sectors]

Firmware state: Online, Spun Up //如果硬盘坏了那么会出现Failed或者是unconfigured(bad)

SAS Address(0): 0x500000e11716a112 SAS Address(1): 0x0

Connected Port Number: 0(path0)

Inquiry Data: FUJITSU MBD2147RC D809D0A4PB103ALA FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s

Media Type: Hard Disk Device

Drive Temperature :28C (82.40 F)

一些对磁盘I/O操作比较密集的应用例如squid经常会有掉盘的现象,这时有时候通过上述

命令会发现找不到其中的一块硬盘,即“消失了”,如果进入RAID卡界面会发现磁盘处于Foreign或者missing的状态,这种情况其实硬盘并没有坏掉或者说并没有完全坏掉(有诸多原因,包括RAID卡、背板、SAS线等等),如果是在线跑业务的机器不能重启,那么这时候就需要通过RAID卡的日志进行分析是否真的坏了。

#/opt/MegaRAID/MegaCli/MegaCli64 -fwtermlog -dsply -aall

如果是硬盘坏了那么会发现有offline或者是某块硬盘有timeout的记录,需要认真分析日志。

2:对于HP的机器也可通过hpacucli命令判断

Hp的机器硬盘故障较为直观,如果是坏掉了那么status部分会直接显示为failed。 # hpacucli ctrl all show detail config

Smart Array P410i in Slot 0 (Embedded) //raid卡型号 Bus Interface: PCI

Slot: 0

Serial Number: 50014380134912F0

Cache Serial Number: PBCDH0CRH0E7UF

RAID 6 (ADG) Status: Disabled

Controller Status: OK //控制器状态是ok的 Chassis Slot:

Hardware Revision: Rev C Firmware Version: 3.66 Rebuild Priority: Medium Expand Priority: Medium Surface Scan Delay: 15 secs Surface Scan Mode: Idle

Queue Depth: Automatic

Monitor and Performance Delay: 60 min Elevator Sort: Enabled

Degraded Performance Optimization: Disabled Inconsistency Repair Policy: Disabled

Wait for Cache Room: Disabled

Surface Analysis Inconsistency Notification: Disabled Post Prompt Timeout: 0 secs Cache Board Present: True Cache Status: OK

Accelerator Ratio: 25% Read / 75% Write Drive Write Cache: Disabled

Total Cache Size: 512 MB

No-Battery Write Cache: Disabled

Cache Backup Power Source: Capacitors Battery/Capacitor Count: 1

Battery/Capacitor Status: OK SATA NCQ Supported: True

Array: A

Interface Type: SAS Unused Space: 0 MB Status: OK

Logical Drive: 1 Size: 136.7 GB

Fault Tolerance: RAID 0 Heads: 255

Sectors Per Track: 32 Cylinders: 35132

Strip Size: 256 KB

Status: OK //第一个逻辑磁盘的状态是ok的,如果是坏的会显示为failed Array Accelerator: Enabled

Unique Identifier: 600508B1001C7630A73E86737BB6F6C5 Disk Name: /dev/cciss/c0d0

Mount Points: / 4.0 GB, /usr 12.0 GB, /tmp 8.0 GB, /var 8.0 GB, /data0 96.8 GB

OS Status: LOCKED

Logical Drive Label: A00BFB3150014380134912F0F108

physicaldrive 1I:1:1 Port: 1I Box: 1 Bay: 1

Status: OK

Drive Type: Data Drive Interface Type: SAS Size: 146 GB

Rotational Speed: 10000 Firmware Revision: HPDE

Serial Number: 6SD2CSVE000091263FTN Model: HP EG0146FAWHU PHY Count: 2

PHY Transfer Rate: 6.0GBPS, Unknown

Array: B

Interface Type: SAS

Unused Space: 0 MB Status: OK

Logical Drive: 2 Size: 136.7 GB

Fault Tolerance: RAID 0 Heads: 255

Sectors Per Track: 32 Cylinders: 35132 Strip Size: 256 KB

Status: OK

Array Accelerator: Enabled

Unique Identifier: 600508B1001C1AF66FF7A7A594CDA1ED Disk Name: /dev/cciss/c0d1

Mount Points: /data1 136.7 GB OS Status: LOCKED

Logical Drive Label: A00BEB7F50014380134912F04C74

physicaldrive 1I:1:2 Port: 1I Box: 1 Bay: 2

Status: OK

Drive Type: Data Drive Interface Type: SAS Size: 146 GB

Rotational Speed: 10000 Firmware Revision: HPD8

Serial Number: PEVSMWHE Model: HP DG0146FARVU PHY Count: 2

PHY Transfer Rate: 6.0GBPS, Unknown

SEP (Vendor ID PMCSIERA, Model SRC 8x6G) 250 Device Number: 250

Firmware Version: RevC WWID: 50014380134912FF Vendor ID: PMCSIERA Model: SRC 8x6G

3:对于IBM的机器,配备的是M5015的RAID卡,也可通过MegaCli命令查看。

#/opt/MegaRAID/MegaCli/MegaCli64 -pdlist -aall Enclosure Device ID: 20

Slot Number: 11 //与dell的perc 5/i、6/i、H700等raid卡不同,M5015的硬盘槽位需要通过Slot number来识别,而不是Device id这点要特别注意 Enclosure position: 0 Device Id: 19

Sequence Number: 2 Media Error Count: 0 Other Error Count: 0

Predictive Failure Count: 0

Last Predictive Failure Event Seq Number: 0 PD Type: SATA

Raw Size: 1.819 TB [0xe8e088b0 Sectors]

Non Coerced Size: 1.818 TB [0xe8d088b0 Sectors] Coerced Size: 1.817 TB [0xe8b6d000 Sectors] Firmware state: Online, Spun Up SAS Address(0): 0x500507603942e6ec Connected Port Number: 0(path0)

Inquiry Data: 9WM5A0RRST32000644NS 42D0788 42D0791IBM BB28 IBM FRU/CRU: 42D0788 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 3.0Gb/s Link Speed: 6.0Gb/s

Media Type: Hard Disk Device Drive: Not Certified

Drive Temperature :39C (102.20 F)

4:对于没有RAID卡的老机器可通过如下几条常见的命令来判断。

(1):dmesg

end_request: I/O error, dev sdb, sector 8

Buffer I/O error on device sdb, logical block 1

Buffer I/O error on device sdb, logical block 2

sd 0:0:1:0: Device not ready: <6>: Current: sense key: Not Ready

Add. Sense: Logical unit not ready, cause not reportable

显示sdb已经出问题了,再通过fdisk -l及/proc/scsi/scsi可判断出id=?出现了故障。 $ more /proc/scsi/scsi

Attached devices:

Host: scsi0 Channel: 00 Id: 00 Lun: 00

Vendor: SEAGATE Model: ST3146755SS Rev: T107

Type: Direct-Access ANSI SCSI revision: 05 Host: scsi0 Channel: 00 Id: 01 Lun: 00

Vendor: SEAGATE Model: ST3146755SS Rev: T107

Type: Direct-Access ANSI SCSI revision: 05 Host: scsi1 Channel: 00 Id: 00 Lun: 00

Vendor: Dell Model: Virtual CDROM Rev: 123

Type: CD-ROM ANSI SCSI revision: 02 Host: scsi2 Channel: 00 Id: 00 Lun: 00

Vendor: Dell Model: Virtual Floppy Rev: 123

Type: Direct-Access ANSI SCSI revision: 02 与fdisk结合,可判断出id=1的磁盘有问题。

如果需要热插拔更换硬盘那么需要将原来的scsi信息移除掉,并且重新添加scsi信息即可。 #echo \

第一个0表示scsi号,第二个0表示channel号,第三个1表示id号,第四个0表示lun号。

移除之后通过如下命令添加,格式化、挂载之后就可以用了。 #echo \(2):smartmontools

例如对sdb进行长时间的后台检测,那么可通过如下命令检测。 smartctl -t long /dev/sdb

如果想显示检测硬盘的日志,可通过如下命令显示 smartctl -l selftest /dev/sdb

smartctl -l error /dev/sdb //将硬盘的错误信息汇总 (3):/var/log/messages

分析系统日志也会出现硬盘报错的现象。

----------------------------------------------------------------------------------------------------------------------

5.现在抓日志比较倾向于如下方式抓起,即在通道登陆状态下复制粘贴如下命令。 自动抓取日志

(rsync 202.106.184.198::wangliang/dell_toolkit/checkDisk.sh . --progress) ||

(rsync 10.55.21.198::wangliang/dell_toolkit/checkDisk.sh . --progress) sh ./checkDisk.sh 公司邮箱前缀

下面是checkDisk.sh的具体内容。 $more delldset.sh #!/bin/bash

export

PATH=\scriptDir=\systemType=$(uname -s) osType=$(uname -m)

# function

function download () {

# route add --host 10.55.21.198 gw ( ls $1 ) || (rsync 202.106.184.198::$scriptDir/$1 . --progress) || (rsync 10.55.21.198::$scriptDir/$1 . --progress) }

function rpmInstall () { local name name=${1%%-*} sudo rpm -q $name }

if [ $? != 0 ];then download $1 sudo rpm -ivh $1 fi

# environment deploy

if [ $systemType == \ then

rpmInstall MegaCli-1.01.09-0.i386.rpm if [ $osType == \

then

rpmInstall expect-5.43.0-5.1.x86_64.rpm else

rpmInstall expect-5.43.0-5.1.i386.rpm fi

else

echo \exit 1

fi

# main

download delldset_v2.1.0.112_A00.bin download checkDisk.tcl

chmod u+x delldset_v2.1.0.112_A00.bin chmod u+x checkDisk.tcl

sudo ./checkDisk.tcl $1

下面是checkDisk.tcl的内容。 #!/usr/bin/expect -f #rsync script for delldest

set user [lindex $argv 0] set timeout -1

if { $argc!=1 } {

puts stderr \

puts \puts \exit 1 }

spawn ./delldset_v2.1.0.112_A00.bin send \send \

expect \send \expect {

\ {

send \

}

\ }

{

send \

expect \

send \

}

expect \send \

expect \send \

expect \send \

expect \send \

expect \send \

expect \

send \

expect \send \expect eof

############################################################################### 另外了解硬盘型号可提高确认的效率,下面是在网上找到后整理的。 1、Seagate(希捷)

希捷硬盘目前主要有U5、U6和酷鱼(Barracuda)三、酷鱼四等系列产品,其中U5、U6系列是5400rpm的产品,而酷鱼三和酷鱼四系列是7200rpm的产品。希捷硬盘的编号比较简单,无论什么系列和型号的硬盘,命名规范有一样,例如:ST330620A,主要由四个部分构成,详细解释:

1999年1月1号后生产的IDE系列: ST-X-XXXXXX-X-XX

ST代表希捷公司产品

第二部分表示硬盘外形。3代表3.5英寸、低外形、1英寸高 第三部分的数字表示容量,单位为MB。

第四部分表示接口类型。A--Ultra ATA,AS--Serial ATA 2、Western Digital(WD,西数)

西部数据(WD)的IDE硬盘包括Caviar(鱼子酱)和Experl(专家)两个系列,不过后者早就已经停产。目前WD硬盘基本分为三类:高端的BB系列,中端的AB系列,低端的EB系列,其中只有BB系列硬盘才是7200转的产品。西数硬盘的编号通常由主编号和附加编号构成,但西数公司没有对零售市场公开附加编号的具体含义。

主编号部分:WD-XXXX-X-X

第一部分WD表示Western Digital西数公司的产品。 第二部分表示容量,单位是GB。

第三部分的英文字母表示转速及缓存容量。A--5400,B--7200,J--7200并具有8MB缓存。

第四部分表示接口类型。A--Ultra ATA66,B--Ultra ATA100。

附加编号部分:XX-XX-XX

第一部分为OEM客户标识,00为零售市场,其它则为OEM客户代码。

第二部分为同系列的版本代码,对应单碟容量,CP--Protg系列(即通常所说的EB系列)40GB单碟容量的版本,CB--Caviar5400系列(即AB系列)40GB单碟容量的版本,CA--Caviar7200系列(即BB系列)40GB单碟容量的版本,CR--Caviar SE 7200系列(即具有8MB缓存的JB系列)40GB单碟容量的版本。 第三部分为Firmware版本。 3、富士通(FUJITSU )

M 在富士通的所有硬盘型号中固定在第一位. 是表示OEM产品的意思,以区别于富士通的其他产品。

A 第二位的字符表示了硬盘的技术类型。 A 表示 3.5\表示 2.5\P 这一位的字符表示了产品升级换代的代数。

2. 盘片直径

2.5英寸用“2” 表示 3.5英寸用“3”表示

3. 容量

对于富士通SCSI硬盘的 AL7LE, AL7LX, AL8LX and AL8LE系列 (除了 147 GB): 在第二位和第三位间加入小数点既是以GB为单位的容量。

对于富士通笔记本硬盘 HN16L, V40 系列和SCSI硬盘的 AL8LE系列的 147 GB: 这三位数字是直接表示以GB为单位的容量。 如:147 = 147 GB.

4. 接口类型

AT = PATA, 4,200 rpm, Ultra ATA 100 2M AH= PATA, 5,400 rpm, Ultra ATA 100 8M BT = SATA, 4,200 rpm 8M BH= SATA, 5,400 rpm 8M

MP = Ultra160 SCSI / 68 PIN MC = Ultra160 SCSI / SCA-2 80 PIN FC = FCAL-2

NP = Ultra320 SCSI / 68 PIN NC = Ultra320 SCSI / SCA-2 80 PIN

以上就是富士通硬盘的命名规则。 4、Maxtor(迈拓) XX-XXX-X-X

本文来源:https://www.bwwdw.com/article/q2kh.html

Top