Vmware常见故障处理

更新时间：2023-11-04 07:49:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

vmware常见的故障案例推荐度：
相关推荐

Vmware故障处理

1、为主机应用Host Profiles提示compliance错误

故障状态：

为主机应用Host Profiles失败，提示如下错误：

01.Specification state absent from host: device '' state needs to be set to 'on' 02.Host state doesn't match specification: device '' needs to be reset

03.Specification state absent from host: device '' Path Selection Policy needs to be set to 'VMW_PSP_FIXED'

04.Host state doesn't match specification: device '' Path Selection Policy needs to be set to default for claiming SATP 故障分析：

这是由于PSA组件导致的；解决方案：

1、右击Host Profiles后点击Enable/Disable Profiles配置选项；

2、展开“Storage Configuration”选项，展开“Pluggable Storage Architecture”这个uxanxiang； 3、去掉“PSA Device Configuration”；

4、展开“Native Muti-Pathing(NMP)”这个选项后，接着展开“PSP and SATP configuration for NMP devi”选项；

5、去掉“PSP configuration for”这个选项后点击OK即可。

2、分析、解决IOPS导致的虚拟机/存储性能下降和虚拟机磁盘延时较大的问题

故障状态：

1、虚拟机性能较低；

2、在执行备份时磁盘延时很厉害； 3、虚拟磁盘vmdk延时较大；故障分析：

这种问题基本都是由于虚拟机没有足够的IO Per Second（IOPS），或者IOPS低于30；解决方案：

在解决问题前，首先要解决以下两个问题：问题1：什么是IOPS？

IOPS全称为Input/Output Per Second，它是衡量一个磁盘（虚拟磁盘和物理磁盘）、存储的基本也是十分重要的标准。不同的磁盘、存储有着不同的IOPS。IOPS的高低直接会影响着系统的性能。当前，VMware虚拟化环境中最大的瓶颈也就在于这个IOPS。针对数据密集型业务的数据库业务和流媒体业务，由于它们的IOPS很大，所以在虚拟化环境中部署它们一定要充分考量它们的负载，也就是IOPS大小，结合实际的存储性能来查看是否符合业务标准。

问题2：如何计算IOPS？如何计算每台虚拟机的IOPS？

要想计算每个虚拟机的总的IOPS数量，首先就要确认磁盘类型以及它们的IOPS是多少。处于RAID阵列里面的每个盘的IO有利于增长整体存储的可用IOPS。而位于这个存储上面的单台虚拟机的IOPS，则可以通过将这个存储的总IOPS除掉虚拟机数量即可基本得到单台虚拟机的IOPS。

现实案例：

假定有6颗10000RPM的磁盘，那么它们的总的可用IOPS大约为150x6=900。如果LUN上面运行的虚拟机数量为50个，则单台虚拟机的IOPS为900/50=18 IOPS。如果以这个为标准，则意味着虚拟机的性能相对底下。如果想要满足虚拟机的基本IOPS需求，那么应该为900/30=30，也就是说同一个Volume里IOPS为30（最低要求）虚拟机需要数量控制在30台以下。

备注：备份存储会消耗更多的IOPS，同时也会给Volume带来更多额外的符合。如果是这样，则需要用额外手段解决备份时的额外资源消耗（可以通过I/O meter软件来测试IOPS）

3、丢失或锁定文档导致虚拟机无法Power On

故障状态：

1、虚拟机无法开启；

2、尝试开启虚拟机时，看到类似如下错误信息： ?Unable to open Swap File；

?Unable to access a file since it is locked； ?Unable to access Virtual machine configuration； 3、在/var/log/vmkernel文件里可以看到类似如下信息：

WARNING: World: VM xxxx: xxx: Failed to open swap file ock was not free WARNING: World: VM xxxx: xxx: Failed to initialize swap file

4、当尝试开启虚拟机的console控制台时，可能会收到如下错误信息：

Error connecting to .vmx because the VMX is not started 5、在开启虚拟机时，卡在95%位置无响应； 6、从模板部署一台新的VM之后无法开启虚拟机；

7、虚拟机在vCenter Server和ESXi/ESX主机之间报告控制台电源状态冲突；故障分析：

导致这个问题的因素可能很多，但是众多问题中，都穿插或包含着文件损坏或文件被锁定等问题的可能。虚拟机常用的文件包括： ?*.vswp ?*-flat.vmdk ?*-delta.vmdk ?*.vmx ?*.log 解决方案：

首先需要确认哪些文件处于锁定状态：

1、利用vSphere Client登录ESXi/ESX主机、vCenter Server主机； 2、在Datastore里找到想要开启但是无法开启的虚拟机所在位置；

3、尝试开启虚拟机，如果无法开启且console显示错误，先查阅vmware.log日志文件的相关信息来确认问题；

4、利用SSH或COS选用root权限登录到ESXi/ESX主机之后执行下面的命令查看虚拟机的完整路径：

#vmware-cmd -l

系统将输出类似如下信息来显示注册到ESXi/ESX主机的虚拟机： /vmfs/volumes//<虚拟机目录>/<虚拟机名>.vmx 5、执行下列命令切入到这个虚拟机所在的目录： #cd /vmfs/voluems//<虚拟机目录>

6、然后查阅vmware.log日志，在文件的尾部查看什么原因导致这个问题后再针对性的分析。

准确定位并删除掉锁定文件

由于虚拟机可以在主机之间移动，如果虚拟机注册到的主机保持对文件的锁定状态，那么，这个锁定文件可以有效保障ESXi/ESX主机对虚拟机文件的控制权和有效保护虚拟系统。主机由Service Console接口的MAC来确定。lock由VMkernel或Service Console负责维护；

备注：ESXi服务器没有Service Console所以，lock由VMkernel单独负责维护；首先要确定VMkernel可能锁定的文件：

1、执行下面的命令来报告锁定目录所在的MAC地址：

#vmkfstools -D /vmfs/volumes//<虚拟机目录>/<锁定状态文件>

2、由于负责锁定.vmdk文件的主机会将MAC地址写入到vmkernel日志里面，那么可以用下面的命令查阅：

#tail /var/log/vmkernel

4、Storage vMotion失败：looking for lines staring with \

故障状态：

1、执行Storage vMotion失败； 2、系统提示如下错误信息：

01.A general system error occurred: Storage VMotion failed to copy one or more of the VM's disks. Please consult the VM's log for more details, looking for lines starting with \ 复制代码3、/var/log/vmware/hostd.log文件里有类似如下信息：

01.Failed with error 340983807: Storage VMotion failed to copy one or more of the VM's disks. Please consult the VM's log for more details, looking for lines starting with \ 复制代码故障分析

可能由于虚拟机的硬件版本号过老导致；解决方案：

关掉虚拟机后右击uxniji选择Upgrade Virtual Machine Hardware即可。

5、添加LUN时提示

HostDatastoreSystem.QueryVmfsDatastoreCreateOptions

故障状态：

系统能够扫描到Devices LUN，但是在添加过程中却提示如下错误信息：HostDatastoreSystem.QueryVmfsDatastoreCreateOptions ，如图所示：

故障分析：

这样的问题一般都是由于LUN的尺寸过大导致，一般来说，VMware ESXi/ESX Server标准支持最大的LUN尺寸为2TB-512Byte，但是由于国内很多技术人员对这个-512Byte并不太在意，所以习惯型的讲成2TB，这就导致很多用户在使用时，直接分配了2TB的空间，这就可能导致了上述问题；解决方案：

针对这样的问题，建议如下：

1、如果已经分好了2TB的LUN，建议调整为1.88TB左右后再尝试添加；

2、新LUN规划用户则请严格参照官方文档的参数设计，建议是1.88TB左右为一个LUN生成Datastore

6、vCenter Converter推送Agent出错：Converter Agent installer/uninstaller Failed 故障状态：

1、利用vCenter Converter推送Agent到Windows Server 2003服务器上时，失败； 2、系统提示类是如下错误信息：

01.Converter Agent installer/uninstaller failed on 'xxxxxxxxx'.

3、VMware vCenter Converter的日志文件converter-server.log里面有类似如下错误提示：

01.[#6] [2011-01-21 10:50:55.976 04080 info 'App'] [agentManager,83] [AgentManager] Install Agent on 192.168.10.10

02.[#6] [2011-01-21 10:51:16.976 04080 error 'App'] [agentManager,95] [AgentManager] Install Agent failed: converter.fault.AgentDeploymentFault 03.[#7] [2011-01-21 11:18:37.289 03976 info 'App'] Reusing existing VIM connection to 192.168.30.150

04.[#7] [2011-01-21 11:18:37.476 03976 error 'App'] Found dangling SSL error: [0] error:00000001:lib(0):func(0):reason(1)

05.[#7] [2011-01-21 11:19:00.945 02756 info 'App'] [agentManager,83] [AgentManager] Install Agent on 192.168.10.10

06.[#7] [2011-01-21 11:19:21.961 02756 error 'App'] [agentManager,95] [AgentManager] Install Agent failed: converter.fault.AgentDeploymentFault

7.[#7] [2011-01-21 11:19:32.445 03976 info 'App'] [diagnosticManager,357] Generating Converter.Server log bundle. 故障分析：

以下几种情况可能导致这样的问题： 1、445端口没能打开；

2、曾经手动安装过Agent后卸载；

3、Windows服务管理其中的server服务没有启动导致的IPC$连接失败； 4、防火墙阻绝；

解决方案

1、确认445端口或NetBIOS协议能正常使用； 2、建议在Converter时关闭防火墙；

3、如果依然有问题，尝试用Converter Standardalone版本迁移或采用ConverterCD进行冷克隆。

7、解决在vSphere 5.0里开启HA时，提示：Datastore Heartbeating不足的问题

故障状态：

为ESXi 5.0+vCenter 5.0配置HA时，提示如下信息：故障分析：

这是由于vSphere 5.0里的HA部分已经重写，并且新增了Datastore Heartbeating用于网络Partition心跳检测支持；解决方案：

有2个选择，一个是加多存储用于心跳检测，这也是正确的选择，就不多讲，另一个就是忽略掉这个问题，方法如下：

1、vSphere Client登录到vCenter Server 5.0后，右击HA Cluster，点击Edit，然后找到高级选项设定：

2、再如上图所示的内容中，添加下参数： das.ignoreinsufficienthbdatastore

备注：缺省情况下，这个参数的值是false的。

8、通过vSphere Client登陆ESXi主机提示“正在更新”的问题故障状态：

通过vSphere Client登陆VCenter Server4.1正常，登陆ESXi主机提示如下图：

故障分析：

需要通过‘vSphereclient.vmware.com’来更新Client说明客户端存在问题，由于登陆VCenter Server4.1不存在任何问题，所以基本确定版本的问题。查看ESXi版本和vSphere Client，发现Client的版本低于ESXi版本。解决方案：

由于Client所在网络无法上Internet,所以无法更新Client客户端，可以通过安装高版本的Client来解决此问题。

PC服务器日常维护故障处理

标题发生日期发现日期现象： PC服务器（多种厂商），在开机或者重启系统时，经过很长时间未启动，通过终端显示器看到如下提示： “strike F1 key to continue,f2 to run the setup” 。 PC服务器无法正常启动进入操作系统检查与分析：服务器在引导系统内核前，需要对服务器的各种硬件进行自检，包括（CPU、内存、硬盘、RAID卡、远程管理接口等等），在硬件检测报错或者出现警告，但是这种错误并不致命，不影响系统正常启动，就会提示：“strike F1 key to continue,f2 to run the setup” 。处理：针对上述分析，在服务器无法正常启动自动进入操作系统是由于硬件检测失败，所以首先必须检查硬件的报警信息，并及时处理故障。在硬件无故障而是由于配置问题或者可以忽略时可以通过F2进入BIOS setup进行配置,常见的现象有如下： 1. 内存冗余安装警告：有些服务器内存安装需要冗余对称安装，如果没有冗余安装将出现警告。 A. B. 2. 正确解决办法：操作服务器安装手册，调整内存的安装方式。忽略方式：F2进入setup?memory information?redundant memory?disabled 网络方式引导失败:如果服务器之前是配置的网络方式启动操作系统。 A. B. 正确解决办法：检查网络接口IP设置，与网线连接状态。忽略方式：F2进入setup?boot sequence?去掉网络启动选项 3. 集成设备检测失败：集成设备，如RAID controller、USB ports、IDE CD-ROM controller等等。 A. B. 正确解决办法：检查集成设备的健康状态，连接线是否有松动。忽略方式：F2进入setup?Embedded deveices?将对应的设备设置成off (本次故障就是由于CD-ROM设备检测失败导致，将IDE CD-ROM controller设置为off后，服务器能正常的自动引导操作系统)。解决结果解决日期备注

故障修复完成解决人

本文来源：https://www.bwwdw.com/article/zrw2.html

相关文章：

正在阅读：

国科图考研2002硕士初试试题-科技信息检索05-24

上一篇：2018年福建漳州市中考语文试题（WORD版，答案）下一篇：幼儿园考察报告