94
vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产 品的版本和所有后续版本。要查看本文档的更新版本,请访 http://www.vmware.com/cn/support/pubsZH_CN-001811-02

Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

  • Upload
    others

  • View
    93

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除Update 1

VMware vSphere 6.0VMware ESXi 6.0

vCenter Server 6.0

在本文档被更新的版本替代之前,本文档支持列出的每个产品的版本和所有后续版本。要查看本文档的更新版本,请访问 http://www.vmware.com/cn/support/pubs。

ZH_CN-001811-02

Page 2: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

2 VMware, Inc.

新的技术文档可以从 VMware 网站下载:

http://www.vmware.com/cn/support/

VMware 网站还提供 近的产品更新信息。

您如果对本文档有任何意见或建议,请把反馈信息提交至:

[email protected]

版权所有 © 2010–2017 VMware, Inc. 保留所有权利。 版权和商标信息。

VMware, Inc.3401 Hillview Ave.Palo Alto, CA 94304www.vmware.com

北京办公室北京市海淀区科学院南路 2 号融科资讯中心 C 座南 8 层www.vmware.com/cn

上海办公室上海市浦东新区浦东南路 999 号新梅联合广场 23 楼www.vmware.com/cn

广州办公室广州市天河北路 233 号中信广场 7401 室www.vmware.com/cn

Page 3: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

目录

关于 vSphere 故障排除 5

更新信息 7

1 故障排除概览 9

故障排除准则 9使用日志进行故障排除 10

2 虚拟机故障排除 13

容错虚拟机故障排除 13排除 USB 直通设备故障 17恢复孤立的虚拟机 18从模板克隆或部署后未打开虚拟机电源 19

3 主机故障排除 21

vSphere HA 主机状况故障排除 21Auto Deploy 故障排除 25身份验证标记操作错误 29活动目录规则集错误导致主机配置文件合规性故障 30使用 vCenter Server 反向代理时无法下载 VIB 30

4 vCenter Server 和 vSphere Web Client 故障排除 33

vCenter Server 故障排除 33vSphere Web Client 故障排除 34vCenter Server 和 ESXi 主机证书故障排除 36排除 vCenter Server 插件故障 37

5 可用性故障排除 39

vSphere HA 接入控制故障排除 39检测信号数据存储故障排除 41排除 vSphere HA 故障响应故障 42排除网络分区中的 vSphere Fault Tolerance 故障 43排除虚拟机组件保护故障 44

6 资源管理故障排除 47

存储 DRS 故障排除 47Storage I/O Control 故障排除 52

VMware, Inc. 3

Page 4: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

7 存储故障排除 55解决 SAN 存储器的显示问题 55解决 SAN 性能问题 57具有 RDM 的虚拟机需要忽略 SCSI INQUIRY 缓存 60在不需要时启用软件 iSCSI 适配器 61无法挂载 NFS 数据存储 61VMkernel 日志文件包含 SCSI 感知代码 61故障排除存储适配器 62使用 VOMA 检查元数据一致性 63对闪存设备进行故障排除 64虚拟卷故障排除 67VAIO 筛选器故障排除 69

8 网络故障排除 71

对 MAC 地址分配问题进行故障排除 72转换至增强的 LACP 支持失败 74无法从 vSphere Distributed Switch 中移除主机 75vSphere Distributed Switch 5.1 及更高版本上的主机丢失与 vCenter Server 的连接 76vSphere Distributed Switch 5.0 及早期版本上的主机与 vCenter Server 断开连接 77主机上的网络冗余丢失警报 78在更改分布式端口组的上行链路故障切换顺序之后虚拟机断开连接 78无法将物理适配器添加到已启用 Network I/O Control 的 vSphere Distributed Switch 79对已启用 SR-IOV 的工作负载进行故障排除 80运行 VPN 客户端的虚拟机导致在主机上或 vSphere HA 群集中拒绝虚拟机服务 81Windows 虚拟机上 UDP 工作负载的吞吐量低 83位于相同的分布式端口组但不同主机上的虚拟机无法互相通信 84由于缺少关联的协议配置文件,尝试打开迁移的 vApp 的电源失败 84网络连接配置操作回滚并且主机断开与 vCenter Server 的连接 85

9 故障排除许可 87

主机许可故障排除 87无法打开虚拟机电源 88无法配置或使用功能 88

索引 91

vSphere 故障排除

4 VMware, Inc.

Page 5: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

关于 vSphere 故障排除

《vSphere 故障排除》介绍了 vCenter Server 实施及相关组件的故障排除问题和过程。

目标读者此信息专为需要检查虚拟机、ESXi 主机、群集和相关存储解决方案的用户提供。本书的目标读者为熟悉虚拟机

技术和数据中心操作且具有丰富经验的 Windows 或 Linux 系统管理员。

VMware, Inc. 5

Page 6: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

6 VMware, Inc.

Page 7: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

更新信息

本 vSphere 故障排除随产品的每个版本更新或在必要时更新。

下表提供了 vSphere 故障排除的更新历史记录。

修订版本 描述

ZH_CN-001811-02 添加了标题为“故障排除基础知识”的嵌入式视频。请参见第 9 页,“故障排除准则”。

ZH_CN-001811-01 添加了一个新主题,介绍有关使用自定义的 vCenter Server 反向代理端口对 VIB 下载进行故障排除的信息。请参见第 30 页,“使用 vCenter Server 反向代理时无法下载 VIB”。

ZH_CN-001811-00 初始版本。

VMware, Inc. 7

Page 8: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

8 VMware, Inc.

Page 9: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

故障排除概览 1vSphere 故障排除介绍了常见的故障排除情形并提供了其中每个问题的解决方案。您还可以在本部分中找到解决

根源相似的问题的指导。对于唯一的问题,请考虑开发并应用故障排除方法。

以下有效的故障排除方法详细说明了如何收集故障排除信息,例如确定症状和定义问题期限。此外,还将探讨如何使用日志文件进行故障排除。

本章讨论了以下主题:

n 第 9 页,“故障排除准则”

n 第 10 页,“使用日志进行故障排除”

故障排除准则要对 vSphere 实施进行故障排除,请确定问题的症状、确定受影响的组件并测试可行的解决方案。

确定症状 多种潜在原因可能会导致您的实施性能不佳或没有性能。有效故障排除的第一步为准确确定出现了何种错误。

定义问题范围 隔离问题的症状后,必须定义问题范围。确定受影响且可能会导致出现问题的软件或硬件组件以及未受影响的组件。

测试可能的解决方案 了解问题的症状以及受影响的组件后,请系统性测试解决方案,直至问题得以解决。

故障排除基础知识 (http://link.brightcove.com/services/player/bcpid2296383276001?bctid=ref:video_vsphere_troubleshooting)

确定症状

在尝试解决实施中的问题之前,必须准确地确定其故障原因。

故障排除流程中的第一步即收集信息以定义所发生情况的特定症状。收集信息时,您可能会询问以下问题:

n 什么任务或预期行为未发生?

n 能否将受影响的任务分为可单独评估的子任务?

n 任务是否因出错而结束?是否有关联的错误消息?

n 任务是否已完成但耗时过长?

n 故障是持续出现还是不定时出现?

n 近对软件或硬件做出了哪些可能引起该故障的更改?

VMware, Inc. 9

Page 10: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

定义问题空间

确定问题症状之后,还需确定安装中受影响的组件、可能引起该问题发生的组件,以及未涉及的组件。

要定义 vSphere 实施中的问题空间,请了解现有组件。除 VMware 软件之外,请考虑正在使用的第三方软件以

及与 VMware 虚拟硬件结合使用的硬件。

识别软件和硬件元素的特性及其如何影响问题,您可以浏览可能引起这些症状的一般问题。

n 软件设置的配置错误

n 物理硬件的故障

n 组件不兼容

分解流程并单独考虑每个部分及其成为诱因的可能性。例如,与本地存储上虚拟磁盘相关的实例可能与第三方路由器配置毫不关联。但本地磁盘控制器设置可能会导致该问题。如果某个组件与特定症状不相关,则可将其从测试解决方案中排除。

请思考问题出现之前配置 新发生的变化。寻找问题中的共性。如果同时出现多个问题,则可跟踪所有问题以找出相同原因。

测试可能的解决方案

了解问题症状以及 有可能涉及的软件或硬件组件之后,可以系统地测试解决方案,直至解决问题。

使用您所获取的有关症状和受影响组件的信息,可以设计精确定位和解决问题的测试。这些提示可能使此进程更加有效。

n 尽可能多地想出可能的解决方案。

n 验证每种解决方案是否可以明确地确定问题解决与否。测试每种可能的解决方案,如果无法解决问题,请立刻继续下一方案。

n 开发并追求基于可能性逐层递进的潜在解决方案。由 有可能到 没有可能的潜在问题有系统地进行排除,直至症状消失。

n 测试可能解决方案时,每次仅更改一处。如果在一次性进行多处更改之后您的设置有效,则您可能无法辨别是哪一处更改奏效。

n 如果为解决方案做出的更改未能帮助解决问题,请将实施返回至上一状态。如果未将实施返回至上一状态,则可能会引发新的错误。

n 找到一个相似并有效的实施,然后与无法正常工作的实施并行测试。在两个系统上同时进行更改,直至两者之间仅存在少数差异或一处差异。

使用日志进行故障排除您可以通过查看实施使用时各种服务和代理提供的日志获取有价值的故障排除信息。

大多数日志位于 C:\ProgramData\VMware\CIS\logs 中。所有实施都具有通用日志。其他日志则专用于某些部署

选项(管理节点或 Platform Services Controller)。

通用日志

以下是 Windows 上的所有部署使用的通用日志。

表 1‑1 通用日志的目录

日志目录 描述

CloudVM 各服务之间资源分配和分布情况的日志

CM VMware Component Manager

vSphere 故障排除

10 VMware, Inc.

Page 11: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

表 1‑1 通用日志的目录 (续)

日志目录 描述

FirstBoot 存储首次引导日志的位置

rhttpproxy 反向 Web 代理

SCA VMware 服务控制代理

vmaffd VMware 身份验证框架守护进程

vmdird VMware 目录服务守护进程

Postthaw、Prefreeze、Restore

由 CM 和 SCA 使用以操作服务

管理节点日志

如果选择管理节点部署,则以下日志可用。

表 1‑2 管理节点日志

日志 描述

APIProxy VMware vCenter API 代理

AutoDeploy VMware vSphere Auto Deploy Waiter

EAM VMware ESX Agent Manager

InvSvc VMware Inventory Service

Mbcs VMware 消息总线配置服务

Netdump VMware vSphere ESXi Dump Collector

Perfcharts VMware 性能图表

Vapi VMware vAPI Endpoint

Vmcad VMware 证书颁发机构守护进程

VMdird VMware 目录服务守护进程

vmsyslog collector vSphere Syslog Collector

Vmware-sps VMware vSphere Profile-Driven Storage Service

Vmware-vpx VMware VirtualCenter Server

vPostgres vFabric Postgres 数据库服务

Vmsm VMware 消息总线配置服务

vSphere-Client VMware vSphere Web Client

Vws VMware System and Hardware Health Manager

Workflow VMware vCenter 工作流管理器

Platform Services Controller 日志

如果选择 Platform Services Controller 节点部署,则可以检查以下日志。

表 1‑3 Platform Services Controller 节点日志

日志 描述

cis-license VMware 许可服务

SSO VMware 安全令牌服务

第 1 章 故障排除概览

VMware, Inc. 11

Page 12: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

表 1‑3 Platform Services Controller 节点日志 (续)

日志 描述

VMCA VMware 证书服务

vmdird VMware 目录服务

对于 Platform Services Controller 节点部署,其他运行时日志位于

C:\ProgramData\VMware\CIS\runtime\VMwareSTSService\logs 中,其中包括以下服务的日志:

n VMware 安全令牌服务

n VMware Identity Management 服务

ESXi 日志

以下日志可用于 ESXi 主机。这些日志位于 /var/run/log 中。

表 1‑4 ESXi 日志

日志 描述

hostd.log 记录所有 hostd 服务操作

vpxa.log 记录 vCenter Server 上主机 vpxa 代理和 vpxd 服务之间的交互

fdm.log 与 vSphere HA 群集相关的日志

rhttpproxy.log Rhttpproxy 日志

syslog.log 默认系统日志集

usb.log USB 相关日志

hostprofiletrace.log 主机配置文件跟踪日志

sdrsinjector.log vSphere Storage DRS 设备注入器日志

vSphere 故障排除

12 VMware, Inc.

Page 13: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

虚拟机故障排除 2虚拟机故障排除主题为您在使用虚拟机时可能遇到的潜在问题提供了解决方案。

本章讨论了以下主题:

n 第 13 页,“容错虚拟机故障排除”

n 第 17 页,“排除 USB 直通设备故障”

n 第 18 页,“恢复孤立的虚拟机”

n 第 19 页,“从模板克隆或部署后未打开虚拟机电源”

容错虚拟机故障排除要保持容错虚拟机的高级别性能和稳定性并 小化故障切换率,应当了解某些故障排除问题。

此处讨论的故障排除主题重点介绍了在虚拟机上使用 vSphere Fault Tolerance 功能时可能遇到的问题。本主题

还介绍了解决这些问题的方法。

也可以参见 VMware 知识库文章,网址为 http://kb.vmware.com/kb/1033634,以帮助您排除 Fault Tolerance故障。该文章包含在尝试使用该功能时可能遇到的错误消息列表,以及如何解决每个错误的建议(如果可用)。

硬件虚拟化未启用

使用 vSphere Fault Tolerance 之前,必须启用硬件虚拟化 (HV)。

问题

尝试打开启用了 Fault Tolerance 的虚拟机的电源时,如果未启用 HV,则可能会显示一条错误消息。

原因

通常情况下,出现此错误的原因是:对于您尝试在其上打开虚拟机电源的 ESXi 服务器,HV 在其上不可用。硬

件虚拟化不可用的原因可能是其不受 ESXi 服务器硬件支持或未在 BIOS 中启用。

解决方案

如果 ESXi 服务器硬件支持硬件虚拟化,但当前未启用硬件虚拟化,请在该服务器的 BIOS 中将其启用。各种

BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚拟化的详细信息。

如果 ESXi 服务器硬件不支持硬件虚拟化,请切换到使用支持 Fault Tolerance 的处理器的硬件。

VMware, Inc. 13

Page 14: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

无兼容主机可用于辅助虚拟机

如果打开启用了 Fault Tolerance 的虚拟机的电源,但没有为辅助虚拟机提供任何兼容主机,可能会显示一条错

误消息。

问题

您可能遇到以下错误消息:

辅助虚拟机无法打开电源,因为没有兼容主机可以容纳该虚拟机。

原因

这可能是由多种原因造成的,包括群集内没有其他主机、没有其他已启用硬件虚拟化的主机、主机 CPU 不支

持硬件 MMU 虚拟化、数据存储不可访问、可用容量不足或主机正处于维护模式中。

解决方案

如果主机数量不足,请向群集内添加更多主机。如果群集内有多台主机,请确保它们支持硬件虚拟化且硬件虚拟化已启用。各种 BIOS 中启用硬件虚拟化的过程不同。请参见主机的 BIOS 文档以获取有关如何启用硬件虚

拟化的详细信息。检查主机是否有足够容量,并确认它们未处于维护模式中。

过载主机上的辅助虚拟机降低主虚拟机的性能

如果主虚拟机的执行速度似乎缓慢,即便它所在主机上的负载较轻且有空闲 CPU 时间,也请检查运行辅助虚

拟机的主机是否负载较重。

问题

当辅助虚拟机所在的主机负载过重时,辅助虚拟机会影响主虚拟机的性能。

原因

在过载(例如 CPU 资源过载)的主机上运行的辅助虚拟机获取的资源量与主虚拟机获取的资源量可能不同。

当出现此情况时,主虚拟机必须减速以使辅助虚拟机跟进,将主虚拟机的执行速度大大降低至辅助虚拟机的较慢速度。

解决方案

如果辅助虚拟机位于过载的主机上,可以将虚拟机移至其他位置而不会导致出现资源争用问题。或者,更具体来说,请执行以下操作:

n 对于 FT 网络争用,请使用 vMotion 技术将辅助虚拟机移至 FT 网络中 FT 虚拟机争用较少的主机上。确认

对虚拟机的存储访问质量是非对称的。

n 如果存在存储争用问题,请关闭并重新打开 FT。重新创建辅助虚拟机时,请将其数据存储更改到资源争用

较少且潜在性能更佳的位置。

n 要解决 CPU 资源问题,请为主虚拟机设置明确的 CPU 预留(以 MHz 为单位),该预留应足以在所需性

能级别上运行负载。此预留对于主虚拟机和辅助虚拟机均适用,能够确保两者均能以指定的速率执行。有关设置此预留的指导,请在启用 Fault Tolerance 前查看虚拟机的性能图表以查看在正常条件下使用的 CPU资源量。

在 FT 虚拟机中发现网络延迟时间增加

如果您的 FT 网络未以 佳方式配置,FT 虚拟机可能会出现延迟问题。

问题

FT 虚拟机可能会发现数据包延迟时间不断增加(大约增加几毫秒时间)。要求网络数据包延迟或抖动时间非常

短的应用程序(例如,某些实时应用程序)可能会发现性能下降。

vSphere 故障排除

14 VMware, Inc.

Page 15: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

原因

在一定程度上增加的延迟时间是 Fault Tolerance 的预期开销,但某些因素可能会增加此延迟时间。例如,如果

FT 网络位于延迟时间特别长的链接上,此延迟可能会被传递到应用程序。此外,如果 FT 网络的带宽不足(低

于 10 Gbps),可能会出现更长时间的延迟。

解决方案

验证 FT 网络的带宽是否充足(10 Gbps 或更高),并在主虚拟机与辅助虚拟机之间使用短延迟链接。这些预

防措施不会避免网络延迟,但可以 大程度地减小潜在影响。

某些主机的 FT 虚拟机过载

如果您的群集主机中 FT 虚拟机分布不平衡,则可能会遇到性能问题。

问题

群集中的某些主机可能 FT 虚拟机过载,其他主机可能包含未使用的资源。

原因

vSphere DRS 不会加载平衡 FT 虚拟机(除非这些虚拟机使用旧的 FT)。此限制可能导致某个群集中出现 FT虚拟机在主机中不均等分配的状况。

解决方案

使用 vSphere vMotion 手动将 FT 虚拟机在群集中再次平衡。通常,主机上的 FT 虚拟机越少,其性能发挥得

越好,因为这样可以减少 FT 网络带宽和 CPU 资源争用。

无法访问 FT 元数据数据存储

访问 Fault Tolerance 元数据数据存储对于 FT 虚拟机的正常运行至关重要。无法访问会导致出现各种问题。

问题

由此产生的问题如下:

n FT 意外终止。

n 如果主虚拟机和辅助虚拟机均无法访问元数据数据存储,则虚拟机可能会意外终止。通常,当主虚拟机和辅助虚拟机均无法访问 FT 元数据数据存储时,也会发生无关联故障并导致 FT 终止。然后,vSphere HA会尝试在可访问元数据数据存储的主机上重新启动主虚拟机。

n vCenter Server 可能会停止将虚拟机识别为 FT 虚拟机。识别失败会导致某些操作不受支持,如在虚拟机

上执行快照操作,而且会导致有问题的行为出现。

原因

无法访问 Fault Tolerance 元数据数据存储会导致先前列表中出现不良结果。

解决方案

规划 FT 部署时,请将元数据数据存储置于高可用性存储中。FT 运行时,如果发现主虚拟机或辅助虚拟机无法

访问元数据数据存储,请立即解决存储问题,以免访问失败导致先前问题出现。如果 vCenter Server 停止将虚

拟机识别为 FT 虚拟机,请勿在虚拟机上执行不支持的操作。恢复访问元数据数据存储。FT 虚拟机的访问恢复

且刷新时间间隔结束后,将可识别虚拟机。

第 2 章 虚拟机故障排除

VMware, Inc. 15

Page 16: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

为打开电源的虚拟机打开 vSphere FT 失败

如果尝试为打开电源的虚拟机打开 vSphere Fault Tolerance,则该操作可能会失败。

问题

为打开电源的虚拟机选择打开 Fault Tolerance 时,该操作失败并会显示未知错误 (Unknown error) 消息。

原因

如果运行虚拟机的主机没有足够的内存资源来提供容错保护,此操作可能失败。vSphere Fault Tolerance 会自

动尝试为虚拟机分配主机上的全部内存预留。容错虚拟机需要开销内存,且开销内存有时可扩展到 1 到 2 GB。

如果运行打开电源的虚拟机的主机没有足够的内存资源来容纳全部预留以及内存开销,则尝试打开 Fault Tolerance的操作将失败。随后,将返回未知错误 (Unknown error) 消息。

解决方案

选择以下解决方案之一:

n 释放主机上的内存资源来容纳虚拟机的内存预留以及增加的开销。

n 将该虚拟机移到具有足够的可用内存资源的主机,然后重试。

vSphere DRS 未放置或撤出 FT 虚拟机

如果当前已禁用增强型 vMotion 兼容性 (EVC),则已启用 vSphere DRS 的群集中的 FT 虚拟机无法正常运行。

问题

由于 EVC 是 DRS 与 FT 虚拟机搭配使用的必备条件,如果禁用 EVC(即使随后重新启用),则 DRS 不会放置

或撤出这些虚拟机。

原因

如果 DRS 群集上已禁用 EVC,则可能会添加在 FT 虚拟机上禁用 DRS 的虚拟机替代项。即使随后重新启用

EVC,也不会取消此替代项。

解决方案

如果 DRS 未放置或撤出群集中的 FT 虚拟机,请检查虚拟机是否存在禁用 DRS 的虚拟机替代项。如果找到替

代项,请移除禁用 DRS 的替代项。

注意 有关如何编辑或删除虚拟机替代项的详细信息,请参见《vSphere 资源管理》。

Fault Tolerant 虚拟机故障切换

即使主虚拟机或辅助虚拟机的 ESXi 主机未崩溃,主虚拟机或辅助虚拟机也可进行故障切换。在这种情况下,

虚拟机执行不会中断,但会临时失去冗余。要避免此类故障切换,请了解可能会出现此类故障切换的一些情况,并采取措施进行避免。

与存储器有关的部分硬件故障

当存储器访问缓慢或无法访问某台主机时,可能出现此问题。此问题发生时,VMkernel 日志中将列出许多存

储器错误。要解决此问题,必须解决与存储器有关的问题。

与网络有关的部分硬件故障

如果日志记录网卡不能正常工作或通过该网卡与其他主机的连接断开,将触发容错虚拟机进行故障切换,从而重新建立冗余。要避免此问题,请将每个独立网卡专门用于 vMotion 和容错日志记录通信,并仅在虚拟机活动

较少时执行 vMotion 迁移。

vSphere 故障排除

16 VMware, Inc.

Page 17: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

日志记录网卡网络上的带宽不足

如果主机上有过多的容错虚拟机,则会发生此问题。要解决此问题,请将容错虚拟机对分布到更多的不同主机上。

请对 FT 使用 10 Gb 日志记录网络并验证网络滞后时间是否非常短。

由虚拟机活动级别引起的 vMotion 故障

如果通过 vMotion 迁移容错虚拟机失败,则虚拟机可能需要进行故障切换。此问题通常在虚拟机过于活跃(因

而无法在对其造成 小损坏的情况下完成迁移)时发生。要避免此问题,请只在虚拟机活动较少时执行 vMotion迁移。

VMFS 卷上活动过多可能会导致虚拟机故障切换

在单一 VMFS 卷上执行大量文件系统锁定操作、虚拟机启动/关闭或 vMotion 迁移时,可能会触发容错虚拟机

进行故障切换。可能发生此现象的症状为在 VMkernel 日志中收到许多有关 SCSI 预留的警告。要解决此问题,

请减少文件系统操作的数量,或确保容错虚拟机位于 VMFS 卷上,而且该卷上没有大量定期启动/关闭或使用

vMotion 进行迁移的其他虚拟机。

文件系统空间不足导致无法启动辅助虚拟机

请检查 /(root) 或 /vmfs/datasource 文件系统中是否有可用空间。这些文件系统可能会因多种原因而变得空间已

满,空间不足会导致您无法启动新辅助虚拟机。

排除 USB 直通设备故障有关功能行为的信息有助于在 USB 设备连接到虚拟机时解决或避免潜在的问题。

尝试使用附加的 USB 设备迁移虚拟机时的错误消息

将多个 USB 设备从 ESXi 主机连接到虚拟机且一个或多个设备未启用 vMotion 功能时,通过 vMotion 进行迁

移将无法继续并会发出一条并不十分明确的错误消息。

问题

迁移虚拟机向导会在迁移操作开始之前运行兼容性检查。如果检测到不支持的 USB 设备,兼容性检查会失败,

并显示一条与以下类似的错误消息:Currently connected device 'USB 1' uses backing 'path:1/7/1', which

is not accessible.

原因

要成功通过 vMotion 兼容性检查,必须为连接到主机中虚拟机的所有 USB 设备启用 vMotion。如果一个或多

个设备未启用 vMotion 功能,迁移将失败。

解决方案

1 请先确保设备未处在传输数据的进程中,然后再删除设备。

2 对每个受影响的 USB 设备重新添加和启用 vMotion。

USB 直通设备不响应

可能有多种原因导致 USB 设备不响应,包括非安全地中断数据传输,或客户机操作系统驱动程序向设备发送不

支持的命令。

问题

USB 设备不响应。

第 2 章 虚拟机故障排除

VMware, Inc. 17

Page 18: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

原因

数据传输被中断或使用了不支持的设备。例如,如果客户机驱动程序向不支持的 USB 闪存驱动器发送 SCSIREPORT LUNS 命令,设备会停止响应所有命令。

解决方案

u 从 ESXi 主机以物理方式分离 USB 设备并重新附加该设备。

如果无法通过物理方式访问主机,可以关闭主机(而非重新引导),并在至少 30 秒内使其保留为关闭状

态,从而确保完全关闭主机 USB 总线电源。

当您启动主机时,该 USB 设备将从其无响应状态中恢复。

无法将数据从 ESXi 主机复制到连接到该主机的 USB 设备

您可以将 USB 设备连接到 ESXi 主机,然后将数据从该主机复制到 USB 设备。例如,主机断开网络连接之后,

您可能希望从该主机收集 vm-support 包。要执行此任务,必须停止 USB 仲裁器。

问题

如果要使用 USB 仲裁器实现从 ESXi 主机到虚拟机的 USB 直通,则 USB 设备显示在 lsusb 下,但未正确挂载。

原因

出现此问题的原因是默认情况下不可引导的 USB 设备为虚拟机预留。该设备并不显示在主机的文件系统中,尽

管 lsusb 可以看到设备。

解决方案

1 停止 usbarbitrator 服务:/etc/init.d/usbarbitrator stop

2 断开 USB 设备的物理连接然后再重新进行连接。

默认情况下,设备位置是 /vmfs/devices/disks/mpx.vmhbaXX:C0:T0:L0。

3 重新连接设备后,重新启动 usbarbitrator 服务:/etc/init.d/usbarbitrator start

4 重新启动 hostd 和任何运行中的虚拟机,以还原对虚拟机中直通设备的访问权限。

下一步

将 USB 设备重新连接到虚拟机。

恢复孤立的虚拟机虚拟机在其名称之后会附加有 (已孤立)。

问题

在极少数情况下,位于由 vCenter Server 管理的 ESXi 主机上的虚拟机可能会变为孤立状态。vCenter Server 数据库中存在这些虚拟机,但 ESXi 主机不再能识别出它们。

原因

如果主机故障切换失败,或直接在主机上取消对虚拟机的注册时,虚拟机可能会变为孤立状态。如果发生这种情况,请将孤立的虚拟机移动到数据中心中存储虚拟机文件的其他主机。

vSphere 故障排除

18 VMware, Inc.

Page 19: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

1 确定虚拟机配置文件 (.vmx) 所在的数据存储。

a 选择 vSphere Web Client 清单中的虚拟机,然后单击相关对象选项卡。

b 单击数据存储。

此时将显示虚拟机文件所在的一个或多个数据存储。

c 如果显示多个数据存储,请选择每个数据存储,然后单击文件浏览器图标以浏览 .vmx 文件。

d 确定 .vmx 文件的位置。

2 返回 vSphere Web Client 中的虚拟机,右键单击该虚拟机,然后选择所有虚拟基础架构操作 > 从清单中移

除。

3 单击是确认移除虚拟机。

4 在 vCenter Server 中注册虚拟机。

a 右键单击虚拟机文件所在的数据存储,然后选择注册虚拟机。

b 浏览 .vmx 文件,然后单击确定。

c 选择虚拟机的位置,然后单击下一步。

d 选择运行虚拟机的主机,然后单击下一步。

e 单击完成。

从模板克隆或部署后未打开虚拟机电源在 vSphere Web Client 中从模板工作流中完成克隆或部署后,虚拟机不会打开电源。

问题

当从模板中克隆或部署虚拟机时,您可能无法在创建之后打开虚拟机的电源。

原因

创建虚拟机磁盘时,未预留交换文件大小。

解决方案

n 减小虚拟机所需的交换文件的大小。可以通过增加虚拟机内存预留空间来实现。

a 右键单击虚拟机,然后选择 编辑设置。

b 选择虚拟硬件,然后单击内存。

c 使用“预留”下拉菜单增加分配给虚拟机的内存量。

d 单击确定。

n 或者,可以通过将其他虚拟机磁盘从交换文件正在使用的数据存储中移出来增加交换文件的可用空间量。

a 在 vSphere Web Client 对象导航器中浏览到数据存储。

b 选择相关对象选项卡,然后单击虚拟机选项卡。

c 对于每个要移动的虚拟机,右键单击虚拟机,然后选择迁移。

d 选择仅更改存储。

e 继续完成迁移虚拟机向导。

第 2 章 虚拟机故障排除

VMware, Inc. 19

Page 20: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

n 另外,可以通过将交换文件位置更改为具有足够空间的数据存储来增加交换文件的可用空间量。

a 在 vSphere Web Client 对象导航器中,浏览到主机。

b 选择管理选项卡,然后单击设置。

c 在“虚拟机”下,选择交换文件位置。

d 单击编辑。

注意 如果主机属于指定虚拟机交换文件与虚拟机存储在同一目录的群集,则无法单击编辑。您必须

使用“群集设置”对话框更改群集的交换文件位置策略。

e 选择使用特定数据存储,然后从列表中选择一个数据存储。

f 单击确定。

vSphere 故障排除

20 VMware, Inc.

Page 21: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

主机故障排除 3主机故障排除主题为您在使用 vCenter Server 和 ESXi 主机时可能遇到的潜在问题提供了解决方案。

本章讨论了以下主题:

n 第 21 页,“vSphere HA 主机状况故障排除”

n 第 25 页,“Auto Deploy 故障排除”

n 第 29 页,“身份验证标记操作错误”

n 第 30 页,“活动目录规则集错误导致主机配置文件合规性故障”

n 第 30 页,“使用 vCenter Server 反向代理时无法下载 VIB”

vSphere HA 主机状况故障排除vCenter Server 会报告 vSphere HA 主机状况,指示主机上的错误情况。这类错误会阻止 vSphere HA 充分保

护主机上的虚拟机,并阻碍 vSphere HA 在故障出现后重新启动虚拟机的功能。当在主机上配置或取消配置

vSphere HA 时,或很少数情况下在正常运行期间可能出现错误。当出现错误时,应确定如何解决错误才能使

vSphere HA 全面运行。

vSphere HA 代理处于代理无法访问状况

主机上的 vSphere HA 代理已处于代理无法访问状况一分钟或更长时间。可能需要用户干预来解决这种情况。

问题

当首选主机或 vCenter Server 无法访问主机的代理时,vSphere HA 会报告代理处于代理无法访问状况。因此,

vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚拟机。

原因

vSphere HA 代理可能因多个原因而处于代理无法访问状况。这种情况通常表示网络连接问题正在阻止 vCenterServer 访问首选主机和主机上的代理,或表示群集中的所有主机都失败。这种情况还可能表示一种不太可能的

情况:vSphere HA 已禁用且已在群集中重新启用但 vCenter Server 无法与主机上的 vSphere HA 代理通信,

或主机上的 ESXi 主机代理已失败且监视程序进程无法将其重新启动。如果发生上述任何一种情况,主机进入

“无法访问”状态时都不会触发故障切换事件。

解决方案

确定 vCenter Server 是否报告主机无响应。如果是,则说明存在网络问题,出现 ESXi 主机代理故障,或整体

性群集故障。解决该情况后,vSphere HA 应可正常工作。如果未正常工作,请重新配置主机上的 vSphereHA。同样,如果 vCenter Server 报告主机有响应但主机状态为“代理无法访问”,请重新配置该主机上的

vSphere HA。

VMware, Inc. 21

Page 22: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere HA 代理处于未初始化状况

主机上的 vSphere HA 代理已处于未初始化状况一分钟或更长时间。可能需要用户干预来解决这种情况。

问题

当主机的代理无法进入运行状况并成为首选主机时,或无法连接到首选主机时,vSphere HA 会报告代理处于

未初始化状况。因此,vSphere HA 无法监控该主机上的虚拟机,并且在出现故障后可能不会重新启动这些虚

拟机。

原因

vSphere HA 代理可能因一个或多个原因而处于未初始化状况。这种情况通常表示主机对任何数据存储都没有

访问权限。在少数情况下,表示主机对 vSphere HA 用来缓存状况信息的本地数据存储没有访问权限、主机上

的代理无法访问或 vSphere HA 代理无法打开所需防火墙端口。也可能是 ESXi 主机代理已停止。

解决方案

在主机的事件列表中搜索近期发生的主机的 vSphere HA 代理出错 (vSphere HA Agent for the host has an

error) 事件。此事件指明主机处于未初始化状况的原因。如果由于数据存储问题而出现这种情况,请解决任何

阻止主机访问受影响数据存储的问题。如果 ESXi 主机代理已停止,必须重新启动。解决上述问题后,如果代

理未返回到操作状况,请重新配置主机上的 vSphere HA。

注意 如果由于防火墙问题而出现这种情况,请检查主机上是否有其他服务在使用端口 8182。如果是这样,请

关闭此服务,然后重新配置 vSphere HA。

vSphere HA 代理处于“初始化错误”状况

主机上的 vSphere HA 代理已处于“初始化错误”状况一分钟或更长时间。需要用户干预来解决这种情况。

问题

vSphere HA 报告代理上一次尝试配置主机的 vSphere HA 失败时处于“初始化错误”状况。vSphere HA 不监

控此类主机上的虚拟机,并且在发生故障后可能不会重新启动这些虚拟机。

原因

这种情况通常表示,在主机上安装或配置 vSphere HA 代理时 vCenter Server 无法连接到该主机。这种情况还

可能表示安装和配置已完成,但代理在超时期限内未成为首选主机或从属主机。这种情况很少表示主机的本地数据存储上没有足够的磁盘空间用于安装代理,或主机上没有足够的未预留内存资源用于代理资源池。 后,对于 ESXi 5.x 主机,如果先前安装另一组件时需要重新引导主机但尚未进行重新引导,则配置将失败。

解决方案

如果配置 HA 任务失败,将报告失败的原因。

失败原因 操作

主机通信错误

解决主机出现的任何通信问题,然后重试配置操作。

超时错误 可能的原因包括主机在配置任务期间崩溃、代理在安装后无法启动或代理在启动后无法初始化。验证 vCenterServer 是否能与主机通信。如果的确如此,请参见第 21 页,“vSphere HA 代理处于代理无法访问状况”或第 22 页,“vSphere HA 代理处于未初始化状况”以了解相关可行解决方案。

缺少资源 释放约 75 MB 的磁盘空间。如果此故障是由于未预留的内存不足造成的,可通过将虚拟机重定位到另一主机或降低其预留来在主机上释放内存。在这两种情况下,请在解决问题后重试 vSphere HA 配置任务。

挂起的重新引导

如果安装 5.0 或更高版本的主机失败的原因是重新引导挂起,请重新引导主机,然后重试 vSphere HA 配置任务。

vSphere 故障排除

22 VMware, Inc.

Page 23: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere HA 代理处于“未初始化错误”状况

主机上的 vSphere HA 代理处于“未初始化错误”状况。需要用户干预来解决这种情况。

问题

在取消配置 HA 任务期间,当 vCenter Server 无法取消配置主机上的代理时,vSphere HA 会报告代理处于未

初始化错误状况。处于此状况的代理可能干扰群集的运行。例如,主机上的代理可能选择自身作为主要主机并锁定数据存储。锁定某个数据存储会阻止有效的群集主要主机管理配置文件位于此数据存储上的虚拟机。

原因

这种情况通常表明当取消配置代理时,vCenter Server 与主机的连接丢失。

解决方案

将主机添加回版本 5.0 或更高版本的 vCenter Server。可以将主机作为独立主机添加,或者可以添加到任何群集。

vSphere HA 代理处于“主机出现故障”状况

主机上的 vSphere HA 代理处于“主机出现故障”状况。需要用户干预来解决这种情况。

问题

通常,此类报告表示主机实际上已发生故障,但故障报告有时可能不正确。故障主机会降低群集的可用容量,如果出现错误报告,会阻止 vSphere HA 保护在该主机上运行的虚拟机。

原因

当 vCenter Server 连接到的 vSphere HA 首选主机无法与该主机以及用于该主机的检测信号数据存储进行通信

时,会报告此主机状况。如果伴随有网络故障,使数据存储无法访问主机的任何存储故障均会导致此情况。

解决方案

请检查是否存在所述的故障情况并解决发现的任何故障。

vSphere HA 代理处于“网络已分区”状况

主机上的 vSphere HA 代理处于“网络已分区”状况。可能需要用户干预来解决这种情况。

问题

尽管主机上运行的虚拟机继续由负责它们的首选主机监控,但 vSphere HA 在出现故障后重新启动虚拟机的能

力将受到影响。首先,每台首选主机都可以访问主机的子集,因此每台主机可用的故障切换容量降低。其次,发生故障后,vSphere HA 可能无法重新启动辅助虚拟机(请参见第 43 页,“主虚拟机保持在“需要辅助虚

拟机”状态”)。

原因

如果满足以下两个条件,则会将主机报告为已分区:

n vCenter Server 连接到的 vSphere HA 首选主机无法使用管理网络(或 Virtual SAN)与主机通信,但可

以使用已为其选择的检测信号数据存储来与该主机通信。

n 主机未隔离。

网络分区的出现有很多原因,包括 VLAN 标记错误、物理网卡或交换机发生故障、配置部分主机仅使用 IPv4而其他主机仅使用 IPv6 的群集,或者部分主机的管理网络在没有先使主机进入维护模式的情况下移至其他虚

拟交换机。

第 3 章 主机故障排除

VMware, Inc. 23

Page 24: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

解决阻止主机使用管理网络进行通信的网络连接问题。

vSphere HA 代理处于“网络已隔离”状况

主机上的 vSphere HA 代理处于“网络已隔离”状况。需要用户干预来解决这种情况。

问题

当主机处于“网络已隔离”状态时,需要考虑两个方面:已隔离的主机和具有首选角色的 vSphere HA 代理。

n 在已隔离的主机上,vSphere HA 代理将对正在运行的虚拟机应用已配置的隔离响应,确定它们是否应该

关机或关闭电源。检查主代理是否能够负责每个虚拟机之后(通过锁定虚拟机的主数据存储),vSphereHA 代理将执行此操作。如果不能,则代理将推迟对虚拟机应用隔离响应,并在短暂延迟之后重新检查数

据存储的状态。

n 如果 vSphere HA 主代理可以访问一个或多个数据存储,则在其变为独立状态并尝试重新启动已关闭电源

或关机的主机时将监控在主机上运行的虚拟机。

原因

如果满足以下两个条件,则主机处于网络隔离状态:

n 隔离地址已配置且主机无法 ping 这些地址。

n 主机上的 vSphere HA 代理无法访问其他群集主机上运行的任何代理。

注意 如果您的 vSphere HA 群集启用了 Virtual SAN,则当主机无法与群集中的其他 vSphere HA 代理通信且

无法访问配置的隔离地址时,该主机将被确定为隔离状态。尽管 vSphere HA 代理使用 Virtual SAN 网络进行

代理间通信,但默认的隔离地址仍为主机的网关。因此,在默认的配置中,对于声明处于隔离状态的主机,网络均会失败。

解决方案

解决阻止主机 Ping 其隔离地址并与其他主机通信的网络问题。

主机的 vSphere HA 配置超时

vSphere HA 群集的配置可能在添加到该群集的某些主机上出现超时情况。

问题

在包含大量主机和虚拟机的现有群集上启用 vSphere HA 时,某些主机上的 vSphere HA 设置可能出现故障。

原因

该故障是由于在主机上完成 vSphere HA 安装前出现超时所致。

解决方案

将 vCenter Server 高级选项 config.vpxd.das.electionWaitTimeSec 设置为值=240。进行该更改后,将不会出现

超时。

vSphere 故障排除

24 VMware, Inc.

Page 25: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

Auto Deploy 故障排除Auto Deploy 故障排除主题提供了通过 Auto Deploy 置备的主机未按预期工作情况下的解决方案。

在引导时出现 Auto Deploy TFTP 超时错误

当由 Auto Deploy 置备的主机进行引导时,会显示 TFTP 超时错误消息。消息的文本内容取决于 BIOS。

问题

当由 Auto Deploy 置备的主机进行引导时,会显示 TFTP 超时错误消息。消息的文本内容取决于 BIOS。

原因

TFTP 服务器已关闭或无法访问。

解决方案

u 请确保您的 TFTP 服务正在运行且可由您要尝试引导的主机访问。

Auto Deploy 主机在配置错误的情况下进行引导

主机在 ESXi 映像、主机配置文件或文件夹位置与规则中指定的不同的情况下进行引导。

问题

主机在 ESXi 映像配置文件或配置与规则指定的映像配置文件或配置不同的情况下进行引导。例如,您将规则

更改为分配其他映像配置文件,但主机仍使用旧的映像配置文件。

原因

将主机添加到 vCenter Server 系统后,由 vCenter Server 系统确定引导配置。vCenter Server 系统将映像配置

文件、主机配置文件或文件夹位置与主机关联。

解决方案

u 使用 Test-DeployRuleSetCompliance 和 Repair-DeployRuleSetCompliance PowerCLI cmdlet 重新评估规

则,并将正确的映像配置文件、主机配置文件或文件夹位置与主机关联。

主机未重定向至 Auto Deploy 服务器

在引导期间,您希望使用 Auto Deploy 置备的主机会加载 iPXE。该主机不会重定向至 Auto Deploy 服务器。

问题

在引导期间,您希望使用 Auto Deploy 置备的主机会加载 iPXE。该主机不会重定向至 Auto Deploy 服务器。

原因

TFTP ZIP 文件中包含的 tramp 文件中的 Auto Deploy 服务器的 IP 地址错误。

解决方案

u 请按照《vSphere 安装和设置》文档中的说明更正 tramp 文件中的 Auto Deploy 服务器的 IP 地址。

第 3 章 主机故障排除

VMware, Inc. 25

Page 26: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

将映像配置文件分配给 Auto Deploy 主机时的数据包警告消息

在运行分配了某个映像配置文件的 PowerCLI cmdlet 时(该映像配置文件不准备用于 Auto Deploy),将显示

一则警告消息。

问题

在编写或修改规则以将映像配置文件分配给一个或多个主机时,将出现以下错误:

警告:映像配置文件 <name-here> 包含一个或多个无状态未就绪的软件包。在结合使用此配置文件和 Auto Deploy 时可

能会出现问题。

原因

映像配置文件中的每个 VIB 均有一个 stateless-ready 标志,用于指示 VIB 是否可以与 Auto Deploy 配合使

用。如果尝试编写使用映像配置文件的 Auto Deploy 规则(该映像配置文件中一个或多个 VIB 已将该标志设置

为 FALSE),则会显示错误。

注意 您可以使用通过 Auto Deploy 置备且包含无状态未就绪的 VIB 的主机,而不会出现任何问题。但是,使

用包含无状态未就绪的 VIB 的映像配置文件进行引导将被视为全新安装。每次引导主机时,所有配置数据都将

丢失,而这些数据在使用 Auto Deploy 置备的主机重新引导期间是可用的。

解决方案

1 使用 Image Builder PowerCLI cmdlet 查看映像配置文件中的 VIB。

2 移除所有无状态未就绪的 VIB。

3 重新运行 Auto Deploy PowerCLI cmdlet。

具有内置 USB 闪存驱动器的 Auto Deploy 主机不向本地磁盘发送 Coredump如果 Auto Deploy 主机具有内置 USB 闪存驱动器,且有错误导致 coredump,则 coredump 会丢失。将系统

设置为使用 ESXi Dump Collector 将 coredump 存储在联网的主机上。

问题

如果 Auto Deploy 主机具有内置 USB 闪存,并遇到导致出现 coredump 的错误,则不会向本地磁盘发送

coredump。

解决方案

1 在您选择的系统上安装 ESXi Dump Collector。

ESXi Dump Collector 随 vCenter Server 安装程序提供。

2 使用 ESXCLI 将主机配置为使用 ESXi Dump Collector。

esxcli conn_options system coredump network set IP-addr,port

esxcli system coredump network set -e true

3 使用 ESXCLI 禁用本地 coredump 分区。

esxcli conn_options system coredump partition set -e false

vSphere 故障排除

26 VMware, Inc.

Page 27: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

Auto Deploy 主机在五分钟后重新引导

Auto Deploy 主机进行引导并显示 iPXE 信息,但在五分钟后会进行重新引导。

问题

要使用 Auto Deploy 置备的主机从 iPXE 进行引导并在控制台上显示 iPXE 信息。但是,此主机五分钟后会在

控制台上显示以下消息,并进行重新引导。

This host is attempting to network-boot using VMware

AutoDeploy.However, there is no ESXi image associated with this host.

Details:No rules containing an Image Profile match this

host.You can create a rule with the New-DeployRule PowerCLI cmdlet

and add it to the rule set with Add-DeployRule or Set-DeployRuleSet.

The rule should have a pattern that matches one or more of the attributes

listed below.

主机还可能显示以下详细信息:

Details:This host has been added to VC, but no Image Profile

is associated with it.You can use Apply-ESXImageProfile in the

PowerCLI to associate an Image Profile with this host.

Alternatively, you can reevaluate the rules for this host with the

Test-DeployRuleSetCompliance and Repair-DeployRuleSetCompliance cmdlets.

控制台随后显示主机的计算机属性,其中包括供应商、序列号、IP 地址等。

原因

当前没有映像配置文件与该主机关联。

解决方案

可以通过运行 Apply-EsxImageProfile cmdlet 暂时将映像配置文件分配给主机。

可以按照如下方式将映像配置文件永久分配给主机。

1 运行 New-DeployRule cmdlet 创建一个包含将主机与映像配置文件匹配的模式的规则。

2 运行 Add-DeployRule cmdlet 将规则添加到规则集。

3 运行 Test-DeployRuleSetCompliance cmdlet,并将此 cmdlet 的输出用作 Repair-DeployRuleSetCompliancecmdlet 的输入。

Auto Deploy 主机无法与 TFTP 服务器联系

使用 Auto Deploy 置备的主机无法与 TFTP 服务器联系。

问题

尝试引导使用 Auto Deploy 置备的主机时,该主机会执行网络引导并由 DHCP 服务器向其分配 DHCP 地址,

但该主机无法与 TFTP 服务器进行联系。

原因

TFTP 服务器可能已停止运行,或防火墙可能会阻止 TFTP 端口。

第 3 章 主机故障排除

VMware, Inc. 27

Page 28: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

n 如果已安装 WinAgents TFTP 服务器,请打开 WinAgents TFTP 管理控制台并验证服务是否正在运行。如

果正在运行服务,请检查 Windows 防火墙的入站规则以确保未阻止 TFTP 端口。暂时关闭防火墙以检查

防火墙是否有问题。

n 对于其他所有 TFTP 服务器,请参见服务器文档中的调试过程。

Auto Deploy 主机无法从 Auto Deploy 服务器检索 ESXi 映像

使用 Auto Deploy 置备的主机在 iPXE 引导屏幕上停止。

问题

尝试引导使用 Auto Deploy 置备的主机时,引导过程在 iPXE 引导屏幕上停止,并且状态消息指示主机正在尝

试从 Auto Deploy 服务器获取 ESXi 映像。

原因

Auto Deploy 服务可能会停止或 Auto Deploy 服务器可能无法访问。

解决方案

1 登录到已安装了 Auto Deploy 服务器的系统。

2 检查 Auto Deploy 服务器是否正在运行。

a 单击开始 > 设置 > 控制面板 > 管理工具。

b 双击服务打开“服务管理”面板。

c 在“服务”字段中,请查找 VMware vSphere Auto Deploy Waiter 服务,如果该服务未在运行,请重

新启动它。

3 打开 Web 浏览器,然后输入以下 URL 并检查是否可以访问 Auto Deploy 服务器。

https://Auto Deploy 服务器 IP 地址:Auto Deploy 服务器端口/vmw/rdb

注意 仅使用此地址检查是否可以访问该服务器。

4 如果无法访问该服务器,则可能会出现防火墙问题。

a 尝试设置 Auto Deploy 服务器端口的可允许 TCP 入站规则。

端口一直为 6501,除非在安装期间指定了其他端口。

b 如果上述方法不奏效,请暂时禁用防火墙,然后在验证该防火墙是否阻止了流量之后再启用它。不要在生产环境中禁用防火墙。

要禁用防火墙,请运行 netsh firewall set opmode disable。要启用防火墙,请运行

netsh firewall set opmode enable。

Auto Deploy 主机无法获取 DHCP 分配的地址

使用 Auto Deploy 置备的主机无法获取 DHCP 地址。

问题

尝试引导使用 Auto Deploy 置备的主机时,该主机会执行网络引导,但不会分配有 DHCP 地址。Auto Deploy服务器无法使用映像配置文件置备主机。

原因

DHCP 服务或防火墙设置可能出现问题。

vSphere 故障排除

28 VMware, Inc.

Page 29: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

1 检查将 DHCP 服务器设置为置备主机的 Windows 系统上是否正在运行 DHCP 服务器服务。

a 单击开始 > 设置 > 控制面板 > 管理工具。

b 双击服务打开“服务管理”面板。

c 在“服务”字段中,请查找 DHCP 服务器服务,如果该服务未运行,请重新启动它。

2 如果 DHCP 服务器正在运行,请重新检查为目标主机配置的 DHCP 范围和 DHCP 预留。

如果 DHCP 范围和预留已正确配置,则问题 有可能与防火墙有关。

3 暂时的解决办法是,关闭防火墙以确定能否解决该问题。

a 通过单击开始 > 程序 > 附件 > 命令提示符来打开命令提示符。

b 键入以下命令以暂时关闭防火墙。不要在生产环境中关闭防火墙。

netsh firewall set opmode disable

c 尝试使用 Auto Deploy 置备主机。

d 键入以下命令以再次打开防火墙。

netsh firewall set opmode enable

4 设置规则以允许 DHCP 网络流量到达目标主机。

有关详细信息,请参见 DHCP 和正在运行 DHCP 服务器的 Windows 系统的防火墙文档。

Auto Deploy 主机不会进行网络引导

使用 Auto Deploy 置备的主机会启动,但不会进行网络引导。

问题

尝试引导使用 Auto Deploy 置备的主机时,该主机不会启动网络引导过程。

原因

您尚未启用主机进行网络引导。

解决方案

1 重新引导主机,然后按照屏幕说明访问 BIOS 配置。

如果有 EFI 主机,必须将 EFI 系统切换到 BIOS 兼容模式。

2 在 BIOS 配置中,启用“引导设备”配置中的“网络引导”。

身份验证标记操作错误创建不满足主机的身份验证要求的密码会导致出错。

问题

在主机上创建密码时,会显示以下故障消息:出现了常规系统错误: 密码:身份验证标记操作错误。

其中包括以下消息:无法设置密码。您的密码可能不符合系统设置的复杂性标准。

原因

主机将使用默认身份验证插件 pam_passwdqc.so 来检查密码合规性。如果密码不合规,将显示以下错误。

第 3 章 主机故障排除

VMware, Inc. 29

Page 30: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

在创建密码时,应包含以下四类字符的组合:小写字母、大写字母、数字和特殊字符(如下划线或短划线)。

用户密码必须满足以下长度要求。

n 包含一类或两类字符的密码的长度必须至少为八个字符。

n 包含三类字符的密码的长度必须至少为七个字符。

n 包含全部四类字符的密码的长度必须至少为六个字符。

注意 密码开头的大写字母不算入使用的字符类别数。密码结尾的数字不算入使用的字符类别数。

还可以使用至少包含三个单词且每个单词有 8 到 40 个字符的密码短语。

有关详细信息,请参见 vSphere 安全性文档。

活动目录规则集错误导致主机配置文件合规性故障应用了用于指定要加入的 Active Directory 域的主机配置文件之后,会导致合规性故障。

问题

应用了用于指定要加入的 Active Directory 域的主机配置文件,但未在防火墙配置中启用 activeDirectoryAll规则集时,会出现合规性故障。vSphere Web Client 显示错误消息与主机配置文件不合规:规则集

activedirectoryAll 不符合规范。当应用主机配置文件以退出 Active Directory 域,但未在主机配置文件中禁

用 activeDirectoryAll 规则集时,也会出现合规性故障。

原因

Active Directory 需要 activeDirectoryAll 防火墙规则集。必须在防火墙配置中启用该规则集。如果忽略此设

置,系统会在主机加入域时添加必需的防火墙规则,但主机会由于防火墙规则不匹配而不合规。如果将主机从域中移除但未禁用 Active Directory 规则集,该主机也将不合规。

解决方案

1 浏览到 vSphere Web Client 中的主机配置文件。

要查找主机配置文件,请在 vSphere Web Client 主页上单击策略和配置文件 > 主机配置文件。

2 右键单击主机配置文件,然后选择编辑设置。

3 单击下一步。

4 选择安全和服务 > 防火墙配置 > 防火墙配置 > 规则集配置 > activeDirectoryAll。

5 在右侧面板中,选中指示是否应启用规则集的标记复选框。

如果主机要退出域,则取消选中该复选框。

6 单击下一步,然后单击完成以完成主机配置文件的更改。

使用 vCenter Server 反向代理时无法下载 VIB如果 vCenter Server 反向代理使用自定义端口,则无法下载 VIB。

问题

如果将 vCenter Server 反向代理配置为使用自定义端口,则 VIB 下载将失败。

原因

如果 vCenter Server 反向代理使用自定义端口,则不会在 ESXi 防火墙中自动启用自定义端口,并且 VIB 下载

将失败。

vSphere 故障排除

30 VMware, Inc.

Page 31: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

1 打开与主机的 SSH 连接并以 root 用户身份登录。

2 (可选) 列出现有防火墙规则。

esxcli network firewall ruleset list

3 (可选) 备份 /etc/vmware/firewall/service.xml 文件。

cp /etc/vmware/firewall/service.xml /etc/vmware/firewall/service.xml.bak

4 编辑 service.xml 文件的访问权限,以通过运行 chmod 命令允许写入。

n 要允许写入,请运行 chmod 644/etc/vmware/firewall/service.xml。

n 要切换粘滞位标志,请运行 chmod +t /etc/vmware/firewall/service.xml。

5 在文本编辑器中打开 service.xml 文件。

6 向 service.xml 文件添加一条新规则,以启用 vCenter Server 反向代理的自定义端口。

<service id='id_value'>

<id>vcenterrhttpproxy</id>

<rule id='0000'>

<direction>outbound</direction>

<protocol>tcp</protocol>

<port type='dst'>custom_reverse_proxy_port</port>

</rule>

<enabled>true</enabled>

<required>false</required>

</service>

其中 id_value 必须是唯一值,例如,如果 service.xml 文件中 后列出的服务包含 ID 0040,则必须输入

ID 编号 0041。

7 将 service.xml 文件的访问权限恢复为默认的只读设置。

chmod 444 /etc/vmware/firewall/service.xml

8 刷新防火墙规则,以使更改生效。

esxcli network firewall refresh

9 (可选) 列出更新的规则集,以确认更改。

esxcli network firewall ruleset list

10 (可选) 如果希望防火墙配置在重新引导 ESXi 主机后永久有效,请将 service.xml 复制到永久存储上,

并修改 local.sh 文件。

a 将修改后的 service.xml 文件复制到永久存储上(例如 /store/),或复制到 VMFS 卷上(例

如 /vmfs/volumes/volume/)。

cp /etc/vmware/firewall/service.xml location_of_xml_file

可以将 VMFS 卷存储在单个位置,并将其复制到多个主机。

b 将 service.xml 文件信息添加到主机上的 local.sh 文件中。

cp location_of_xml_file /etc/vmware/firewall

esxcli network firewall refresh

其中 location_of_xml_file 是文件复制到的位置。

第 3 章 主机故障排除

VMware, Inc. 31

Page 32: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

32 VMware, Inc.

Page 33: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vCenter Server 和 vSphere Web Client故障排除 4

vCenter Server 和 vSphere Web Client 故障排除主题针对您设置和配置 vCenter Server 以及 vSphere Web Client(包括 vCenter Single Sign-On)时可能遇到的问题提供了解决方案。

本章讨论了以下主题:

n 第 33 页,“vCenter Server 故障排除”

n 第 34 页,“vSphere Web Client 故障排除”

n 第 36 页,“vCenter Server 和 ESXi 主机证书故障排除”

n 第 37 页,“排除 vCenter Server 插件故障”

vCenter Server 故障排除这些故障排除主题针对您在 Windows 操作系统上安装 vCenter Server 或在 Linux 系统上部署 vCenter ServerAppliance 可能遇到的问题提供了解决方案。

无法停止 Tomcat 服务时 vCenter Server 升级失败

安装程序无法停止 Tomcat 服务时,vCenter Server 升级可能会失败。

问题

如果升级期间 vCenter Server 安装程序无法停止 Tomcat 服务,则升级会失败,并显示类似无法删除 VC Tomcat

服务 (Unable to delete VC Tomcat service) 的错误消息。如果 Tomcat 进程使用的某些文件被锁定,则即使

在升级之前手动停止 Tomcat 服务,仍可能会出现此问题。

解决方案

1 从 Windows 开始菜单中,选择设置 > 控制面板 > 管理工具 > 服务。

2 右键单击 VMware VirtualCenter Server 并选择手动。

3 右键单击 VMware vCenter Management Webservices 并选择手动。

4 升级之前重新引导 vCenter Server 计算机。

这会释放 Tomcat 进程使用的任何已锁定文件,并使 vCenter Server 安装程序停止 Tomcat 服务以进行升级。

另外,可以重新启动 vCenter Server 计算机并重新启动升级过程,并选择不覆盖 vCenter Server 数据的选项。

VMware, Inc. 33

Page 34: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

将 Microsoft SQL 数据库设置为不受支持的兼容模式会导致 vCenter Server 安装或升级失败

当数据库设置为不支持的版本的兼容性模式时,使用 Microsoft SQL 数据库的 vCenter Server 安装会失败。

问题

将显示以下错误消息:输入的数据库用户没有使用选定数据库安装和配置 vCenter Server 所需的必要权限。(The DB

User entered does not have the required permissions needed to install and configure vCenter Server

with the selected DB.)请更正以下错误: (Please correct the following error(s):)%s

原因

数据库版本必须是 vCenter Server 支持的版本。对于 SQL,即使数据库是受支持的版本,但如果将其设置为以

不支持的版本的兼容性模式运行,仍会发生此错误。例如,如果将 SQL 2008 设置为以 SQL 2000 兼容性模式运

行,就会发生此错误。

解决方案

u 请确保 vCenter Server 数据库是受支持的版本,并且没有设置为以不支持的版本的兼容性模式运行。请参

见 http://partnerweb.vmware.com/comp_guide2/sim/interop_matrix.php? 上的 VMware 产品互操作性列

表。

vSphere Web Client 故障排除vSphere Web Client 主题针对您使用 vSphere Web Client 管理 vSphere 组件(包括 vCenter Single Sign-On 和vCenter Server)时可能遇到的潜在问题提供了解决方案。

vCenter Server 系统未显示在 vSphere Web Client 清单中

vSphere Web Client 不显示您希望在清单中查看的 vCenter Server 系统。

问题

登录到 vSphere Web Client 时,清单会显示为空或您希望查看的 vCenter Server 系统并不显示。

原因

在 vSphere 5.1 之前的 vSphere 版本中,通过 vSphere Client 登录到各个 vCenter Server 系统。除非在链接模

式下工作,否则清单中仅显示 vCenter Server 的一个实例。

在 vSphere 5.1 和 5.5 中,登录到 vSphere Web Client 以查看和管理 vCenter Server 的多个实例。如果将服务

器注册到与 vSphere Web Client 相同的 Component Manager,则您拥有其权限的任何 vCenter Server 系统都

会显示在清单中。

解决方案

n 以具有 vCenter Server 系统权限的用户身份登录到 vSphere Web Client。

如果您不拥有 vCenter Server 系统的权限,则其不会显示在清单中。例如,如果您以 vCenter Single SignOn 管理员用户身份登录,则可能没有任何 vCenter Server 系统的权限。

n 验证是否将 vCenter Server 系统注册到与 vSphere Web Client 相同的 Component Manager。

vSphere Web Client 仅会发现注册到相同 Lookup Service 的 vCenter Server 系统。

vSphere 故障排除

34 VMware, Inc.

Page 35: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

无法启动虚拟机控制台

尝试从 vSphere Web Client 打开虚拟机控制台时,控制台无法打开。

问题

尝试从 vSphere Web Client 打开虚拟机控制台时,控制台无法打开。将显示以下错误消息:

HTTP 错误 404 (HTTP ERROR 404)

访问 / 时出现问题。原因: (Problem accessin /. Reason:)

未找到 (Not Found)

virgo-server.log 文件中会出现类似以下内容的错误:

[2012-10-03 18:34:19.170] [ERROR] Thread-40

System.err

2012-10-03

18:34:19.167:WARN:oejuc.AbstractLifeCycle:FAILED

org.eclipse.jetty.server.Server@315b0333:java.net.BindException:Address already in use

[2012-10-03 18:34:19.170] [ERROR] Thread-40 System.err java.net.BindException:Address already in

use

原因

有其他程序或进程在使用端口 9443,而该端口是供 HTML5 虚拟机控制台使用的默认端口。

解决方案

u 编辑 webclient.properties 文件添加以下行 html.console.port=port,其中 port 是新的端口号。

webclient.properties 文件位于以下位置之一,具体取决于安装 vSphere Web Client 的计算机的操作系统:

Windows 2008 C:\ProgramData\VMware\vCenterServer\cfg\vsphere-client\

vCenter Server Appliance /var/lib/vmware/vsphere-client/

无法查看数据中心的“警报定义”选项卡

您可能无法在 vSphere Web Client 中查看数据中心对象的警报定义。

问题

单击数据中心的管理选项卡上的警报定义选项卡时,会通过半透明覆盖将该选项卡灰显,且不显示任何错误消息。

原因

无法查看警报定义可能是由于内存不足引起的。如果 vCenter Server 端出现问题,则会显示错误消息,但是如

果客户机上的 Adobe Flash Player 可用内存不足,则不会显示错误通知对话框。

解决方案

u 确认您的 vCenter Server 和 vSphere Web Client 实例不存在系统资源不足问题。

有关硬件要求,请参见 vSphere 安装和设置。

第 4 章 vCenter Server 和 vSphere Web Client 故障排除

VMware, Inc. 35

Page 36: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vCenter Server 和 ESXi 主机证书故障排除安装 vCenter Server 时会自动生成证书。这些默认证书不是由商业证书颁发机构 (CA) 签署的,可能不提供加

强安全性。可以将默认的 vCenter Server 证书替换为由商业 CA 签署的证书。当替换 vCenter Server 和 ESXi证书时,您可能会遇到错误。

vCenter Server 无法连接到数据存储

替换默认的 vCenter Server 证书后,可能无法连接到 vCenter Server 数据库。

问题

替换默认的 vCenter Server 证书后,vCenter Server 无法连接到 vCenter Server 数据库,并且管理 Web 服务

不会启动。

原因

数据库密码必须以加密的格式进行更新。

解决方案

通过运行以下命令更新数据库密码:vpxd -P pwd。

vCenter Server 无法连接到受管主机

替换默认的 vCenter Server 证书并重新启动系统后,vCenter Server 可能无法连接到受管主机。

问题

在服务器证书被替换且系统重新启动后,vCenter Server 无法连接到受管主机。

解决方案

以 root 用户身份登录主机并将主机重新连接到 vCenter Server。

似乎不加载新的 vCenter Server 证书

替换默认的 vCenter Server 证书后,似乎不会加载新的证书。

问题

安装新的 vCenter Server 证书后,可能看不到新证书。

原因

现有的指向 vCenter Server 的打开连接不会被强制关闭,可能仍会使用旧的证书。

解决方案

要强制所有连接使用新的证书,请使用以下方法之一。

n 重新启动服务器上的网络堆栈或网络接口。

n 重新启动 vCenter Server 服务。

vSphere 故障排除

36 VMware, Inc.

Page 37: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

使用自定义 SSL 证书时无法配置 vSphere HA在安装自定义 SSL 证书之后,尝试启用 vSphere High Availability (HA) 将失败。

问题

在已安装自定义 SSL 证书的主机上尝试启用 vSphere HA 时,将显示以下错误消息:无法在该主机上配置 vSphere

HA,因为尚未验证其 SSL 指纹。

原因

在将主机添加到 vCenter Server 中,并且 vCenter Server 已信任该主机的 SSL 证书时,

VPX_HOST.EXPECTED_SSL_THUMBPRINT 不会在 vCenter Server 数据库中进行填充。而 vSphere HA 将从数据库的

该字段中获取该主机的 SSL 指纹。如果没有指纹,则无法启用 vSphere HA。

解决方案

1 在 vSphere Web Client 中,断开已安装自定义 SSL 证书的主机的连接。

2 将主机重新连接到 vCenter Server。

3 接受主机的 SSL 证书。

4 启用主机上的 vSphere HA。

排除 vCenter Server 插件故障对于 vCenter Server 插件未正常运行的情况,有多种方法可更正问题。

在 Tomcat 服务器上运行的 vCenter Server 插件拥有一些 extension.xml 文件,其中包含可访问相应的 Web 应用程序的 URL。这些文件位于 C:\Program Files\VMware\Infrastructure\VirtualCenter Server\extensions中。扩展安装程序使用计算机的 DNS 名称填充这些 XML 文件。

来自统计信息 extension.xml 文件的示例:<url>https://SPULOV-XP-VM12.vmware.com:

8443/statsreport/vicr.do</url>。

vCenter Server,插件服务器,而且使用它们的客户端必须位于同一域下的系统中。如果它们不在同一域下,

或插件服务器的 DNS 发生了更改,则插件客户端将无法访问 URL,且插件将不能正常工作。

通过使用 IP 地址替换 DNS 名称,可以手动编辑 XML 文件。在编辑插件的 extension.xml 文件后,重新注册

该插件。

第 4 章 vCenter Server 和 vSphere Web Client 故障排除

VMware, Inc. 37

Page 38: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

38 VMware, Inc.

Page 39: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

可用性故障排除 5可用性故障排除主题将针对您在 vSphere HA 群集中使用主机和数据存储时可能遇到的问题提供解决方案。

尝试使用 vSphere HA 或 vSphere FT 时可能会收到一条错误消息。有关这些错误消息的信息,请参见 VMware知识库文章,网址为 http://kb.vmware.com/kb/1033634。

本章讨论了以下主题:

n 第 39 页,“vSphere HA 接入控制故障排除”

n 第 41 页,“检测信号数据存储故障排除”

n 第 42 页,“排除 vSphere HA 故障响应故障”

n 第 43 页,“排除网络分区中的 vSphere Fault Tolerance 故障”

n 第 44 页,“排除虚拟机组件保护故障”

vSphere HA 接入控制故障排除vCenter Server 使用接入控制确保在主机出现故障时 vSphere HA 群集中预留足够的资源用于虚拟机恢复。

如果 vSphere HA 接入控制运行不正常,则无法确保群集中的所有虚拟机在主机出现故障后能够重新启动。

由于故障切换资源不足而造成的红色群集

使用“群集允许的主机故障数目”接入控制策略后,由于故障切换资源不足,vSphere HA 群集可能会变为无

效(红色)。

问题

如果选择“群集允许的主机故障数目”接入控制策略且出现某些问题,该群集会变为红色。

原因

当群集中的主机断开连接、处于维护模式、无响应或存在 vSphere HA 错误时,可能会出现此问题。若主机处

于断开连接状态或处于维护模式下,则通常是由用户操作导致的。若主机无响应或存在错误,则通常是由更为严重的问题引起的,例如,主机或代理出现故障或存在网络问题。

此问题的另一个可能原因是群集中包含的某些虚拟机比其他虚拟机具有更大的内存或 CPU 预留。“群集允许

的主机故障数目”接入控制策略基于对插槽大小(由虚拟机的 CPU 和内存预留两部分组成)的计算。如果对

插槽大小的计算由于离群虚拟机而发生偏离,则接入控制策略可能会变得过于严格并导致出现红色群集。在这种情况下,可以使用 vSphere HA 高级选项来减小插槽大小,使用不同的接入控制策略或修改策略以允许较少

的主机故障。

VMware, Inc. 39

Page 40: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

检查群集中的所有主机是否都处于正常状态,即是否处于连接状态(而不是处于维护模式)且没有 vSphere HA错误。vSphere HA 接入控制仅考虑来自处于正常状态的主机的资源。

由于故障切换资源不足而无法打开虚拟机电源

当尝试打开 vSphere HA 群集中某个虚拟机的电源时,可能会出现故障切换资源不足 (not enough failover

resources)错误。

问题

如果选择“群集允许的主机故障数目”接入控制策略且出现某些问题,则可能由于资源不足而无法打开虚拟机电源。

原因

出现该问题可能存在多种原因。

n 群集中的主机已断开连接、处于维护模式、无响应或出现 vSphere HA 错误。

若主机处于断开连接状态或处于维护模式下,则通常是由用户操作导致的。若主机无响应或存在错误,则通常是由更为严重的问题引起的,例如,主机或代理出现故障或存在网络问题。

n 群集包含比其他虚拟机具有更大内存或 CPU 预留的虚拟机。

“群集允许的主机故障数目”接入控制策略基于对插槽大小(由虚拟机的 CPU 和内存预留两部分组成)

的计算。如果对插槽大小的计算由于离群虚拟机而发生偏离,则接入控制策略可能会变得过于严格并导致无法打开虚拟机电源。

n 群集中没有可用的插槽。

当群集中没有可用的插槽,或打开虚拟机电源导致插槽大小增加(因为该虚拟机的预留大于现有虚拟机的预留)时,会出现问题。无论是哪种情况,都应使用 vSphere HA 高级选项来减小插槽大小,使用不同的

接入控制策略或修改策略以允许较少的主机故障。

解决方案

在 vSphere Web Client 中,查看显示在群集监控选项卡的 vSphere HA 区域中的高级运行时信息窗格。该信息

窗格显示了插槽大小以及群集中的可用插槽数。如果插槽大小过大,请单击群集的资源分配选项卡,根据预留对虚拟机进行排序以确定哪个虚拟机具有 大的 CPU 和内存预留。如果存在比其他虚拟机具有更大预留的离

群虚拟机,请考虑使用其他 vSphere HA 接入控制策略(如“预留的群集资源的百分比”接入控制策略)或使

用 vSphere HA 高级选项设置插槽大小的绝对上限。但这两个选项都增加了出现资源碎片的风险。

显示的可用插槽数少于所需数

“高级运行时信息”框显示的群集中可用插槽的数量可能少于所需数量。

问题

如果选择“群集允许的主机故障数目”接入控制策略,则查看在 vSphere Web Client 中群集的监控选项卡上的

vSphere HA 区域中显示的高级运行时信息窗格。此窗格会显示有关群集的信息,包括可用于打开群集中其他

虚拟机电源的插槽数量。在特定条件下,此数量可能小于所需数量。

原因

插槽大小是通过将 大预留与群集中所有已打开电源的虚拟机的内存开销相加而计算得来的。但是,vSphereHA 接入控制仅考虑主机上可用于虚拟机的资源。此数量小于主机上物理资源的总量,因为存在一些开销。

解决方案

减少虚拟机预留量(如果可能),使用 vSphere HA 高级选项来减少插槽大小,或使用其他接入控制策略。

vSphere 故障排除

40 VMware, Inc.

Page 41: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

检测信号数据存储故障排除当 vSphere HA 群集中的首选主机不再通过管理网络与从属主机进行通信时,首选主机会使用数据存储检测信

号来确定从属主机是否已失败或是否位于网络分区中。如果从属主机已停止数据存储检测信号,则认为该主机出现故障,并且其虚拟机已在别处重新启动。

vCenter Server 自动选择一组首选数据存储集用于检测信号。作出此选择的目的是 大限度地增加有权限访问

给定数据存储的主机数,并将所选数据存储由同一存储阵列或 NFS 服务器备份的可能性降至 低。在大多数情

况下,不应该更改此选择。要查看 vSphere HA 已选择使用的数据存储,可以在 vSphere Web Client 中,转至

群集的监控选项卡,然后选择“vSphere HA 和检测信号”。此处只有至少由两台主机挂载的数据存储可用。

注意 如果群集中的所有主机可访问的唯一共享存储为 Virtual SAN,则将不存在可用的信号检测数据存储。

未选择用户首选的数据存储

vCenter Server 可能不选择您指定用于 vSphere HA 存储检测信号的首选数据存储。

问题

可以指定存储检测信号的首选数据存储,vCenter Server 将基于该首选项确定要使用的 终数据存储集。但是,

vCenter Server 可能不选择指定的数据存储。

原因

该问题可能在以下情况下出现:

n 指定的数据存储数量大于需要的数量。vCenter Server 会从指定的用户首选项中选择 佳数量的所需数据

存储并忽略其他数据存储。

n 对于主机可访问性和存储备用冗余而言,指定的数据存储不是 佳的。更确切地说,如果数据存储仅能被群集中的一小部分主机访问,则可能不会选择此数据存储。并且,也不会选择与 vCenter Server 所选的数

据存储位于同一 LUN 或 NFS 服务器的数据存储。

n 指定的数据存储由于存储故障而无法访问,例如,存储阵列全部路径异常 (APD) 或永久设备丢失 (PDL)。

n 如果群集包含网络分区或者主机无法访问或被隔离,则主机继续使用现有检测信号数据存储,即使用户首选项发生变化。

解决方案

请确认群集中的所有主机均可以访问且 vSphere HA 代理正在运行。并确保群集中的大部分(如果不是全部)

主机均可访问指定的数据存储且数据存储位于不同的 LUN 或 NFS 服务器上。

卸载或移除数据存储失败

当尝试卸载或移除数据存储时,操作失败。

问题

如果数据存储中存在任何打开的文件,则卸载或移除数据存储的操作将会失败。对于这些用户操作,vSphereHA 代理将关闭其已打开的所有文件,如检测信号文件。如果 vCenter Server 无法访问代理或代理无法刷新挂

起的 I/O 以关闭这些文件,则会触发主机“{hostName}”上的 HA 代理无法静默数据存储“{dsName}”上的文件活动

(The HA agent on host '{hostName}' failed to quiesce file activity on datastore '{dsName})错误。

第 5 章 可用性故障排除

VMware, Inc. 41

Page 42: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

原因

如果要卸载或移除的数据存储用于检测信号,则 vCenter Server 会将其从检测信号中排除并选择一个新的数据

存储。但是,如果代理无法进行访问(即主机被隔离或位于网络分区中),则代理不会收到更新的检测信号数据存储。在这类情况下,检测信号文件不会关闭且用户操作失败。如果数据存储由于存储故障(如全部路径异常)而无法进行访问,则操作也会失败。

注意 当移除 VMFS 数据存储时,此数据存储会从清单中的所有主机中移除。因此,如果 vSphere HA 群集中

存在任何主机无法进行访问或无法访问数据存储,则操作会失败。

解决方案

请确保可以访问数据存储及受影响的主机。

排除 vSphere HA 故障响应故障vSphere HA 可以将虚拟机及其所驻留的主机集中在群集内,从而为虚拟机提供高可用性。群集中的主机均会

受到监控,如果发生故障,故障主机上的虚拟机将在备用主机上重新启动。

受影响的虚拟机可能无法启动的原因有多种,如果无法启动,您应进行故障排除以确定原因。

虚拟机保护状况不正确

尽管 vSphere HA 群集中的虚拟机打开电源已有几分钟,但仍被报告为不受 vSphere HA 保护。

问题

虚拟机打开电源几分钟后,其 vSphere HA 保护状况仍为不受保护,如果出现故障,vSphere HA 可能不会尝

试重新启动该虚拟机。

原因

负责虚拟机的 vSphere HA 首选主机将虚拟机在出现故障后必须重新启动的信息保存到磁盘后,vCenter Server会将该虚拟机报告为受保护。此过程可能会由于多种原因而失败。

n 尚未选择 vSphere HA 首选主机或 vCenter Server 无法与其通信。

在这种情况下,vCenter Server 将群集主机的 vSphere HA 主机状况报告为“代理无法访问”或“代理未

初始化”,并报告尚未发现首选主机的群集配置问题。

n 存在多台首选主机,且正在与 vCenter Server 通信的首选主机不负责该虚拟机。

下列情况会出现问题:vCenter Server 正在与某台首选主机联系,但由于管理网络分区,存在多台首选主

机,且正在与 vCenter Server 通信的代理不负责该虚拟机。如果 vCenter Server 将某些主机的 vSphereHA 状况报告为网络已分区,则可能会出现这种情况。

n 代理无法访问存储虚拟机配置文件的数据存储。

虽然 vCenter Server 可能在与拥有虚拟机的 vSphere HA 首选主机联系,但代理无法访问存储虚拟机配置

文件的数据存储。如果某种全部路径异常情况影响了群集中的所有主机,则会发生这种情况。

解决方案

1 确定 vCenter Server 是否在与 vSphere HA 首选主机联系,如果没有,则解决此问题。

2 如果 vCenter Server 正在与首选主机联系,请确定是否存在网络分区,如果存在,则解决此问题。

3 如果问题持续存在,请确定其配置文件位于同一数据存储的其他虚拟机是否也不受保护。

4 如果这些虚拟机不受保护,请验证 vSphere HA 首选主机是否可以访问数据存储。

5 如果上述步骤都不能解决问题,请在运行虚拟机的主机上通过重新配置 vSphere HA 来还原保护。

vSphere 故障排除

42 VMware, Inc.

Page 43: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

虚拟机重新启动失败

主机或虚拟机出现故障后,虚拟机可能不会重新启动。

问题

如果主机出现故障或虚拟机出现故障时其主机仍在运行,则虚拟机可能不会重新启动或仅在经过长时间延迟后重新启动。

原因

故障发生后,vSphere HA 可能不会重新启动虚拟机或者由于多种原因可能延迟重新启动。

n 故障发生时,虚拟机不受 vSphere HA 的保护

n 与虚拟机兼容的主机上的备用容量不足

n vSphere HA 尝试重新启动虚拟机但每次都遇到严重错误。

n 群集的共享存储为 Virtual SAN,并且由于出现了多于指定数目的主机故障而导致其中一个虚拟机文件不

可访问。

n 实际上已成功重新启动。

解决方案

为避免虚拟机重新启动失败,请检查虚拟机在打开电源后是否受 vSphere HA 的保护。另外,如果发生故障,

请确保接入控制设置与重新启动期望相匹配。将群集中的虚拟机与主机之间的兼容性 大化还可以降低重新启动失败的可能性。

注意 有关 vSphere HA 考虑是否重新启动虚拟机的因素信息,请参见《vSphere 可用性》中的“确定对主机

问题的响应”。

排除网络分区中的 vSphere Fault Tolerance 故障当 vSphere HA 群集遇到 vSphere 进行代理间通信所使用的网络(管理网络)出现故障时,该群集主机的子集

可能无法与其他群集主机进行通信。在这种情况下,这组可以互相通信的主机可以视为位于一个网络分区中。

出现故障后,群集分区会阻碍群集管理功能(如 vMotion),并影响 vSphere HA 监控及重新启动虚拟机的功

能。这种情况必须尽快进行更正。

网络分区也降低 vSphere Fault Tolerance 的功能。例如,在一个分区的群集中,主虚拟机(或其辅助虚拟机)

可能位于由不负责虚拟机的主要主机管理的分区中。如果必须重新启动辅助虚拟机,则仅当主虚拟机位于由负责虚拟机的主要主机管理的分区时,vSphere HA 才会重新启动辅助虚拟机。 后,必须更正网络分区,但在

可以更正之前,必须排除和更正容错虚拟机带来的任何问题,才能确保这些虚拟机受到正确的保护。

主虚拟机保持在“需要辅助虚拟机”状态

即使具有足够的资源可用于启动辅助虚拟机,容错主虚拟机也可以保持“需要辅助虚拟机”状态。

问题

即使具有足够的可用资源,vSphere HA 可能也不会重新启动 vSphere Fault Tolerance (FT) 虚拟机对的辅助虚

拟机。

原因

要重新启动辅助虚拟机,vSphere HA 要求运行主虚拟机的主机要与负责 FT 对的 vSphere HA 首选主机所在的

主机位于同一分区上。此外,主虚拟机的主机上的 vSphere HA 代理必须正常运行。如果已满足这些条件,FT还要求同一分区中至少有一个其他主机与 FT 对兼容,并且该主机中具有正常工作的 vSphere HA 代理。

第 5 章 可用性故障排除

VMware, Inc. 43

Page 44: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

为了解决这种情况,请检查由 vCenter Server 报告的 vSphere HA 主机状况。如果主机标识为已分区、已隔离

或无法访问,请先解决相应问题再继续。在某些情况下,通过重新配置主机(vCenter Server 将该主机报告为

首选主机)上的 vSphere HA,可以解决重新启动问题。但是,在大多数情况下,此步骤是不够的,必须解决

所有主机状况问题。

解决所有主机状况问题后,检查除主虚拟机的主机外群集中是否有其他主机与 FT 虚拟机对兼容。通过尝试将

主虚拟机迁移到其他主机可以确定兼容性。解决发现的所有不兼容性。

角色切换行为问题

vCenter Server 可能报告 vSphere Fault Tolerance 虚拟机对中的主虚拟机已关闭电源,但辅助虚拟机已打开电

源。

问题

发生故障切换后,vCenter Server 可能会错误地报告主虚拟机已关闭电源并已在其原始主机中注册,辅助虚拟

机已打开电源并已在其原始主机中注册。

原因

vCenter Server 无法与实际运行主虚拟机和辅助虚拟机的主机进行通信时会发生此错误。vCenter Server 将这

些主机报告为无响应,并且此问题将始终存在,直到 vCenter Server 能够与主机进行通信为止。

解决方案

要解决此问题,请解决阻止 vCenter Server 与群集中的主机进行通信这一网络问题。

排除虚拟机组件保护故障如果为 vSphere HA 群集启用虚拟机组件保护 (VMCP),则将为该群集提供保护,以免造成数据存储访问失败,

从而影响其中一个群集主机上运行的虚拟机。

如果配置 VMCP 来补救该故障却没有任何反应,则应该进行故障排除以确定原因。

本地数据存储中带有交换文件的虚拟机不受保护

如果虚拟机的交换文件位于本地数据存储中,VMCP 可能找不到虚拟机的兼容主机。

问题

如果虚拟机的交换文件配置为位于主机本地数据存储中(而非虚拟机的配置文件所在的默认目录中),则当虚拟机受“全部路径异常 (APD)”数据存储可访问性故障影响时,VMCP 可能不会在正常主机上重新启动虚拟机。

原因

VMCP 监控虚拟机所依赖的数据存储列表,包括虚拟机的配置文件、交换文件和磁盘所在的数据存储。在从属

数据存储上检测到 APD 故障时,VMCP 将首先确定是否存在另一个兼容主机,以及该主机的容量是否足以将

受影响的虚拟机故障切换到该主机。为确定此兼容性,VMCP 会考虑从属数据存储以及其他因素,例如 CPU和内存预留。如果找到合适的主机,VMCP 将在出现 APD 故障的主机上终止虚拟机。

但是,如果虚拟机的交换文件位于主机本地数据存储中,则可能不会在群集中的其他主机上配置此类数据存储。这样可防止 VMCP 找到要将虚拟机故障切换到的兼容主机,而虚拟机将继续在出现 APD 故障的主机上运行。

解决方案

u 将虚拟机交换文件保留在默认目录中,或者确保虚拟机交换文件所在的主机本地数据存储在一组主机之间共享。

vSphere 故障排除

44 VMware, Inc.

Page 45: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

虚拟机的数据存储无法访问问题未解决

数据存储无法访问时,VMCP 可能不会终止并重新启动受影响的虚拟机。

问题

出现“全部路径异常 (APD)”或“永久设备丢失 (PDL)”故障,并且数据存储无法访问时,VMCP 可能无法解

决受影响的虚拟机出现的问题。

原因

出现 APD 或 PDL 故障时,VMCP 可能不终止虚拟机,原因如下:

n 出现故障时虚拟机不受 vSphere HA 保护。

n 虚拟机已禁用 VMCP 模式。

而且,如果故障为 APD,VMCP 可能会因以下多种原因不终止虚拟机:

n 在终止虚拟机之前更正了 APD 故障。

n 与虚拟机兼容的主机上的容量不足

n 网络分区或隔离期间,受 APD 故障影响的主机无法查询首选主机的可用容量。在这种情况下,如果“虚

拟机组件保护”设置为激进设置,vSphere HA 将遵从用户策略并终止虚拟机。

n vSphere HA 仅在以下超时到期后终止受 APD 影响的虚拟机:

n APD 超时(默认为 140 秒)。

n APD 故障切换滞后(默认为 180 秒)。要快速恢复,可以将此超时设置为 0。

注意 根据上述默认值,vSphere HA 将在 320 秒(APD 超时 + APD 故障切换滞后)后终止虚拟机

解决方案

要解决此问题,请检查并调整以下任意一项内容:

n 容量不足,无法重新启动虚拟机

n 用户配置的超时和滞后

n 影响虚拟机终止的用户设置

n “虚拟机组件保护”策略

n 必须启用主机监控或虚拟机重新启动优先级

第 5 章 可用性故障排除

VMware, Inc. 45

Page 46: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

46 VMware, Inc.

Page 47: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

资源管理故障排除 6资源管理故障排除主题将针对您在 vSphere DRS 或 vSphere Storage DRS 群集中使用主机和数据存储时可能遇

到的问题提供解决方案。

本章讨论了以下主题:

n 第 47 页,“存储 DRS 故障排除”

n 第 52 页,“Storage I/O Control 故障排除”

存储 DRS 故障排除存储 DRS 故障排除主题为您在数据存储群集中使用启用了存储 DRS 的数据存储时可能遇到的潜在问题提供了

解决方案。

已在虚拟磁盘上禁用存储 DRS即使为某个数据存储群集启用了存储 DRS,也可能会在该数据存储群集中的某些虚拟磁盘上禁用存储 DRS。

问题

已为数据存储群集启用了存储 DRS,但数据存储群集中的一个或多个虚拟机磁盘上的存储 DRS 被禁用。

原因

以下情形可能导致在虚拟磁盘上禁用存储 DRS。

n 虚拟机的交换文件是主机-本地交换文件(存储在主机上的指定数据存储中)。无法重定位该交换文件,该

交换文件磁盘将禁用存储 DRS。

n 为虚拟机的 .vmx 交换文件指定了特定位置。无法重定位该交换文件,.vmx 交换文件磁盘上将禁用存储 DRS。

n 当前已对 vCenter Server 中的虚拟机禁用重定位或 Storage vMotion 操作(例如,因为虚拟机上正在执行

其他 vCenter Server 操作)。在 vCenter Server 中重新启用重定位或 Storage vMotion 操作之前将禁用存

储 DRS。

n 虚拟机的主磁盘受 vSphere HA 保护,重定位该磁盘将导致失去 vSphere HA 保护。

n 磁盘是 CD-ROM/ISO 文件。

n 如果该磁盘是独立磁盘,则除非进行重定位或克隆放置,否则将禁用存储 DRS。

n 如果虚拟机在独立于主数据存储的数据存储上具有系统文件(旧版),则主磁盘上将禁用存储 DRS。如果

使用 Storage vMotion 手动迁移主磁盘,不同数据存储上的系统文件都将位于目标数据存储上,主磁盘上

将启用存储 DRS。

VMware, Inc. 47

Page 48: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

n 如果虚拟机的某个磁盘将基础/重做文件分散在多个单独的数据存储上(旧版),则将禁用该磁盘的存储

DRS。如果使用 Storage vMotion 手动迁移磁盘,则不同数据存储上的文件都将位于目标数据存储上,且

将在磁盘上启用存储 DRS。

n 虚拟机中存在隐藏磁盘(例如,以前快照中的磁盘,而非当前快照中的磁盘)。这会导致在虚拟机上禁用存储 DRS。

n 虚拟机是一个模板。

n 虚拟机启用了 vSphere Fault Tolerance。

n 虚拟机正在其磁盘之间共享文件。

n 虚拟机对手动指定的数据存储启用存储 DRS。

解决方案

解决相应的导致磁盘上禁用存储 DRS 的有关问题。

数据存储无法进入维护模式

当您必须暂停使用数据存储以对其进行维护时,请将其置于维护模式。数据存储只会因用户请求而进入或离开维护模式。

问题

数据存储群集中的数据存储无法进入维护模式。“正在进入维护模式”状态保持为 1%。

原因

数据存储上的一个或多个磁盘无法通过 Storage vMotion 进行迁移。这种情况可能会出现在以下实例中。

n 已在磁盘上禁用 Storage DRS。

n Storage DRS 规则阻止 Storage DRS 为磁盘提出迁移建议。

解决方案

n 如果 Storage DRS 处于禁用状态,请将其启用或确定禁用的原因。有关 Storage DRS 可能被禁用的原因,

请参见第 47 页,“已在虚拟磁盘上禁用存储 DRS”。

n 如果 Storage DRS 规则阻止 Storage DRS 提出迁移建议,则可以移除或禁用这些特定规则。

a 在 vSphere Web Client 对象导航器中,浏览到数据存储群集。

b 依次单击管理选项卡和设置。

c 在“配置”下,选择规则,然后单击规则。

d 单击移除。

n 或者,如果 Storage DRS 规则阻止 Storage DRS 提出迁移建议,则可以将 Storage DRS 高级选项

IgnoreAffinityRulesForMaintenance 设置为 1。

a 在 vSphere Web Client 对象导航器中,浏览到数据存储群集。

b 依次单击管理选项卡和设置。

c 选择 SDRS,然后单击编辑。

d 在高级选项 > 配置参数中,单击添加。

e 在“选项”列中,输入 IgnoreAffinityRulesForMaintenance。

f 在“值”列中,输入 1 启用该选项。

g 单击确定。

vSphere 故障排除

48 VMware, Inc.

Page 49: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

Storage DRS 无法在数据存储上执行操作

Storage DRS 生成一个警报,表明其无法在数据存储上运行。

问题

Storage DRS 生成一个事件和一个警报,且 Storage DRS 无法运行。

原因

以下情形可能导致 vCenter Server 禁用数据存储的 Storage DRS。

n 在多个数据中心之间共享数据存储。

在多个数据中心之间共享的数据存储上不支持 Storage DRS。某个数据中心内的主机挂载另一数据中心内

的数据存储时,或将使用数据存储的主机移动到其他数据中心时,可能会出现此配置。当某个数据存储在多个数据中心之间进行共享时,将对整个数据存储群集禁用 Storage DRS I/O 负载平衡。不过,对于数据

存储群集中所有未在多个数据中心之间进行共享的数据存储而言,Storage DRS 空间平衡仍处于启用状态。

n 数据存储连接到不受支持的主机。

Storage DRS 在 ESX/ESXi 4.1 及更低版本的主机上不受支持。

n 数据存储连接到未运行 Storage I/O Control 的主机。

解决方案

n 数据存储必须只显示在一个数据中心内。将主机移动到同一数据中心内,或者从驻留在其他数据中心的主机上卸载数据存储。

n 确保与数据存储群集关联的所有主机都是 ESXi 5.0 或更高版本。

n 确保与数据存储群集关联的所有主机都已启用 Storage I/O Control。

将多个虚拟机移动到数据存储群集失败

第一台虚拟机成功移动到数据存储群集后,再将多个数据存储迁移到数据存储群集中将失败,并会显示一条错误消息。

问题

尝试将多个虚拟机迁移到数据存储群集时,有些虚拟机迁移成功,但迁移剩下的虚拟机将失败。vCenter Server会显示相应的错误消息:数据存储上磁盘空间不足 (Insufficient Disk Space on Datastore)。

原因

直至应用了每一放置建议,空间资源才能用于存储 DRS。因此,存储 DRS 可能会针对剩下的虚拟机的空间请

求重新分配空间资源。

解决方案

每次重试一次失败的迁移操作,并确保请求下一次迁移之前应用了每一建议

创建虚拟机过程中,存储 DRS 出错

在数据存储群集上创建或克隆虚拟机时,存储 DRS 可能会出错。

问题

尝试在数据存储群集上创建或克隆虚拟机时,可能会收到以下错误消息:当前状态下不允许此操作 (Operation

Not Allowed in the Current State)。

第 6 章 资源管理故障排除

VMware, Inc. 49

Page 50: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

原因

在启用了存储 DRS 的数据存储上创建虚拟机时,存储 DRS 会检查是否存在违反规则的情况。如果存储 DRS 无法创建符合规则的新虚拟机的磁盘,则将出错。出错的原因是存储 DRS 无法引用正在创建中的尚不存在的虚拟

机。

解决方案

修改或移除规则,然后重试创建或克隆虚拟机的操作。

在从 OVF 模板中部署的虚拟机上启用 Storage DRS在从已禁用 Storage DRS 的 OVF 模板中部署的虚拟机上启用了 Storage DRS。在数据存储群集中部署 OVF 模板时可能会出现这种情况。

问题

在数据存储群集中部署禁用了 Storage DRS 的 OVF 模板时,所生成的虚拟机已启用 Storage DRS。

原因

vSphere Web Client 会将数据存储群集的默认自动化级别应用到通过 OVF 模板部署的虚拟机。

解决方案

1 要手动更改虚拟机的自动化级别,请在 vSphere Web Client 对象导航器中浏览到数据存储群集。

2 单击管理选项卡,然后选择设置。

3 选择虚拟机替代项,然后单击添加。

4 选择虚拟机,然后单击确定。

5 从聚集 VMDK 下拉菜单中,选择否,然后单击确定。

多次显示存储 DRS 规则违反错误

尝试将数据存储置于维护模式时,“错误”对话框内可能会多次列出同一关联性或反关联性规则违反错误。

问题

“错误”对话框可能会显示相同错误的多个实例,但事实上,每个错误都针对不同的数据存储。“错误”对话框不列出数据存储的名称,这使得这些错误显得很多余。

解决方案

对于每个考虑进行放置的数据存储,“错误”对话框将始终显示一个单独的规则违反错误。如果希望数据存储进入维护模式,请移除阻止虚拟机进行迁移的规则。

未从数据存储群集中删除 Storage DRS 规则

从数据存储群集中移除虚拟机时,未删除应用到虚拟机的关联性或反关联性规则。

问题

从数据存储群集中移除虚拟机,且该虚拟机受数据存储群集中的某一关联性或反关联性规则约束时,将保留规则。这样便可将虚拟机配置存储在不同的数据存储群集中。如果虚拟机移回数据存储群集中,则将应用此规则。从数据存储群集中移除虚拟机后,无法删除此规则。

原因

如果 vCenter Server 清单中保留虚拟机,则 vCenter Server 将保留已从数据存储群集中移除的虚拟机的规则。

vSphere 故障排除

50 VMware, Inc.

Page 51: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

要从数据存储群集配置中移除规则,必须先删除规则,然后再从数据存储群集中移除规则所应用到的虚拟机。

1 在 vSphere Web Client 中,浏览到数据存储群集。

2 单击管理选项卡,然后选择设置。

3 在“配置”下,单击规则。

4 选择要删除的规则,然后单击移除。

5 单击确定。

备用存储 DRS 放置位置建议未生成

创建、克隆或重定位虚拟机时,存储 DRS 只生成一个放置位置建议。

问题

创建、克隆或重定位虚拟机时,存储 DRS 会生成一个放置位置建议。预计有多个备用建议时,将不提供任何备

用建议。

原因

如果目标主机明确指定虚拟机的交换文件位置作为目标数据存储群集中的数据存储,则要放置在该群集中的磁盘不会形成一个关联性组。存储 DRS 只为一个项目或关联性组生成备用放置位置建议。

解决方案

接受单个建议。要获得多个建议,请选择未指定虚拟机交换文件位置位于目标数据存储群集中的数据存储上的目标主机。

应用存储 DRS 建议失败

存储 DRS 生成空间或 I/O 负载平衡建议,但尝试应用建议失败。

问题

应用存储 DRS 的空间或 I/O 负载平衡建议时,操作失败。

原因

以下情况会阻止您应用存储 DRS 建议。

n 可能已为目标数据存储触发“已超出精简置备阈值”警报,此警报表明数据存储空间不足且将没有虚拟机迁移到此数据存储。

n 目标数据存储可能处于维护模式或正在进入维护模式。

解决方案

n 解决触发“已超出精简置备阈值”警报的问题。

n 确认目标数据存储未处于维护模式或未正在进入维护模式。

第 6 章 资源管理故障排除

VMware, Inc. 51

Page 52: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

Storage I/O Control 故障排除Storage I/O Control 故障排除主题为您将 Storage I/O Control 与数据存储配合使用时可能遇到的潜在问题提供

了解决方案。

连接到数据存储的主机不受支持

在 vSphere Web Client 中,如果 vCenter Server 检测到主机中的某个工作负载可能会影响到性能,则系统将触

发一条警报。

问题

此时将触发警报连接到已启用 SIOC 的数据存储的低于 4.1 的主机。

原因

数据存储启用了存储 I/O 控制,但由于外部工作负载而无法完全受存储 I/O 控制的控制。

如果启用了 Storage I/O Control 的数据存储连接到不支持 Storage I/O Control 的主机,则可能会出现这种情况。

解决方案

确保连接到数据存储的所有主机都支持 Storage I/O Control。

数据存储上检测到非受管工作负载

在 vSphere Web Client 中,如果 vCenter Server 检测到主机中的某个工作负载可能会影响到性能,则系统将触

发一条警报。

问题

此时将触发警报在数据存储上检测到非受管工作负载。

原因

阵列与非 vSphere 工作负载共享,或正在执行复制等系统任务。

解决方案

没有解决方案,vCenter Server 不会减少发送到阵列的 I/O 总量,但会继续强制实施共享。

无法查看数据存储的性能图表

数据存储的性能图表不显示在“性能”选项卡中。

问题

您无法在 vSphere Web Client 中的性能选项卡中查看数据存储的性能图表。

原因

数据存储的 Storage I/O Control 已禁用。

解决方案

1 在 vSphere Web Client 对象导航器中浏览到数据存储。

2 右键单击数据存储,然后选择配置 Storage I/O Control。

3 选中启用 Storage I/O Control 复选框。

4 单击确定。

vSphere 故障排除

52 VMware, Inc.

Page 53: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

无法在数据存储上启用 Storage I/O ControlStorage I/O Control 在数据存储上被禁用,且无法启用。

问题

无法在数据存储上启用 Storage I/O Control。

原因

以下原因可能会阻止您在数据存储上启用 Storage I/O Control。

n 至少有一台连接到数据存储的主机没有运行 ESX/ESXi 4.1 或更高版本。

n 您没有启用 Storage I/O Control 所需的相应许可证。

解决方案

n 确认连接到数据存储的主机运行 ESX/ESXi 4.1 或更高版本。

n 确认您具有启用 Storage I/O Control 所需的相应许可证。

第 6 章 资源管理故障排除

VMware, Inc. 53

Page 54: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

54 VMware, Inc.

Page 55: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

存储故障排除 7存储故障排除主题为您在不同的存储环境(包括 SAN、Virtual SAN 或虚拟卷)中使用 vSphere 时可能遇到的

潜在问题提供了解决方案。

本章讨论了以下主题:

n 第 55 页,“解决 SAN 存储器的显示问题”

n 第 57 页,“解决 SAN 性能问题”

n 第 60 页,“具有 RDM 的虚拟机需要忽略 SCSI INQUIRY 缓存”

n 第 61 页,“在不需要时启用软件 iSCSI 适配器”

n 第 61 页,“无法挂载 NFS 数据存储”

n 第 61 页,“VMkernel 日志文件包含 SCSI 感知代码”

n 第 62 页,“故障排除存储适配器”

n 第 63 页,“使用 VOMA 检查元数据一致性”

n 第 64 页,“对闪存设备进行故障排除”

n 第 67 页,“虚拟卷故障排除”

n 第 69 页,“VAIO 筛选器故障排除”

解决 SAN 存储器的显示问题使用 vSphere Web Client 显示光纤通道 SAN 或 iSCSI 存储设备时,您可能无法看到可供主机使用的所有设备。

您可以执行许多现有的故障排除任务以解决存储显示问题。

解决光纤通道存储器的显示问题

如果光纤通道存储设备未在 vSphere Web Client 中正确显示,请执行故障排除任务。

表 7‑1 排除光纤通道 LUN 显示故障

故障排除任务 描述

检查线缆连接。 如果看不到端口,问题可能在于线缆连接。请先检查线缆。请确保线缆已连接端口,且链路指示灯表示连接良好。如果线缆任意一端的链路指示灯未显示连接良好,请更换线缆。

检查区域分配。 区域分配限制对特定存储设备的访问,增加安全性,同时降低网络流量。有些存储器供应商仅允许单启动器区域。在这种情况下,一个 HBA 可处于仅面向一个目标的多个区域。另一些供应商允许多启动器区域。请参见存储器供应商的文档了解区域分配要求。使用 SAN交换机软件配置和管理区域分配。

VMware, Inc. 55

Page 56: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

表 7‑1 排除光纤通道 LUN 显示故障 (续)

故障排除任务 描述

检查访问控制配置。 n 使用 MASK_PATH 插件,可以阻止主机访问特定存储阵列或存储阵列上的特定 LUN。如果主机正在检测您不希望该主机访问的设备和路径,则路径屏蔽可能设置错误。

n 要从 SAN 引导,请确保每台主机只会看到所需的 LUN。不要让任何主机看到不归其所有的任何引导 LUN。使用存储系统软件确保主机只能看到应对其可见的 LUN。

n 确保通过 Disk.MaxLUN 参数可查看预期为可见的 LUN。有关参数的信息,请参见vSphere 存储文档。

检查存储处理器设置。 如果磁盘阵列有多个存储处理器 (SP),请确保 SAN 交换机连接了要访问的 LUN 所属的SP。在某些磁盘阵列上,仅有一个 SP 为主动,另一 SP 在发生故障前是被动的。如果连接错误的 SP(对应被动路径的 SP),则您可能看到了 LUN,但在尝试进行访问时出错。

重新扫描 HBA。 在每次完成以下任务时,执行重新扫描:

n 在 SAN 上创建新 LUN。

n 更改主机上的路径屏蔽配置。

n 重新连接线缆。

n 对群集中的主机进行更改。

有关信息,请参见 vSphere 存储文档。

解决 iSCSI 存储器的显示问题

如果 iSCSI 存储设备未在 vSphere Web Client 中正确显示,请执行故障排除任务。

表 7‑2 排除 iSCSI LUN 显示故障

故障排除任务 描述

检查线缆连接。 如果看不到端口,问题可能在于线缆连接或路由。请先检查线缆。请确保线缆已连接端口,且链路指示灯表示连接良好。如果线缆任意一端的链路指示灯未显示连接良好,请更换线缆。

检查路由设置。 控制以太网配置上的不同子网间的连接。如果 ESXi 系统和 iSCSI 存储器不在同一个子网上,请确保这些子网间存在适当路由。此外,还需确保在 iSCSI 存储器和 ESXi 主机中的iSCSI 启动器上设置了正确的子网掩码和网关地址。

检查访问控制配置。 如果重新扫描后未显示预期的 LUN,则存储系统端可能未正确配置访问控制:

n 如果配置了 CHAP,请确保 ESXi 主机上也已启用 CHAP,并与存储系统设置相匹配。

n 如果使用基于 IP 的筛选,请确保允许 iSCSI HBA 或 VMkernel 端口组 IP 地址。

n 如果使用基于启动器名称的筛选,请确保该名称是符合要求的 iSCSI 名称,并与存储系统设置相匹配。

n 要从 SAN 引导,请确保每台主机只会看到所需的 LUN。不要让任何主机看到不归其所有的任何引导 LUN。使用存储系统软件确保主机只能看到应对其可见的 LUN。

n 确保通过 Disk.MaxLUN 设置可查看预期为可见的 LUN。有关信息,请参见 vSphere存储文档。

检查存储处理器设置。 如果存储系统有多个存储处理器,请确保 SAN 交换机连接了要访问的 LUN 所属的 SP。在某些存储系统上,仅有一个 SP 为主动,而另一 SP 在发生故障之前是被动的。如果连接错误的 SP(对应被动路径的 SP),则您可能看不到预期的 LUN,或可能看到了 LUN,但在尝试进行访问时出错。

对于软件 iSCSI 和从属硬件iSCSI,请检查网络配置。

ESXi 中的软件 iSCSI 和从属硬件适配器要求 VMkernel 网络端口对 iSCSI 存储器具有访问权限。这些适配器使用 VMkernel 在 ESXi 系统与 iSCSI 存储器之间传输数据。

重新扫描 iSCSI 启动器。 在每次完成以下任务时,执行重新扫描:

n 在 SAN 上创建新 LUN。

n 更改 LUN 屏蔽。

n 重新连接线缆。

n 对群集中的主机进行更改。

n 更改 CHAP 设置或添加新发现地址。

有关信息,请参见 vSphere 存储文档。

vSphere 故障排除

56 VMware, Inc.

Page 57: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决 SAN 性能问题许多原因可能会对 ESXi SAN 环境中的存储性能产生负面影响。这些原因包括 SCSI 预留过多、路径抖动和 LUN队列深度不足。

若要实时监控存储性能,请使用 resxtop 和 esxtop 命令行实用程序。有关详细信息,请参见 vSphere 监控和性能文档。

过多 SCSI 预留导致主机性能降低

需要在 VMFS 中获取文件锁或元数据锁的操作可导致暂时性 SCSI 预留。SCSI 预留将锁定整个 LUN。某一主

机使用过多 SCSI 预留可导致其他服务器访问相同 VMFS 时性能降低。

问题

过多 SCSI 预留会导致性能降低和 SCSI 预留冲突。

原因

一些操作要求 VMFS 使用 SCSI 预留。

n 创建、重新签名或展开 VMFS 数据存储

n 打开虚拟机电源

n 创建或删除文件

n 创建模板

n 从模板部署虚拟机

n 创建新虚拟机

n 通过 vMotion 迁移虚拟机

n 扩展文件,例如精简置备的虚拟磁盘

注意 仅当存储设备不支持硬件加速时,ESXi 主机才使用 SCSI 预留机制。对于支持硬件加速的存储设备,主

机使用原子测试和设置 (ATS) 算法来锁定 LUN。有关硬件加速的详细信息,请参见 vSphere 存储 文档。

解决方案

要消除潜在的 SCSI 预留冲突根源,请遵循以下准则:

n 对共享 LUN 的操作执行串行化,如有可能,同时限制要求 SCSI 预留的不同主机上的操作数。

n 增加 LUN 个数并限制访问同一 LUN 的主机数。

n 减少快照数。快照会造成大量 SCSI 预留。

n 减少每个 LUN 的虚拟机数。请遵循《 高配置》中的建议。

n 确保在所有主机上安装 新的 HBA 固件。

n 确保主机具有 新的 BIOS。

n 确保 SAN 阵列上的“主机模式”设置正确。

有关处理特定存储阵列上的 SCSI 预留冲突的信息,请参见 VMware 知识库文章,网址为 http://kb.vmware.com/kb/1005009。

第 7 章 存储故障排除

VMware, Inc. 57

Page 58: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

路径抖动导致 LUN 访问速度变慢

如果 ESXi 主机无法访问 LUN,或者访问速度很慢,则可能是路径抖动(也称为 LUN 抖动)的问题。

问题

主机无法访问 LUN,或者访问速度很慢。主机的日志文件可能表明发生了频繁的路径状况更改。例如:

Frequent path state changes are occurring for path vmhba2:C0:T0:L3.This may indicate a storage

problem.Affected device:naa.600600000000000000edd1.Affected datastores:ds1

原因

问题可能在于路径抖动。两台主机通过不同存储处理器 (SP) 访问同一 LUN 时,LUN 从未真正可用,此时可能

出现路径抖动。

路径抖动通常发生在主动-被动阵列上。直接连接阵列的一个或多个节点上发生 HBA 故障切换时也可能出现路

径抖动。主动-主动阵列或提供透明故障切换的阵列不会导致路径抖动。

解决方案

1 确保在主动-被动阵列上共享同一组 LUN 的所有主机使用同一存储处理器。

2 更正不同主机与 SAN 目标间的任何线缆接线或屏蔽不一致问题,以便对所有 HBA 显示相同的目标。

3 请确保在共享 LUN 的所有主机上定义的声明规则完全相同。

4 配置路径以使用 近使用的 PSP(默认)。

增加的 I/O 请求滞后时间会降低虚拟机性能

如果 ESXi 主机对 LUN 生成的命令超过 LUN 队列深度所允许的数量,则超出的命令会在 VMkernel 中排队。

这会增加滞后时间,或是完成 I/O 请求所需的时间。

问题

主机完成 I/O 请求所需的时间更长,且虚拟机会显示性能不佳。

原因

这个问题可能是由于 LUN 队列深度不够而引起的。SCSI 设备驱动程序有一个名为 LUN 队列深度的可配置参

数,可确定向给定 LUN 发出的命令中同时处于活动状态的数量。如果主机对 LUN 生成过多的命令,则超出的

命令会在 VMkernel 中排队。

解决方案

1 如果所有虚拟机中活动命令的总和总是超出 LUN 深度,则会增加队列深度。

用于增加队列深度的过程取决于主机使用的存储适配器类型。

2 多个虚拟机在 LUN 上处于活动状态时,请更改 Disk.SchedNumReqOutstanding (DSNRO) 参数,使其与

队列深度值相匹配。

调整 QLogic、Emulex 和 Brocade HBA 的队列深度

如果您不满意硬件总线适配器 (HBA) 的性能,请在 ESXi 主机上更改 大队列深度。

该 大值是指所报告的各种 LUN 路径的队列深度。如果降低此值,则当多个主机正在过渡利用存储并填充其

命令队列时,会限制主机的吞吐量并缓解 SAN 争用问题。

要调整 大队列深度参数,请使用 vCLI 命令。

vSphere 故障排除

58 VMware, Inc.

Page 59: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

在此过程中,--server=server_name 指定目标服务器。指定的目标服务器会提示您输入用户名和密码。支持其

他连接选项,如配置文件或会话文件。有关连接选项的列表,请参见《vSphere 命令行界面入门》。

前提条件

安装 vCLI 或部署 vSphere Management Assistant (vMA) 虚拟机。请参见 vSphere 命令行界面入门。要进行故

障排除,请在 ESXi Shell 中运行 esxcli 命令。

步骤

1 通过输入以下命令确认当前正在加载的 HBA 模块:

esxcli --server=server_name system module list | grep module

对于 module,请使用以下选项之一。

选项 描述

qla QLogic

qln QLogic 本机驱动程序

lpfc Emulex

bfa Brocade

2 调整相应模块的队列深度。

esxcli --server=server_name system module parameters set -p parameter=value -m module

对于 parameter 和 module 选项,请使用以下字符串。

字符串 描述

-p ql2xmaxqdepth=value-m qla2xxx

QLogic

-p ql2xmaxqdepth=value-m qlnativefc

QLogic 本机驱动程序

-p lpfc0_lun_queue_depth=value-m lpfc820

Emulex

-p lpfc0_lun_queue_depth=value-m lpfc

Emulex 本机驱动程序

-p bfa_lun_queue_depth=value-m bfa

Brocade

3 重新引导主机。

4 通过运行以下命令确认更改:esxcli --server=server_name system module parameters list -m=module。

module 为相应的驱动程序,例如 qlnativefc 或 bfa。

调整软件 iSCSI 的 大队列深度

如果发现软件 iSCSI LUN 的性能不佳,请通过运行 esxcli 命令来更改其 大队列深度。

前提条件

n 安装 vCLI 或部署 vSphere Management Assistant (vMA) 虚拟机。请参见 vSphere 命令行界面入门。要进

行故障排除,可以在 ESXi Shell 中运行 esxcli 命令。

n 在此过程中,--server=server_name 连接选项指定目标服务器。准备好在目标服务器提示您时输入用户名和

密码。有关其他可能的连接选项的列表,请参见 vSphere 命令行界面入门。

第 7 章 存储故障排除

VMware, Inc. 59

Page 60: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

步骤

1 运行下列命令:

esxcli --server=server_name system module parameters set -m iscsi_vmk -p

iscsivmk_LunQDepth=value

iscsivmk_LunQDepth 参数用于为通过软件 iSCSI 适配器访问的每个 LUN 设置 大未完成命令数或队列深

度。默认值为 128。

2 重新引导系统。

3 通过运行 esxcli --server=server_name system module parameters list -m iscsi_vmk 命令来确认所做

的更改。

以下输出显示了软件 iSCSI 的队列深度。

iscsivmk_LunQDepth int 64 Maximum Outstanding Commands Per LUN

小心 将队列深度设置为高于默认值的值,可减少受支持 LUN 的总数。

更改未完成 IO 请求设置

如果调整了 LUN 队列深度,请更改 Disk.SchedNumReqOutstanding (DSNRO) 参数,以便其值与队列深度匹

配。该参数控制所有虚拟机可以向 LUN 发出的未完成 IO 请求的 大数目。

仅当有多个虚拟机在 LUN 上处于活动状态时才更改此参数。此参数不适用于只有一个虚拟机处于活动状态的

情况。在这种情况下,带宽由存储适配器的队列深度控制。

此参数按设备设置。

步骤

1 输入以下命令以显示指定设备的当前 DSNRO 设置:

esxcli storage core device list -d device_ID

显示的输出类似于以下内容:

No of outstanding IOs with competing worlds: 32

2 通过输入以下命令更改 DSNRO 值:

esxcli storage core device set -O | --sched-num-req-outstanding value -d device_ID

3 通过输入以下命令确认更改:

esxcli storage core device list -d device_ID

具有 RDM 的虚拟机需要忽略 SCSI INQUIRY 缓存存储器供应商可能要求具有 RDM 的虚拟机忽略 ESXi 缓存的 SCSI INQUIRY 数据。

问题

在具有 RDM 的虚拟机中运行的某些客户机操作系统或应用程序会显示不可预知的行为。

vSphere 故障排除

60 VMware, Inc.

Page 61: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

原因

该行为可能是由于影响特定客户机操作系统和应用程序的缓存 SCSI INQUIRY 数据所致。

当 ESXi 主机先连接到 SAN 上的目标存储设备时,此主机会发出 SCSI INQUIRY 命令以从设备获取基本标识数

据。默认情况下,ESXi 会缓存收到的 SCSI INQUIRY 数据(标准,第 80 页和第 83 页),且这些数据之后保

持不变。

解决方案

u 通过将以下参数添加到 .vmx 文件,将具有 RDM 的虚拟机配置为忽略 SCSI INQUIRY 缓存。

scsix:y.ignoreDeviceInquiryCache = "true"

其中,x 是 SCSI 控制器编号,y 是 RDM 的 SCSI 目标编号。

仅当存储器供应商推荐启用该参数时才启用。只有限定数量的存储阵列和特定客户机操作系统才需要此参数。

在不需要时启用软件 iSCSI 适配器主机将网络适配器与 iBFT 结合使用时,默认情况下,将始终启用软件 iSCSI 适配器。

问题

ESXi 主机首次引导后,软件 iSCSI 适配器将处于启用状态并显示在 vSphere Web Client 中的存储适配器列表中。

原因

主机上已启用 iBFT 的网络适配器会导致软件 iSCSI 始终存在。即使未针对 iSCSI 引导使用 iBFT,也会发生此

情况。

解决方案

如果您为 iSCSI 引导使用的不是已启用 iBFT 的网络适配器并且不希望启用软件 iSCSI 适配器,请从网络适配器

中移除 iBFT 配置。由于此过程是特定于供应商的,因此,有关详细信息,请查阅供应商文档。

无法挂载 NFS 数据存储尝试挂载使用国际语言命名的 NFS 数据存储时失败。

问题

对 NFS 存储器上的目录名和文件名使用非 ASCII 字符可能会导致不可预知的行为。例如,您可能无法挂载 NFS数据存储或无法打开虚拟机的电源。

原因

ESXi 支持对 NFS 存储器上的目录名和文件名使用非 ASCII 字符,因此,您可以创建使用国际语言命名的数据

存储和虚拟机。但是,如果基础 NFS 服务器不提供国际化支持,则可能产生不可预知的故障。

解决方案

请始终确保基础 NFS 服务器提供国际化支持。如果服务器不提供该支持,请仅使用 ASCII 字符。

VMkernel 日志文件包含 SCSI 感知代码与存储相关的某些 VMkernel 消息可能包含 SCSI 感知代码。

问题

在分析 ESXi 主机的 /var/log/vmkernel 日志文件时,您遇到了包含 SCSI 感知代码的事件或错误消息。

第 7 章 存储故障排除

VMware, Inc. 61

Page 62: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

解析 SCSI 感知代码的能力能够帮助您更好地理解存储环境中的问题。由于 SCSI 感知代码值是由 T10 委员会分

配的,因此请参考 T10 标准文档来确定代码的含义。本主题说明了如何使用 T10 文档来解释 SCSI 感知代码。

示例:解析 SCSI 感知代码

以下是有关显示在 ESXi 日志文件中的 SCSI 错误消息的示例:

2011-04-04T21:07:30.257Z cpu2:2050)ScsiDeviceIO:2315: Cmd(0x4124003edb00) 0x12, CmdSN 0x51 to dev

"naa.600508XXXXXXXXXXXXX" failed H:0x0 D:0x2 P:0x0 Valid sense data:0x5 0x25 0x0

在此示例中,SCSI 感知代码由 H:0x0 D:0x2 P:0x0 和 0x5 0x25 0x0 两个字段来表示。

第一个字段 H:0x0 D:0x2 P:0x0 是存储环境中主机、设备和插件这三个组件的 SCSI 状态代码的组合。SCSI 状态代码用于确定 SCSI 命令的成功或失败。若要解释每个 SCSI 状态代码,请参见 http://www.t10.org/lists/2status.htm。

注意 T10 文档中的十六进制数字使用 NNNh 格式,而 ESXi 日志文件中的 SCSI 感知代码遵循了 0xNNN 格式。例如 0x2 = 02h。

对于以上示例的状态字段您将得到以下解释:H:0x0 D:0x2 P:0x0 = H(host):GOOD D(device):CHECK CONDITIONP(plug-in):GOOD。

典型 SCSI 错误消息中的第二个字段提供了有关错误的详细信息。是感知密钥 (sense)、附加感知代码 (asc) 和附

加感知代码限定符 (ascq) 参数的组合。

例如,以上错误消息中的 0x5 0x25 0x0 字段可表示为 sense=5 asc=25 ascq=0。

若要解析感知密钥,请参阅 http://www.t10.org/lists/2sensekey.htm。

若要确定附加感知代码 (asc) 和附加感知代码限定符 (ascq) 的含义,请一起使用这两种代码。有关详细信息,

请参见 http://www.t10.org/lists/2asc.htm。

对于 0x5 0x25 0x0 字段,您应当会得到以下解释:

sense=5 (非法请求), ASC=25 ASCQ=0 (不支持逻辑单元)

故障排除存储适配器如果您的存储适配器遇到性能问题,请使用 esxcli storage san 命令确定问题。

问题

存储适配器遇到性能和 I/O 问题。

解决方案

使用 esxcli storage san 命令获取和显示适配器的事件和统计信息。您可以分析命令的输出结果来确定适配器

的问题,并找出合适的解决方案。

vSphere 故障排除

62 VMware, Inc.

Page 63: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

表 7‑3 esxcli storage san 命令

命令 描述 选项

esxcli storage san [FC |iSCSI | FCoE | SAS] list

列出适配器属性。

注意 iSCSI 仅应用于软件 iSCSI。-- adapter | -A适配器名称 (vmhbaX) 或无,用于列出有关特定类型的所有适配器的信息。

esxcli storage san [FC |iSCSI | FCoE | SAS] statsget

获取适配器统计信息。

注意 iSCSI 仅应用于软件 iSCSI。-- adapter | -A适配器名称 (vmhbaX) 或无,用于列出有关特定类型的所有适配器的信息。

esxcli storage san [FC |FCoE | SAS] reset

重置特定适配器。 -- adapter | -A适配器名称 (vmhbaX)。

esxcli storage san fcevents get

检索光纤通道适配器的事件。 -- adapter | -A适配器名称 (vmhbaX) 或无,用于列出有关系统上所有光纤通道适配器的信息。

使用 VOMA 检查元数据一致性使用 vSphere On-disk Metadata Analyser (VOMA) 可确定并修复影响文件系统或基础逻辑卷的元数据损坏事件。

问题

VMFS 数据存储或虚拟闪存资源上出现各种功能问题时,您可能需要检查文件系统或用于备份文件系统的逻辑

卷的元数据一致性。例如,如果出现以下问题之一,您可能希望执行元数据检查:

n 出现存储故障。

n 重新构建 RAID 或执行磁盘更换后。

n vmkernel.log 文件中记录了元数据错误。

n 无法在 VMFS 上访问文件。

n 您在 vCenter Server 的事件选项卡中看到正在报告数据存储的损坏问题。

解决方案

要检查元数据一致性,请从 ESXi 主机上的 CLI 中运行 VOMA。VOMA 可用于检查并修复 VMFS 数据存储或

虚拟闪存资源的元数据不一致问题。要解决 VOMA 报告的错误,请咨询 VMware 支持部门。

使用 VOMA 工具时,请遵循以下准则:

n 确保所分析的 VMFS 数据存储未跨越多个数据区。只能对单数据区数据存储运行 VOMA。

n 关闭所有正在运行的虚拟机的电源,或者将这些虚拟机迁移至另一数据存储。

以下示例演示了如何使用 VOMA 检查 VMFS 元数据一致性。

1 获取为需要检查的 VMFS 数据存储提供后备支持的设备的名称和分区号。

#esxcli storage vmfs extent list

输出中的“Device Name”列和“Partition”列用于标识该设备。例如:

Volume Name XXXXXXXX Device Name Partition

1TB_VMFS5 XXXXXXXX naa.600508e000000000b367477b3be3d703 3

2 运行 VOMA 以检查 VMFS 错误。

提供为 VMFS 数据存储提供后备支持的设备分区的绝对路径,并为分区号提供设备名称。例如:

# voma -m vmfs -f check -d /vmfs/devices/disks/naa.600508e000000000b367477b3be3d703:3

第 7 章 存储故障排除

VMware, Inc. 63

Page 64: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

输出将列出可能的错误。例如,以下输出表示检测信号地址无效。

XXXXXXXXXXXXXXXXXXXXXXX

Phase 2:Checking VMFS heartbeat region

ON-DISK ERROR:Invalid HB address

Phase 3:Checking all file descriptors.

Phase 4:Checking pathname and connectivity.

Phase 5:Checking resource reference counts.

Total Errors Found: 1

VOMA 工具附带的命令选项包括以下各项。

表 7‑4 VOMA 命令选项

命令选项 描述

-m | --module 要运行的模块:

n vmfs。此为默认选项。可以检查 VMFS3 和 VMFS 5 数据存储。如果指定了此模块,也会对 LVM 执行 少量的检查。

n vmfsl。检查用于备份虚拟闪存卷的文件系统。

n lvm。检查用于备份 VMFS 数据存储的逻辑卷。

-f | --func 要执行的功能:

n query。列出模块所支持的功能。

n check。检查错误。

n fix。检查并修复错误。

-d|--device 要检查的设备或磁盘。请务必提供为 VMFS 数据存储提供后备支持的设备分区的绝对路径。例如,/vmfs/devices/disks/naa.00000000000000000000000000:1。

-s | --logfile 指定日志文件以输出结果。

-v | --version 显示 VOMA 的版本。

-h|--help 显示 VOMA 命令的帮助消息。

对闪存设备进行故障排除vSphere 为诸如 Virtual SAN、主机交换缓存和 Flash Read Cache 这样的存储功能使用闪存驱动器。

故障排除主题可帮助您避免潜在问题,并为您在配置闪存驱动器时可能遇到的问题提供解决方法。

本地闪存设备不可用于 Virtual SAN 或虚拟闪存

本地闪存设备使用 VMFS 或任何其他文件系统格式化后,将不可用于虚拟闪存资源或 Virtual SAN 配置。

问题

尝试配置 Virtual SAN 或虚拟闪存资源时,本地闪存磁盘不显示在要使用的磁盘列表中。

原因

当打算用于这两项功能的本地闪存使用 VMFS 进行了格式化后,可能会出现此问题。Virtual SAN 和虚拟闪存

都无法与 VMFS 或任何其他文件系统共享闪存磁盘。

而且,由于虚拟闪存和 Virtual SAN 在使用闪存磁盘方面相互排他,因此两项功能也无法共享同一闪存磁盘。

如果一项功能(例如 Virtual SAN)已经声明使用闪存磁盘,则无法将该闪存磁盘用于另一项功能(例如虚拟

闪存),除非先释放该磁盘。

vSphere 故障排除

64 VMware, Inc.

Page 65: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

对虚拟闪存资源和 Virtual SAN 配置只使用未格式化的闪存磁盘。

n 避免在 ESXi 安装或 Auto Deploy 期间使用 VMFS 对闪存磁盘进行格式化。

n 如果闪存磁盘已使用 VMFS 格式化,请删除 VMFS 数据存储。有关详细信息,请参见 vSphere 存储文档。

n 要将闪存磁盘用作虚拟闪存资源,请勿为 Virtual SAN 声明使用此磁盘。如果 Virtual SAN 已声明使用该

磁盘,请将该磁盘从 Virtual SAN 中移除。闪存磁盘从 Virtual SAN 中释放后,将显示在可用于虚拟闪存

的可用磁盘列表中。有关从 Virtual SAN 中移除磁盘的信息,请参见《vSphere 存储》管理 VMware VirtualSAN 文档。

n 如果计划将闪存磁盘用于 Virtual SAN,不要将该磁盘用于虚拟闪存资源。如果已将闪存磁盘用作虚拟闪

存资源,请移除虚拟闪存配置。此时磁盘将可用于 Virtual SAN。请参见 vSphere 存储文档。

导致闪存磁盘不可用的另一个原因是 ESXi 无法检测磁盘。请参见第 65 页,“无法检测到本地闪存磁盘”。

使用自动分区确保闪存磁盘不受 VMFS 影响

如果您在安装或自动部署 ESXi 时使用自动分区引导选项,自动分区选项将在主机的本地存储中创建一个 VMFS数据存储。可以使用多个选项来确保您的本地存储闪存磁盘不被格式化。

问题

默认情况下,自动分区将在主机上所有未使用的本地存储磁盘(包括闪存磁盘)中部署 VMFS 文件系统。

但是,使用 VMFS 格式化的闪存磁盘将不可用于虚拟闪存和 Virtual SAN 等功能。这两种功能都要求使用未格

式化的闪存磁盘,并且都不能与任何其他文件系统共享磁盘。

解决方案

要确保自动分区不使用 VMFS 格式化闪存磁盘,请在首次安装 ESXi 或引导 ESXi 主机时使用以下引导选项:

n autoPartition=TRUE

n skipPartitioningSsds=TRUE

如果使用 Auto Deploy,请在引用主机上设置这些参数。

1 在 vSphere Web Client 中,选择要用作引用主机的主机,然后单击管理。

2 单击设置。

3 单击系统打开系统选项,然后单击高级系统设置。

4 滚动至 VMkernel.Boot.autoPartition,将值设置为 true。

5 滚动至 VMkernel.Boot.skipPartitioningSsds,将值设置为 true。

6 重新引导主机。

如果您计划用于 Flash Read Cache 和 Virtual SAN 的闪存磁盘已具有 VMFS 数据存储,请移除这些数据存储。

无法检测到本地闪存磁盘

如果在创建虚拟闪存资源或 Virtual SAN 配置的过程中查询本地闪存磁盘,则 ESXi 主机可能不会返回完整的

本地闪存磁盘列表。

问题

ESXi 可能不会自动检测到闪存磁盘,或者将其识别为本地。

第 7 章 存储故障排除

VMware, Inc. 65

Page 66: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

原因

当闪存磁盘供应商不支持自动闪存磁盘检测时,ESXi 不会将特定的设备识别为闪存磁盘。在其他情况下,某些

非 SATA SAS 闪存磁盘可能不会检测为本地。当磁盘未被识别为本地闪存磁盘时,对于只需要使用本地闪存磁

盘的功能,其可用闪存磁盘列表中将不包含这些磁盘。

解决方案

您可能需要手动将磁盘标记为闪存磁盘或本地磁盘。

n 如果 ESXi 不会自动将其磁盘识别为闪存磁盘,则将这些磁盘标记为闪存磁盘。

n 如果 ESXi 未将闪存磁盘检测为本地,则手动将其设置为本地。

将存储设备标记为闪存设备

如果 ESXi 不自动将其设备识别为闪存,则会将其标记为闪存设备。

当设备供应商不支持自动闪存磁盘检测时,ESXi 不会将特定的设备识别为闪存。设备的“驱动器类型”列显示

其类型为 HDD。

小心 将 HDD 磁盘标记为闪存磁盘会使数据存储以及使用这些数据存储的服务的性能降低。仅当您确定这些

磁盘为闪存磁盘时再将其标记为闪存磁盘。

前提条件

确认设备不在使用中。

步骤

1 在 vSphere Web Client 对象导航器中,浏览到主机。

2 依次单击管理选项卡和存储器。

3 单击存储设备。

4 从存储设备列表中选择一个或多个需要识别为闪存设备的 HDD 设备,然后单击标记为闪存磁盘图标。

5 单击是以保存所做的更改。

设备的类型更改为闪存。

下一步

如果要标记的闪存设备可以在多个主机之间共享,请确保从共享此设备的所有主机标记设备。

将存储设备标记为本地

使用 ESXi 可以将设备标记为本地设备。当 ESXi 无法判断某些设备是否为本地设备时,此功能非常有用。

前提条件

n 确保设备未共享。

n 关闭设备上的虚拟机电源,然后卸载关联的数据存储。

步骤

1 在 vSphere Web Client 对象导航器中,浏览到主机。

2 依次单击管理选项卡和存储器。

3 单击存储设备。

4 从存储设备列表中选择一个或多个需要标记为本地设备的远程设备,然后单击标记为主机的本地磁盘图标。

vSphere 故障排除

66 VMware, Inc.

Page 67: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

5 单击是以保存所做的更改。

虚拟卷故障排除虚拟卷用于封装虚拟机文件、虚拟磁盘及其衍生内容。虚拟卷存储在通过以太网或 SAN 连接的存储系统本机

内部。虚拟卷由合规存储系统导出为对象,并完全通过存储器端的硬件进行管理。

有关虚拟卷功能的信息,请参见 vSphere 存储。

虚拟卷和 esxcli 命令

可以使用 esxcli storage vvol 命令对虚拟卷环境进行故障排除。

可用命令选项如下:

表 7‑5 esxcli storage vvol 命令

命名空间 命令选项 描述

esxcli storage vvol daemon unbindall 解除绑定所有 VASA 提供程序中ESXi 主机已知的所有虚拟卷。

esxcli storage vvolprotocolendpoint

列出主机可以访问的所有协议端点。

esxcli storage vvolstoragecontainer

列表

还原

列出所有可用的存储容器,或者通过引导还原设置。

esxcli storage vvol vasacontext 虚拟卷 VASA 上下文中的操作。

esxcli storage vvol vasaprovider 列表

还原

列出所有已注册的存储提供程序,或者通过引导还原设置。

虚拟数据存储无法访问

创建虚拟数据存储后,仍无法访问。

问题

vSphere Web Client 显示数据存储无法访问。无法将数据存储用于虚拟机置备。

原因

无法为映射到虚拟数据存储的基于 SCSI 的存储容器配置协议端点时,可能会出现此问题。与传统 LUN 类似,

需要对 SCSI 协议端点进行配置,这样 ESXi 主机才能检测到这些端点。

解决方案

为基于 SCSI 的容器创建虚拟数据存储之前,请确保在存储端配置协议端点。

将虚拟机迁移到虚拟卷数据存储或将 VM OVF 部署到虚拟卷数据存储时的故障

尝试将虚拟机迁移到虚拟数据存储或将 VM OVF 部署到虚拟数据存储失败。

问题

正在从非虚拟数据存储迁移的 OVF 模板或虚拟机可能包括大型附加文件,如 ISO 磁盘映像、DVD 映像和映像

文件。如果这些附加文件导致配置虚拟卷超出其 4-GB 限制,则迁移或部署到虚拟数据存储的操作将会失败。

第 7 章 存储故障排除

VMware, Inc. 67

Page 68: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

原因

配置虚拟卷(简称为 config-VVol)包含各种虚拟机相关的文件。在传统的非虚拟数据存储上,这些文件存储

在虚拟机主目录中。与虚拟机主目录类似,config-VVol 通常包括虚拟机配置文件、虚拟磁盘和快照描述符文

件、日志文件和锁定文件等等。

在虚拟数据存储上,所有其他大型文件(如虚拟磁盘、内存快照、交换和摘要)均存储为单独的虚拟卷。

config-VVol 以 4-GB 虚拟卷的形式创建。config-VVol 的一般内容通常仅占用这 4-GB 分配量的一小部分,因此

config-VVol 往往经过精简置备,可以节省备份空间。任何大型附加文件(如 ISO 磁盘映像、DVD 映像和映像

文件)都有可能会导致 config-VVol 超出其 4-GB 限制。如果此类文件包含在 OVF 模板中,则将 VM OVF 部署到 vSphere Virtual Volumes 存储的操作将会失败。如果这些文件是现有虚拟机的一部分,则将该虚拟机自

从传统数据存储迁移到 vSphere Virtual Volumes 存储的操作也会失败。

解决方案

n 对于虚拟机迁移。在将虚拟机从传统数据存储迁移到虚拟数据存储之前,将多余的内容从虚拟机主目录中移除,使 config-VVol 不超出 4-GB 限制。

n 对于 OVF 部署。由于无法将包含多余文件的 OVF 模板直接部署到虚拟数据存储,因此请先将虚拟机部署

到非虚拟数据存储。将任何多余的内容从虚拟机主目录中移除,然后将生成的虚拟机迁移到 vSphere VirtualVolumes 存储。

尝试向/从虚拟数据存储迁移具有内存快照的虚拟机失败

尝试向/从 vSphere Virtual Volumes 数据存储迁移硬件版本为 10 或更低版本的虚拟机时,如果虚拟机具有内存

快照,则会出现故障。

问题

迁移具有内存快照的版本 10 或更低版本虚拟机时,会出现以下问题:

n 不支持将具有内存快照的版本 10 或更低版本虚拟机迁移到虚拟数据存储,这会导致出现故障。

n 可以成功将具有内存快照的版本 10 或更低版本虚拟机从虚拟数据存储迁移到 VMFS 等非虚拟数据存储。

如果稍后生成其他快照并尝试将此虚拟机迁移回 vSphere Virtual Volumes 存储,则尝试将会失败。

原因

vSphere Virtual Volumes 存储不要求对虚拟机使用特定硬件版本。通常,您可以将任何硬件版本的虚拟机移至

vSphere Virtual Volumes 存储。但是,如果虚拟机具有内存快照且您计划在虚拟数据存储与非虚拟数据存储之

间迁移此虚拟机,请使用硬件版本 11 虚拟机。

硬件版本为 11 或更高版本的非虚拟卷虚拟机使用单独的文件存储各自的内存快照。这种用法与 vSphere VirtualVolumes 存储上的虚拟机一致,该虚拟机中的内存快照作为独立的虚拟卷进行创建,而不是作为 .vmsn 文件的

一部分存储在虚拟机主目录中。相比而言,硬件版本为 10 的非虚拟卷虚拟机继续将其内存快照作为 .vmsn 文件

的一部分存储在虚拟机主目录中。因此,尝试在虚拟数据存储与非虚拟数据存储之间迁移这些虚拟机时,可能会出现问题或故障。

解决方案

要避免在虚拟数据存储与非虚拟数据存储之间迁移具有内存快照的虚拟机时出现问题,请使用硬件版本 11。迁

移具有内存快照的版本 10 或更低版本虚拟机时,请遵循以下准则。

n 不支持将具有内存快照的版本 10 或更低版本虚拟机迁移到虚拟数据存储。唯一的解决办法是移除所有快

照。升级硬件版本不能解决此问题。

n 可以成功将具有内存快照的版本 10 或更低版本虚拟机从虚拟数据存储迁移到 VMFS 等非虚拟数据存储。

但是,迁移可能会使虚拟机处于不一致状态。在虚拟数据存储上生成的快照使用 vmem 对象。在迁移到 VMFS之后生成的任何内存快照都存储在 .vmsn 文件中。如果稍后尝试将此虚拟机迁移回 vSphere Virtual Volumes存储,则尝试将会失败。与上一示例相同,移除所有快照可解决此问题。

vSphere 故障排除

68 VMware, Inc.

Page 69: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

VAIO 筛选器故障排除vSphere APIs for I/O Filtering (VAIO) 提供了一个框架允许第三方创建称为 I/O 筛选器的软件组件。这些筛选

器可以安装在 ESXi 主机上,并通过处理在虚拟机的客户机操作系统与虚拟磁盘之间移动的 I/O 请求来为虚拟

机提供附加数据服务。

有关 I/O 筛选器的信息,请参见 vSphere 存储 出版物。

处理 I/O 筛选器安装故障

通常,群集中的所有 ESXi 主机都安装一组相同的 I/O 筛选器。有时,安装期间可能会发生故障。

如果在主机上安装 I/O 筛选器失败,则系统会生成事件来报告故障。此外,主机上的警报还会显示故障原因。

故障示例包括:

n 无法从主机访问 VIB URL。

n VIB 的格式无效。

n VIB 要求主机进入维护模式以便进行升级或卸载。

n VIB 要求主机在安装或卸载之后重新引导。

n 尝试将主机置于维护模式失败,因为无法从主机上撤出虚拟机。

n VIB 需要手动安装或卸载。

vCenter Server 可以解决一些故障。您可能需要干预其他故障。例如,您可能需要编辑 VIB URL,手动撤出虚

拟机或关闭虚拟机电源,或者手动安装或卸载 VIB。

在单个 ESXi 主机中安装 I/O 筛选器

要进行故障排除,可以下载 I/O 筛选器的 ESXi 组件(打包为 VIB 文件),并将其安装在 ESXi 主机上。使用

esxcli 命令安装 VIB 文件。

使用 --server=server_name 指定目标服务器时,服务器将提示您输入用户名和密码。支持其他连接选项,如配

置文件或会话文件。有关连接选项的列表,请参见《vSphere 命令行界面入门》,或在 vCLI 命令提示符处运行

esxcli --help。

前提条件

安装 vCLI 或部署 vSphere Management Assistant (vMA) 虚拟机。请参见 vSphere 命令行界面入门。要进行故

障排除,请在 ESXi Shell 中运行 esxcli 命令。

步骤

1 运行以下命令安装 VIB:

esxcli --server=server_name software vib install --depot path_to_VMware_vib_ZIP_file

通过 install 命令选项,您可以执行试运行、指定特定的 VIB 及跳过接受程度验证等。请勿跳过对生产系

统的验证。请参见《vSphere 命令行界面参考》文档。

2 验证 VIB 是否已安装在 ESXi 主机上。

esxcli --server=server_name software vib list

第 7 章 存储故障排除

VMware, Inc. 69

Page 70: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

70 VMware, Inc.

Page 71: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

网络故障排除 8有关 vSphere 中的网络连接的故障排除主题,可为您在连接 ESXi 主机、vCenter Server 和虚拟机时可能遇到

的问题提供解决方案。

本章讨论了以下主题:

n 第 72 页,“对 MAC 地址分配问题进行故障排除”

n 第 74 页,“转换至增强的 LACP 支持失败”

n 第 75 页,“无法从 vSphere Distributed Switch 中移除主机”

n 第 76 页,“vSphere Distributed Switch 5.1 及更高版本上的主机丢失与 vCenter Server 的连接”

n 第 77 页,“vSphere Distributed Switch 5.0 及早期版本上的主机与 vCenter Server 断开连接”

n 第 78 页,“主机上的网络冗余丢失警报”

n 第 78 页,“在更改分布式端口组的上行链路故障切换顺序之后虚拟机断开连接”

n 第 79 页,“无法将物理适配器添加到已启用 Network I/O Control 的 vSphere Distributed Switch”

n 第 80 页,“对已启用 SR-IOV 的工作负载进行故障排除”

n 第 81 页,“运行 VPN 客户端的虚拟机导致在主机上或 vSphere HA 群集中拒绝虚拟机服务”

n 第 83 页,“Windows 虚拟机上 UDP 工作负载的吞吐量低”

n 第 84 页,“位于相同的分布式端口组但不同主机上的虚拟机无法互相通信”

n 第 84 页,“由于缺少关联的协议配置文件,尝试打开迁移的 vApp 的电源失败”

n 第 85 页,“网络连接配置操作回滚并且主机断开与 vCenter Server 的连接”

VMware, Inc. 71

Page 72: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

对 MAC 地址分配问题进行故障排除在 vSphere 中,对可分配给虚拟机的 MAC 地址范围的某些限制可能会导致连接断开或无法打开工作负载。

同一网络中存在重复的虚拟机 MAC 地址

由于虚拟机具有 vCenter Server 生成的重复 MAC 地址,因此您会遇到数据包和连接丢失的情况。

问题

同一广播域或 IP 子网中虚拟机的 MAC 地址存在冲突,或者 vCenter Server 为新创建的虚拟机生成重复的 MAC地址。

某台虚拟机可以打开电源并正常工作,但与另一台虚拟机共享一个 MAC 地址。这种情况可能会导致数据包丢

失及其他问题。

原因

虚拟机可能由于多种原因而具有重复的 MAC 地址。

n 具有相同 ID 的两个 vCenter Server 实例为虚拟机网络适配器生成重叠的 MAC 地址。

每个 vCenter Server 实例都具有一个在安装时随机生成的介于 0 和 63 之间的 ID,安装完成后可以重新配

置此 ID。vCenter Server 使用实例 ID 为虚拟机的网络适配器生成 MAC 地址。

n 某台虚拟机已在关闭电源状态下从同一网络中的一个 vCenter Server 实例传输到另一个实例(例如,通过

使用共享存储),并且第一个 vCenter Server 上的新虚拟机网络适配器收到释放的 MAC 地址。

解决方案

n 手动更改虚拟机网络适配器的 MAC 地址。

如果您的现有虚拟机具有冲突的 MAC 地址,则必须在虚拟硬件设置中提供一个唯一的 MAC 地址。

n 关闭虚拟机的电源,将适配器配置为使用手动型 MAC 地址,然后键入新地址。

n 如果无法关闭虚拟机的电源以便进行配置,请重新创建一个与已启用的手动型 MAC 地址分配冲突的

网络适配器,然后键入新地址。在客户机操作系统中,将重新添加的适配器的静态 IP 地址设置为与以

前相同。

有关配置虚拟机网络适配器的信息,请参见《vSphere 网络连接》和《vSphere 虚拟机管理》文档。

vSphere 故障排除

72 VMware, Inc.

Page 73: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

n 如果 vCenter Server 实例根据默认分配 VMware OUI 生成虚拟机的 MAC 地址,则请更改 vCenter Server实例 ID 或使用其他分配方法以解决冲突。

注意 更改 vCenter Server 实例 ID 或切换到其他分配方案不会解决现有虚拟机中的 MAC 地址冲突问题。

根据新方案,只有更改后创建的虚拟机或添加的网络适配器能收到地址。

有关 MAC 地址方案和设置的信息,请参见《vSphere 网络连接》文档。

解决方案 描述

更改 vCenter Server ID 如果您的部署中包含少量 vCenter Server 实例,则可以继续使用 VMwareOUI 分配方案。根据此方案,MAC 地址将具有以下格式:

00:50:56:XX:YY:ZZ

其中 00:50:56 表示 VMware OUI,XX 的计算方式为 (80 + vCenter ServerID),YY:ZZ 是一个随机数。

要更改 vCenter Server 的 ID,请配置 vCenter Server 实例的常规设置的运行时设置部分中的 vCenter Server 的唯一 ID 选项,然后重新启动 vCenterServer。VMware OUI 分配 多支持 64 个 vCenter Server 实例,适用于小规模部署。

切换到基于前缀的分配 可以使用自定义 OUI。例如,对于 02:12:34 本地管理的地址范围,MAC地址的格式将为 02:12:34:XX:YY:ZZ。可以使用第四个八位字节 XX 在vCenter Server 实例之间分发 OUI 地址空间。此结构将导致生成 255 个地址群集,其中每个群集由一个 vCenter Server 实例管理,并导致每个vCenter Server 大约有 65000 个 MAC 地址。例如,02:12:34:01:YY:ZZ 与vCenter Server A 相对应,02:12:34:02:YY:ZZ 与 vCenter Server B 相对应,依此类推。

基于前 的分配适用于较大规模的部署。

对于全局唯一 MAC 地址,OUI 必须在 IEEE 中注册。 a 配置 MAC 地址分配。

b 对虚拟硬件设置中的现有虚拟机应用新 MAC 地址分配方案。

n 关闭虚拟机的电源,将适配器配置为使用手动型 MAC 地址,恢复为自动型 MAC 地址分配,然

后打开虚拟机的电源。

n 如果虚拟机处于生产模式,您无法关闭其电源以便进行配置,请在更改 vCenter Server ID 或地址

分配方案后,重新创建与已启用的自动型 MAC 地址分配冲突的网络适配器。在客户机操作系统

中,将重新添加的适配器的静态 IP 地址设置为与以前相同。

n 在 vCenter Server 实例之间传输虚拟机时,使用数据存储中的虚拟机文件强制重新生成 MAC 地址。

a 关闭虚拟机的电源,将其从清单中移除,然后在其配置文件 (.vmx) 中将 ethernetX.addressType 参数

设置为 generated。

ethernet 旁边的 X 表示虚拟机中虚拟网卡的序列号。

b 通过将数据存储中的虚拟机注册到目标 vCenter Server,将虚拟机从一个 vCenter Server 系统导入到

另一个系统中。

虚拟机文件可以驻留在两个 vCenter Server 实例之间共享的数据存储中,或者可以上载到只能从目标

vCenter Server 系统访问的数据存储中。

有关注册数据存储中的虚拟机的信息,请参见《vSphere 虚拟机管理》。

c 首次打开虚拟机的电源。

虚拟机启动过程中,vSphere Web Client 中的虚拟机上将显示一个信息图标。

d 右键单击虚拟机,然后选择客户机操作系统 > 回答问题。

e 选择我已复制选项。

第 8 章 网络故障排除

VMware, Inc. 73

Page 74: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

目标 vCenter Server 将重新生成虚拟机的 MAC 地址。新 MAC 地址将以 VMware OUI 00:0c:29 开头,

并基于虚拟机的 BIOS UUID。虚拟机的 BIOS UUID 根据主机的 BIOS UUID 计算而得。

n 如果 vCenter Server 和主机的版本为 6.0 或更高版本,并且 vCenter Server 实例在增强链接模式下连接,

请使用 vMotion 在 vCenter Server 系统之间迁移虚拟机。

在 vCenter Server 系统之间迁移虚拟机时,源 vCenter Server 会将虚拟机的 MAC 地址添加到黑名单,但

不将其分配给其他虚拟机。

由于 MAC 地址冲突,尝试打开虚拟机电源失败

对虚拟机适配器设置特定静态 MAC 地址后,无法打开虚拟机电源。

问题

在 vSphere Web Client 中,向虚拟机分配 00:50:56:40:YY:ZZ – 00:50:56:7F:YY:ZZ 范围内的 MAC 地址后,

尝试打开虚拟机电源失败,并显示 MAC 地址存在冲突的状态消息。

00:50:56:XX:YY:ZZ 不是有效的静态以太网地址。它

与 VMware 为其他用途保留的 MAC 相冲突 (00:50:56:XX:YY:ZZ is not a valid static Ethernet address. It

conflicts with VMware reserved MACs for other usage)。

原因

尝试分配的 MAC 地址以 VMware OUI 00:50:56 开头,并且介于为 vCenter Server 系统上的主机 VMkernel适配器分配的地址范围内。

解决方案

如果要保留 VMware OUI 前 ,请设置 00:50:56:00:00:00 – 00:50:56:3F:FF:FF 范围内的静态 MAC 地址。

否则,请设置前 与 VMware OUI 前 不同的任意 MAC 地址。有关具有 VMware OUI 前 的静态 MAC 地址的可用范围的信息,请参见《vSphere 网络连接》文档。

转换至增强的 LACP 支持失败在某些情况下,在 vSphere Distributed Switch 5.5 及更高版本上将现有 LACP 配置转换为增强的 LACP 支持

可能失败。

问题

在将 vSphere Distributed Switch 升级到版本 5.5 及更高版本之后,当您开始从现有 LACP 配置转换为增强

LACP 支持时,在转换过程的某个特定阶段,转换会失败。

原因

从现有 LACP 配置转换为增强 LACP 支持的过程包含多个重新配置 Distributed Switch 的任务。由于其他用户

可能已经在转换期间重新配置了 Distributed Switch,因此转换可能失败。例如,主机的物理网卡可能已重新

分配给不同的上行链路,或者分布式端口组的成组和故障切换配置可能已更改。

失败的另外一个原因可能是在转换期间一些主机的连接断开。

解决方案

当在某个特定阶段转换为增强 LACP 支持失败时,只能完成部分转换。必须检查 Distributed Switch 的配置及

成员主机,以识别出 LACP 配置不完整的对象。

对于每个转换阶段必须生成的目标配置,按照表中列出的顺序进行检查。找到转换失败的阶段时,以手动方式完成其目标配置,并继续后续阶段。

vSphere 故障排除

74 VMware, Inc.

Page 75: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

表 8‑1 手动完成转换为增强 LACP 的步骤

转换阶段 目标配置状态 解决方案

1. 创建新 LAG。 新创建的 LAG 必须存在于Distributed Switch 上。

检查 Distributed Switch 的 LACP 配置,并创建一个新的LAG(如果没有)。

2. 在分布式端口组上创建中间LACP 成组和故障切换配置。

新创建的 LAG 必须处于待机状态,这样可以在不失去连接的情况下将物理网卡迁移到此LAG。

检查分布式端口组的成组和故障切换配置。将新 LAG 设置为待机(如果未处于待机状态)。

如果不想使用 LAG 处理所有分布式端口组的流量,可将成组和故障切换配置恢复为独立上行链路已激活并且未使用LAG 的状态。

3. 将独立上行链路的物理网卡重新分配给 LAG 端口。

LAG 端口的所有物理网卡必须从独立上行链路重新分配给LAG 端口

检查物理网卡是否分配给了 LAG 端口。为每个 LAG 端口分配一个物理网卡。

注意 在将物理网卡重新分配给 LAG 端口时,LAG 必须按照分布式端口组的成组和故障切换顺序保持待机。

4. 在分布式端口组上创建 终的 LACP 成组和故障切换配置。

终的 LACP 成组和故障切换配置如下。

n 活动:仅新的 LAGn 待机:空

n 未使用:所有独立上行链路

检查分布式端口组的成组和故障切换配置。为要应用 LACP的所有分布式端口组创建有效的 LACP 成组和故障切换配置。

例如,假设确认已在 Distributed Switch 上创建了新的 LAG,并且已经为分布式端口组创建了中间成组和故障

切换配置。继续检查是否有分配给 LAG 端口的物理网卡。然后您发现并非所有主机都将物理网卡分配给了 LAG端口,于是您手动分配了这些网卡。通过为分布式端口组创建 终的 LACP 成组和故障切换配置,您即可完成

转换。

无法从 vSphere Distributed Switch 中移除主机在特定情况下,您可能无法从 vSphere Distributed Switch 中移除主机。

问题

n 尝试从 vSphere Distributed Switch 移除主机失败,并且收到通知,说明资源仍在使用中。您可能会收到

类似以下内容的通知:

资源“16”正在使用 (The resource '16' is in use)。

vDS DSwitch 端口 16 仍位于连接到 MyVM nic=4000 type=vmVnic 的主机 10.23.112.2 上 (vDS DSwitch

port 16 is still on host 10.23.112.2 connected to MyVM nic=4000 type=vmVnic)

n 尝试从之前的网络连接配置中移除仍存在于主机上的主机代理交换机失败。例如,您将主机移动到其他数据中心或 vCenter Server 系统,或者升级到 ESXi 和 vCenter Server 软件,并创建新的网络连接配置。尝

试移除主机代理交换机时,该操作会因代理交换机上的资源仍在使用中而失败。

原因

无法从 Distributed Switch 中移除主机或删除主机代理交换机,原因如下。

n 正在使用的交换机上有 VMkernel 适配器。

n 有连接到交换机的虚拟机网络适配器。

第 8 章 网络故障排除

VMware, Inc. 75

Page 76: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

问题 解决方案

无法从 DistributedSwitch 中移除主机

1 在 vSphere Web Client 中,导航到 Distributed Switch。

2 选择管理 > 端口。

3 找到仍在使用中的所有端口,并检查主机上的哪些 VMkernel 或虚拟机网络适配器仍附加到端口。

4 迁移或删除仍连接到交换机的 VMkernel 和虚拟机网络适配器。

5 使用 vSphere Web Client 中的添加和管理主机向导从交换机中移除主机。

主机移除后,主机代理交换机会自动删除。

无法移除主机代理交换机

1 在 vSphere Web Client 中,导航到主机。

2 删除或迁移仍连接到主机代理交换机的 VMkernel 或虚拟机网络适配器。

3 从主机上的“网络”视图中删除主机代理交换机。

vSphere Distributed Switch 5.1 及更高版本上的主机丢失与 vCenter Server的连接

配置端口组后,vSphere Distributed Switch 5.1 及更高版本上的主机无法连接到 vCenter Server。

问题

更改 vSphere Distributed Switch 5.1 及更高版本上包含管理网络的 VMkernel 适配器的端口组的网络配置后,

交换机上的主机将丢失与 vCenter Server 的连接。在 vSphere Web Client 中,主机为不响应状态。

原因

在禁用了网络回滚的 vCenter Server 中的 vSphere Distributed Switch 5.1 及更高版本上,包含管理网络的

VMkernel 适配器的端口组在 vCenter Server 中配置不正确,并且无效配置被传播到交换机上的主机。

解决方案

1 从直接控制台用户界面 (DCUI) 到受影响的主机,使用网络还原选项菜单中的还原 vDS 选项为管理网络的

VLAN 配置上行链路和 ID。

DCUI 将创建一个本地极短端口,并对端口应用 VLAN 和上行链路配置。DCUI 将更改管理网络的 VMkernel适配器,使其使用新的主机本地端口还原与 vCenter Server 的连接。

主机重新连接到 vCenter Server 后,vSphere Web Client 将显示一条警告,指出交换机上的部分主机具有

的网络配置与 vSphere Distributed Switch 中存储的配置不同。

2 在 vSphere Web Client 中,使用正确的设置为管理网络配置分布式端口组。

情况 解决方案

您仅更改过一次端口组配置 可以将端口组的配置回滚一步。右键单击端口组,单击还原配置,然后选择还原为之前的配置。

您已备份端口组的有效配置 可以使用备份文件还原端口组的配置。右键单击端口组,单击还原配置,然后选择从文件还原配置。

还可以从交换机的备份文件还原整个交换机的配置,包括端口组。

您已多次执行一个配置步骤,并且没有备份文件。

必须手动提供该端口组的有效设置。

有关网络回滚、恢复和还原的信息,请参见 vSphere 网络连接文档。

3 使用添加和管理主机向导将管理网络的 VMkernel 适配器从本地主机极短端口迁移至交换机上的分布式端口。

与分布式端口不同,VMKernel 的极短本地端口没有非数字 ID。

有关使用添加和管理主机向导处理 VMkernel 适配器的信息,请参见 vSphere 网络连接文档。

vSphere 故障排除

76 VMware, Inc.

Page 77: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

4 将分布式端口组和 VMkernel 适配器的配置从 vCenter Server 应用于主机。

n 将分布式端口组和 VMkernel 适配器的正确配置从 vCenter Server 推送到主机。

a 在 vSphere Web Client 中,导航到主机。

b 在管理选项卡下,单击网络

c 从虚拟交换机列表中选择 Distributed Switch,然后单击纠正。

n 等待 vCenter Server 在未来 24 小时内引用设置。

vSphere Distributed Switch 5.0 及早期版本上的主机与 vCenter Server 断开连接

进行端口组配置后,vSphere Distributed Switch 5.0 及早期版本上的主机无法连接到 vCenter Server。

问题

在包含用于管理网络的 VMkernel 适配器的 vSphere Distributed Switch 5.0 或早期版本上,更改端口组的网络

连接配置后,交换机上的主机与 vCenter Server 断开连接。在 vSphere Web Client 中,主机为不响应状态。

原因

在 vCenter Server 中的 vSphere Distributed Switch 5.0 及早期版本上,包含用于管理网络的 VMkernel 适配器

的端口组会在 vCenter Server 中错误配置,无效配置会传播到交换机上的主机。

解决方案

1 使用 vSphere Client 连接受影响的主机。

2 在配置下,选择网络。

3 在“vSphere 标准交换机”视图中,如果主机没有适用于管理网络的标准交换机,则创建一个新的标准交

换机。

a 单击添加网络。

b 在添加网络向导中,在“连接类型”下选择虚拟机,然后单击下一步。

c 选择创建 vSphere 标准交换机。

d 在创建 vSphere 标准交换机部分下,在主机上选择一个或多个未占用的物理适配器以承载管理流量,

然后单击下一步。

如果所有物理适配器均已被其他交换机中的流量占用,请创建不与物理网络适配器连接的交换机。稍后,请从 Distributed Switch 的代理交换机中移除用于管理网络的物理适配器,并将其添加到此标准

交换机。

e 在“端口组属性”部分中,键入用于标识所创建的端口组的网络标签和 VLAN ID(可选)。

f 单击完成。

4 在 vSphere Distributed Switch 视图中,将用于网络的 VMkernel 适配器迁移到标准交换机。

a 选择 vSphere Distributed Switch 视图,并为 Distributed Switch 单击管理虚拟适配器。

b 在管理虚拟适配器向导中,从列表中选择 VMkernel 适配器,然后单击迁移。

c 选择适配器要迁移到的新创建的或其他标准交换机,然后单击下一步。

d 为管理网络输入一个在主机范围内唯一的网络标签以及一个 VLAN ID(可选),然后单击下一步。

e 检查目标标准交换机上的设置,然后单击完成。

5 在 vSphere Web Client 中,使用正确的设置为管理网络配置分布式端口组。

第 8 章 网络故障排除

VMware, Inc. 77

Page 78: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

6 通过使用添加和管理主机向导,将用于管理网络的 VMkernel 适配器从标准交换机迁移到 Distributed Switch上的端口。

有关添加和管理主机向导的信息,请参见 vSphere 网络连接文档。

7 如果您将物理适配器从代理交换机移动到标准交换机,可以使用添加和管理主机向导将其重新附加到Distributed Switch。

主机上的网络冗余丢失警报警报报告主机的 vSphere 标准交换机或 vSphere Distributed Switch 上的上行链路冗余丢失。

问题

无主机冗余物理网卡连接到特定的标准交换机或 Distributed Switch,将显示以下警报:

主机名或 IP 网络上行链路冗余已丢失

原因

主机上只有一个物理网卡连接到特定的标准交换机或 Distributed Switch。冗余物理网卡既未关闭,也未分配

给交换机。

例如,假设您环境中的主机具有连接到 vSwitch0 的物理网卡 vmnic0 和 vmnic1,而且 vmnic1 已脱机,只有

vmnic0 连接到 vSwitch0。因此,vSwitch0 的上行链路冗余在主机上将会丢失。

解决方案

检查哪一个交换机在主机上丢失了上行链路冗余。至少再将主机上的另一个物理网卡连接到此交换机,并将警报重置为绿色。可以使用 vSphere Web Client 或 ESXi Shell。

如果物理网卡关闭,请尝试使用主机上的 ESXi Shell 将其重新打开。

有关使用 ESXi Shell 中网络命令的信息,请参见 vSphere 命令行界面参考。有关在 vSphere Web Client 中的主

机上配置网络的信息,请参见 vSphere 网络连接。

在更改分布式端口组的上行链路故障切换顺序之后虚拟机断开连接分布式端口组上的故障切换网卡顺序发生更改会导致与该组关联的虚拟机与外部网络断开连接。

问题

在重新安排 vCenter Server 中分布式端口组的故障切换组中的上行链路之后(例如,通过使用

vSphere Web Client),端口中的某些虚拟机不再能够访问外部网络。

原因

更改故障切换顺序之后,很多原因可能导致虚拟机丢失与外部网络的连接。

n 运行这些虚拟机的主机没有与设置为活动或备用状态的上行链路关联的物理网卡。与端口组的主机中物理网卡关联的所有上行链路均移至未使用状态。

n 根据在 vSphere 中使用 LACP 的要求,不具有主机中物理网卡的链路聚合组 (LAG) 将设置为唯一活动的

上行链路。

n 如果虚拟机流量在 VLAN 中分离,则用于活动上行链路的主机物理适配器可能会连接到物理交换机上的中

继端口,该交换机不处理来自这些 VLAN 的流量。

n 如果通过 IP 哈希负载平衡策略配置端口组,则活动上行链路适配器将连接到可能位于以太通道中的物理交

换机端口。

可以检查端口组中虚拟机与主机的 Distributed Switch 中央拓扑图或代理交换机图中关联的主机上行链路和上

行链路适配器之间的连接。

vSphere 故障排除

78 VMware, Inc.

Page 79: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

n 通过与主机上单个物理网卡关联的上行链路将故障切换顺序还原回活动状态。

n 创建具有相同设置的端口组,使其使用主机的有效上行链路编号,并将虚拟机网络迁移到端口组中。

n 将网卡移至加入活动故障切换组的上行链路中。

可以使用 vSphere Web Client 将主机物理网卡移至另一个上行链路。

n 使用 Distributed Switch 上的添加和管理主机向导。

a 导航至 vSphere Web Client 中的 Distributed Switch。

b 在操作菜单中,选择 添加和管理主机。

c 选择管理主机网络选项并选择该主机。

d 要将主机的网卡分配到活动的上行链路中,请选择管理物理适配器选项并将网卡关联到管理物理适配器页中的交换机上行链路。

n 移动主机级别上的网卡。

a 导航至 vSphere Web Client 中的主机,然后单击网络下的管理。

b 依次选择虚拟交换机,然后选择分布式代理交换机。

c 单击管理物理适配器,然后将网卡移至活动的上行链路

无法将物理适配器添加到已启用 Network I/O Control 的 vSphere DistributedSwitch

您可能无法将速度较低(例如 1 Gbps)的物理适配器添加到配置了 vSphere Network I/O Control 版本 3 的vSphere Distributed Switch。

问题

您尝试将速度较低(例如 1 Gbps)的物理适配器添加到连接到速度较高(例如 10 Gbps)的物理适配器的

vSphere Distributed Switch。交换机上已启用 Network I/O Control 版本 3,且一个或多个系统流量类型存在

带宽预留,例如 vSphere 管理流量、vSphere vMotion 流量、vSphere NFS 流量等。添加物理适配器的任务失

败,并显示一条状态消息,指示参数不正确。

指定的参数不正确:spec.host[].backing.pnicSpec[] (A specified parameter was not correct:

spec.host[].backing.pnicSpec[])

原因

Network I/O Control 会将可供预留的带宽调整为与已连接到 Distributed Switch 且速度为 10 Gbps 的各个物理

适配器保持一致。将此带宽的一部分预留之后,添加速度小于 10 Gbps 的物理适配器可能无法满足系统流量类

型的潜在需求。

有关 Network I/O Control 版本 3 的信息,请参见 vSphere 网络连接文档。

解决方案

1 在 vSphere Web Client 中,导航到主机。

2 在管理选项卡上,单击设置。

3 展开设置的系统组,然后单击高级系统设置。

4 以逗号分隔列表形式在 Net.IOControlPnicOptOut 参数中列出要在 Network I/O Control 范围之外使用的

物理适配器。

例如:vmnic2,vmnic3

第 8 章 网络故障排除

VMware, Inc. 79

Page 80: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

5 单击确定应用更改。

6 在 vSphere Web Client 中,将物理适配器添加到 Distributed Switch。

对已启用 SR-IOV 的工作负载进行故障排除在某些情况下,使用 SR-IOV 发送数据至物理网络适配器的虚拟机可能会出现连接或打开电源问题。

由于主机的中断向量已耗尽,因此使用 SR-IOV 虚拟功能的虚拟机打开电源失败

在 ESXi 主机上,使用 SR-IOV 虚拟功能 (VF) 进行网络连接的一个或多个虚拟机电源关闭。

问题

在 ESXi 主机中,如果已分配的虚拟功能 (VF) 总数已接近在《vSphere 的 高配置》指南中指定的 多 VF 数量,则使用 SR-IOV 虚拟功能进行网络连接的一个或多个虚拟机打开电源将失败。

虚拟机日志文件 vmware.log 包含以下有关 VF 的消息:

PCIPassthruChangeIntrSettings:vf_name failed to register interrupt (error code 195887110)

VMkernel 日志文件 vmkernel.log 包含以下有关分配给虚拟机的 VF 的消息:

VMKPCIPassthru:2565: BDF = vf_name intrType = 4 numVectors: 3

WARNING:IntrVector:233: Out of interrupt vectors

原因

可分配的中断向量数量随着 ESXi 主机上的物理 CPU 数量增加。一个具有 32 个 CPU 的 ESXi 主机共计可提供

4096 个中断向量。主机引导时,该主机上的设备(如存储控制器、物理网络适配器和 USB 控制器)将占用这

4096 个向量中的部分向量。如果这些设备需要的向量数超过 1024 个,则可能支持的 多 VF 数量会减少。

打开虚拟机电源并启动客户机操作系统 VF 驱动程序时,系统将占用中断向量。如果没有所需数量的中断向量,

则客户机操作系统将意外关闭,而不会出现任何错误消息。

目前,尚没有规则可以确定主机上已占用的或可用的中断向量数量。该数量取决于主机的硬件配置。

解决方案

u 要打开虚拟机电源,请减少分配给主机上的虚拟机的总 VF 数量。

例如,将虚拟机的 SR-IOV 网络适配器更改为连接到 vSphere 标准交换机或 vSphere Distributed Switch的适配器。

启用了 SR-IOV 的工作负载在您更改其 MAC 地址后无法通信

在您更改启用了 SR-IOV 的虚拟机的客户机操作系统中的 MAC 地址后,虚拟机失去连接。

问题

当您将虚拟机的网络适配器连接到 SR-IOV 虚拟功能 (VF) 时,可以为虚拟机创建直通网络适配器。客户机操作

系统中的 (VF) 驱动程序修改直通网络适配器的 MAC 地址后,客户机操作系统将显示更改已成功完成,但虚拟

机网络适配器则会失去连接。客户机操作系统会显示已启用新的 MAC 地址,但 /var/log/vmkernel.log 文件

中的日志消息指示此操作失败。

Requested mac address change to new MAC address on port VM NIC port number, disallowed by vswitch

policy.

其中,

n new MAC address 是客户机操作系统中的 MAC 地址。

vSphere 故障排除

80 VMware, Inc.

Page 81: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

n VM NIC port number 是十六进制格式的虚拟机网络适配器的端口号。

原因

直通网络适配器所连接到的端口组上的默认安全策略不允许更改客户机操作系统中的 MAC 地址。因此,客户

机操作系统中的网络接口无法获取 IP 地址并失去连接。

解决方案

u 在客户机操作系统中,重置接口以使直通网络适配器重新获得有效的 MAC 地址。如果将接口配置为使用

DHCP 进行地址分配,则接口将自动获取 IP 地址。

例如,在 Linux 虚拟机上运行 ifconfig 控制台命令。

ifconfig ethX down

ifconfig ethX up

其中,ethX 中的 X 表示客户机操作系统中虚拟机网络适配器的序列号。

运行 VPN 客户端的虚拟机导致在主机上或 vSphere HA 群集中拒绝虚拟机服务

发送网桥协议数据单元 (BPDU) 帧的虚拟机(如 VPN 客户端)会导致某些连接到相同端口组的虚拟机断开连

接。传输 BPDU 帧可能也会断开主机或父 vSphere HA 群集的连接。

问题

应发送 BPDU 帧的虚拟机导致发送到同一个端口组中虚拟机的外部网络的流量被阻止。

如果虚拟机在属于 vSphere HA 群集的主机上运行,则主机会在特定条件下处于网络隔离状态,您会发现群集

中的主机上发生拒绝服务 (DoS)。

原因

佳做法是,连接到 ESXi 主机的物理交换机端口启用“端口快速”和 BPDU 防护,以强制执行跨树协议 (STP)的边界。标准交换机或 Distributed Switch 均不支持 STP,而且不会发送任何 BPDU 帧至交换机端口。但是,

如果受影响的虚拟机中的任何 BPDU 帧到达面向 ESXi 主机的物理交换机端口,则 BPDU 防护功能将禁用该端

口,以阻止这些帧对网络的跨树拓扑产生影响。

在某些情况下,虚拟机应发送 BPDU 帧(例如,在部署 VPN 通过 Windows 网桥设备或网桥功能连接时)。

如果与物理适配器(处理从此虚拟机传出的流量)配对的物理交换机端口具有 BPDU 防护,则该端口不会出现

错误,而且虚拟机和使用主机物理适配器的 VMkernel 适配器无法再与外部网络通信。

如果端口组的成组和故障切换策略包含更多活动的上行链路,则 BPDU 流量将移至下一个活动上行链路的适配

器。新的物理交换机端口将被禁用,而且更多的工作负载无法与网络交换数据包。 终,ESXi 主机上几乎所有

实体都可能无法访问。

如果虚拟机在属于 vSphere HA 群集的主机上运行,而且主机由于连接至其的大多数物理交换机端口被禁用而

处于网络隔离状态,则群集中活动的主要主机会将 BPDU 发送器虚拟机移至另一台主机。虚拟机开始禁用连接

到新主机的物理交换机端口。在 vSphere HA 群集中的迁移 终将导致整个群集中的 DoS 累加。

第 8 章 网络故障排除

VMware, Inc. 81

Page 82: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

n 如果 VPN 软件必须继续在虚拟机上运行,则允许从虚拟机传出流量并单独配置物理交换机端口以传递

BPDU 帧。

网络设备 配置

DistributedSwitch 或标准交换机

将端口组上的“伪信号”安全属性设置为接受,以允许 BPDU 帧离开主机并访问物理交换机端口。

通过将虚拟机置于单独的端口组中并将物理适配器分配给组,可以隔离 VPN 流量的设置和物理适配器。

小心 将“伪传输”安全属性设置为接受以启用主机来发送 BPDU 帧,此操作会带来安全风险,因为被攻击的虚拟机可以执行欺骗性攻击。

物理交换机 n 将“端口快速”保持启用状态。

n 对于单个端口启用 BPDU 筛选器。BPDU 帧到达端口时,将被筛选出。

注意 请勿全局启用 BPDU 筛选器。如果全局启用 BPDU 筛选器,则“端口快速”模式将被禁用,并且所有物理交换机端口将执行 STP 的全套功能。

n 要在均连接到第 2 层网络的两个虚拟机网卡之间部署网桥设备,请允许从虚拟机中传出 BPDU 流量并取消

激活“端口快速”和 BPDU 循环阻止功能。

网络设备 配置

Distributed Switch或标准交换机

将端口组上安全策略的“伪信号”属性设置为接受,以允许 BPDU 帧离开主机并访问物理交换机端口。

通过将虚拟机置于单独的端口组中并将物理适配器分配给组,可以隔离网桥流量的设置以及一个或多个物理适配器。

小心 将“伪传输”安全属性设置为接受以启用网桥部署,此操作会带来安全风险,因为被攻击的虚拟机可以进行欺骗性攻击。

物理交换机 n 对虚拟网桥设备的端口禁用“端口快速”,以便在其上运行 STP。

n 对于面对网桥设备的端口禁用 BPDU 防护和筛选器。

n 任何情况下,通过在 ESXi 主机或物理交换机上激活 BPDU 筛选器可保护环境不受 DoS 攻击。

n 在运行 ESXi 4.1 Update 3、ESXi 5.0 Patch 04 及更高 5.0 版本,以及 ESXi 5.1 Patch 01 及更高版本的

主机上,按以下方式之一启用客户机 BPDU 筛选器,然后重新引导主机:

n 在 vSphere Web Client 中主机的管理选项卡上的“高级系统设置”表中,将 Net.BlockGuestBPDU属性设置为 1。

n 在主机的 ESXi Shell 中,键入以下 vCLI 命令:

esxcli system settings advanced set -o /Net/BlockGuestBPDU -i 1

n 在未实施客户机 BPDU 筛选器的主机上,对虚拟网桥设备的物理交换机端口启用 BPDU 筛选器。

网络设备 配置

Distributed Switch 或标准交换机

将端口组上安全策略的“伪信号”属性设置为拒绝。

物理交换机 n 保持“端口快速”配置。

n 对单个物理交换机端口启用 BPDU 筛选器。BPDU 帧到达物理端口时,将被筛选出。

注意 请勿全局启用 BPDU 筛选器。如果全局启用 BPDU 筛选器,则“端口快速”模式将被禁用,并且所有物理交换机端口将执行 STP 的全套功能。

vSphere 故障排除

82 VMware, Inc.

Page 83: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

Windows 虚拟机上 UDP 工作负载的吞吐量低vSphere 5.1 及更高版本中的 Windows 虚拟机传输大型 UDP 数据包时,吞吐量低于预期或摇摆不定,即使当

其他流量非常小时也是如此。

问题

当 Windows 虚拟机传输的 UDP 数据包大于 1024 字节时,您会遇到低于预期或摇摆不定的吞吐量,即使当其

他流量非常小时也是如此。如果使用视频流服务器,视频播放将暂停。

原因

对于每个大于 1024 字节的 UDP 数据包,Windows 网络栈在发送下一个数据包之前将等待传输完成中断。与

早期版本不同,vSphere 5.1 及更高版本不提供此种情况的透明解决办法。

解决方案

n 增大以字节为单位的阈值,达到该阈值时,Windows 将通过修改 Windows 客户机操作系统的注册表来更

改 UDP 数据包的行为。

a 找到 HKLM\System\CurrentControlSet\Services\Afd\Parameters 注册表项。

b 添加一个名称为 FastSendDatagramThreshold、类型为 DWORD 且等于 1500 的值。

有关在 Windows 注册表中修复此问题的信息,请参见 http://support.microsoft.com/kb/235257。

n 修改虚拟机网卡的合并设置。

如果 Windows 虚拟机具有 VMXNET3 vNIC 适配器,请在虚拟机的 .vmx 文件中配置以下参数之一。使用

vSphere Web Client 或直接修改 .vmx 文件。

操作 参数 值

将虚拟机的中断率增大到大于预期数据包速率的速率。例如,如果预期数据包速率为每秒钟 15000 次中断,则请将中断速率设置为每秒钟 16000 次中断。将 ethernetX.coalescingScheme 参数设置为 rbc,将ethernetX.coalescingParams 参数设置为 16000。默认中断率为每秒钟 4000 次中断。

ethernetX.coalescingScheme

ethernetX.coalescingParams

rbc16000

禁用合并低吞吐量或滞后敏感的工作负载。有关配置短滞后工作负载的信息,请参见http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf《vSphere 虚拟机中调校滞后敏感的工作负载性能的 佳实践》。

ethernetX.coalescingScheme 已禁用

恢复为早期 ESXi 版本中的合并算法。

注意 恢复为早期算法的功能在更高版本的 vSphere 中不可用。

ethernetX.coalescingScheme 校准

ethernet 旁边的 X 表示虚拟机中网卡的序列号。

有关在 .vmx 文件中配置参数的详细信息,请参见《vSphere 虚拟机管理》文档。

n 修改 ESXi 主机合并设置。

此方法影响主机上的所有虚拟机和所有虚拟机网卡。

可以在 vSphere Web Client 中或在 ESXi Shell. 中的主机上使用 vCLI 控制台命令来编辑主机的高级系统设

置列表。

第 8 章 网络故障排除

VMware, Inc. 83

Page 84: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

操作vSphere Web Client 中的参数

esxcli system settingssdvanced set 命令的参数 值

设置一个高于预期数据包速率的默认中断率。例如,如果期望的中断率为每秒钟 15000 次,请将其设置为16000。

Net.CoalesceScheme

Net.CoalesceParams

/Net/CoalesceScheme

/Net/CoalesceParams

rbc16000

禁用合并低吞吐量或滞后敏感的工作负载。有关配置短滞后工作负载的信息,请参见http://www.vmware.com/files/pdf/techpaper/VMW-Tuning-Latency-Sensitive-Workloads.pdf《vSphere虚拟机中调校滞后敏感的工作负载性能的 佳实践》。

Net.CoalesceDefaultOn /Net/CoalesceDefaultOn 0

恢复为早期 ESXi 版本中的合并方案。

注意 恢复为早期算法的功能在更高版本的 vSphere中不可用。

Net.CoalesceScheme /Net/CoalesceScheme 校准

有关配置 vSphere Web Client 中的主机的信息,请参见《vCenter Server 和主机管理》文档。有关使用 vCLI命令设置主机属性的信息,请参见《vSphere 命令行界面参考》文档。

位于相同的分布式端口组但不同主机上的虚拟机无法互相通信在某些情况下,位于相同的分布式端口组但不同主机上的虚拟机无法互相通信。

问题

位于不同主机但相同端口组上的虚拟机无法进行通信。从一个虚拟机到另一个虚拟机的 Ping 操作没有任何效

果。使用 vMotion 无法在主机之间迁移虚拟机。

原因

n 在分布式端口组的成组和故障切换命令中,分配给活动上行链路或备用上行链路的某些主机上没有物理网卡。

n 分配给活动上行链路或备用上行链路的主机上的物理网卡位于物理交换机上不同的 VLAN 中。不同 VLAN中的物理网卡无法看到对方,因此无法互相通信。

解决方案

n 在 Distributed Switch 的拓扑中,检查哪一个主机没有分配给分布式端口组上活动上行链路或备用上行链

路的物理网卡。至少将该主机上的一个物理网卡分配给端口组上的活动上行链路。

n 在 Distributed Switch 的拓扑中,检查分配给分布式端口组上活动上行链路的物理网卡的 VLAN ID。在所

有主机上,将同一个 VLAN 中的物理网卡分配给分布式端口组上的活动上行链路。

由于缺少关联的协议配置文件,尝试打开迁移的 vApp 的电源失败由于缺少网络协议配置文件,无法打开传输至数据中心或 vCenter Server 系统的 vApp 或虚拟机的电源。

问题

在将 vApp 或虚拟机冷迁移到另一数据中心或 vCenter Server 系统后,尝试打开其电源失败。将显示错误消

息,提示由于 vApp 或虚拟机的网络缺少关联的网络协议配置文件,无法初始化或分配属性。

无法初始化属性“属性”(Cannot initialize property 'property')。网络“端口组”不具有关联的网络协议配置文

件 (Network 'port group' has no associated network protocol profile)。

无法为属性“属性”分配 IP 地址 (Cannot allocate IP address for property 'property')。网络“端口组”不

具有关联的网络协议配置文件 (Network 'port group' has no associated network protocol profile)。

原因

使用 OVF 环境时,vApp 或虚拟机会从一个与 vApp 或虚拟机的端口组关联的网络协议配置文件中检索网络设

置。

vSphere 故障排除

84 VMware, Inc.

Page 85: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

在您安装 vApp 的 OVF 时,vCenter Server 会创建这样一个网络协议配置文件,并将它与安装期间指定的端口

组相关联。

该协议配置文件与端口组之间的映射仅在数据中心范围内有效。当您移动 vApp 时,由于以下原因,未将该协

议配置文件传输到目标数据中心:

n 协议配置文件的网络设置在目标数据中心的网络环境中可能无效。

n 目标数据中心内可能已存在同名且与另一协议配置文件关联的端口组,并且 vApp 和虚拟机可能已连接到

此端口组。替换该端口组的协议配置文件可能会影响这些 vApp 和虚拟机的连接。

解决方案

n 在目标数据中心或 vCenter Server 系统上创建一个具有所需网络设置的网络协议配置文件,然后将该协议

配置文件与 vApp 或虚拟机所连接的端口组相关联。例如,当 vApp 或虚拟机是使用 vCenter ExtensionvService 的 vCenter Server 扩展时,适合使用此方法。

有关通过网络协议配置文件向 vApp 或虚拟机提供网络设置的信息,请参见《vSphere 网络连接》文档。

n 使用 vSphere Web Client 从源数据中心或 vCenter Server 系统导出 vApp 或虚拟机的 OVF 文件,然后将

该文件部署在目标数据中心或 vCenter Server 系统上。

使用 vSphere Web Client 部署 OVF 文件时,目标 vCenter Server 系统会为 vApp 创建网络协议配置文件。

有关在 vSphere Web Client 中管理 OVF 文件的信息,请参见《vSphere 虚拟机管理》文档。

网络连接配置操作回滚并且主机断开与 vCenter Server 的连接尝试为主机上的 vSphere Distributed Switch 添加或配置网络连接时,操作发生回滚并且主机断开与

vCenter Server 的连接。

问题

在 vSphere 5.1 或更高版本中,尝试对主机上的 vSphere Distributed Switch 执行网络连接配置操作时,如创建

虚拟机适配器或端口组,会导致主机断开与 vCenter Server 的连接,并显示错误消息“主机上的事务已回滚

(Transaction has rolled back on the host)”。

原因

当主机处于压力状态时,即许多并发的网络连接操作争用有限的资源时,执行某些操作的时间可能会超过Distributed Switch 上默认的网络配置操作回滚超时时间。结果导致这些操作回滚。

例如,在一个拥有大量交换机端口或虚拟适配器的主机上创建 VMkernel 适配器时,由于所有端口和适配器都

消耗主机的系统资源,就可能出现这种情况。

默认的操作回滚超时时间为 30 秒。

解决方案

n 使用 vSphere Web Client 增大 vCenter Server 上的回滚超时时间。

如果再次遇到相同的问题,请逐步回滚值为 60 秒的超时,直至操作有足够的时间成功完成。

a 在 vCenter Server 实例的管理选项卡中,单击设置。

b 选择高级设置,然后单击编辑。

c 如果属性不存在,向设置中添加 config.vpxd.network.rollbackTimeout 参数。

d 为 config.vpxd.network.rollbackTimeout 参数键入新值(以秒为单位)。

e 单击确定。

f 重新启动 vCenter Server 系统以应用更改。

第 8 章 网络故障排除

VMware, Inc. 85

Page 86: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

n 通过编辑 vpxd.cfg 配置文件,增大回滚超时值。

如果再次遇到相同的问题,请逐步回滚值为 60 秒的超时,直至操作有足够的时间成功完成。

a 在 vCenter Server 实例上,导航到包含 vpxd.cfg 配置文件的目录。

n 在 Windows Server 操作系统中,导航到 vCenter Server 主目录\Application

Data\VMware\VMware VirtualCenter。

n 在 vCenter Server Appliance 上,导航到 /etc/vmware-vpx。

b 打开 vpxd.cfg 文件进行编辑。

c 在 <network> 部分下的 <rollbackTimeout> 元素中,增加超时值。

<config>

<vpxd>

<network>

<rollbackTimeout>60</rollbackTimeout>

</network>

</vpxd>

</config>

d 保存并关闭文件。

e 重新启动 vCenter Server 系统以应用更改。

vSphere 故障排除

86 VMware, Inc.

Page 87: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

故障排除许可 9由于在 vSphere 中进行了错误或不兼容的许可证设置,您可能会遇到一些问题,故障排除许可主题提供了针对

这些问题的解决方案。

本章讨论了以下主题:

n 第 87 页,“主机许可故障排除”

n 第 88 页,“无法打开虚拟机电源”

n 第 88 页,“无法配置或使用功能”

主机许可故障排除您可能会遇到因 ESXi 主机的不兼容或不正确的许可配置而导致的不同问题。

无法将许可证分配给 ESXi 主机

在某些条件下,可能无法将许可证分配给 ESXi 主机。

问题

尝试将许可证分配给 ESXi 主机,但无法执行该操作,您会收到一条错误消息。

原因

由于以下原因,可能无法将许可证分配给 ESXi 主机:

n 主机的经计算的许可证使用情况超出了许可证容量。例如,您的 vSphere 许可证密钥的容量为两个 CPU。

您尝试将密钥分配给具有四个 CPU 的主机。由于主机所需的许可证使用量大于许可证容量,因此无法分

配许可证。

n 主机上的功能与许可证版本不匹配。例如,在评估模式下,您可能使用 vSphere Distributed Switch 和vSphere DRS 配置主机。随后,尝试将 vSphere Standard 许可证分配给这些主机。此操作会失败,因为

vSphere Standard 版本不包括 vSphere Distributed Switch 和 vSphere DRS。

n 主机连接到 vCenter Server 系统,该系统已分配有一个可限制您要分配的许可证版本的许可证。

解决方案

n 分配容量更大的许可证。

n 升级许可证版本以匹配主机上的资源和功能,或者禁用与许可证版本不匹配的功能和资源。

n 分配一个其版本与 vCenter Server 的许可证版本兼容的 vSphere 许可证。

VMware, Inc. 87

Page 88: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

ESXi 主机与 vCenter Server 断开连接

某一 ESXi 主机可能与 vCenter Server 断开连接,或者所有 ESXi 主机可能同时与 vCenter Server 断开连接。

问题

n 某一 ESXi 主机与 vCenter Server 断开连接,或者所有 ESXi 主机与 vCenter Server 断开连接,并且您收到

与许可相关的错误消息。

n 无法将主机添加到 vCenter Server 清单。主机和主机上的虚拟机可以继续运行。

原因

n 主机的 60 天评估期已到期,或主机许可证已过期。

n vCenter Server 的 60 天评估期已到期,或 vCenter Server 许可证已过期。

解决方案

n 将 vSphere 许可证分配给 ESXi 主机并尝试将其重新连接到 vCenter Server。

n 将 vCenter Server 许可证分配给 vCenter Server 系统。

无法打开虚拟机电源您尝试打开虚拟机电源但操作失败时,会收到一条错误消息。

问题

无法在 ESXi 主机上打开虚拟机电源。

原因

可能无法打开虚拟机电源,原因如下。

n 主机的 60 天评估期已过期。

n 主机的许可证已过期。

解决方案

表 9‑1 打开虚拟机电源

原因 解决方案

主机的评估期已过期。 将 vSphere 许可证分配给 ESXi 主机。

主机的许可证已过期。

无法配置或使用功能无法使用功能或更改其配置。

问题

无法使用或配置功能,并将显示与许可相关的错误消息。

原因

为主机或 vCenter Server 系统分配的许可证不支持您要配置的功能。

vSphere 故障排除

88 VMware, Inc.

Page 89: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

解决方案

检查主机和 vCenter Server 系统上的许可功能。如果主机或 vCenter Server 不包含您尝试配置或使用的功能,

请升级分配给它们的许可证版本。

第 9 章 故障排除许可

VMware, Inc. 89

Page 90: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

vSphere 故障排除

90 VMware, Inc.

Page 91: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

索引

AActive Directory 30Auto Deploy超时错误 25重定向问题 25coredump 26错误的映像 25DHCP 地址 28故障排除 25TFTP 服务器 27网络引导问题 29无法完成引导 27无法引导 28映像配置文件警告 26

B本地闪存磁盘, 不可检测到的 65本地闪存磁盘不可用 64标记, 闪存设备 66

C测试解决方案 10插槽大小 39, 40插件, 故障排除 37超时错误, Auto Deploy 25CHAP 身份验证 56config.vpxd.das.electionWaitTimeSec 24存储 DRS错误 50放置位置 51规则违反 50故障排除 47建议 51无法应用建议 51已禁用 47

存储 DRS 建议, 故障排除 51存储故障排除 55存储设备, 显示问题 55存储设备, 标记为本地设备 66存储适配器, 故障排除 62

D单根 I/O 虚拟化, ,请参见 SR-IOVDisk.SchedNumReqOutstanding 60

Distributed Switch无法移除主机 75物理网络适配器 79

低吞吐量, Windows 虚拟机 83地址已在使用中, Jetty 服务器 35DRS 不会放置 FT 虚拟机 16队列深度 58, 59对问题空间进行故障排除 10

EESXi 日志 10EVC 16

F访问 FT 元数据数据存储, 丢失 15反向代理, 自定义 30Fault Tolerance故障排除 13, 14日志记录 16

Fault Tolerance 故障排除 13非 ASCII 字符 61分布式端口组, 虚拟机无法通信 84flash player, 内存不足 35FT 虚拟机的网络延迟 14FT 虚拟机放置位置不平衡 15辅助虚拟机 43, 44

G高级设置, Disk.SchedNumReqOutstanding 60高级运行时信息 40更新信息 7功能 88管理节点日志 10孤立的虚拟机, 恢复 18过载的主机 14故障排除插件 37扩展 37USB 设备 17vCenter Server 33vSphere Web Client 33, 34虚拟卷数据存储 67证书 36

故障排除概览 9故障排除许可 87

VMware, Inc. 91

Page 92: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

故障排除准则 9故障切换, 已断开虚拟机连接 78

HHBA, 队列深度 58合规性故障, 主机配置文件 30红色群集 39

II/O 筛选器安装 69安装故障 69故障排除 69

iBFT 61IPv4 23IPv6 23

JJetty 服务器, 地址已在使用中 35监控, Storage I/O Control 52交换文件 44警报定义 35拒绝服务

虚拟机, VPN 81另请参见 DoS

K可见性问题 55, 56可用性故障排除 39扩展, 故障排除 37

L路径抖动 58LUN 不可见, SP 可见性 55, 56LUN 抖动 58LUN 队列深度 58

M密码要求 29

NNetwork I/O Control, 物理网络适配器, 无法添加 79NFS 数据存储 61

PPlatform Services Controller 日志 10

Q全部路径异常 (APD) 45确定症状, 故障排除 9“群集允许的主机故障数目”接入控制策略 39,

40

R日志记录 10软件 iSCSI 适配器, 队列深度 59

SSCSI 感知代码 61SCSI INQUIRY 60SCSI 预留, 减少 57闪存磁盘格式化, 自动分区期间防止 65闪存驱动器 64闪存设备, 标记 66上行链路冗余丢失 78上行链路冗余已丢失 78身份验证 56数据存储维护模式 48性能图表故障排除 52

数据存储的性能图表, 查看性能图表故障排除 52数据存储检测信号 41数据存储群集, 维护模式 48SP 可见性, LUN 不可见 55, 56SQL 兼容性模式 34SR-IOV

MAC 地址, 失去连接 80虚拟机, 故障排除 80虚拟机, 失去连接 80中断向量已耗尽 80

SR-IOV, 已关闭虚拟机电源 80SSD 64SSL 证书, vSphere HA 中的故障排除 37Storage DRS关联性规则 50禁用 50OVF 模板 50删除关联性规则 50

Storage I/O Control故障排除 52, 53监控 52

TTFTP 服务器, Auto Deploy 27Tomcat 服务, vCenter Server 升级失败 33通用日志 10

UUSB 设备, 错误消息 17USB 直通重新启动 USB 仲裁器 18对设备连接进行故障排除 18故障排除 17

vSphere 故障排除

92 VMware, Inc.

Page 93: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

VVAIO 筛选器, 故障排除 69vCenter Server故障排除 33排除证书故障 36无法与主机连接 76, 77自定义反向代理 30

vCenter Server 升级失败, Tomcat 服务 33vCenter Server 系统不显示 34vCenter Server 许可证 88vCenter Server 证书 36VDS, 无法移除主机 75VIB 下载失败 30Virtual SAN 24, 41, 43VMCP 44VMFS, 检查元数据一致性 63VMware On-disk Metadata Analyser, ,请参见

VOMAVOMA 63vSphere Distributed Switch已断开虚拟机连接 78主机无响应 76, 77

vSphere DRS 43vSphere Fault Tolerance 43, 44vSphere HA拒绝服务 81排除 SSL 证书的故障 37

vSphere HA 重新启动失败 43vSphere HA 代理 21–24vSphere HA 故障切换 42vSphere HA 接入控制 39vSphere HA 群集 43vSphere HA 主机状况初始化错误 22代理未初始化 22代理无法访问 21网络已分区 23网络已隔离 24未初始化错误 23主机出现故障 23

vSphere Web Client故障排除 33, 34虚拟机控制台无法启动 35

vSphere 许可证 88

W网络事务回滚 85主机断开连接 85

网络分区 41, 43

网络协议配置文件, 打开 vApp 或虚拟机的电源失败 84

webclient.properties 文件 35为打开电源的虚拟机打开 vSphere Fault Tolerance

失败 16维护模式, 数据存储 48未完成磁盘请求 60问题可见性 55, 56性能 57

问题空间, 故障排除 10无法访问 FT 元数据数据存储 15无法启用 Storage I/O Control 53无法应用存储 DRS 建议, 故障排除 51无上行链路冗余 78

X下载 VIB, 使用自定义 vCenter Server 反向代理 30卸载数据存储 41性能, 问题 57许可证版本 87, 88许可证密钥 88许可证容量 87, 88虚拟机

BPDU 81重复的 MAC 地址 72低吞吐量 83拒绝服务 81MAC 地址 72MAC 地址, 超出范围 74MAC 地址冲突 72SR-IOV, 故障排除 80SR-IOV, 失去连接 80UDP 83VPN 81网桥 81Windows 83

虚拟机-主机关联性规则 43虚拟机, 孤立的 18虚拟机保护状况 42虚拟机故障排除 13虚拟机控制台无法启动, vSphere Web Client 35虚拟机组件保护 44, 45虚拟卷故障排除 67虚拟机迁移故障 68

虚拟卷功能, 和 esxcli 命令 67虚拟卷故障排除

OVF 部署故障 67虚拟机迁移故障 67

虚拟卷数据存储 67

索引

VMware, Inc. 93

Page 94: Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter …...vSphere 故障排除 Update 1 VMware vSphere 6.0 VMware ESXi 6.0 vCenter Server 6.0 在本文档被更新的版本替代之前,本文档支持列出的每个产

虚拟闪存, 本地闪存磁盘不可用 64虚拟数据存储故障排除 67OVF 部署故障 67虚拟机迁移故障 67

Y移除数据存储 41已断开虚拟机连接, 故障切换 78已关闭虚拟机电源, SR-IOV 80硬件虚拟化 (HV) 13, 14永久设备丢失 (PDL) 45元数据一致性, 使用 VOMA 检查 63“预留的群集资源的百分比”接入控制策略 40

Z增强型 vMotion 兼容性 16证书

vCenter Server 36主机 36

转换为增强的 LACP 失败 74主机, 无法与 vCenter Server 连接 76, 77主机隔离响应 24主机故障排除 21主机配置文件, 合规性故障 30主机许可故障排除 87主机证书 36主机中 FT 虚拟机过载 15主虚拟机 43, 44自定义反向代理 30自动分区, 防止闪存磁盘格式化 65自动分区期间防止闪存磁盘格式化 65大 HBA 队列深度 58

vSphere 故障排除

94 VMware, Inc.