VMware vSphere 5.1群集深入解析(二十八) - 行业资讯 - 肥雀云

HA.DRS.Storage DRS.Stretched Clusters

Duncan Epping &Frank Denneman

Translate By Tim2009 / 翻译：Tim2009

版权

关于作者

知识点

前言

第一部分 vSphere高可用性

第二部分 vSphere DRS（分布式资源调度）

第五章 DRS计算推荐

第三部分 vSphere存储DRS

第九章总结汇总

第四部分群集架构的扩展

第四章总结汇总

第五章附录

第四部分群集架构的扩展

这种情况下，我们的重点是扩展群集环境中vSphere HA，vSphere DRS和存储DRS之间的关系，以及围绕这些vSphere组件在设计和运作方面经常被忽视和低估的考虑。历来很多重点放在存储层，而很少考虑工作负载如何配置和管理。

如我们之前提到的，扩展群集关键的驱动力是工作负载平衡和灾难避免。怎样确认我们的环境是处在合理的平衡中而没有影响可用性或者大幅减少操作开销？我们怎样建立配置需求和持续管理过程，我们怎样定期验证我们仍然满足我们的需求？定义和遵从需求失败会使环境混乱难以管理、各种故障场景难以预测，也会希望它来帮助你。事实上，忽略过程会导致故障事件中产生额外的停机时间。

这三个VMware vSphere功能每一个都有特别的配置需求，能加强你环境的弹性和工作负载的可用性，通过这一部分，架构建议将产生，这些建议将基于测试期间的各种场景发现的问题。每一个故障场景测试在接下来的章节中都被记录，请记住，这些故障场景直接应用这些实例的配置，基于你的实施和配置选项你的环境可能会受到额外故障。

vSphere HA 特性

我们的实例环境中有4台主机和一个统一扩展存储解决方案。当全部站点发生故障是需要考虑弹性架构的一个场景，我们建议开启接入控制（Admission Control），工作负载的可用性是许多扩展群集环境的主要驱动力，它建议有足够的容量允许全站点故障，尽管如此，两个站点将平等的分配主机，来确保所有的工作负载能通过HA重新开始，建议配置接入控制策略为50%。

我们建议使用基于百分比的策略来提供架构的灵活性和减少操作开销，尽管新主机加入环境中没有必要改变百分比，而且没有整合率偏差，导致使用虚拟机级别预留资源的风险，更多详情请见第6章。

HA使用心跳检测机制来验证主机的状态，如第3章解释的有两个心跳检测机制；称为网络和数据存储心跳检测，网络心跳检测时HA验证主机的主要机制，数据存储心跳检测是一旦网络心跳检测失败通过HA来确定主机状态的另一种机制。

如果主机没有收到任何的心跳检测，它检测是否仅仅是从其它主机隔离或者网络中完全隔离。这个过程包括了Ping主机的默认网关，或者一个或者多个手工设置的隔离地址来代替主机网关，从而加强隔离检测的可靠性。我们建议指定最少两个额外的隔离地址并且每个地址能到本地网络，即使在站点之间连接失败的情况下，开启HA能够验证完整的网络隔离，并提供冗余允许一个IP故障。

但是，如果主机被隔离，vSphere HA触发响应，这在之前有解释过，叫做隔离响应，当主机同管理网络之间的连接断开，触发隔离响应来保证妥善管理虚拟机。隔离响应在第三章有深入讨论，根据使用不同的存储和物理网络完成，隔离响应用来在需要时做出决定，我们提到在第四章，表3中支持的决定。

在我们的测试环境中，一部分这些地址将属于Frimley 数据中心，另一部分属于Bluefine数据中心，屏幕截图显示了怎样配置多个隔离地址的实例，vSphereHA高级设置使用das.isolationaddress，更详细的如何配置可以在KB 文章 1002117中找到。

为了vSphere HA数据存储心跳在任何故障场景中都运行正常，我们建议增加数据存储心跳的数量为2-4，最少的数据存储心跳为2，最大为5，扩展群集环境中建议4，这样将提供本地的全冗余。还建议定义4个指定数据存储为优先数据存储心跳，选择一个站点的2个然后选择另一个站点的2个。这样做即使站点之间发生连接故障也允许vSphere HA的数据存储心跳。如果站点之间发生连接故障后站点还存在部分网络，这些数据存储将非常有用。