<强>现状强>
存在大量的单点问题:每个门店一个物理服务器,中心机房多个服务器。门店服务器故障,营业受影响;中心机房服务器故障,门店的非现金业务(银行卡刷卡,微信支付,支付宝等)受影响
<强>总体思路强>
撤销每个门店的服务器,保证门店网络的可靠性(多线路接入,4 g终端设备等),服务器集中到中心机房,构建更高可用性的数据平台。
<>强基本目标强>
- <李>
高可用性:最小的停机时间,部分硬件损坏不对正常业务产生影响。
李>- <李>
可扩展性:随业务增加,可不停止业务进行容量扩充,也不改变现有的系统架构。
李> <李>可视化运维:随时掌握系统的运行情况,并以集中,直观的方式进行展示。
李> <李>低成本:充分利用现有资源,合理规划,使整个平台成本可控且满足实际需求。
<>强架构组成强>
本方案架构由负载均衡,超融合私有云,监控平台以及备份系统组合而成。
?负载均衡
负责将门店终端的请求按一定的算法,转发到多个相同的后端应用。负载均衡实际包含三个功能:负载均衡,健康检查及失败切换。
- <李>
负载均衡:多个后端分担负载,以支持更大规模的访问及业务请求;
李> <李>健康检查:后端服务某一个或者几个出现故障,负载均衡器会自动把故障系统从转发队列里面自动清除;后端服务恢复正常后,其又会自动加入到转发队列;
李> <李>失败切换:负载均衡器是成对出现的,一般设置为一主一备,一旦主负载均衡出现故障,辅助负载均衡自动接替其工作。
李>
?超融合私有云
三台或者三台以上配置较高的物理服务器、组成去中心化的集群,去中心化的存储,只要组成集群的最小单位存在,整个集群就不会奔溃,运行在物理节点的虚拟机如果设定了哈(高可用),一旦物理机发生故障,这些虚拟机将自动漂移到运行正常的其它物理节点上。
超融合由如下几个特点:
- <李>
去中心化:没有专门的控制节点,无需考虑控制节点的单点问题。
李> <李>去集中存储:传统的私有云集群架构,保障可用性是以共享存储方式实现的。但共享存储本身就是单点,虽然可以以多磁盘冗余已经双控制器的方式提高可用性,但仍然存在IO集中,性能无法提升的困境。
李> <李>更低的建设成本:去掉昂贵的中心化存储,磁盘分布到本地物理服务器,投资成本大幅度降低。
李> <李>在线扩容:不停止服务,对物理机配件(内存、cpu等)进行扩容,甚至新增物理节点。
?系统监控
对主机资源(包括物理节点,虚拟机节点)运行状况进行实时监控,对应用或者服务进行实时监控,一旦出现故障,能及时有效的告警。
?数据备份
备份包括两部分,一是对重要的虚拟机进行备份,另一个是对应用数据进行备份。虚拟机备份的目的是为了故障的快速恢复,应用数据备份是为了数据的完整性。
有了上述多重保障措施以后,整个平台的可用性提高了好几个量级。考虑到一下几个场景的故障,我们来进一步进行描述其可用性及可靠性:
虚拟机故障。负载均衡发挥作用,客户端访问不受影响,业务不会中断。
物理机故障。超融合机制发挥作用,运行其上的应用(包括虚拟机系统)自动漂移,客户端访问不受影响,业务不会中断。
集群整体崩溃。备份系统发挥作用,重构一个新的集群,以网络方式挂接上备份数据,web界面选中备份文件,点击恢复,坐等虚拟机进行快速恢复。传统的恢复方式大概是这样的:重新安装系统à部署应用环境à复制备份数据到目标系统à导入数据à验证数据有效性、完整性à恢复服务。
可照搬实施的商超高可用方案:proxmox + haproxy等