它揭秘LOL背后的基础架构丨踏上部署多样性的征程

  
  

本期开始,我们将陆续分享钨织物用户案例文章,一起发现TF的更多应用场景。“揭秘LOL”系列的主人公是特遣部队用户防暴游戏游戏公司,作为LOL《英雄联盟》的开发和运营商,防暴游戏面临全球范围复杂部署的挑战,让我们一起揭秘LOL背后的“英雄们”,看他们是如何运行在线服务的吧。
乔纳森·麦卡弗里(文章防暴游戏)

     

揭秘LOL背后它的基础架构丨踏上部署多样性的征程

  

我叫乔纳森?麦卡弗里在防暴的基础架构团队工作。这是该系列文章中的第一篇,我们将深入探讨如何在全球范围内部署和操作后端功能。在深入探讨技术细节之前,重要的是要了解暴徒(防暴人)如何考虑功能开发,在防暴玩家的价值至高无上,开发团队通常直接与玩家社区合作,以提供功能和改进信息。为了提供最佳的玩家体验,我们需要快速行动,并具备可以根据反馈保持快速更改计划的能力。基础架构团队的任务,就是为我们的开发人员能做到这一点铺平道路,越是加强防暴团队的能力,就可以越快地将功能交付给玩家使用。

  

当然,说起来容易做起来难!鉴于我们在部署上的多样性,因此出现了许多挑战:我们的服务器遍布在公共云,私有数据中心,以及腾讯和Garena这样的合作伙伴环境当中,所有这些环境在地理位置和技术上都各不相同。

  

当功能团队准备好交付组件时,这种复杂性给他们带来了巨大的负担。那就是基础架构团队的职责所在——我们通过基于容器的内部云环境(我们称为“rCluster”)消除了一些部署障碍。在本文中,我将讨论防暴从手动部署到使用rCluster启动功能的历程。为了说明rCluster的产品和技术,我将逐步介绍Hextech制作系统的发布(Hextech制作是英雄联盟的开箱系统的名字)。

  

一点历史

  

7年前,当我刚开始在防暴工作时,我们并没有太多的部署或服务器管理流程,防暴当时是一家具有远见卓识,但预算少并且需要快速发展的初创公司。当为《英雄联盟》构建生产环境基础架构时,我们匆忙的满足游戏的需求,从开发人员带来的更多功能的需求,来自区域团队的在全球开设新区的需求。我们手动启用服务器和应用,很少考虑原则或战略规划。

  

在此过程中,我们转向利用厨师完成许多常见的部署和基础设施任务。同时,开始将越来越多的公共云用于大数据和Web工作。这些变革也多次触发了我们的网络设计,供应商选择和团队结构的变化。

  

我们的数据中心容纳了数千台服务器,并且几乎为每个新应用程序都安装了新的服务器。新服务器将存在于自己手动创建的VLAN中,并具备路由和防火墙规则,以实现网络之间的安全访问。尽管此过程可以帮助我们提高安全性并明确定义故障域,但它既费时又费力。更麻烦的是,当时的大多数新功能都被设计为小型Web服务,这使得我们的LoL(英雄联盟)的生态系统、独立应用的数量激增。

  

最重要的是,开发团队对他们的应用程序测试能力缺乏信心,尤其是在涉及诸如配置和网络连接之类的部署问题时。将应用程序与物理环境紧密联系在一起,意味着生产数据中心环境之间的差异不会在QA(测试),分期(上线前)和PBE(基于模式开发)中复制。每个环境都是手工制作的,独特的,到最后始终也不能一致。(注释:本文主要想描述的两个问题,第一是客户的应用和环境紧密相关,但是由于不同的团队或者部门的应用环境不同,因此可能出现因为不一致对应用上线带来问题)

  

当我们在应用程序数量不断增加的生态系统中,应对手动服务器和网络配置的挑战时,码头工人开始在我们的开发团队中获得普及,作为解决配置一致性和开发环境问题的方法,一旦开始使用,我们能明显感觉到码头工人可以做更多的事情,并且可以在处理基础架构的过程中发挥关键作用。

  

2016年及以后

  

当时基础架构团队设定了一个目标,为2016赛季的玩家,开发人员和防暴公司解决这些问题。到2015年底,我们已经从手动部署功能,转变为以自动化且一致的方式在防暴地区部署类似Hextech制作等功能。我们的解决方案是用rCluster这一全新的系统,该系统在微服务架构中利用了码头工人和SDN软件定义网络。切换到rCluster可以弥补我们在环境和部署过程中的不一致之处,并使产品团队可以专注于他们的产品开发。

  

它揭秘LOL背后的基础架构丨踏上部署多样性的征程