SmartX产品技术解析:SMTX分布式块存储——存储引擎篇 - 行业资讯

注：本文内容整理自 SmartX CTO 张凯在 SMTX OS 3.5 新品发布会上的演讲。

我们还是先来看一下我们会对数据存储引擎模块有什么样的需求。

首先，肯定是还是可靠。因为我们客户的应用场景都大部分是核心的应用，数据可靠是要绝对保证的，没有任何妥协的空间。

其次是性能，目前在万兆网络和 SSD，包括 NVMe SSD 都已经非常普及。随着硬件的速度越来越快，性能的瓶颈会从硬件转移到软件。尤其对于存储引擎来说，性能至关重要。

除了追求绝对的性能以外，我们还希望能够做到高效。我们希望每一个 CPU 指令都不被浪费。我们追求用最少的 CPU 指令完成一次 IO 操作。这背后的原因是，存储硬件设备越来越快，目前最快的存储已经可以做到单次访问只需要 10 纳秒。而如果程序中加一次锁，做一次上下文切换，可能几百个纳秒就过去了。如果不做到高效的话，目前的 CPU 可能完全无法发挥出 SSD 的性能。除了高效的使用 CPU 以外，我们也要高效的使用内存资源，网络带宽资源。同时，由于目前相同容量的 SSD 的价格还高于 HDD 的价格，所以我们也尽可能的节省磁盘空间的占用，通过利用压缩，去重等技术，提高 SSD 的空间使用效率。

最后，也是非常重要的一点，存储引擎需要易于 Debug，而且要易于升级。对于软件工程师来说，50% 以上的工作时间都是在做 Debug，而对存储软件工程师来说，这个比例可能更高。我们希望做一个非常易于 Debug 的软件产品，如果发现问题，可以快速的定位并修复。升级也是一样，现在软件的迭代速度越来越快，我们希望软件可以方便的易于升级，这样我们可以让用户更快的使用上新版本的软件，享受到新版本的功能，以及性能的优化。

接下来，我们来看一下具体的实现。很多传统的存储厂商在实现存储引擎的时候，往往会选择把整个 IO 路径的实现放在 Kernel Space 里面。例如在上图中，上层是一个核心的存储引擎，下层是文件系统，块设备，以及驱动。由于网络栈也是实现在内核中的，把存储引擎放在内核里面就可以最大化性能，减少上下文切换（Context Switch）。但这种实现有很多非常严重的问题，首先就是难于 Debug。如果大家做过内核开发，就会知道在内核中 Debug 是一件非常麻烦的事情。而且开发语言也只能用 C，不能用其他语言。同时，在内核里面开发，升级会非常困难。一次升级，不管是 Bugfix，还是增加新功能，都可能需要重启整个服务器，这对于存储系统来说代价是非常巨大的。还有一个很重要的因素就是故障域非常大。Kernel 里面的模块如果出问题，可能导致整个 Kernel 被污染，可能是死锁，可能是 Kernel Panic。通常也是需要重启服务器才能修复。

既然有这么多问题，那我们在设计的时候肯定不会选择用 Kernel Space 的方式。我们选择在 Userspace，也就是用户态实现我们的存储引擎。

在 User Space 实现，很多项目会选择把存储引擎构建在 LSM Tree 的数据结构上。LSM Tree 运行在文件系统之上。User Space 和 Kernel 比起来更灵活，可以用各种语言；升级也很方便，只需要重启一下进程就可以，不需要重启服务器；User Space 的故障只会影响到服务进程本身，并不会影响到 Kernel 的运行。但这种方式的问题就是性能不够好，由于 IO 还是需要经过 Kernel，所以会产生上下文切换，这个切换就会引入性能的开销。

接下来，我们来说一下 LSM Tree。LSM Tree 的数据结构以及实现我们在这里就做不详细介绍了。总的来说，LSM Tree 是很多存储引擎的核心。

LSM Tree 的好处就是实现起来是相对简单的，有很多开源的实现可以参考，而且它对小块数据写入优化做的非常好，会将小块数据合并，并批量写入。