怎么在MySQL中实现分表与分区 - 行业资讯 - 肥雀云

这篇文章将为大家详细讲解有关怎么在MySQL中实现分表与分区，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

分表

单表数据量太大时，会严重影响sql执行的性能。一般单表到达几百万的时候，性能就会相对差一些了，这时就得分表了。

分表就是把一个表的数据放到多个表中，然后查询的时候就查一个表。比如按照项目id来分表：将固定数量的项目数据放在一个表中，这样就可以控制每个表的数据量在可控的范围内。

分库

根据经验来讲，一个库最多支持到并发2000时就需要扩容了，而且一个健康的单库并发值最好保持在1000左右。那么你可以将一个库的数据拆分到多个库中，访问的时候就访问一个库好了。

这就是所谓的分库分表，为啥要分库分表？

提高并发支撑能力
降低磁盘使用率
提高SQL执行性能

如何分库分表

直接看图：

对于垂直拆分，建议最好在系统设计之初做好表设计，避免垂直分表。

水平拆分可以按照range来分，或是按照某个字段hash。按照range来分，好处在于扩容简单，准备好新的表或库就可以了。但是容易产生热点问题，实际使用时要结合业务场景来看。按照hash来分，好处在于可以平均分配每个库或表的请求压力，缺点是扩容麻烦，之前的数据要rehash，存在一个数据迁移的过程。

分库分表带来的问题

分库分表能有效地缓解单机和单库带来的网络IO、硬件资源、连接数的压力。但也带来了一些问题。

事务一致性问题
通过分布式事务或者保证最终一致性来解决。
跨节点关联查询join问题
全局表、字段冗余、数据组装、ER分片
跨节点分页、排序、聚集函数问题
首先在不同分片节点进行查询，最后要对结果进行汇总或归并
全局主键避重问题
各种分布式ID生成算法
数据迁移、扩容问题
如果是range分片，只需要添加节点就可以进行扩容了。
如果是hash，一般做法是先读出历史数据，然后按指定的分片规则再将数据写入到各个分片节点中。

数据迁移

数据迁移介绍两种方案。

一个最low的方案，就是系统停机一段时间，用实现写好的导数据的工具跑一遍把单独单表的数据独出来，写到分库分表里面去。

第二个方案听起来就比较靠谱了，双写迁移方案。在线上系统里，之前所有写数据的地方，增删改操作，除了对旧库增删改，再加上对新库的增删改，这就是所谓的双写。然后系统部署之后，把方案一里的导数据工具跑起来，读老库写新库。写的时候要根据gmt_modified这类字段判断这条数据最后修改的时间，除非是读出来新库没有，或是比新库数据新才会写。简单来说就是不允许用老数据覆盖新数据。

写完一轮之后，有可能还是存在不一致，那么就程序自动新一轮校验，对比新老库每个表的每条数据，接着如果有不一样的，就针对那些不一样的，从老库读数据再次写。反复循环直到数据完全一致。

中间件

分库分表的中间件比较常见的有：

Cobar：阿里b2b团队开发和开源的，属于proxy层方案，介于应用服务器和数据库服务器之间。应用程序通过JDBC驱动访问Cobar集群，Cobar根据SQL和分库规则对SQL做分解，然后分发到MySQL集群不同的数据库实例上执行。不支持读写分离、存储过程、跨库join和分页等操作。最近几年都没更新了，也没啥人用了。
TDDL：淘宝团队开发的，属于client层方案。支持基本的crud语法和读写分离，但不支持join、多表查询等语法。目前只用也不多，因为还依赖淘宝的diamond配置管理系统。
Atlas：360开源的，属于proxy层方案。也是好几年没维护，现在用的公司基本也很少了。
Sharding-jdbc：当当开源的，属于client层方案，目前已更名为ShardingSphere。SQL语法支持的也比较多，没有太多限制，支持分库分表、读写分离、分布式id生成、柔性事务（最大努力送达型事务、TCC事务）。而且使用的公司比较多，社区活跃。
怎么在MySQL中实现分表与分区