一致性Hash算法在数据库分表中的实践- 学习笔记- 青岛软件培训-选择一家好的青岛软件培训学校，就要看教学质量和口碑

最近有一个项目，其中某个功能单表数据在可预估的未来达到了亿级，初步估算在90亿左右。与同事详细讨论后，决定采用一致性Hash算法来完成数据库的自动扩容和数据迁移。整个程序细节由我同事完成，我只是将其理解并成文，供有相同问题的同行参考。

参看此文的兄弟，默认各位已经熟悉一致性hash算法了。此文仅仅阐述代码细节，实现语言为Java。

项目背景

项目是一个实验室项目
其中有一个表叫做试验表，用于存储车型的试验数据，每个试验大概有6000条数据
总计初期约有2万个车型，每个车型初期包含超过50个试验。后期还会动态增长
试验表中的数据仅需要根据车型试验ID能取出来即可，没有其他更复杂的业务逻辑

方案决策

项目正式上线初期，数据量不会直接爆发式增长到90亿，需要时间上的积累（逐步做实验），最终可能达到90亿数据，甚至超过90亿数据。

按照我们实际了解情况，oracle存储数据量达到1千万的时候，性能擅可。而Oracle官方的说法，如单表存储1g有分区（大致500万数据），查询效率非常高。而试验表中仅四个字段，每条数据数据量较小。所以我们最终决定以1000万为节点，水平拆表。当表数据达到1千万时，即增加下一波表。进行数据自动迁移。

按照90亿的总量，1000万数据一个表的划分，最终大致会产生900个左右的表。所以我们最终使用了4个数据库。1个存储其他业务模块的表，3个存储此大数据表。每个数据库大致有300张表。性能上和数量上都可达到我们的要求。

字段	含义
ID	主键，采用UUID生成
EXPERIMENT_ID	试验表中的ID
CAR_ID	车型表中的ID
...	其余数十个字段省略

字段	含义
ID	主键，采用UUID生成
EXPERIMENT_MESSAGE_ID	对应的实验信息id
X_VALUE	试验数据X值
Y_VALUE	试验数据Y值

一致性Hash算法实现

一致性Hash算法的hash部分，采用了著名的ketama算法。在此，我们不多讨论ketama算法的细节，若各位有兴趣，请查阅ketama算法

    public long hash(String key) {         if (md5 == null) {             try {                 md5 = MessageDigest.getInstance("MD5");             } catch (NoSuchAlgorithmException e) {                 throw new IllegalStateException("no md5 algorythm found");             }         }          md5.reset();         md5.update(key.getBytes());         byte[] bKey = md5.digest();          long res = ((long) (bKey[3] & 0xFF) << 24) |                           ((long) (bKey[2] & 0xFF) << 16) |                           ((long) (bKey[1] & 0xFF) << 8) |                           (long) (bKey[0] & 0xFF);         return res & 0xffffffffL;     }

有了Hash的算法，接下来就要构造Hash环了。Hash环采用的SortedMap数据结构实现。

private final SortedMap<Long, T> circle = new TreeMap<Long, T>();

其中添加节点和移除节点部分，需要根据hash算法得到节点在环上的位置，具体代码如下：

    /**      * 添加虚拟节点      * numberOfReplicas为虚拟节点的数量，初始化hash环的时候传入，我们使用300个虚拟节点      * @param node      */     public void add(T node) {         for (int i = 0; i < numberOfReplicas; i++) {             circle.put(hashFunction.hash(node.toString() + i), node);         }     }      
                        关键字：

万码学堂2025年课程全面升级

一致性Hash算法在数据库分表中的实践

项目背景

方案决策

相关表结构

一致性Hash算法实现

青岛软件培训

联系我们

电话咨询

扫码添加微信