1.概述

HBase中表的基本单位是Region，日常在调用HBase API操作一个表时，交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region，今天笔者就来和大家分享一下Region合并的一些问题和解决方法。

2.内容

在分析合并Region之前，我们先来了解一下Region的体系结构，如下图所示：

从图中可知，能够总结以下知识点：

HRegion：一个Region可以包含多个Store；
Store：每个Store包含一个Memstore和若干个StoreFile；
StoreFile：表数据真实存储的地方，HFile是表数据在HDFS上的文件格式。

如果要查看HFile文件，HBase有提供命令，命令如下：

hbase hfile -p -f /hbase/data/default/ip_login/d0d7d881bb802592c09d305e47ae70a5/_d/7ec738167e9f4d4386316e5e702c8d3d

执行输出结果，如下图所示：

2.1 为什么需要合并Region

那为什么需要合并Region呢？这个需要从Region的Split来说。当一个Region被不断的写数据，达到Region的Split的阀值时（由属性hbase.hregion.max.filesize来决定，默认是10GB），该Region就会被Split成2个新的Region。随着业务数据量的不断增加，Region不断的执行Split，那么Region的个数也会越来越多。

一个业务表的Region越多，在进行读写操作时，或是对该表执行Compaction操作时，此时集群的压力是很大的。这里笔者做过一个线上统计，在一个业务表的Region个数达到9000+时，每次对该表进行Compaction操作时，集群的负载便会加重。而间接的也会影响应用程序的读写，一个表的Region过大，势必整个集群的Region个数也会增加，负载均衡后，每个RegionServer承担的Region个数也会增加。

因此，这种情况是很有必要的进行Region合并的。比如，当前Region进行Split的阀值设置为30GB，那么我们可以对小于等于10GB的Region进行一次合并，减少每个业务表的Region，从而降低整个集群的Region，减缓每个RegionServer上的Region压力。

2.2 如何进行Region合并

那么我们如何进行Region合并呢？HBase有提供一个合并Region的命令，具体操作如下：

# 合并相邻的两个Region hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME' # 强制合并两个Region hbase> merge_region 'ENCODED_REGIONNAME', 'ENCODED_REGIONNAME', true

但是，这种方式会有一个问题，就是只能一次合并2个Region，如果这里有几千个Region需要合并，这种方式是不可取的。

2.2.1 批量合并

这里有一种批量合并的方式，就是通过编写脚本（merge_small_regions.rb）来实现，实现代码如下：

# Test Mode: # # hbase org.jruby.Main merge_empty_regions.rb namespace.tablename <skip_size> <batch_regions> <merge?> # # Non Test - ie actually do the merge: # # hbase org.jruby.Main merge_empty_regions.rb namespace.tablename <skip_size> <batch_regions> merge # # Note: Please replace namespace.tablename with your namespace and table, eg NS1.MyTable. This value is case sensitive. require 'digest' require 'java' java_import org.apache.hadoop.hbase.HBaseConfiguration java_import org.apache.hadoop.hbase.client.HBaseAdmin java_import org.apache.hadoop.hbase.TableName java_import org.apache.hadoop.hbase.HRegionInfo; java_import org.apache.hadoop.hbase.client.Connection java_import org.apache.hadoop.hbase.client.ConnectionFactory java_import org.apache.hadoop.hbase.client.Table java_import org.apache.hadoop.hbase.util.Bytes  def list_bigger_regions(admin, table, low_size)   cluster_status = admin.getClusterStatus()   master = cluster_status.getMaster()   biggers = []   cluster_status.getServers.each do |s|     cluster_status.getLoad(s).getRegionsLoad.each do |r|      # getRegionsLoad returns an array of arrays, where each array      # is 2 elements      # Filter out any regions that don't match the requested      # tablename      next unless r[1].get_name_as_string =~ /#{table}\,/      if r[1].getStorefileSizeMB() > low_size         if r[1].get_name_as_string =~ /\.([^\.]+)\.$/
                        关键字：

万码学堂2025年课程全面升级

HBase Region合并分析

1.概述

2.内容

2.1 为什么需要合并Region

2.2 如何进行Region合并

2.2.1 批量合并

青岛软件培训

联系我们

电话咨询

扫码添加微信