1 批量装载(Bulk Loading)
HBase 有好几种方法将数据装载到表。最直接的方式即可以通过MapReduce任务,也可以通过普通客户端API。但是这都不是高效方法。
批量装载特性采用 MapReduce 任务,将表数据输出为HBase的内部数据格式,然后可以将产生的存储文件直接装载到运行的集群中。批量装载比简单使用 HBase API 消耗更少的CPU和网络资源。
装载过程包含两个主要步骤:
1.1 通过mapreduce任务准备数据
批量装载第一步,从MapReduce任务通过HFileOutputFormat2产生HBase数据文件(StoreFiles) 。输出数据为HBase的内部数据格式,以便随后装载到集群更高效。
为了处理高效, HFileOutputFormat2必须为每个输出的HFile配置在一个region内。为了做到这一点,输出将被批量装载到HBase的任务中,使用Hadoop 的TotalOrderPartitioner类可以划分key的范围。
HFileOutputFormat2包括一个很方便的函数configureIncrementalLoad(), 可以基于一个表当前的region边界自动设置TotalOrderPartitioner。
1.2 完成数据装载
导入数据已经准备好,可以使用importtsv工具选择“importtsv.bulk.output”选项或者用HFileOutputFormat的MapReduce job。Completebulkload工具用于导入到运行中的集群。这个命令行工具遍历所准备好的数据文件,并确定文件属于哪个region,然后找到合适的RegionServer接收HFile,将它移动到它的存储目录中,把数据提供给客户端。
如果region范围在批量装载准备期间或者在准备和完成之间发生了变化,Completebulkload将自动拆分数据文件到新的region。这个过程不是最佳的,所以用户应该小心以尽量减少较大的容量负载并导入集群的延迟,特别是客户端通过其他方式同时加载数据。