loadincrementalhfiles:对hfiles进行分组时发生拆分

hkmswyz6 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(230)

我实现了一个spark（v2.4）应用程序，它处理原始数据并将其存储到hbase（v2.1）中。我想将数据批量加载到hbase中，为此，我使用apache/hbase连接器。我遵循这个例子。
我将hbase区域预先拆分为10，并通过散列和对散列值应用模来转换每个键，然后将其作为前缀连接到键。例如：key=a123，newkey=0\u a123（假设：hash（a123）mod 10=0）。
当我运行spark应用程序时，我可以看到已经创建了hfiles，但是当我尝试使用loadincrementalhfiles进行dobulkload时，我得到以下错误：
loadincrementalhfiles:对hfiles进行分组时发生拆分，请在剩余10个文件要分组或拆分的情况下重试尝试12
我看到了下面的解决方案，我认为它与我已经做的类似。
为什么loadincrementalhfiles失败？
我是否应该以不同的方式预拆分hbase区域？
有什么公式可以计算区域的数目吗？

hbase apache-spark bulk-load

来源：https://stackoverflow.com/questions/67251354/loadincrementalhfiles-split-occurred-while-grouping-hfiles