hbase中的类触发器机制

vaqhlq81 于 2021-06-10 发布在 Hbase

关注(0)|答案(0)|浏览(235)

我每天都要把大量的数据输入hbase。
我平均将102*（10^6）条记录加载到hbase中。
但是，我不能只将这些数据加载到hbase中，因为我必须将每个记录与1个月前的数据进行比较，并检查重复的数据。如果有一个重复，我只能保留两个值中的一个。
举个例子：
表测试（pk，值）
记录1:（id:1，val:5)记录2:（id:1，val:8)
在本例中，我将保留hbase（id:1，val:max(8,5))
现在，由于我在spark中处理这些数据，然后通过phoenix api savetophoenix将rdd直接保存到hbase（这在引擎盖下做了很多事情），一个解决方案是加载spark中一个月前的数据，在rdd级别执行所有更新，然后保存它。
然而，这个解决方案将是相当低效的，因为我应该加载大约（102*（10^6））*30条记录，而且它还有其他缺点，具体到我试图解决的问题。
我想知道在phoenix中是否有类似触发器的机制允许我在db端处理这个逻辑（在upsert期间将max保持在val1和val2之间）。
协处理器功能是最接近也是唯一的解决方案吗？

hbase phoenix apache-spark

来源：https://stackoverflow.com/questions/39719465/trigger-like-mechanism-in-apache-phoenix-hbase