hbase中的类触发器机制

vaqhlq81  于 2021-06-10  发布在  Hbase
关注(0)|答案(0)|浏览(235)

我每天都要把大量的数据输入hbase。
我平均将102*(10^6)条记录加载到hbase中。
但是,我不能只将这些数据加载到hbase中,因为我必须将每个记录与1个月前的数据进行比较,并检查重复的数据。如果有一个重复,我只能保留两个值中的一个。
举个例子:
表测试(pk,值)
记录1:(id:1,val:5)记录2:(id:1,val:8)
在本例中,我将保留hbase(id:1,val:max(8,5))
现在,由于我在spark中处理这些数据,然后通过phoenix api savetophoenix将rdd直接保存到hbase(这在引擎盖下做了很多事情),一个解决方案是加载spark中一个月前的数据,在rdd级别执行所有更新,然后保存它。
然而,这个解决方案将是相当低效的,因为我应该加载大约(102*(10^6))*30条记录,而且它还有其他缺点,具体到我试图解决的问题。
我想知道在phoenix中是否有类似触发器的机制允许我在db端处理这个逻辑(在upsert期间将max保持在val1和val2之间)。
协处理器功能是最接近也是唯一的解决方案吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题