我的公司有大约30台机器的hbase集群。每天早上我都会启动spark/mr任务,将hbase中的数据同步到hive中,以便编写sql进行分析。问题是:hbase中的一个表越来越大,它有超过1k个culomns。现在它的尺寸大约是15吨。我想用更少的时间复制hbase上的所有数据。扫描需要几个小时,还有别的办法吗?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!