对于配置单元中的数十亿条记录，查询花费的时间太长

a7qyws3x 于 2021-06-24 发布在 Hive

关注(0)|答案(0)|浏览(164)

我有一张 hive 的table size: 326.8 MB 以及 Number of records: 2,012,402,223 . 由于行数只有10行，所以文件大小不太大，但行数太高。当对这个表执行一个简单的“select查询”时，进程被卡在Map器上。我尝试增加Map器的数量以及以下属性，但它仍然卡住了。

set mapreduce.input.fileinputformat.split.minsize= 2684354;
set mapreduce.input.fileinputformat.split.maxsize= 2684354;
set mapreduce.input.fileinputformat.split.minsize.per.node= 2684354;
set mapreduce.input.fileinputformat.split.minsize.per.rack= 2684354;

请对查询优化提出建议。

Hive query-optimization

来源：https://stackoverflow.com/questions/64220987/query-taking-too-long-for-billions-of-records-in-hive