hive-on-spark读取文件

sczxawaw  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(333)

我用的是星火上的Hive。我在hadoop中压缩了日志文件。它们的平均大小是40MB,而块大小是128MB。我相信,如果我以某种方式连接日志文件,我将有更少的块,数据读取时间将减少。e、 我每小时都有日志文件(每天24个文件->24个块)。聚合后,我有一个文件(24小时)在6块。
我已经使用配置单元运行了基准测试,并且注意到连接后的读取时间和查询执行时间增加了6倍。
问题是:我对hadoop-hive-on-spark的看法有什么错?

envsm3lx

envsm3lx1#

gzip文本文件不可拆分。
您的原始数据已被多个Map程序读取。
您的合并数据正在由单个Map器读取。

相关问题