hive-on-spark读取文件

sczxawaw 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(333)

我用的是星火上的Hive。我在hadoop中压缩了日志文件。它们的平均大小是40MB，而块大小是128MB。我相信，如果我以某种方式连接日志文件，我将有更少的块，数据读取时间将减少。e、我每小时都有日志文件（每天24个文件->24个块）。聚合后，我有一个文件（24小时）在6块。
我已经使用配置单元运行了基准测试，并且注意到连接后的读取时间和查询执行时间增加了6倍。
问题是：我对hadoop-hive-on-spark的看法有什么错？

hadoop Hive apache-spark hiveql

来源：https://stackoverflow.com/questions/45219242/hive-on-spark-reading-files