如何控制使用Parquet格式时Map器的数量

dxxyhpgq 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(349)

我使用Parquet地板格式为我的Hive表。我看到这些表的存储有了很大的改进，当我在这些表上运行一些查询时，启动的Map程序的数量比在相同的文本格式的表上运行相同的查询时少得多。因此，启动的Map器数量非常少，对Parquet格式的配置单元查询需要很长时间才能完成我怀疑这是因为小尺寸Parquet地板格式）。有什么方法可以提高parquet格式的运行时间，或者在运行配置单元查询时控制Map器的数量？

hadoop Hive mapreduce performance parquet

来源：https://stackoverflow.com/questions/36880824/how-to-control-the-number-of-mappers-when-using-parquet-format

1条答案

按热度按时间

bpsygsoo1#

如果您将hive与tez引擎一起使用，那么默认的输入格式（决定数据的拆分数量）是hiveinputformat类。您可以使用 set 像这样指挥

set hive.input.format=hive.tez.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

现在可以通过改变属性来控制输入拆分的数量
mapreduce.input.fileinputformat.split.maxsize mapreduce.input.fileinputformat.split.minsize 并将它们设置为所需的字节数。
combinehiveinputformat类还可以在每个文件的大小小于dfs.block.size的情况下将单独的文件合并到一个分割中。

赞(0）回复(0）举报 2021-05-29

我来回答

如何控制使用Parquet格式时Map器的数量

1条答案

相关问题

热门标签

最新问答