如何加速从hdfs检索大量小文件

c7rzv4ha  于 2021-07-13  发布在  Hadoop
关注(0)|答案(1)|浏览(274)

我正在尝试使用将Parquet文件从hadoop集群复制到边缘节点 hadoop fs -get . Parquet文件大小约为2.4gb,但由数千个文件组成,每个文件大小约为2kb。这个过程需要很长时间。
我能做些什么来加速进程,或者增加并发性?
我不拥有群集,无法对其进行配置更改。

nfeuvbwi

nfeuvbwi1#

您可以尝试distcp而不是使用-get命令,前提是运行该命令的集群具有mapreduce支持
https://hadoop.apache.org/docs/current/hadoop-distcp/distcp.html#basic_usage

相关问题