如何加速从hdfs检索大量小文件

c7rzv4ha 于 2021-07-13 发布在 Hadoop

关注(0)|答案(1)|浏览(274)

我正在尝试使用将Parquet文件从hadoop集群复制到边缘节点 hadoop fs -get . Parquet文件大小约为2.4gb，但由数千个文件组成，每个文件大小约为2kb。这个过程需要很长时间。
我能做些什么来加速进程，或者增加并发性？
我不拥有群集，无法对其进行配置更改。

hadoop hdfs parquet

来源：https://stackoverflow.com/questions/67057974/how-to-speed-up-retrieval-of-a-large-number-of-small-files-from-hdfs

1条答案

按热度按时间

您可以尝试distcp而不是使用-get命令，前提是运行该命令的集群具有mapreduce支持
https://hadoop.apache.org/docs/current/hadoop-distcp/distcp.html#basic_usage

赞(0）回复(0）举报 2021-07-13

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前