mrjob花费大量时间将本地文件复制到hdfs中

cclgggtu 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(281)

我遇到的问题是：已经把我的 input.txt （50MB）文件到hdfs，我正在运行

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop

似乎mrjob花了很多时间将文件复制到hdfs（又是这样？）

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/

这符合逻辑吗？不应该用吗 input.txt 直接从hdfs？
（使用hadoop版本2.6.0）

hadoop hdfs mrjob

来源：https://stackoverflow.com/questions/32807358/mrjob-spends-a-lot-of-time-copying-local-files-into-hdfs

1条答案

按热度按时间

bq3bfh9z1#

看看这本书的内容 hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/ 你会看到的 input.txt 不是要复制到hdfs中的文件。
复制的是mrjob的整个python目录，这样就可以在每个节点上解压它(mrjob假设集群中的每个节点上都没有安装mrjob。）

赞(0）回复(0）举报 2021-05-30

我来回答

mrjob花费大量时间将本地文件复制到hdfs中

1条答案

相关问题

热门标签

最新问答