mrjob花费大量时间将本地文件复制到hdfs中

cclgggtu  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(281)

我遇到的问题是:已经把我的 input.txt (50MB)文件到hdfs,我正在运行

python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop

似乎mrjob花了很多时间将文件复制到hdfs(又是这样?)

Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/

这符合逻辑吗?不应该用吗 input.txt 直接从hdfs?
(使用hadoop版本2.6.0)

bq3bfh9z

bq3bfh9z1#

看看这本书的内容 hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/ 你会看到的 input.txt 不是要复制到hdfs中的文件。
复制的是mrjob的整个python目录,这样就可以在每个节点上解压它(mrjob假设集群中的每个节点上都没有安装mrjob。)

相关问题