我遇到的问题是:已经把我的 input.txt
(50MB)文件到hdfs,我正在运行
python ./test.py hdfs:///user/myself/input.txt -r hadoop --hadoop-bin /usr/bin/hadoop
似乎mrjob花了很多时间将文件复制到hdfs(又是这样?)
Copying local files into hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/
这符合逻辑吗?不应该用吗 input.txt
直接从hdfs?
(使用hadoop版本2.6.0)
1条答案
按热度按时间bq3bfh9z1#
看看这本书的内容
hdfs:///user/myself/tmp/mrjob/test.myself.20150927.104821.148929/files/
你会看到的input.txt
不是要复制到hdfs中的文件。复制的是mrjob的整个python目录,这样就可以在每个节点上解压它(mrjob假设集群中的每个节点上都没有安装mrjob。)