当我运行一个加载大量小文件的pig作业时,它会在此步骤中暂停很长时间:
2013-07-15 16:44:00,464 [JobControl] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 4277
2013-07-15 16:44:00,465 [JobControl] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 4277
2013-07-15 16:48:51,314 [JobControl] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 37
在此期间,我没有看到作业跟踪器中的map reduce作业,因此我假设pig正在发出hdfs命令来预组合文件(可能?)。偶尔,这份工作似乎无缘无故地永远挂在那里。
是否有任何方法可以监控这个组合过程的进度(请参阅有关它当前所做工作的更多详细信息)?
谢谢
1条答案
按热度按时间ffdz8vbo1#
你看过hadoop档案吗?这可能有助于减少获取多个小文件所花费的时间。