如何在pig中跟踪文件组合过程

axkjgtzd  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(255)

当我运行一个加载大量小文件的pig作业时,它会在此步骤中暂停很长时间:

2013-07-15 16:44:00,464 [JobControl] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 4277
2013-07-15 16:44:00,465 [JobControl] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 4277
2013-07-15 16:48:51,314 [JobControl] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 37

在此期间,我没有看到作业跟踪器中的map reduce作业,因此我假设pig正在发出hdfs命令来预组合文件(可能?)。偶尔,这份工作似乎无缘无故地永远挂在那里。
是否有任何方法可以监控这个组合过程的进度(请参阅有关它当前所做工作的更多详细信息)?
谢谢

ffdz8vbo

ffdz8vbo1#

你看过hadoop档案吗?这可能有助于减少获取多个小文件所花费的时间。

相关问题