覆盖hadoop用户日志|特定于队列

yebdmbv4  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(231)

我有一个hadoop作业,它在300个节点的集群中运行,对于我的作业,我有一个特定的队列,作业将在其中执行。
作业在生产环境中运行良好,但是它在userlogs文件夹下为特定的应用程序id生成了太多的日志,我已经执行了hadoop merge命令,得到了大小为290gb的文件。
我可以看到hadoop在syslog中的日志记录太多了。
我对它有一些疑问,如果有人能指导我,那将对我有很大帮助-
1) -syslog中的日志基于输入数据
2) -基于hive query的syslog中的日志(因为我可以看到所有条目都与hadoop处理有关,我认为hive query不会对日志的过度创建产生任何影响)
3) -是否有任何方法可以减少在大型集群中运行的任何特定作业的syslog中的信息,并干扰集群配置(对于其他作业)

b91juud3

b91juud31#

hadoop中的日志按Yarn、Map、归约到最终编写的结果显示来自容器分配的数据。
hadoop集群上配置单元执行期间的日志记录由hadoop配置控制。通常hadoop会为每个Map生成一个日志文件,并减少存储在执行任务的集群计算机上的任务。可以通过单击hadoop jobtracker web ui中的task details页面来获取日志文件。
请参阅:配置单元日志记录
要配置hadoop日志,请参阅:how to configure-log4j\u configuration

相关问题