覆盖hadoop用户日志|特定于队列

yebdmbv4 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(231)

我有一个hadoop作业，它在300个节点的集群中运行，对于我的作业，我有一个特定的队列，作业将在其中执行。
作业在生产环境中运行良好，但是它在userlogs文件夹下为特定的应用程序id生成了太多的日志，我已经执行了hadoop merge命令，得到了大小为290gb的文件。
我可以看到hadoop在syslog中的日志记录太多了。
我对它有一些疑问，如果有人能指导我，那将对我有很大帮助-
1） -syslog中的日志基于输入数据
2） -基于hive query的syslog中的日志（因为我可以看到所有条目都与hadoop处理有关，我认为hive query不会对日志的过度创建产生任何影响）
3） -是否有任何方法可以减少在大型集群中运行的任何特定作业的syslog中的信息，并干扰集群配置（对于其他作业）

hadoop Hive hadoop2

来源：https://stackoverflow.com/questions/39138389/override-hadoop-user-logs-queue-specific

1条答案

按热度按时间

b91juud31#

hadoop中的日志按Yarn、Map、归约到最终编写的结果显示来自容器分配的数据。
hadoop集群上配置单元执行期间的日志记录由hadoop配置控制。通常hadoop会为每个Map生成一个日志文件，并减少存储在执行任务的集群计算机上的任务。可以通过单击hadoop jobtracker web ui中的task details页面来获取日志文件。
请参阅：配置单元日志记录
要配置hadoop日志，请参阅：how to configure-log4j\u configuration

赞(0）回复(0）举报 2021-05-29

我来回答

覆盖hadoop用户日志|特定于队列

1条答案

相关问题

热门标签

最新问答