从mesos群集收集日志

ycl3bljg  于 2021-06-04  发布在  Flume
关注(0)|答案(1)|浏览(269)

我的团队正在amazonec2示例上部署一个新集群。经过一番研究,我们决定使用apachemesos作为集群管理器,使用spark进行计算。
我们问自己的第一个问题是,对于每个不同的框架,从所有机器收集日志的最佳方法是什么。到目前为止,我们开发了一些定制的bash/python脚本,这些脚本从预定义的位置收集日志,压缩它们并将压缩文件发送到s3。这种轮换是由cron作业激活的,它每小时运行一次。
我一直在寻找“最好的”(或标准的)方法来做到这一点。我找到了apacheflume,它也是一个用于日志的数据收集器,但我不明白如何将它集成到mesos集群中来收集日志(以及spark)。
我发现了这个“类似”的问题,但是解决方案不是开源的,或者不再受支持。
有没有更好的方法来轮换原木,或者我缺少的标准方法?
非常感谢你

ar5n3qh5

ar5n3qh51#

这个问题没有完美的答案。如果您正在使用spark并且对使用flume感兴趣,那么就我所知,您必须编写一个自定义flume->spark接口,因为它并不存在。但是,您可以这样做:
使用flume实时接收日志数据。
使用自定义拦截器让flume对日志数据进行预处理。
在预处理完成后,让flume写信给kafka。
让spark streaming读取kafka队列以处理日志并运行计算。
spark streaming据说还没有达到黄金时段的生产级别,但这是一个潜在的解决方案。

相关问题