spark kafka推送更多信息

x33g5p2x  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(339)

我用的是Kafka0.9和Spark1.6。spark streaming应用程序通过direct stream api(版本2.10-1.6.0)从kafka传输消息。
我有3个工人,每个人8 gb内存。每一分钟我就有4000条信息发送给Kafka,而在spark里,每个工人都有600条信息。我总是看到Kafka偏移的滞后。
我有5个Kafka分区。
有没有办法让spark为Kafka的每一次拉动提供更多的信息流?
我的播放频率是2秒
应用程序中的spark配置

"maxCoresForJob": 3,
"durationInMilis": 2000,
"auto.offset.reset": "largest",
"autocommit.enable": "true",
dpiehjr4

dpiehjr41#

你能再解释一下吗?你检查过哪段代码需要更长的时间来执行吗?从cloudera manager->yarn-->application->selection your application-->application master-->streaming,然后选择一个批并单击。试着找出什么任务需要更长的时间来执行。你用了多少遗嘱执行人?对于5个分区,最好有5个执行器。
你可以发布你的转换逻辑,有一些方法可以调整。
谢谢

相关问题