使用apache beam而不是直接使用spark的缺点/问题?

ipakzgxi  于 2021-06-21  发布在  Flink
关注(0)|答案(1)|浏览(505)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。

一年前关门了。
改进这个问题
我需要开始一个新的项目,我不知道Spark或Flink会更好。目前,该项目需要微批处理,但稍后也可能需要流事件处理。
假设spark是最好的,那么使用beam代替spark/flink作为转轮/引擎有什么缺点吗?
beam是否会增加任何开销或缺少spark/flink中可用的某些api/函数?

bxfogqkk

bxfogqkk1#

回答部分问题:
首先,beam定义了api来编程进行数据处理。要采用它,您必须首先了解它的编程模型,并确保它的模型符合您的需要。
假设您已经相当了解beam可以帮助您什么,并且您正计划选择spark作为执行运行程序,那么您可以检查运行程序能力矩阵[1],以了解beam api对spark的支持。
关于在Spark上运行光束的头顶。你可能需要问一下user@beam.apache.org 或者dev@beam.apache.org. runner开发人员可能对此有更好的答案。
[1] https://beam.apache.org/documentation/runners/capability-matrix/

相关问题