spark-从db加载配置数据

sz81bmfz  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(256)

我们几乎没有spark应用程序(流式处理和批处理模式)。我们在数据库中保存了一些配置数据(来自不同的表)。在应用程序开始时,我们需要加载这些数据(通常为50-100 mb,甚至添加一些它增长的缓冲区,不应该超过1或2 gb)。我们有两种选择:
使用jdbc将数据加载到scala对象中的Map中—这将确保我们在每个执行器上都可以轻松访问这些数据,并且在处理dataframe中的每个事件/行期间,可以在map/flatmap函数中访问这些数据。
作为spark数据集/Dataframe加载-这可能会有点复杂,因为我们必须使用连接来获取主Dataframe的数据,然后将此数据传递给map/flatmap函数。
这两种方法的优缺点是什么。
我更喜欢#1,因为它可以简化代码而无需连接,并且在处理层(map/flatmap)中也可以访问数据,但是我想看看这种方法是否有任何严重的缺点。
推荐的方法是什么?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题