集群模式下jupyterhub用户团队的单个sparkcontext

vjrehmav 于 2021-05-16 发布在 Spark

关注(0)|答案(0)|浏览(207)

我正在为我的组织构建一个数据工程平台（目前是一个poc），它最多只能由20个成员在内部使用。其思想是使用：
计算的Spark
s3上的三角洲湖用于存储（稍后将由minio上的s3取代）
最小的jupyterhub供团队成员与数据交互。
我的问题背景：
1据我所知，不建议使用多个sparkContext—请参阅这里的stackoverflow和这里的。而且，deltalake对s3也是这样说的
2团队成员可能需要使用jupyterub更新（相同的）小deltalake表。
三。可能需要夜间spark作业来更新大型deltalake表。
我的问题是：
1我对sparkcontext的理解正确吗？
2让一个spark驱动程序和任意数量的spark worker始终在集群上运行是正确的吗？即在kubernetes上以集群模式运行spark，让团队成员使用sparkcontext.builder&getorcreate（）-stackoverflow-answer访问它？
三。使用相同的sparkcontext运行长spark夜间作业也正确吗？

apache-spark pyspark delta-lake minio jupyterhub

来源：https://stackoverflow.com/questions/65057540/single-sparkcontext-for-a-team-of-jupyterhub-users-in-cluster-mode