如何与apachespark(pyspark)和docker一起使用分布式类

gpfsuwkq 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(253)

我正在构建一个全新的数据科学堆栈，供数据科学家和数据分析师在我们的工作环境中使用。
基本上，我的结构如下：
cdh安装在群集中的所有节点上（裸机）
干熄焦分配中的Spark和Yarn
具有多个组件的docker容器图像：anaconda、python3、spark（pyspark）、jupyter notebook
现在，我最初的想法是在python依赖的所有工作节点上分发docker映像，并在这个容器中包含运行spark作业所需的自定义库（例如：xgboost、numpy等）。在jupyter中进行交互式分析时，我的工作流程如下：
创建jupyter笔记本
初始化sparkcontext并将master指向yarn
使用自定义python库代码运行spark作业
现在，我想知道两件事：
spark（在容器外运行）将如何访问所有工作节点（docker容器内的自定义代码）上的自定义python库。
如何分发这些自定义库和其他复杂的依赖关系？我知道我们可以使用像sc.addpyfile（'/path/to/botree.py'）或完整的.zip存档这样的函数，但是docker有更简单的方法吗？我没有使用水蟒集群，所以我需要另一种方法。
谢谢

python apache-spark pyspark docker

来源：https://stackoverflow.com/questions/40247993/how-to-use-distribute-classes-with-apache-spark-pyspark-docker