如何与apachespark(pyspark)和docker一起使用分布式类

gpfsuwkq  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(253)

我正在构建一个全新的数据科学堆栈,供数据科学家和数据分析师在我们的工作环境中使用。
基本上,我的结构如下:
cdh安装在群集中的所有节点上(裸机)
干熄焦分配中的Spark和Yarn
具有多个组件的docker容器图像:anaconda、python3、spark(pyspark)、jupyter notebook
现在,我最初的想法是在python依赖的所有工作节点上分发docker映像,并在这个容器中包含运行spark作业所需的自定义库(例如:xgboost、numpy等)。在jupyter中进行交互式分析时,我的工作流程如下:
创建jupyter笔记本
初始化sparkcontext并将master指向yarn
使用自定义python库代码运行spark作业
现在,我想知道两件事:
spark(在容器外运行)将如何访问所有工作节点(docker容器内的自定义代码)上的自定义python库。
如何分发这些自定义库和其他复杂的依赖关系?我知道我们可以使用像sc.addpyfile('/path/to/botree.py')或完整的.zip存档这样的函数,但是docker有更简单的方法吗?我没有使用水蟒集群,所以我需要另一种方法。
谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题