在spark executor节点上安装python依赖关系的最简单方法？

8ulbf1ek 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(439)

我知道您可以使用pythonspark程序将单个文件作为依赖项发送。但是成熟的图书馆（例如numpy）呢？
spark是否有办法使用提供的包管理器（例如pip）来安装库依赖项？或者在执行spark程序之前必须手动执行吗？
如果答案是手动的，那么在大量分布式节点上同步库（安装路径、版本等）的“最佳实践”方法是什么？

hadoop apache-spark distributed-computing Dependencies shared-libraries

来源：https://stackoverflow.com/questions/29495435/easiest-way-to-install-python-dependencies-on-spark-executor-nodes

1条答案

按热度按时间

exdqitrt1#

实际上，我已经试过了，我认为我作为评论发布的链接并不能完全满足您对依赖项的要求。您所要求的是一种让spark在安装依赖项时很好地使用setuptools和pip的方法。在spark中没有更好的支持这一点让我大吃一惊。第三方依赖性问题在通用python中得到了很大程度的解决，但是在spark中，似乎假设您将回到手动依赖性管理之类的方式。
我一直在使用一个不完善但功能强大的基于virtualenv的管道。基本思想是
为你的spark节点创建一个virtualenv
每次你运行一个Spark作业，运行一个新的 pip install 所有的内部python库。如果你已经用 setuptools ，这将安装它们的依赖项
压缩virtualenv的站点包目录。这将包括工作节点需要的库及其依赖项，但不包括它们已经拥有的标准python库
传单曲 .zip 文件，包含库及其依赖项作为 --py-files 当然，您需要编写一些助手脚本来管理这个过程。下面是一个助手脚本，它改编自我一直在使用的脚本，无疑可以改进很多：


# !/usr/bin/env bash

# helper script to fulfil Spark's python packaging requirements.

# Installs everything in a designated virtualenv, then zips up the virtualenv for using as an the value of

# supplied to --py-files argument of `pyspark` or `spark-submit`

# First argument should be the top-level virtualenv

# Second argument is the zipfile which will be created, and

# which you can subsequently supply as the --py-files argument to

# spark-submit

# Subsequent arguments are all the private packages you wish to install

# If these are set up with setuptools, their dependencies will be installed

VENV=$1; shift
ZIPFILE=$1; shift
PACKAGES=$*

. $VENV/bin/activate
for pkg in $PACKAGES; do
  pip install --upgrade $pkg
done
TMPZIP="$TMPDIR/$RANDOM.zip" # abs path. Use random number to avoid clashes with other processes
( cd "$VENV/lib/python2.7/site-packages" && zip -q -r $TMPZIP . )
mv $TMPZIP $ZIPFILE

我有一个其他简单的 Package 器脚本的集合，我运行这些脚本来提交我的spark作业。我只是在该过程中首先调用这个脚本，并确保在运行时将第二个参数（zip文件的名称）作为--py files参数传递 spark-submit （如评论中所述）。我总是运行这些脚本，所以我从不意外地运行旧代码。与spark开销相比，对于我的小规模项目来说，打包开销是最小的。
我们可以做很多改进，例如，在何时创建一个新的zip文件方面非常聪明，将它分成两个zip文件，一个包含经常更改的私有包，另一个包含很少更改的依赖项，这些依赖项不需要经常重建。在重建zip之前，您可以更聪明地检查文件更改。同时检查论点的有效性也是一个好主意。不过，就我的目的而言，这已经足够了。
我提出的解决方案并不是专门为大规模依赖项（比如numpy）设计的（尽管它可能对它们有用）。另外，如果您正在构建基于c的扩展，并且您的驱动程序节点与集群节点具有不同的体系结构，那么它将不起作用。
我在其他地方看到过一些建议，建议在所有节点上运行像anaconda这样的python发行版，因为它已经包含了numpy（和许多其他包），这可能是让numpy以及其他基于c的扩展运行起来的更好方法。无论如何，我们不能总是期望anaconda拥有我们想要的pypi包的正确版本，此外，您可能无法控制spark环境以将anaconda放在其上，因此我认为这种基于virtualenv的方法仍然是有用的。

赞(0）回复(0）举报 2021-05-30

我来回答

在spark executor节点上安装python依赖关系的最简单方法？

1条答案

相关问题

热门标签

最新问答