在hadoop集群中安装python依赖关系

x0fgdtte 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(315)

似乎是个老问题。我在谷歌上搜索过一个解决方案，但似乎没有一个简单明了的解决方案。我想要的是在hadoop集群上的所有节点上安装python和依赖项（比如pandas、numpy等依赖于这些并且不是默认的anaconda安装）的方法。
我发现：
在spark executor节点上安装python依赖关系的最简单方法？
将pyspark中的python模块传送到其他节点
在这种情况下，使用egg肯定不起作用，在每个节点上手动安装正是我想要避免的，因为在某个时候，您还需要更新所有内容，每3个月左右重复一次似乎并不高效。
自从发布这些帖子以来，关于这个问题（工具）有什么新的发展吗？其他选择？
2018年12月19日编辑：
这是为了进行大数据教育，我们最终使用了并行ssh。
使用它，您可以创建cli安装脚本。在我们的例子中，我们下载并安装了anaconda，然后安装了所需的软件包。不过，为了使用这个新版本的python，必须调整spark配置（如果已经安装）。当然，这也可以通过编辑或替换文件来完成。
总而言之，有很多深兔子洞，可能没有办法依靠devops，或者如果这是不可能的话，学习ansible（我们想避免，因为它或多或少是另一种新的语言和学习工具）。

hadoop python apache-spark pyspark Dependencies

来源：https://stackoverflow.com/questions/48865615/installing-python-dependencies-in-hadoop-cluster