在hadoop集群中安装python依赖关系

x0fgdtte  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(315)

似乎是个老问题。我在谷歌上搜索过一个解决方案,但似乎没有一个简单明了的解决方案。我想要的是在hadoop集群上的所有节点上安装python和依赖项(比如pandas、numpy等依赖于这些并且不是默认的anaconda安装)的方法。
我发现:
在spark executor节点上安装python依赖关系的最简单方法?
将pyspark中的python模块传送到其他节点
在这种情况下,使用egg肯定不起作用,在每个节点上手动安装正是我想要避免的,因为在某个时候,您还需要更新所有内容,每3个月左右重复一次似乎并不高效。
自从发布这些帖子以来,关于这个问题(工具)有什么新的发展吗?其他选择?
2018年12月19日编辑:
这是为了进行大数据教育,我们最终使用了并行ssh。
使用它,您可以创建cli安装脚本。在我们的例子中,我们下载并安装了anaconda,然后安装了所需的软件包。不过,为了使用这个新版本的python,必须调整spark配置(如果已经安装)。当然,这也可以通过编辑或替换文件来完成。
总而言之,有很多深兔子洞,可能没有办法依靠devops,或者如果这是不可能的话,学习ansible(我们想避免,因为它或多或少是另一种新的语言和学习工具)。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题