如何在hadoop流媒体中使用python sklearn包

r8uurelv 于 2021-06-04 发布在 Hadoop

关注(0)|答案(0)|浏览(181)

嗨：目前我运行作业使用hadoop流，在我的Map器，我需要使用sklearn包作为我的程序的一部分，但不幸的是sklearn包没有安装在我的hadoop集群节点。我在google上搜索了这个问题，发现我可以将这个包和我的作业文件一起发送，并使用zipimport从我的.tar.gz导入包，然而，当我下载sklearn from的源代码时http://scikit-learn.org/stable/install.html 或者https://pypi.python.org/pypi/scikit-learn/0.14.1 ，并尝试

python setup.py build --inplace

或使用

python setup.py

在交互式会话中选择inplacebuild，无论哪种方式，我都可以在sklearn源代码文件夹下获得一个新的build文件夹，然后我尝试将~/build/lib.linux-x86\u 64-2.6/sklearn/压缩到一个.zip文件中，并按照以下说明操作：http://docs.python.org/2/library/zipimport.html 或者在这里：如何将python包包含在hadoop流作业中？但是我会得到一个错误