**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。**想改进这个问题吗?**更新问题,使其成为堆栈溢出的主题。
6年前关门了。改进这个问题我知道在hadoop上使用python语言是可能的。但是有没有可能在hadoop上使用scikitlearn的机器学习算法呢?如果答案是否定的,那么是否有用于python和hadoop的机器学习库?谢谢你的帮助。
wqnecbli1#
当心 jpype 模块。通过使用 jpype 您可以运行mahout算法,然后将使用python编写代码。但是我觉得这不是最好的解决办法。如果你真的想要巨大的可扩展性,那就直接使用mahout吧。我练习,做poc的,解决玩具问题使用sciket学习,然而当我需要做大规模的大数据集群等,我出去。
jpype
uz75evzq2#
简而言之:是的。因为你可以在hadoop上运行几乎所有的东西。长话短说:视情况而定。首先回答这个问题:你能把数据集分割成分区吗?此外,您可能会发现此演示非常有用(hadoop从第73张幻灯片开始)。
2条答案
按热度按时间wqnecbli1#
当心
jpype
模块。通过使用jpype
您可以运行mahout算法,然后将使用python编写代码。但是我觉得这不是最好的解决办法。如果你真的想要巨大的可扩展性,那就直接使用mahout吧。我练习,做poc的,解决玩具问题使用sciket学习,然而当我需要做大规模的大数据集群等,我出去。uz75evzq2#
简而言之:是的。因为你可以在hadoop上运行几乎所有的东西。
长话短说:视情况而定。首先回答这个问题:
你能把数据集分割成分区吗?
此外,您可能会发现此演示非常有用(hadoop从第73张幻灯片开始)。