python客户端在hadoop沙盒上的OSX流媒体

rqdpfwrv 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(215)

我想在我的苹果mac上编写mapreduce代码（理想情况下使用python），以便在hadoop沙盒（例如hortonworks或cloudera）上进行流式处理。
理想情况下，我的开发设置是使用applemacpython环境&hadoopvmsandbox（稍后是同一网络上的集群）。
虽然有很多关于如何从hadoop集群的节点内连接或流式传输代码的描述（例如从namenode等），但我不清楚从集群外做什么。
e、我想我需要安装一些hadoop客户端库？这些图书馆从哪里来？
如何安装它们？
哪种类型的python包工作得最好？
我应该使用什么ip地址来流式处理我的python代码？
任何帮助-任何链接到教程覆盖这将是太好了！

hadoop streaming python macos hadoop-streaming

来源：https://stackoverflow.com/questions/20826348/python-client-on-os-x-streaming-on-hadoop-sandbox

1条答案

按热度按时间

dgiusagp1#

正确的做法是需要安装客户端库才能提交作业。
不幸的是，尝试在OSX中提交流媒体作业可能不是最佳选择。我这么说是因为没有任何厂商支持的OSX软件包，所以它不是最容易安装hadoop的平台，至少以厂商支持的方式。如果你已经准备好安装沙盒了，只需在你的mac上写下作业并提交到虚拟机中。
如果必须的话，也可以选择安装。你可以使用自制软件，尽管我不确定将安装什么版本，或者是否有特定于供应商的公式可用。您也可以自己下载并构建hadoop，例如在这里使用cloudera tarballs。完成客户机设置后，必须配置mapred-site.xml、core-site.xml和hdfs-site.xml，以便与运行在沙盒vm中的集群进行通信。

赞(0）回复(0）举报 2021-06-03

我来回答

python客户端在hadoop沙盒上的OSX流媒体

1条答案

相关问题

热门标签

最新问答