我有一个运行hadoop2.6的hadoop集群。我想同时提交多份工作。我想知道我是应该简单地提交多个作业并让集群处理其余的作业,还是应该将它们作为一个应用程序来编写。事实上,我不太熟悉yarn应用程序开发,也不知道它与常规hadoop应用程序有什么不同。
vsikbqxv1#
您可以使用mr1和yarn来运行mr jobs。 YARN has nothing to do with job parallelism. 它只是一个运行各种作业的框架。使用oozie工作流或shell脚本并行运行作业。
YARN has nothing to do with job parallelism.
edqdpe6u2#
您可以使用分叉的mapreduce作业定义oozie工作流。下面是apacheoozie文档中的示例。
<workflow-app name="sample-wf" xmlns="uri:oozie:workflow:0.1"> ... <fork name="forking"> <path start="firstparalleljob"/> <path start="secondparalleljob"/> </fork> <action name="firstparallejob"> <map-reduce> <job-tracker>foo:9001</job-tracker> <name-node>bar:9000</name-node> <job-xml>job1.xml</job-xml> </map-reduce> <ok to="joining"/> <error to="kill"/> </action> <action name="secondparalleljob"> <map-reduce> <job-tracker>foo:9001</job-tracker> <name-node>bar:9000</name-node> <job-xml>job2.xml</job-xml> </map-reduce> <ok to="joining"/> <error to="kill"/> </action> <join name="joining" to="nextaction"/> ... </workflow-app>
2条答案
按热度按时间vsikbqxv1#
您可以使用mr1和yarn来运行mr jobs。
YARN has nothing to do with job parallelism.
它只是一个运行各种作业的框架。使用oozie工作流或shell脚本并行运行作业。
edqdpe6u2#
您可以使用分叉的mapreduce作业定义oozie工作流。下面是apacheoozie文档中的示例。