亚马逊云上的Hadoop

0yg35tkg  于 2023-03-17  发布在  Hadoop
关注(0)|答案(1)|浏览(170)

我尝试在Amazon Cloud上进行设置,以运行一些hadoop MapReduce作业,但我很难成功创建一个集群。我已经下载了ec2文件,有了证书和密钥对文件,但我相信是AMI给我带来了麻烦。如果我尝试运行一个具有一个主节点和n个从节点的集群,我使用标准兼容的AMI启动n+1个示例,然后在终端中运行代码“hadoop-ec2 launch-cluster name n”。主节点成功启动,但从节点启动时出现错误。说“missing parameter -h(AMI missing)”,我不完全确定如何进行。
另外,我的一些工作需要修改hadoops参数设置(特别是mapred-site.xml配置文件),是否可以修改这个文件,如果可以,我如何访问它?hadoop是否已经安装在amazon机器上,并且这个文件可以访问和修改?
谢谢

e5nszbig

e5nszbig1#

你试过Amazon Elastic MapReduce吗?这是一个简单的API,可以根据需要启动指定大小的Hadoop集群。
这比手动创建自己的集群更容易。
但是一旦默认情况下作业流完成,它就会关闭集群,让您在S3上进行输出。如果您需要的只是做一些处理,这可能是一种方法。
如果您需要永久存储HDFS内容(例如,如果您在Hadoop上运行HBase),您实际上可能需要在EC2上拥有自己的集群。在这种情况下,您可能会发现Cloudera的Hadoop for Amazon EC2分发版很有用。
可以使用 *EC2 Bootstrap操作 * 更改将启动的节点上的Hadoop配置:

问:如何为作业流配置Hadoop设置?

Elastic MapReduce默认Hadoop配置适用于大多数工作负载。但是,根据作业流的特定内存和处理要求,可能需要调整这些设置。例如,如果作业流任务占用大量内存,则可以选择减少每个核心使用的任务并减小作业跟踪器堆大小。在这种情况下,预定义的引导操作可用于在启动时配置作业流。有关配置详细信息和使用说明,请参阅《开发人员指南》中的 * 配置内存密集型引导操作 *。还提供了一个额外的预定义引导操作,允许您将群集设置自定义为所选的任何值。有关使用说明,请参阅开发人员指南中的配置Hadoop引导操作。
关于启动群集的方式,请澄清:
如果我尝试运行一个有一个主节点和n个从节点的集群,我会使用标准兼容的AMI启动n+1个示例,然后在终端中运行代码“hadoop-ec2 launch-cluster name n”。主节点运行成功,但当从节点开始启动时,我会收到一个错误,显示“missing parameter -h(AMI missing)”,我不完全确定如何继续。
你到底是怎么启动的?你到底用了什么AMI?

相关问题