在2个windows 10上设置hadoop多群集

使用本指南在两个系统上安装openssh服务器。在本地计算机上生成新的ssh公钥和私钥对是使用无密码的远程服务器进行身份验证的第一步。将公钥添加到授权的密钥中，并将主机名添加到已知主机列表中。你可以通过搜索互联网找到如何做到这一点的指南。2.将hadoop主IP和从IP添加到主机文件。打开“c:\windows\system32\drivers\etc\hosts”并添加

your-master-ip hadoopMaster
your-salve-ip hadoopSlave

您可以在配置文件中使用这些名称。
与linux系统非常相似，要在windows:3上运行hadoop集群，必须遵循以下步骤。首先，您需要在您的系统上安装java，并且必须将javahome添加到您的环境变量中。您可以从oracle网站下载java并安装它。
从apache网站下载hadoop二进制文件并将其解压缩。
请注意，文件夹名称中不应该有空格，否则可能会遇到问题。
接下来，必须将java和hadoop home和bin文件夹添加到环境变量中。只需打开“开始”菜单，键入“环境变量”，然后从“控制面板”打开“编辑环境变量”窗口。
添加

HADOOP_HOME=”root of your hadoop extracted folder\hadoop-2.9.2″
HADOOP_BIN=”root of hadoop extracted folder\hadoop-2.9.2\bin”
JAVA_HOME=<Root of your JDK installation>”

编辑“path”环境变量并将%java\u home%、%hadoop\u home%、%hadoop\u bin%、%hadoop\u home%/sbin逐个添加到路径中。
您可以通过打开cmd并键入以下内容来验证添加的内容：

echo %HADOOP_HOME%
echo %HADOOP_BIN%
echo %PATH%

配置hadoop:10。打开“your hadoop root\hadoop-2.9.2\etc\hadoop\hadoop env.cmd”并在文件底部添加以下行：

set HADOOP_PREFIX=%HADOOP_HOME%
set HADOOP_CONF_DIR=%HADOOP_PREFIX%\etc\hadoop
set YARN_CONF_DIR=%HADOOP_CONF_DIR%
set PATH=%PATH%;%HADOOP_PREFIX%\bin

11.打开“your hadoop root\hadoop-2.9.2\etc\hadoop\hdfs site.xml”并添加以下内容：

<property>
<name>dfs.name.dir</name>
<value>your desired address</value>
</property>

<property>
<name>dfs.data.dir</name>
<value>your desired address</value>
</property>

<property>
<name>dfs.replication</name>
<value>1</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

<property>
<name>dfs.datanode.use.datanode.hostname</name>
<value>false</value>
</property>

<property>
<name>dfs.namenode.datanode.registration.ip-hostname-check</name>
<value>false</value>
</property>

<property>
<name>dfs.namenode.http-address</name>
<value>hadoopMaster:50070</value>
<description>Your NameNode hostname for http access.</description>
</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoopMaster:50090</value>
<description>Your Secondary NameNode hostname for http access.</description>
</property>

编辑core-site.xml并添加：

<property>
<name>fs.default.name</name>
<value>hdfs://hadoopMaster:9000</value>
</property>

<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>your-temp-directory</value>
<description>A base for other temporary directories.</description>
</property>

打开“root to hadoop\hadoop-2.9.2\etc\hadoop\mapred site.xml”并在标记中添加以下内容。如果看不到mapred-site.xml，请打开mapred-site.xml.template文件并将其重命名为mapred-site.xml

<property>
<name>mapred.job.tracker</name>
<value>hadoopMaster:9001</value>
</property>

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

14.编辑yarn-site.xml并添加：

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce.shuffle</value>
<description>Long running service which executes on Node Manager(s) and provides MapReduce Sort and Shuffle functionality.</description>
</property>

<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
<description>Enable log aggregation so application logs are moved onto hdfs and are viewable via web ui after the application completed. The default location on hdfs is '/log' and can be changed via yarn.nodemanager.remote-app-log-dir property</description>
</property>

<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>hadoopMaster:8030</value>
</property>

<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>hadoopMaster:8031</value>
</property>

<property>
<name>yarn.resourcemanager.address</name>
<value>hadoopMaster:8032</value>
</property>

<property>
<name>yarn.resourcemanager.admin.address</name>
<value>hadoopMaster:8033</value>
</property>

<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>hadoopMaster:8088</value>
</property>

在“根hadoop目录/hadoop/bin”中添加

hadoopSlave

在从属节点上也执行这些步骤。
打开cmd和cd到hadoop目录中的sbin文件夹。18.设置namenode的格式

hadoop namenode -format

19.运行以下命令：

start-dfs.sh

然后运行：

start-yarn.sh

经过反复试验，下面的人把工作交给了我。
按照@absolute初学者前面的回答做同样的配置。
在所有机器上禁用windows防火墙（我想你可以保持它，只是乱弄规则，但这是你要找出的）
hdfs namenode-格式化所有节点（主节点和从节点）
确保所有3个节点中的datanode文件夹都为空（只需shift+del）
在主节点中运行start-all.cmd。应显示以下所有内容。50436名称节点54696节点管理器54744数据节点60028 jps 7340资源管理器
在从属节点中运行start-all.cmd。以下所有内容都应出现在6116 datanode 2408 jps 3208 nodemanager中
注意，nameode和resource manager没有出现的原因是，它们正在master节点上运行，并且已经占用了端口，您只需要运行master resourcemanger和name节点
注意，如果您看到了linux的multi-cluster教程，那么主节点在执行jps时也会显示seceondrynamenode。不知道为什么它不会出现在窗口。
去master:50070，并导航到数据节点，您应该会看到如下内容

去master:8088，并导航到节点，您应该会看到如下内容

在2个windows 10上设置hadoop多群集

2条答案

相关问题

热门标签

最新问答