WordCount程序是Hadoop自带的演示java程序,用于统计一个文本里面单词出现的次数。本实验将会在伪分布式环境中,运行WordCount程序统计文本中单词出现的次数。
[info] (1)jar放在Hadoop包的哪个目录?
hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
[info] (2)知识点回顾
# 之前提到过MapReduce需要运算的数据是存放在HDFS的,运算结果也是存放在HDFS中
# 在学习HDFS基本操作的时候,已经学过如何把本地的一个文件传过去HDFS中
[info] (3)实验流程:运行WordCount程序
# 1.Linux本地创建一个word.txt文本,内容为:
I Love China
I Love Beijing
:-:
:-:
# 2.1先在HDFS中创建一个huatec目录 hdfs dfs -mkdir /huatec
# 2.2把本地的word.txt文件推上去HDFS的目录 /huatec
:-:
# 3.运行WordCount程序进行统计该文本的单词出现次数,并把结果输出到目录 /huatec/output
:-:
:-:
:-:
:-:
:-:
[info] 二、MapReduce控制流
:-:
:-:
[info] 二、MapReduce数据流
这个WordCount程序到底是怎样进行单词统计的呢?底层是使用Java代码,那么一个单词统计的业务逻辑代码是怎么编写的呢?我们在写一个MapReduce程序的时候,首先需要分析代码逻辑,也就是数据流程是怎么走的,接下来分析一下WordCount程序的数据流程。
:-:
本课程是带大家感受一下,WordCount程序是怎么在Hadoop运行的,并且一个MapReduce程序是如何实现业务逻辑的,数据流是怎么走动的
内容来源于网络,如有侵权,请联系作者删除!