首页
问答库
知识库
教程库
标签
导航
书籍
登录
注册
投稿
大数据Hadoop生态简介
x33g5p2x
于2020-09-08
发布在
Hadoop
字(1.2k)
|
赞(0)
|
评价(0)
|
浏览(554)
大数据带来的挑战
数据量越来越大,种类越来越多,产生的速度越来越快
声明:参考华为的一篇文章
Hadoop
Apache开源项目,超始于2005年
针对解决数据量大,各类多,产生数据快的问题
强大的开源社区支持
日益丰富的生态系统
HDFS
HDFS是基于Google发布的GFS论文进行设计开发,运行在通用硬件上的分布式文件系统
HDFS的特点
高容错性:认为硬件总是不可靠的,所以每份数据都有备份文件
高吞吐量:为大量数据访问的应用提供高吞吐量支持
大文件存储:支持存储TB-PB级别的数据
MapReduce
MapReduce基于Google发布的分布式计算框架Map/Reduce论文设计开发,用于大规模数据的并行运算
特点
易于编程:程序员仅需描述做什么,具体怎么做交由系统的执行框架处理
Yarn
Yarn是Hadoop2.0中的资源管理系统,它是一个通用的资源管理模块,可为各类应用程序进行资源管理和作业调度,除了提供MapReduce框架,还可以支持其他框架,比如Saprk、Storm等
特点
良好的扩展性:可通过添加节点以扩展集群能力
高容错性:通过计算迁移策略提高中集群的容错性
Hive
Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据。提供类SQL的HiveSQL语言将SQL查询转换为MapReduce任务实现数据处理
常见场景
数据清洗:数据抽取,数据加载,数据切换
非实时分析:日志分析,文本分析等
数据挖掘:用户行为分析,兴趣分析等
HBase
HBase是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,提供少量数据存储功能,用来解决关系型数据库在处理海量数据时的局限性
常见场景
存储大表数据:表的规划可达到数十亿行以及数百万列
高效的随机读取
同时处理结构化和非结构化的数据
Spark
Spark是一种通用的高性能集群计算系统。既有类似于MR的颁式内存计算框架,也有类似Hive的类SQL查询,还提供了实时数据的处理引擎和机器学习的算法库
常见场景
快速的数据处理,ETL(抽取,转换,加载)
实时数据分析
数据挖掘和机器学习
Kafka
Kafkaa是一个高吞吐、分布式、基于发布订阅的消息系统,利用Kafka技术可在廉价的机器上搭建起大规模消息系统,适用于离线和在线的消息消费
常见场景
常规的消息收集
网站活性跟踪
聚合统计系统运营数据:如监控数据
Strom
Storm是一个分布式、实时计算框架,具有高度容错、低时延的优点
常见场景
实时分析:如实时处理日志处理、交通流量分析等
实时统计:如网站的实时访问统计、排序等
实时推荐:如实时广告定位、事件营销等
Flume
Flume是一个分布式、可靠和高可用的少量日志聚合的系统。支持在系统中定制各类数据发送方,用于收集数据然后写到各种数据接收方的能力。用户几乎不必进行任何额外开发即可使用
常见场景
从固定目录下采集日志信息到目的地:HDFS,HBase,Kafka
实时采集日志信息到目的地
内容来源于网络,如有侵权,请联系作者删除!
hadoop
关注
举报
相关文章
183
浏览
大数
据
之kafka
简介
hadoop
实时大数据
kafka
spark
Kafka
字数 (2.9k)
浏览 (183)
点赞 (0)
评价 (0)
12个月前 
56
浏览
大数
据
之kafka
简介
hadoop
实时大数据
kafka
hadoop
spark
Kafka
字数 (2.9k)
浏览 (56)
点赞 (0)
评价 (0)
8个月前 
157
浏览
hadoop
大数
据
优化之
数据
倾斜
hadoop
hadoop
spark
big data
数据倾斜
Hadoop
字数 (2.0k)
浏览 (157)
点赞 (0)
评价 (0)
12个月前 
78
浏览
hadoop
大数
据
优化之
数据
倾斜
hadoop
hadoop
spark
big data
数据倾斜
Hadoop
字数 (2.0k)
浏览 (78)
点赞 (0)
评价 (0)
8个月前 
488
浏览
什么是
Hadoop
?
大数
据
加工和处理方法
hadoop
Hadoop
字数 (3.6k)
浏览 (488)
点赞 (0)
评价 (0)
2020-12-22 
105
浏览
大数
据
+
Hadoop
集群学习
大数据
big data
hadoop
Hadoop
字数 (11.0k)
浏览 (105)
点赞 (0)
评价 (0)
10个月前 
275
浏览
初识
大数
据
Hadoop
字数 (0.7k)
浏览 (275)
点赞 (0)
评价 (0)
2021-04-05 
67
浏览
数据
库
简介
mysql
数据库
Database
sql
关系数据库
其他
字数 (0.6k)
浏览 (67)
点赞 (0)
评价 (0)
10个月前 
94
浏览
大数
据
:
数据
的日志采集与用途
大数据 linux
大数据
数据仓库
其他
字数 (4.3k)
浏览 (94)
点赞 (0)
评价 (0)
9个月前 
531
浏览
大数
据
学习路线
Hadoop
字数 (4.8k)
浏览 (531)
点赞 (0)
评价 (0)
2020-09-14 
114
浏览
MySQL
数据
库
简介
mysql数据库
mysql
数据库
big data
Mysql
字数 (1.4k)
浏览 (114)
点赞 (0)
评价 (0)
11个月前 
69
浏览
海量
数据
处理--
大数
据
处理概论
海量数据与大数据
海量数据处理
大数据处理
海量数据与大数据
其他
字数 (0.8k)
浏览 (69)
点赞 (0)
评价 (0)
9个月前 
572
浏览
大数
据
流处理Streaming介绍
streaming
Flink
字数 (8.4k)
浏览 (572)
点赞 (0)
评价 (0)
2020-10-13 
253
浏览
大数
据
应用常用打包方式
Spark
字数 (7.2k)
浏览 (253)
点赞 (0)
评价 (0)
2021-02-12 
38
浏览
大数
据
之维度建模中的重要概念
数据仓库
大数据
维度建模
数据仓库
数据研发
数据模型
其他
字数 (5.0k)
浏览 (38)
点赞 (0)
评价 (0)
6个月前 
查看更多
热门标签
更多
Java
query
Node
python
request
开发语言
Util
Table
Logger
后端
Message
Element
Parser
response
Utils
热门文章
更多
ODS、DWD、DWS、DIM、ADS 数据仓库分层
浏览(17835)
发布于
2020-09-20
Hadoop优雅架构原理剖析
浏览(1838)
发布于
2020-11-02
使用SQL处理Hadoop查询的10种方法
浏览(1737)
发布于
2020-12-20
Apache Hue是什么?Hue介绍
浏览(1317)
发布于
2021-02-06
4万字全面掌握数据库, 数据仓库, 数据集市,数据湖,数据中台
浏览(1260)
发布于
2020-11-09
目录
大数据带来的挑战
Hadoop
HDFS
MapReduce
Yarn
Hive
常见场景
HBase
常见场景
Spark
常见场景
Kafka
常见场景
Strom
常见场景
Flume
常见场景