专注于Flink,Spark,大数据技术的个人博客
关注大规模数据处理,包括Hadoop,YARN,Spark,Flink,Presto等
知名的大数据技术架构与应用分享技术博客,分享包括但不限于 Hadoop、Spark、Kafka、Hudi、Iceberg、Delta Lake 等大数据相关的技术。
有关 Hadoop、Spark、Hive、HBase、Flume、Kafka、Kylin、Druid.io等大数据技术;大数据分析平台;数据仓库;Spark实时计算;大数据视频下载;Hadoop视频下载;Spark视频下载 的大数据田地
该站是程序猿DD(翟永超)的技术分享博客。内容涵盖Java后端技术、Spring Boot、Spring Cloud、微服务架构、运维开发、系统监控等相关的研究与知识分享。
Hadoop是一个分布式系统基础架构。
Spark是一个通用内存并行计算框架。
Kudu是运行在hadoop平台上的列式存储系统
MySQL是关系型数据库管理系统
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
Scala是一门多范式的编程语言
Sqoop是用来实现结构型数据和Hadoop之间进行数据迁移的工具。
Flume 是一个分布式日志收集系统
Kafka是一款分布式发布订阅消息系统
Redis是一个开源的内存中的数据结构存储系统,它可以用作数据库、缓存和消息中间件。
Cassandra是一个开源,分布式和分散式/分布式存储系统,用于管理遍布世界各地的大量结构化数据
Elasticsearch是一个基于Lucene的搜索服务器。
ClickHouse 是面向 OLAP 的分布式列式 DBMS。
Pig 是一种探索大规模数据集的脚本语言,为了填补MapReduce开发周期长的缺点而产生。
Storm是Twitter开源的分布式实时大数据处理框架。
Mesos是Apache下的开源分布式资源管理框架,它被称为是分布式系统的内核。
Flink是一个面向数据流处理和批量数据处理的可分布式的开源计算框架。
Samza是一个分布式流处理框架,专用于实时数据的处理。
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
Presto是由Facebook开发的一个分布式SQL查询引擎,是专门设计为用来专门进行大数据实时查询计算而设计和开发的产品。
Druid 是一个为在大数据集之上做实时统计分析而设计的开源数据存储。
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务。
Oozie 是一个工作流调度系统用来管理 Hadoop 任务
Ambari是Hortonworks开源的Hadoop平台的管理软件,具备Hadoop组件的安装、管理、运维等基本功能,提供Web UI进行可视化的集群管理,简化了大数据平台的安装、使用难度。
Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。
数据猿是中国最权威的大数据媒体与企业应用服务平台,提供各行业大数据、大数据新闻资讯、大数据报告、数据交易共享、大数据案例、大数据分析应用、大数据挖掘、大数据营销、大数据企业指数等服务,致力成为大数据行业第一媒体服务平台 !
数据通是一个大数据论坛,数据资源分享平台
数据观是一个大数据新闻门户网站,专注大数据、大数据分析和大数据应用,同时涉及移动互联网、征信、云计算等领域,为读者提供专业的大数据信息交流平台。
大数据世界提供大数据技术,大数据应用案例,汇聚大数据资料,讨论大数据话题。中国大数据是国内较早的公益性大数据网站。
中国大数据-大数据门户,技术共享,人工智能