与cloudera和hortonworks相比,hadoop分布Map器有哪些缺点?

d6kp6zgx  于 2021-06-03  发布在  Hadoop
关注(0)|答案(4)|浏览(313)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。

四年前关门了。
改进这个问题
cloudera和hortonworks使用hdfs,这是apachehadoop的基本概念之一。mapr使用自己的概念/实现。直接使用本机文件系统而不是hdfs。您可以在mapr的网站上找到使用这种方法的许多优点。
我想知道这种方法的缺点是什么?

xqnpmsa8

xqnpmsa81#

大卫,这一分钟排序记录是由mapr于2013年1月30日在google云计算引擎上创造的。请访问我们的博客http://www.mapr.com/blog/hadoop-minutesort-record. 这一记录是在2103节点集群上建立的,59秒内对1.5 tb的数据进行了排序。
另请参阅之前的一篇关于terasort记录的博客,该记录由mapr在54秒内对1 tb的数据进行排序。它被设置在谷歌云计算引擎的1003节点集群上。该博客发布于http://www.mapr.com/blog/record-setting-hadoop-in-the-cloud.
另请参阅answers.mapr.com以获取有关此主题的许多问题/答案。

kzmpq1sx

kzmpq1sx2#

在一些公正的消息来源对apachehadoop和mapr的版本进行广泛的基准测试(在不同的工作负载下)之前,我认为我们不能明确地说一个比另一个快。如果记录将决定您的意见,那么现在您应该知道当前的terasort记录由yahoo和apachehadoop持有。这里和这里的细节。

gzjq41n4

gzjq41n43#

我对mapr的定义有点不同。它不使用hdfs,而是提供自己的带有nfs接口的分布式文件系统。它和hdfs都是基于本地fs的。
主要的区别来自hdfs不是posix和其他设计选择。
1当mapr是可变的时,hdfs是不可变的。它可以被看作是一种优势,尤其是当你需要它的时候。
2当mapr是时hdfs是不可挂载的。您可以使用任何与linuxfs一起工作的现有工具。
与posix无关:mapr具有较小的块大小和非单点故障(namenode)。mapr具有多站点复制。
让我们看看黑暗的一面:a)有可变的数据(而不是不可变的hdfs)使系统更加复杂。
b) 目前还不知道(至少对我来说)如何处理大型集群(我听说有上百个节点)。
c) 从体系结构的Angular (有小的块)我不确定如何实现良好的数据局部性。

hwazgwia

hwazgwia4#

mapr和hortonworks/cloudera之间的主要缺点是maprfs(文件系统)和maprdb(nosql数据库)是专有的(不是开源的)。如果mapr不复存在,则假定这些产品将停止开发和支持。
由于hortonworks、cloudera和其他hadoop发行版与开源社区一起使用/支持hdfs/hbase,因此hdfs/hbase没有得到开发和支持的风险较小。

相关问题