与cloudera和hortonworks相比，hadoop分布Map器有哪些缺点？

d6kp6zgx 于 2021-06-03 发布在 Hadoop

关注(0)|答案(4)|浏览(313)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗？**更新这个问题，这样就可以通过编辑这篇文章用事实和引文来回答。

四年前关门了。
改进这个问题
cloudera和hortonworks使用hdfs，这是apachehadoop的基本概念之一。mapr使用自己的概念/实现。直接使用本机文件系统而不是hdfs。您可以在mapr的网站上找到使用这种方法的许多优点。
我想知道这种方法的缺点是什么？

hadoop hdfs cloudera mapr

来源：https://stackoverflow.com/questions/15079701/what-are-disadvantages-of-the-hadoop-distribution-mapr-compared-to-cloudera-and

4条答案

按热度按时间

xqnpmsa81#

大卫，这一分钟排序记录是由mapr于2013年1月30日在google云计算引擎上创造的。请访问我们的博客http://www.mapr.com/blog/hadoop-minutesort-record. 这一记录是在2103节点集群上建立的，59秒内对1.5 tb的数据进行了排序。
另请参阅之前的一篇关于terasort记录的博客，该记录由mapr在54秒内对1 tb的数据进行排序。它被设置在谷歌云计算引擎的1003节点集群上。该博客发布于http://www.mapr.com/blog/record-setting-hadoop-in-the-cloud.
另请参阅answers.mapr.com以获取有关此主题的许多问题/答案。

赞(0）回复(0）举报 2021-06-03

kzmpq1sx2#

在一些公正的消息来源对apachehadoop和mapr的版本进行广泛的基准测试（在不同的工作负载下）之前，我认为我们不能明确地说一个比另一个快。如果记录将决定您的意见，那么现在您应该知道当前的terasort记录由yahoo和apachehadoop持有。这里和这里的细节。

赞(0）回复(0）举报 2021-06-03

gzjq41n43#

我对mapr的定义有点不同。它不使用hdfs，而是提供自己的带有nfs接口的分布式文件系统。它和hdfs都是基于本地fs的。
主要的区别来自hdfs不是posix和其他设计选择。
1当mapr是可变的时，hdfs是不可变的。它可以被看作是一种优势，尤其是当你需要它的时候。
2当mapr是时hdfs是不可挂载的。您可以使用任何与linuxfs一起工作的现有工具。
与posix无关：mapr具有较小的块大小和非单点故障（namenode）。mapr具有多站点复制。
让我们看看黑暗的一面：a）有可变的数据（而不是不可变的hdfs）使系统更加复杂。
b）目前还不知道（至少对我来说）如何处理大型集群(我听说有上百个节点）。
c）从体系结构的Angular （有小的块）我不确定如何实现良好的数据局部性。

赞(0）回复(0）举报 2021-06-03

hwazgwia4#

mapr和hortonworks/cloudera之间的主要缺点是maprfs（文件系统）和maprdb（nosql数据库）是专有的（不是开源的）。如果mapr不复存在，则假定这些产品将停止开发和支持。
由于hortonworks、cloudera和其他hadoop发行版与开源社区一起使用/支持hdfs/hbase，因此hdfs/hbase没有得到开发和支持的风险较小。

赞(0）回复(0）举报 2021-06-03

我来回答

与cloudera和hortonworks相比，hadoop分布Map器有哪些缺点？

4条答案

相关问题

热门标签

最新问答