簇Map器的估计

nszi6y05 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(326)

需要一些关于hadoop集群中特定作业的Map器估计的澄清。据我所知，Map器的数量取决于处理所采用的输入拆分。但是如果我们要对已经存在于hdfs中的输入数据进行处理的话，这就是情况。在这里，我需要澄清有关Map器和还原触发的sqoop工作。pfb。。
如何根据ram或输入分割/块来估计专用集群的Map器计数？（一般）
基于输入大小从rdbms到hdfs检索数据的sqoop作业如何估计Map器计数？（基于sqoop）
核心cpu是什么意思？它如何影响可并行运行的Map器计数？（genaral）
谢谢。

hadoop mapreduce sqoop

来源：https://stackoverflow.com/questions/41373574/estimation-of-mappers-for-a-cluster

2条答案

按热度按时间

6tr1vspr1#

如何根据ram或输入分割/块来估计专用集群的Map器计数？（一般）
你是对的。Map器的数量通常基于输入中dfs块的数量。
基于输入大小从rdbms到hdfs检索数据的sqoop作业如何估计Map器计数？（基于sqoop）
默认情况下，sqoop将并行使用四个任务来导入/导出数据。
您可以使用 -m <number of mappers> 选项。请参阅：sqoop并行
核心cpu是什么意思？它如何影响可并行运行的Map器计数？（常规）
cpu核心是处理单元。简单地说，“核越多越好”，也就是说，如果我们有更多的核，它就可以更并行地处理。
示例：如果您有4个核心，那么4个Map器可以并行运行。（理论上！）

赞(0）回复(0）举报 2021-05-29

j8yoct9x2#

需要一些关于hadoop集群中特定作业的Map器估计的澄清。据我所知，Map器的数量取决于处理所采用的输入拆分。但是如果我们要对已经存在于hdfs中的输入数据进行处理的话，这就是情况。在这里，我需要澄清有关Map器和还原触发的sqoop工作。pfb。。
如何根据ram或输入分割/块来估计专用集群的Map器计数？（一般）
答：不，它与内存大小无关。这完全取决于输入拆分的数量。
基于输入大小从rdbms到hdfs检索数据的sqoop作业如何估计Map器计数？（基于sqoop）
答：默认情况下，sqoop作业的Map器数为4。您可以通过使用-m（1,2,3,4,5…）或--num mappers参数来更改默认值，但是您必须确保您的数据库中有主键，或者您正在使用-split by参数，否则将只有一个Map程序正在运行，并且您必须显式地说-m1。
核心cpu是什么意思？它如何影响可并行运行的Map器计数？（常规）
答：cpu的核心是能够执行任务的处理器。当你说4核处理器时，意味着它一次可以运行4个任务。核心数不参与mapreduce框架计算Map器数。但是如果有4个核心，mapreduce计算出Map器的数量是12，那么一次4个Map器将并行运行，之后其余的Map器将串行运行。

赞(0）回复(0）举报 2021-05-29

我来回答

簇Map器的估计

2条答案

相关问题

热门标签

最新问答