簇Map器的估计

nszi6y05  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(326)

需要一些关于hadoop集群中特定作业的Map器估计的澄清。据我所知,Map器的数量取决于处理所采用的输入拆分。但是如果我们要对已经存在于hdfs中的输入数据进行处理的话,这就是情况。在这里,我需要澄清有关Map器和还原触发的sqoop工作。pfb。。
如何根据ram或输入分割/块来估计专用集群的Map器计数?(一般)
基于输入大小从rdbms到hdfs检索数据的sqoop作业如何估计Map器计数?(基于sqoop)
核心cpu是什么意思?它如何影响可并行运行的Map器计数?(genaral)
谢谢。

6tr1vspr

6tr1vspr1#

如何根据ram或输入分割/块来估计专用集群的Map器计数?(一般)
你是对的。Map器的数量通常基于输入中dfs块的数量。
基于输入大小从rdbms到hdfs检索数据的sqoop作业如何估计Map器计数?(基于sqoop)
默认情况下,sqoop将并行使用四个任务来导入/导出数据。
您可以使用 -m <number of mappers> 选项。请参阅:sqoop并行
核心cpu是什么意思?它如何影响可并行运行的Map器计数?(常规)
cpu核心是处理单元。简单地说,“核越多越好”,也就是说,如果我们有更多的核,它就可以更并行地处理。
示例:如果您有4个核心,那么4个Map器可以并行运行。(理论上!)

j8yoct9x

j8yoct9x2#

需要一些关于hadoop集群中特定作业的Map器估计的澄清。据我所知,Map器的数量取决于处理所采用的输入拆分。但是如果我们要对已经存在于hdfs中的输入数据进行处理的话,这就是情况。在这里,我需要澄清有关Map器和还原触发的sqoop工作。pfb。。
如何根据ram或输入分割/块来估计专用集群的Map器计数?(一般)
答:不,它与内存大小无关。这完全取决于输入拆分的数量。
基于输入大小从rdbms到hdfs检索数据的sqoop作业如何估计Map器计数?(基于sqoop)
答:默认情况下,sqoop作业的Map器数为4。您可以通过使用-m(1,2,3,4,5…)或--num mappers参数来更改默认值,但是您必须确保您的数据库中有主键,或者您正在使用-split by参数,否则将只有一个Map程序正在运行,并且您必须显式地说-m1。
核心cpu是什么意思?它如何影响可并行运行的Map器计数?(常规)
答:cpu的核心是能够执行任务的处理器。当你说4核处理器时,意味着它一次可以运行4个任务。核心数不参与mapreduce框架计算Map器数。但是如果有4个核心,mapreduce计算出Map器的数量是12,那么一次4个Map器将并行运行,之后其余的Map器将串行运行。

相关问题