如果pig使用默认设置处理1tb的数据会发生什么?

pxq42qpu  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(270)

我听说pig会根据输入文件的大小来分配减速机的数量。对于每个gb,将分配一个缩减器,最大将是999个缩减器(这是默认值)。(我知道可以在pig.exec.reducers.max中更改它)。如果使用默认设置处理tb的数据,将发生什么情况或如何分配缩减器?

eyh26e7m

eyh26e7m1#

你得到的减速机的数量取决于你选择的数量或使用的基本公式(见下文)。你可以通过运行 SET default_parallel 20; 例如,将其设置为20。看到了吗http://pig.apache.org/docs/r0.8.1/piglatin_ref2.html#set pig.exec.reducers.max 只是一个上界。如果没有显式设置减速器的数量,则使用以下公式 MIN (pig.exec.reducers.max, total input size (in bytes) / bytes per reducer) 其中每个减速机的字节数由 pig.exec.reducers.bytes.per.reducer 默认为1gb。

相关问题