为什么预分区会因为减少洗牌而有利于spark作业？

eit6fx6z 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(343)

许多教程提到 RDD 将优化spark作业的数据洗牌。我困惑的是，对于我的理解，预分区也会导致洗牌，为什么在这里提前洗牌会有利于一些操作？特别是spark-it-self将对一组变换进行优化。
例如：
如果我想加入两个数据集country（id，country）和income（id，（income，month，year）），这两种操作有什么区别(我使用pyspark模式）
按id预分区

country = country.partitionBy(10).persist()
income = income.partitionBy(10).persist()
income.join(country)

无需预分区直接连接：

income.join(country)

如果我只需要计算这个连接一次，那么在连接之前使用预分区是否仍然有用？我想 partitionBy 也需要洗牌对吗？如果我在join之后的进一步计算都是基于使用country作为键（以前用于join的键id将是无用的，并且将从 RDD )，如何优化计算？

hadoop rdd apache-spark pyspark Partition

来源：https://stackoverflow.com/questions/45604297/why-pre-partition-will-benefit-spark-job-because-of-reducing-shuffling

2条答案

按热度按时间

xmjla07d1#

parititionBy 如果这是您要问的问题，则不洗牌数据。
通过应用 partitionBy 你不能先发制人地避开洗牌。你只要把它推到另一个地方。如果分区rdd被多次重用，这是一个好主意，但是一次性的连接没有任何好处。

赞(0）回复(0）举报 2021-05-29

bxpogfeg2#

如果我只需要计算这个连接一次，那么在连接之前使用预分区是否仍然有用？我认为分区也需要洗牌，对吗？
你完全正确。只有在分区数据将被多个dag路径重用时，抢占式分区才有意义。如果你 join 只有一次它只是在另一个地方移动。

赞(0）回复(0）举报 2021-05-29

我来回答

为什么预分区会因为减少洗牌而有利于spark作业？

2条答案

相关问题

热门标签

最新问答