有没有一种方法可以让spark按大小而不是按数据的数量重新分区

vc9ivgsu  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(383)

我有一个数据集平均除以每个分区的记录数,但有些分区的数据大小是其他分区的4倍或更多。每一张唱片都有一个收藏,我想在一些唱片中可能会大得多。这会导致看起来像是数据倾斜的情况,由于这种不平衡的记录,一些分区需要更长的时间。如果我可以启用一些spark日志来打印每个分区的字节大小和行的大小,这可以帮助我排除故障。因为数据被发送到Cassandra使用他们的Spark连接器,这是做一些重新划分自己。

5kgi1eie

5kgi1eie1#

无法按大小重新划分数据集。在我的例子中,我有一个数组,其中一些行将有大量的条目。这可能是数据上的异常,我只需向数据集添加一个过滤器就可以过滤掉这些行。

df.filter( size($colname) < 1000)

相关问题