有没有一种方法可以让spark按大小而不是按数据的数量重新分区

vc9ivgsu 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(383)

我有一个数据集平均除以每个分区的记录数，但有些分区的数据大小是其他分区的4倍或更多。每一张唱片都有一个收藏，我想在一些唱片中可能会大得多。这会导致看起来像是数据倾斜的情况，由于这种不平衡的记录，一些分区需要更长的时间。如果我可以启用一些spark日志来打印每个分区的字节大小和行的大小，这可以帮助我排除故障。因为数据被发送到Cassandra使用他们的Spark连接器，这是做一些重新划分自己。

Dataset apache-spark skew

来源：https://stackoverflow.com/questions/61722397/is-there-a-way-to-make-spark-re-partition-by-size-rather-than-count-of-the-data

1条答案

按热度按时间

无法按大小重新划分数据集。在我的例子中，我有一个数组，其中一些行将有大量的条目。这可能是数据上的异常，我只需向数据集添加一个过滤器就可以过滤掉这些行。

df.filter( size($colname) < 1000)

赞(0）回复(0）举报 2021-05-27

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 6个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 6个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 6个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 6个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 6个月前