如何最有效地压缩高度独特的列？

svgewumm 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(231)

我有一个sparkDataframe，它由许多作为度量值的双列组成，但是我需要一种通过计算其他几个非度量值列的散列来注解每个唯一行的方法。这个散列会导致高度唯一的乱码字符串，我注意到当这个列出现时，数据集的大小会大大增加。如何对数据进行排序/布局以减小总体数据集大小？
我知道在我的Parquet文件上使用的snappy压缩协议在运行类似数据时执行得最好，所以我认为对主键进行排序可能很有用，但我也不能将整个数据集合并到一个文件中（在主键创建步骤之前，它的总大小为数百gb）。
我的散列函数是sha2（128）fyi。

apache-spark parquet snappy compression

来源：https://stackoverflow.com/questions/66430229/how-do-i-most-effectively-compress-my-highly-unique-columns