pyspark pivot保留其余的列

mzsu5hc0 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(311)

类似于spark-pivot-one列，但保持其他列不变我正在寻找一种最好的方法来透视列，同时保留所有不属于groupby（按id分组）、pivot或聚合的列。现在我看到两个选项：
将Dataframea与其余的列（和id）连接起来，并将数据透视的结果与by id连接起来。注意：在spark中总是希望避免连接（由于洗牌）
将所有列添加到groupby，因为id是groupby的一部分，所以我可以根据需要获得唯一的结果，但是我担心添加这些冗余列时的性能。问题：spark在按冗余列分组时的行为如何
鉴于这两种方法产生相同的结果，我的问题是，在性能方面，什么是首选方案？

apache-spark pyspark

来源：https://stackoverflow.com/questions/66665148/pyspark-pivot-keeping-the-rest-of-columns