在PySpark DataFrame中查找完全重复的列(即,包含所有行中的重复值

monwx1rj  于 2022-10-07  发布在  Spark
关注(0)|答案(0)|浏览(101)

我有一个大约有4800列的PySpark Dataframe ,我正在尝试找到一种方法来识别和删除具有不同列名但在其他方面彼此完全重复的列。

例如,在下面的 Dataframe 中,我希望删除列C和E(因为它们是列A的副本),并且还知道列C和E是被删除的列。

+---+---+---+---+---+---+
|  A|  B|  C|  D|  E|  F|
+---+---+---+---+---+---+
|  1|  2|  1|  3|  1|  2|
+---+---+---+---+---+---+ 
|  1|  1|  1|  2|  1|  2|
+---+---+---+---+---+---+ 
|  1|  3|  1|  1|  1|  2|
+---+---+---+---+---+---+

我看到this post有一个潜在的解决方案--但它运行得非常慢。我不确定是否有办法优化它,以便在更大的 Dataframe 上更快地运行?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题