我有一个带有列的sparkDataframe(使用scala) arrays
包含 Array[Array[Int]]
,即。
var data = Seq(
((1, 2, 3), (3, 4, 5), (6, 7, 8)),
((1, 5, 7), (3, 4, 5), (6, 3, 0)),
...
).toDF("arrays")
我想创建一个新的Dataframe,其中每行包含一个 Array[Int]
不应该有重复。例如,上面的Dataframe将变成:
+-----------+
| array |
+-----------+
| (1, 2, 3) |
| (3, 4, 5) |
| (6, 7, 8) |
| (1, 5, 7) |
| (6, 3, 0) |
+-----------+
哪里 (3, 4, 5)
只出现一次。
1条答案
按热度按时间azpvetkf1#
尝试:
df.withColumn("array", explode(df.array)).dropDuplicates()