spark:从列中的数组创建Dataframe

bvpmtnay  于 2021-05-17  发布在  Spark
关注(0)|答案(1)|浏览(624)

我有一个带有列的sparkDataframe(使用scala) arrays 包含 Array[Array[Int]] ,即。

var data = Seq(
  ((1, 2, 3), (3, 4, 5), (6, 7, 8)),
  ((1, 5, 7), (3, 4, 5), (6, 3, 0)),
  ...
).toDF("arrays")

我想创建一个新的Dataframe,其中每行包含一个 Array[Int] 不应该有重复。例如,上面的Dataframe将变成:

+-----------+
|   array   |
+-----------+
| (1, 2, 3) |
| (3, 4, 5) |
| (6, 7, 8) |
| (1, 5, 7) |
| (6, 3, 0) |
+-----------+

哪里 (3, 4, 5) 只出现一次。

azpvetkf

azpvetkf1#

尝试: df.withColumn("array", explode(df.array)).dropDuplicates()

相关问题