spark：从列中的数组创建Dataframe

bvpmtnay 于 2021-05-17 发布在 Spark

关注(0)|答案(1)|浏览(624)

我有一个带有列的sparkDataframe（使用scala） arrays 包含 Array[Array[Int]] ，即。

var data = Seq(
  ((1, 2, 3), (3, 4, 5), (6, 7, 8)),
  ((1, 5, 7), (3, 4, 5), (6, 3, 0)),
  ...
).toDF("arrays")

我想创建一个新的Dataframe，其中每行包含一个 Array[Int] 不应该有重复。例如，上面的Dataframe将变成：

+-----------+
|   array   |
+-----------+
| (1, 2, 3) |
| (3, 4, 5) |
| (6, 7, 8) |
| (1, 5, 7) |
| (6, 3, 0) |
+-----------+

哪里 (3, 4, 5) 只出现一次。

apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/64792713/spark-create-dataframe-from-arrays-in-a-column

1条答案

按热度按时间

尝试： df.withColumn("array", explode(df.array)).dropDuplicates()

赞(0）回复(0）举报 2021-05-17

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前