基于预定义的字符串数组筛选嵌套结构

iyfjxgzm  于 2021-07-09  发布在  Spark
关注(0)|答案(1)|浏览(207)

这个问题在这里已经有了答案

根据提供的列表筛选数组列(1个答案)
20天前关门了。
架构:

root
 |-- group: struct (nullable = true)
 |    |-- name: string (nullable = true)
 |    |-- tags: array (nullable = true)
 |    |    |-- element: string (containsNull = true)
``` `tags` 会像这样:

1 ["Cat", "Dog", "Mouse"]
2 []
3 ["Cat"]
4 ["Zebra"]

如果其中一个 `["Cat", "Dog"]` 出现了。应用此规则后,将保留以下行:

1 ["Cat", "Dog", "Mouse"]
3 ["Cat"]

mlnl4t2r

mlnl4t2r1#

哪里 df 你的数据框里有你的数据吗

df.filter("arrays_overlap(tags,array('Cat','Dog'))")

你可以使用数组重叠来过滤你的标签

相关问题