我试图过滤掉spark df,只在数字字段中显示文本值,因为数据是非结构化的。
不太清楚如何在上面的场景中使用下面的代码:
sparkdf = sparkdf.filter(col("colToFilter") <evaluation>)
如果要在sql中尝试类似的操作,我将执行以下操作:
SELECT * FROM tbl
WHERE col NOT LIKE '%[0-9]%'
当前表的示例如下所示:
|RefId|
|0|
|1|
|1|
|1|
|RefNum2|
|1|
我只想显示“refnum2”作为输出。
我真的很感激任何帮助。
谢谢您。
2条答案
按热度按时间gorkyyrv1#
你可以使用
rlike
过滤如下:或
uplii1fm2#
最简单的请求:从tbl1中选择*from col regexp('[a-z]');