有没有一种方法可以定义纯sqludf，它仍然利用pyspark的所有优化？

yk9xbfzb 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(203)

我重复了很多类似以下的代码：

trim(concat(ifnull(`field1`, ''), ' ', ifnull(`field2`, ''))) as my_field

如果能够定义一个名为 trim_and_concat 它接受任意数量的字段，将它们串联起来，并修剪结果。我可以写一个自定义项，但是那样的话，我就会在所有的pyspark优化上失败。
是否可以定义一个结合本地sparksql方法的函数，以避免与udf相关联的典型优化丢失？
我知道那件事 create_function 语法，但据我所知，这只是创建udf的另一种方法，仍然需要用scala或python编写函数。

apache-spark pyspark apache-spark-sql user-defined-functions

来源：https://stackoverflow.com/questions/67097897/is-there-a-way-to-define-pure-sql-udfs-that-still-take-advantage-of-all-of-pysp