pyspark中的用户定义函数(udf)是否以分布式方式工作?

mwecs4sa  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(468)

如果数据存储在不同的节点上,spark中的用户定义函数(udf)是以分布式方式工作还是将所有数据累积到主节点中进行处理?如果它以分布式方式工作,那么我们能否将python中的任何函数(无论是预定义函数还是用户定义函数)转换为spark udf,如下所述:
spark.udf.register(“myfunctionname”,functionnewname)

bwitn5fc

bwitn5fc1#

sparkDataframe以分区的形式分布在集群中。每个分区都由udf处理,所以答案是肯定的。您也可以在spark ui中看到这一点。

相关问题