pandas—有没有一种方法可以让基于scala的groupmap像spark的udf一样，类似于pyspark中的pandasudftype，返回整个Dataframe？

xqk2d5yq 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(274)

我有一个pyspark脚本，它使用一个pandasudftype.grouped\u map函数，该函数接收一个分组的dataframe对象，并为每个分组的对象返回一个dataframe（包含分组对象的所有行），类似于下面的代码。这是很好的，除了序列化和反序列化的数据不可能做到这一点在规模。我认为这可以通过在scala中编写类似的用户定义函数来改进，从而避免数据转换瓶颈。据我所知，scala对于Dataframe没有类似的功能。我想看看是否有人知道，是否有一个，或一个相对简单的黑客，使它在scala本地完成。

import pandas as pd

from pyspark.sql.functions import pandas_udf
from pyspark.sql.functions import PandasUDFType

@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)
def g(df):
    pandas code
    return results_df

output = data.groupBy('key').apply(g)

scala apache-spark pyspark pandas

来源：https://stackoverflow.com/questions/63343749/is-there-a-way-to-have-a-scala-based-groupmap-like-udf-for-spark-similar-to-the