pandas—有没有一种方法可以让基于scala的groupmap像spark的udf一样,类似于pyspark中的pandasudftype,返回整个Dataframe?

xqk2d5yq  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(274)

我有一个pyspark脚本,它使用一个pandasudftype.grouped\u map函数,该函数接收一个分组的dataframe对象,并为每个分组的对象返回一个dataframe(包含分组对象的所有行),类似于下面的代码。这是很好的,除了序列化和反序列化的数据不可能做到这一点在规模。我认为这可以通过在scala中编写类似的用户定义函数来改进,从而避免数据转换瓶颈。据我所知,scala对于Dataframe没有类似的功能。我想看看是否有人知道,是否有一个,或一个相对简单的黑客,使它在scala本地完成。

import pandas as pd

from pyspark.sql.functions import pandas_udf
from pyspark.sql.functions import PandasUDFType

@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)
def g(df):
    pandas code
    return results_df

output = data.groupBy('key').apply(g)

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题