斯卡拉和Pandas的Spark

js5cn81o  于 2021-05-16  发布在  Spark
关注(0)|答案(1)|浏览(401)

我想在spark应用程序中使用panda的转换,比如melt等。我正在使用scala的spark,我必须使用一些功能,比如melt from pandas,有可能吗?
我看到Pandas和Pypark在笔记本里手拉手。

5cnsuln7

5cnsuln71#

(如果没有更多的细节,很难提供示例,所以这个答案只包括指向文档等的链接。)
在spark的最新版本中,支持所谓的pandas udf,在这里,您可以获取pandas series或dataframe作为参数并返回series或参数,因此您可以执行pandas函数来获得结果。pandas自定义项比传统的python自定义项快得多,因为优化了数据序列化等。有关更多详细信息,请参阅文档和本博客文章。
另一种选择是使用spark的考拉库,它正在重新实现pandas api,但在spark上实现。实现了 melt 同样,但一定要阅读文档,以了解可能的行为差异。

相关问题