如何使用databricks将.rdata文件转换为azure数据湖中的parquet?

wfypjpf4  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(321)

所以我有几个大的.rdata文件是通过使用r编程语言生成的。我目前已经上传到azure数据湖使用azure存储资源管理器。但我必须将这些rdata文件转换为parquet格式,然后将它们重新插入到数据湖中。我该怎么做呢?我似乎找不到任何关于从rdata转换为Parquet地板的信息。

vof42yt1

vof42yt11#

如果可以使用python,那么可以加载一些库,比如pyreadr rdata 文件作为Dataframe。然后,您可以使用pandas写入parquet或转换为pysparkDataframe。像这样:

import pyreadr

result = pyreadr.read_r('input.rdata')

print(result.keys())  # check the object name
df = result["object"]  # extract the pandas data frame for object name

sdf = spark.createDataFrame(df)

sdf.write.parquet("output")

相关问题