在集群模式下使用spark将Dataframe(.csv)写入本地系统或hdfs

ix0qys7i 于 2021-05-19 发布在 Spark

关注(0)|答案(1)|浏览(817)

我正在尝试将pandasDataframe写入本地系统，或者在集群模式下使用spark将其写入hdfs，但是它抛出了一个错误，如

IOError: [Errno 2] No such file or directory: {hdfs_path/file_name.txt}

我就是这么写的

df.to_csv("hdfs_path/file_name.txt", sep="|")

我使用的是python，作业是通过shell脚本运行的。
如果我在本地模式下，但不是在Yarn簇模式下，这可以正常工作。
欢迎任何支持，并提前表示感谢。

1条答案

我也有同样的问题，在apache spark文件系统上创建文件之前，我总是将Dataframe转换为sparkDataframe：

df_sp = spark.createDataFrame(df_pd)
df_sp.coalesce(1).write.csv("my_file.csv", mode='overwrite', header = True)