我试着在数据砖中使用scala合并两个文件,并使用以下代码将其保存回Datalake:
val df =sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").load("adl://xxxxxxxx/Test/CSV")
df.coalesce(1).write.
format("com.databricks.spark.csv").
mode("overwrite").
option("header", "true").
save("adl://xxxxxxxx/Test/CSV/final_data.csv")
字符串
但是,文件final_data.csv保存为目录,而不是包含多个文件的文件,实际的.csv文件保存为“part-00000-tid-dddddddd-xxxxxxxxxx. csv”。
如何重命名此文件以便将其移动到另一个目录?
3条答案
按热度按时间gkl3eglg1#
明白了。它可以被重命名,并放置到另一个目标使用以下代码。同时,当前文件合并将被删除。
字符串
qyuhtwio2#
Azure DataBricks中ADLS Gen 2中存储的数据库文件:
我们可以使用重命名或复制方法进行此操作。如果文件以part-0000开头或以.csv结尾,那么我们可以使用logic. logic:data.csv
字符串
f0ofjuux3#
这是为我工作
Python
字符串
Scala
型