我在中国工作 Spark
我们需要将数据写入的位置 S3
在执行一些转换之后。我知道在给你写信的时候 HDFS/S3
通过 Spark
如果文件夹路径已存在,则引发异常。所以在我们的情况下如果 S3://bucket_name/folder
在将数据写入同一数据库时已存在 S3
bucket路径,它将抛出异常。
现在可能的解决方案是使用模式作为 OVERWRITE
在写的时候 Spark
. 但这会删除其中已经存在的所有文件。我想要一种 APPEND
具有相同文件夹的功能。所以,如果文件夹已经有一些文件,那么它只会添加更多的文件到它。
我不确定api开箱即用是否提供了这样的功能。当然有一个选项,我可以在文件夹中创建一个临时文件夹并保存文件。之后,我可以将该文件移到其父文件夹并删除临时文件夹。但这种方法不是最好的。
因此,请建议如何进行这项工作。
暂无答案!
目前还没有任何答案,快来回答吧!