通过spark将文件附加到现有的s3 bucket文件夹

blpfk2vs 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(182)

我在中国工作 Spark 我们需要将数据写入的位置 S3 在执行一些转换之后。我知道在给你写信的时候 HDFS/S3 通过 Spark 如果文件夹路径已存在，则引发异常。所以在我们的情况下如果 S3://bucket_name/folder 在将数据写入同一数据库时已存在 S3 bucket路径，它将抛出异常。
现在可能的解决方案是使用模式作为 OVERWRITE 在写的时候 Spark . 但这会删除其中已经存在的所有文件。我想要一种 APPEND 具有相同文件夹的功能。所以，如果文件夹已经有一些文件，那么它只会添加更多的文件到它。
我不确定api开箱即用是否提供了这样的功能。当然有一个选项，我可以在文件夹中创建一个临时文件夹并保存文件。之后，我可以将该文件移到其父文件夹并删除临时文件夹。但这种方法不是最好的。
因此，请建议如何进行这项工作。