pyspark兼容hadoop aws和aws adk for version 2.4.4

z4bn682m  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(345)

在maven的这两个库的帮助下,我正在尝试使用pyspark从s3存储桶读写https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws/2.7.7 以及https://mvnrepository.com/artifact/com.amazonaws/aws-java-sdk/1.7.4 都很老了。我尝试了hadoopaws和awsjavasdk的不同组合,但是pysparkversion2.4.4不起作用。有人知道哪些版本的hadoop和javasdk与sparkversion2.4.4兼容吗?

3gtaxfhh

3gtaxfhh1#

我正在使用以下命令:

Spark: 2.4.4
Hadoop: 2.7.3
Haddop-AWS: hadoop-aws-2.7.3.jar
AWS-JAVA-SDK: aws-java-sdk-1.7.3.jar
Scala: 2.11

对我有用 s3a://bucket-name/ (注:我使用的Pypark aws-java-sdk-1.7.4.jar )因为我不能使用

df.write.csv(path=path, mode="overwrite", compression="None")

相关问题