403错误

g2ieeal7 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(489)

问题：
能够使用aws cli和boto 3成功下载文件。但是，在使用hadoop/spark的s3a连接器时，收到以下错误：

py4j.protocol.Py4JJavaError: An error occurred while calling o24.parquet.
: com.amazonaws.services.s3.model.AmazonS3Exception: Status Code: 403, AWS Service: Amazon S3, AWS Request ID: BCFFD14CB2939D68, AWS Error Code: null, AWS Error Message: Forbidden, S3 Extended Request ID: MfT8J6ZPlJccgHBXX+tX1fpX47V7dWCP3Dq+W9+IBUfUhsD4Nx+DcyqsbgbKsPn8NZzjc2U

配置：在本地计算机上运行
spark版本2.4.4
hadoop 2.7版
jars补充道：
hadoop-aws-2.7.3.jar
aws-java-sdk-1.7.4.jar文件
hadoop配置：

hadoop_conf.set("fs.s3a.access.key", access_key)
hadoop_conf.set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
hadoop_conf.set("fs.s3a.secret.key", secret_key)
hadoop_conf.set("fs.s3a.aws.credentials.provider","org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider")
hadoop_conf.set("fs.s3a.session.token", session_key)
hadoop_conf.set("fs.s3a.endpoint", "s3-us-west-2.amazonaws.com") # yes, I am using central eu server.
hadoop_conf.set("com.amazonaws.services.s3.enableV4", "true")

读取文件的代码：

from pyspark import SparkConf, SparkContext, SQLContext
sc = SparkContext.getOrCreate()
hadoop_conf=sc._jsc.hadoopConfiguration()
sqlContext = SQLContext(sc)
df = sqlContext.read.parquet(path)
print(df.head())

hadoop apache-spark pyspark amazon-s3

来源：https://stackoverflow.com/questions/60489928/403-error-while-accessing-s3a-using-spark

1条答案

按热度按时间

yrdbyhpb1#

将aws凭据提供程序设置为配置文件凭据：

hadoopConf.set("fs.s3a.aws.credentials.provider", "com.amazonaws.auth.profile.ProfileCredentialsProvider")

赞(0）回复(0）举报 2021-05-27

我来回答

403错误

1条答案

相关问题

热门标签

最新问答