Apache Spark AWS Glue S3Exception on MERGE INTO查询

vvppvyoh 于 10个月前发布在 Apache

关注(0)|答案(1)|浏览(82)

我很新的工作与胶水的工作，我遇到了这个问题。我有2个Glue ETL作业。第一个过程从DynamoDB表中完全导出，转换和分区数据并将其写入Iceberg表。第二个从s3路径获取最新的cdc，并执行MERGE INTO查询来更新数据。第一个作业工作正常，但第二个Glue作业失败，出现S3Exception: Please reduce your request rate.。DynamoDB控制台中的原始表大小约为1TB。表按1个表列划分为1024个桶前缀。胶水配置为：150名G 2X工作人员。
我试着玩分区（降低或增加），但似乎没有工作。

apache-spark

来源：https://stackoverflow.com/questions/76588968/aws-glue-s3exception-on-merge-into-query

1条答案

按热度按时间

k5hmc34c1#

S3例外：请降低您的请求率
可能这也是S3慢下来的问题。当你无法在s3端修复这个问题时，你可以配置spark访问s3，这是基于hadoop库。
您可以：
1.增加重试spark.hadoop.fs.s3.maxRetries=50
1.使用aimd方法spark.hadoop.fs.s3.aimd.enabled=true
More details here on aws doc, while not specific to EMR, but works in general with spark and s3
请注意，根据您使用的协议，您可以在spark conf中将s3替换为s3a或s3n。

赞(0）回复(0）举报 10个月前

我来回答

Apache Spark AWS Glue S3Exception on MERGE INTO查询

1条答案

相关问题

热门标签

最新问答