Apache Spark AWS Glue S3Exception on MERGE INTO查询

vvppvyoh  于 10个月前  发布在  Apache
关注(0)|答案(1)|浏览(82)

我很新的工作与胶水的工作,我遇到了这个问题。我有2个Glue ETL作业。第一个过程从DynamoDB表中完全导出,转换和分区数据并将其写入Iceberg表。第二个从s3路径获取最新的cdc,并执行MERGE INTO查询来更新数据。第一个作业工作正常,但第二个Glue作业失败,出现S3Exception: Please reduce your request rate.。DynamoDB控制台中的原始表大小约为1TB。表按1个表列划分为1024个桶前缀。胶水配置为:150名G 2X工作人员。
我试着玩分区(降低或增加),但似乎没有工作。

k5hmc34c

k5hmc34c1#

S3例外:请降低您的请求率
可能这也是S3慢下来的问题。当你无法在s3端修复这个问题时,你可以配置spark访问s3,这是基于hadoop库。
您可以:
1.增加重试spark.hadoop.fs.s3.maxRetries=50
1.使用aimd方法spark.hadoop.fs.s3.aimd.enabled=true
More details here on aws doc, while not specific to EMR, but works in general with spark and s3
请注意,根据您使用的协议,您可以在spark conf中将s3替换为s3as3n

相关问题