aws胶水作业的预期运行时间

eivnm1vs  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(248)

我在aws glue中运行一个1mb数据的作业。完成需要2.5秒。
pyspark框架被用于该工作。
因此,在1gb的数据上,完成这项工作大约需要2.5*1000=2500秒。
但当我在1gb数据上运行作业时,只花了20秒。这怎么可能?

jc3wubiy

jc3wubiy1#

默认情况下,glue job配置为使用10dpu运行,其中每个dpu有16gbram和4个vcore。因此,在您的情况下,即使您使用2个dpu运行作业,您仍然没有充分利用集群。
执行时间并不像你计算的那样有效,而且还有很多额外的因素。

相关问题