如何在aws glue中的多个worker上运行pyspark代码

aor9mmx1 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(256)

我有一张胶水table。该表是通过对包含Parquet文件的s3 bucket进行爬网而创建的。数据按年/月/日进行分区。
我首先获取特定分区的动态帧。那很简单。

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "testdata", table_name = "sampletable", transformation_ctx = "datasource0",push_down_predicate = "(year == '2019' and month == '08' and day == '02')")

我想找到一个特定列的最大值。这也很简单：

max = datasource0.toDF().agg({“my-col”:”max”}).first()[0]

启动此作业时，我选择了10个工人（默认值）。
是 create_dynamic_frame 正在处理10个工人？
是 agg 在10个工人身上处理的功能？
如果答案是肯定的，我怎样才能得到这种直觉？如果答案是否定的，那么，我怎样才能做到呢？
我的目标是加快上述代码的执行速度，它将在今天的5分钟内运行。

apache-spark pyspark aws-glue

来源：https://stackoverflow.com/questions/67068598/how-to-run-pyspark-code-on-multiple-workers-in-aws-glue