如何在aws glue中的多个worker上运行pyspark代码

aor9mmx1  于 2021-07-14  发布在  Spark
关注(0)|答案(0)|浏览(256)

我有一张胶水table。该表是通过对包含Parquet文件的s3 bucket进行爬网而创建的。数据按年/月/日进行分区。
我首先获取特定分区的动态帧。那很简单。

datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "testdata", table_name = "sampletable", transformation_ctx = "datasource0",push_down_predicate = "(year == '2019' and month == '08' and day == '02')")

我想找到一个特定列的最大值。这也很简单:

max = datasource0.toDF().agg({“my-col”:”max”}).first()[0]

启动此作业时,我选择了10个工人(默认值)。
create_dynamic_frame 正在处理10个工人?
agg 在10个工人身上处理的功能?
如果答案是肯定的,我怎样才能得到这种直觉?如果答案是否定的,那么,我怎样才能做到呢?
我的目标是加快上述代码的执行速度,它将在今天的5分钟内运行。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题