pyspark-如何逐分区运行sql查询

u0njafvf  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(211)

最初,我的pyspark脚本的一部分是这样的: spark.sql("SELECT count(*) as cnt FROM ___ GROUP BY ___ HAVING count(*) > 1").show(truncate = False) 当我提交这个脚本时,我可以看到它是逐分区运行的。
不过,现在我把它改成:

df = spark.sql("SELECT count(*) as cnt FROM ___ GROUP BY ___ HAVING count(*) > 1 LIMIT 1")
if df.select('cnt').head(1):
    #do something

这似乎不是逐分区运行。我在想也许是因为 df 在得到第一个元素之前,行被延迟执行?有没有办法让第二部分按分区运行?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题