最初,我的pyspark脚本的一部分是这样的: spark.sql("SELECT count(*) as cnt FROM ___ GROUP BY ___ HAVING count(*) > 1").show(truncate = False)
当我提交这个脚本时,我可以看到它是逐分区运行的。
不过,现在我把它改成:
df = spark.sql("SELECT count(*) as cnt FROM ___ GROUP BY ___ HAVING count(*) > 1 LIMIT 1")
if df.select('cnt').head(1):
#do something
这似乎不是逐分区运行。我在想也许是因为 df
在得到第一个元素之前,行被延迟执行?有没有办法让第二部分按分区运行?
暂无答案!
目前还没有任何答案,快来回答吧!