pyspark-如何逐分区运行sql查询

u0njafvf 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(211)

最初，我的pyspark脚本的一部分是这样的： spark.sql("SELECT count(*) as cnt FROM ___ GROUP BY ___ HAVING count(*) > 1").show(truncate = False) 当我提交这个脚本时，我可以看到它是逐分区运行的。
不过，现在我把它改成：

df = spark.sql("SELECT count(*) as cnt FROM ___ GROUP BY ___ HAVING count(*) > 1 LIMIT 1")
if df.select('cnt').head(1):
    #do something

这似乎不是逐分区运行。我在想也许是因为 df 在得到第一个元素之前，行被延迟执行？有没有办法让第二部分按分区运行？

sql python apache-spark pyspark partitioning

来源：https://stackoverflow.com/questions/62967438/pyspark-how-to-run-sql-query-partition-by-partition

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark-如何逐分区运行sql查询

暂无答案！

相关问题

热门标签

最新问答