在spark sql中查找表大小(mb/gb)

pgx2nnw8 于 2021-07-29 发布在 Java

关注(0)|答案(1)|浏览(514)

首先，请允许我首先说，我是一个新来的 Spark-SQL .
我试图了解sparksql中的各种连接类型和策略，我希望能够了解一种近似表大小的方法（参与连接的表，聚合等），以便通过了解引擎盖下实际发生的事情来估计/调整预期的执行时间，以帮助我选择最适合该场景的连接策略（在sparksql中通过提示等）。
当然，表行计数提供了一个很好的起点，但是我希望能够根据 bytes / KB / MB / GB / TB s、要知道哪个表适合/不适合内存等），这将允许我通过选择最适合该场景的连接类型/策略等来编写更高效的sql查询。
注意：我没有权限访问pyspark。我们通过连接到带有hivejdbc驱动程序的glue目录的sqlworkbench查询glue表。
感谢您的帮助。
谢谢。

sql apache-spark-sql aws-glue query-performance

来源：https://stackoverflow.com/questions/62306908/finding-table-size-in-mb-gb-in-spark-sql

1条答案

按热度按时间

osh3o9ms1#

看看这是否有助于找到表的大小-

/**
      * file content
      * spark-test-data.json
      * --------------------
      * {"id":1,"name":"abc1"}
      * {"id":2,"name":"abc2"}
      * {"id":3,"name":"abc3"}
      */
    val fileName = "spark-test-data.json"
    val path = getClass.getResource("/" + fileName).getPath

    spark.catalog.createTable("df", path, "json")
      .show(false)

    /**
      * +---+----+
      * |id |name|
      * +---+----+
      * |1  |abc1|
      * |2  |abc2|
      * |3  |abc3|
      * +---+----+
      */
    // Collect only statistics that do not require scanning the whole table (that is, size in bytes).
    spark.sql("ANALYZE TABLE df COMPUTE STATISTICS NOSCAN")
    spark.sql("DESCRIBE EXTENDED df ").filter(col("col_name") === "Statistics").show(false)

    /**
      * +----------+---------+-------+
      * |col_name  |data_type|comment|
      * +----------+---------+-------+
      * |Statistics|68 bytes |       |
      * +----------+---------+-------+
      */
    spark.sql("ANALYZE TABLE df COMPUTE STATISTICS")
    spark.sql("DESCRIBE EXTENDED df ").filter(col("col_name") === "Statistics").show(false)

    /**
      * +----------+----------------+-------+
      * |col_name  |data_type       |comment|
      * +----------+----------------+-------+
      * |Statistics|68 bytes, 3 rows|       |
      * +----------+----------------+-------+
      */

赞(0）回复(0）举报 2021-07-29

我来回答

在spark sql中查找表大小(mb/gb)

1条答案

相关问题

热门标签

最新问答