sparksql中的hadoop分区表

rm5edbpk 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(226)

我正在尝试将数据插入分区表。不管我是否提到关键字'repartition'或'partition'，我都能看到数据正确地适合各个分区。所以，我想知道，下面的关键词是否有什么意义：

scala> input.repartition($"decade").registerTempTable("second_table")

spark.sql("insert into lakehuron partition(decade) select date,level,decade from second_table")

在上面的代码中，我重复了两次这个练习，一次删除了第一行中的关键字'repartition'，再次删除了第一行中的'repartition'和第二行中的'partition'。两者都将数据正确地插入到各自的分区中，并且我能够看到在正确的分区中生成新文件 /user/hive/warehouse/lakehuron/decade=1960 请帮助我理解这些关键词的意义。

hadoop apache-spark data-partitioning

来源：https://stackoverflow.com/questions/42269973/partitioned-tables-in-spark-sql