如何使用aws glue和sparksql创建表？

u59ebvdq 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(232)

我正在尝试对aws glue运行此查询

CREATE TABLE bucketing_example
  USING parquet
  CLUSTERED BY (id) INTO 2 BUCKETS
  LOCATION 's3://my-bucket/bucketing_example'
  AS SELECT * FROM (
   VALUES(1, 'red'),
         (2, 'orange'),
         (5, 'yellow'),
         (10, 'green'),
         (11, 'blue'),
         (12, 'indigo'),
         (20, 'violet'))
   AS Colors(id, value)

我得到以下例外：

java.lang.IllegalArgumentException: Can not create a Path from an empty string
  at org.apache.hadoop.fs.Path.checkPathArg(Path.java:163)
  at org.apache.hadoop.fs.Path.<init>(Path.java:175)
  at org.apache.spark.sql.catalyst.catalog.CatalogUtils$.stringToURI(ExternalCatalogUtils.scala:236)
  at org.apache.spark.sql.hive.client.HiveClientImpl$$anonfun$getDatabase$1$$anonfun$apply$2.apply(HiveClientImpl.scala:343)
  at org.apache.spark.sql.hive.client.HiveClientImpl$$anonfun$getDatabase$1$$anonfun$apply$2.apply(HiveClientImpl.scala:339)
  at scala.Option.map(Option.scala:146)

此外，我还尝试在使用athena（仍在使用glue）创建的带扣表上运行类似于这些的spark sql查询。
虽然 DESCRIBE EXTENDED 在表中显示的bucket列中，join的arms上的交换仍保留在计划中。
bucketing与glue和spark sql一起工作吗？

apache-spark aws-glue

来源：https://stackoverflow.com/questions/62783447/how-to-bucket-tables-using-aws-glue-and-spark-sql