使用databricks的spark在presto中创建表

bd1hkmkf 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(322)

我在databricks环境（spark3.0.1）上运行，试图通过调用 spark.write 方法，如文档中所述。通过url，我可以通过安装presto jar并编写以下代码来查询presto中的现有表：

spark.read.format("jdbc")
  .option("url", "jdbc:presto://<host>:<port>/")
  .option("dbtable", "my_schema.my_table)")
  .option("user", "user")
  .option("driver", "com.facebook.presto.jdbc.PrestoDriver")
  .load()

当我尝试使用相同的方法将sparkDataframe写入presto并尝试创建新的表/模式时，问题就来了，因为它不能引用我的数据实际所在的位置（azuredls2）。
我看到了两个可行的解决方案，但我不确定如何实施它们：
在sparksession定义中连接到我的presto的hive元存储
（如果可能的话，更简单）在spark.sql查询中使用presto ddl，并从中“create table mytable”。
有什么想法吗？

presto jdbc apache-spark pyspark databricks

来源：https://stackoverflow.com/questions/66374753/create-table-in-presto-using-databricks-spark