如何在databricks中读取/加载本地文件?

dkqlctbz  于 2021-05-18  发布在  Spark
关注(0)|答案(1)|浏览(845)

除了导航到databricks上的'data'>'add data'之外,是否还有读取本地计算机中的文件的方法。
在我过去使用databricks的经验中,当使用s3 bucket时,我可以通过如下方式指定路径来读取和加载Dataframe:即 df = spark.read.format('delta').load('<path>') 有没有什么方法可以让我用databricks来读取本地文件?

7gyucuyw

7gyucuyw1#

如果使用databricks connect客户机库,则可以将本地文件读入远程databricks spark集群上的内存。详见此处。
另一种方法是使用databricks cli(或restapi)并将本地数据推送到dbfs上的某个位置,在那里可以从databricks笔记本中读取到spark中。类似的想法是使用awscli将本地数据放入一个s3 bucket,可以从databrick访问该bucket。
听起来您正在寻找的是databricks connect,它适用于许多流行的ide。

相关问题