除了导航到databricks上的'data'>'add data'之外,是否还有读取本地计算机中的文件的方法。
在我过去使用databricks的经验中,当使用s3 bucket时,我可以通过如下方式指定路径来读取和加载Dataframe:即 df = spark.read.format('delta').load('<path>')
有没有什么方法可以让我用databricks来读取本地文件?
除了导航到databricks上的'data'>'add data'之外,是否还有读取本地计算机中的文件的方法。
在我过去使用databricks的经验中,当使用s3 bucket时,我可以通过如下方式指定路径来读取和加载Dataframe:即 df = spark.read.format('delta').load('<path>')
有没有什么方法可以让我用databricks来读取本地文件?
1条答案
按热度按时间7gyucuyw1#
如果使用databricks connect客户机库,则可以将本地文件读入远程databricks spark集群上的内存。详见此处。
另一种方法是使用databricks cli(或restapi)并将本地数据推送到dbfs上的某个位置,在那里可以从databricks笔记本中读取到spark中。类似的想法是使用awscli将本地数据放入一个s3 bucket,可以从databrick访问该bucket。
听起来您正在寻找的是databricks connect,它适用于许多流行的ide。