我对Python,Spark和Cloud比较陌生。我目前使用的方法是dbutils.fs.ls(path)
,databricks文档没有指定它返回FileInfo对象。当我对执行“ls”的结果的元素执行“type()”时,类型是dbruntime.dbutils.FileInfo
。我不能回溯这个类的任何文档,我只知道它使用dir(dbutils.fs.ls(path)[0])
命令的方法。
在没有直接文档的情况下,我如何正确地解决这类问题?我希望它是某种Python特定的类,但它并不像它使用dbruntime那样。
我试着搜索官方的数据块文档,堆栈溢出问题,微软和AWS文档。
2条答案
按热度按时间r1wp621o1#
要使用本地文件API访问数据块文件系统(DBFS)挂载上的文件,您需要在文件路径前添加
"/dbfs"
。字符串
有关更多详细信息,特别是有关任何限制的信息,请参见Databases File System中的文档。
我已经提到了你的问题,你问在哪里使用Databricks Notebook命令在Spark集群上工作,以列出文件并查看该文件存在于指定位置。
你可以参考:SO线程。
你也可以试试
dbutils.fs.head("file path")
要列出实用程序的可用命令沿着每个命令的简短说明,请在实用程序的编程名称后运行
.help()
。此示例列出了数据块文件系统(DBFS)实用程序的可用命令。
型
列出实用程序的可用命令
gt0wga4j2#
首先,您需要遵循与DBFS相关的几个步骤