pyspark 数据块-未找到文件异常

8mmmxcuj  于 2023-01-25  发布在  Spark
关注(0)|答案(2)|浏览(91)

很抱歉,如果这是基本的,我错过了一些简单的东西。我试图运行下面的代码来遍历文件夹中的文件,并将所有以特定字符串开头的文件合并到一个 Dataframe 中。所有文件都位于一个湖中。

file_list=[]
path = "/dbfs/rawdata/2019/01/01/parent/"
files  = dbutils.fs.ls(path)
for file in files:
    if(file.name.startswith("CW")):
       file_list.append(file.name)
df = spark.read.load(path=file_list)

# check point
print("Shape: ", df.count(),"," , len(df.columns))
db.printSchema()

在我看来,这看起来很正常,但显然这里有问题。我在这一行中得到一个错误:
files = dbutils.fs.ls(path)
错误消息显示:

java.io.FileNotFoundException: File/6199764716474501/dbfs/rawdata/2019/01/01/parent does not exist.

路径、文件和其他所有内容都肯定存在。我尝试了使用和不使用“dbfs”部分。可能是权限问题吗?其他问题?我在谷歌上搜索了解决方案。仍然没有得到牵引力。

ymzxtsji

ymzxtsji1#

确保您有一个名为“dbfs”的文件夹,如果您的父文件夹从“rawdata”开始,则路径应为“/rawdata/2019/01/01/parent”或“rawdata/2019/01/01/parent”。
如果路径不正确,则会抛出该错误。

uwopmtnx

uwopmtnx2#

这是一个老线索,但如果有人还在寻找解决方案:它要求路径列为:“数据库文件系统:/原始数据/2019/01/01/parent/”

相关问题