spark没有从文件夹加载所有文件

fxnxkyjh  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(213)

我试图从一个文件夹中加载多个json文件,每个文件都以一个数字结尾,因此我在路径中使用通配符(*),以便spark逐个读取。
spark跳过几个文件而不是加载所有文件。
文件夹中的文件

raw_assignments = spark.read.option("multiline","true").json(r"Assignments_*.json")

assignments_df_all = raw_assignments.select("*").withColumn("page",input_file_name()).createOrReplaceTempView("check_files")

spark.sql("select distinct substring(page,90)  from check_files").show()

低于输出

+-------------------------------+
|substring(page, 85, 2147483647)|
+-------------------------------+
|             Assignments_6.json|
|            Assignments_24.json|
|             Assignments_5.json|
|            Assignments_14.json|
|            Assignments_17.json|
|             Assignments_9.json|
|            Assignments_13.json|
|             Assignments_1.json|
|             Assignments_7.json|
|             Assignments_8.json|
|            Assignments_23.json|
+-------------------------------+

我不明白为什么spark会跳过文件,我已经手动加载了每个文件,以查看这些文件中是否有任何文件已损坏,并且所有文件都是有效文件。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题