有没有办法使用spark从s3并行读取多个Parquet路径?

ktca8awb  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(288)

我的数据以s3(Parquet格式)存储在不同的路径下,我正在使用 spark.read.parquet(pathes:_*) 以便将所有路径读入一个Dataframe。不幸的是,spark按顺序(一条接一条路径)读取parquet元数据,而不是并行读取。spark读取元数据之后,数据本身将被并行读取。但是元数据部分的速度非常慢,机器的利用率也很低。
有没有办法用spark从s3并行读取多个Parquet路径?
如果能听到你对此的意见,我将不胜感激。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题