读取csv时pyspark“samplinglatio”的意外行为

ttvkxqim  于 2021-05-24  发布在  Spark
关注(0)|答案(0)|浏览(251)

我想读取一个数十亿行的csv文件,同时推断模式:

df = spark.read.csv('s3://bucket/data/*', inferSchema=True, samplingRatio=0.0001)

但是 samplingRatio 增加最小的时间增益。
我想 inferSchema 将限制正在读取的数据。相反,观察到的行为表明所有数据仍在读取,但只有一小部分行用于模式推断。是这样吗?有人知道 samplingRatio ?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题