读取csv时pyspark“samplinglatio”的意外行为

ttvkxqim 于 2021-05-24 发布在 Spark

关注(0)|答案(0)|浏览(251)

我想读取一个数十亿行的csv文件，同时推断模式：

df = spark.read.csv('s3://bucket/data/*', inferSchema=True, samplingRatio=0.0001)

但是 samplingRatio 增加最小的时间增益。
我想 inferSchema 将限制正在读取的数据。相反，观察到的行为表明所有数据仍在读取，但只有一小部分行用于模式推断。是这样吗？有人知道 samplingRatio ?

python apache-spark pyspark csv amazon-s3

来源：https://stackoverflow.com/questions/64258792/unexpected-behaviour-of-pyspark-samplingratio-while-reading-csv

暂无答案！

目前还没有任何答案，快来回答吧！

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前