spark-read带分区过滤器的Parquet地板与完整路径

mum43rcc 于 2021-05-27 发布在 Spark

关注(0)|答案(2)|浏览(353)

我在hdfs中有一个分区Parquet地板数据示例：hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=印度/year=2020/month=06/day=30/hour=23/
我想了解阅读数据的最佳方式：
df=Spark.阅读.Parquet地板（“hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=印度/年=2020/月=06/天=30/“），其中（col（'小时'）=”23“）
或
df=Spark.阅读.Parquet地板（“hdfs://cluster/stage/data/datawarehouse/table=metrics_data/country=印度/年=2020/月=06/天=30/小时=23“）
我想了解更多的性能和其他优势，如果有的话。

apache-spark pyspark apache-spark-sql parquet

来源：https://stackoverflow.com/questions/62788550/spark-read-parquet-with-partition-filters-vs-complete-path

2条答案

按热度按时间

这很简单，我们在读取文件时要做的第一件事就是使用 df = df.filter() 这将过滤下来的数据，甚至在读取到内存，先进的文件格式，如Parquet，orc支持的概念预测下推更多，这使您读取数据的方式更快，加载完整的数据。

赞(0）回复(0）举报 2021-05-27

如果你有一个大的目录/文件层次结构，直接读取单个目录可能比过滤更快，因为spark需要建立一个索引来应用这个过滤器。请看下面的问题和答案。

赞(0）回复(0）举报 2021-05-27

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前