spark分区发现的自定义配置

cmssoen2 于 2021-05-17 发布在 Spark

关注(0)|答案(0)|浏览(199)

我知道spark支持分区发现，其中目录名遵循column\u name=column\u value的固定模式。链接网页示例： path -> to -> table -> gender=male -> country=US -> data.parquet 我想使用此功能，但不幸的是，我目前正在处理的文件结构不遵循此模式。我不能改变它，转换它是不可行的。在我的例子中，目录纯粹是列值，如下所示： path -> to -> table -> male -> US -> data.parquet 理想情况下，我想配置spark以指示“table”目录的子目录包含“gender”，然后是“country”子目录等等。
我使用的是java的spark2.11。我也在用Parquet锉。

apache-spark parquet

来源：https://stackoverflow.com/questions/64857254/custom-configuration-of-spark-partition-discovery