spark分区发现的自定义配置

cmssoen2  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(199)

我知道spark支持分区发现,其中目录名遵循column\u name=column\u value的固定模式。链接网页示例: path -> to -> table -> gender=male -> country=US -> data.parquet 我想使用此功能,但不幸的是,我目前正在处理的文件结构不遵循此模式。我不能改变它,转换它是不可行的。在我的例子中,目录纯粹是列值,如下所示: path -> to -> table -> male -> US -> data.parquet 理想情况下,我想配置spark以指示“table”目录的子目录包含“gender”,然后是“country”子目录等等。
我使用的是java的spark2.11。我也在用Parquet锉。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题