我知道spark支持分区发现,其中目录名遵循column\u name=column\u value的固定模式。链接网页示例: path -> to -> table -> gender=male -> country=US -> data.parquet
我想使用此功能,但不幸的是,我目前正在处理的文件结构不遵循此模式。我不能改变它,转换它是不可行的。在我的例子中,目录纯粹是列值,如下所示: path -> to -> table -> male -> US -> data.parquet
理想情况下,我想配置spark以指示“table”目录的子目录包含“gender”,然后是“country”子目录等等。
我使用的是java的spark2.11。我也在用Parquet锉。
暂无答案!
目前还没有任何答案,快来回答吧!