用hive编目s3中的数据pbs

20jt8wwn  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(124)

我们在s3中有大量的数据(pb),希望它可以直接使用(可查询),并考虑创建一个管道,将这些文件作为属性分区的100mbParquet文件写入。
我们以前遇到的问题是,每当我们想对该数据执行一些特殊的数据处理时,必须在spark中开始处理数据之前列出bucket中的所有对象,即使数据是以hive格式分区的(尽管没有hive目录)。
如果将分区信息保存到配置单元元数据数据库中,是否可以避免此对象查找?我们将使用雅典娜->looker或spark的数据

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题