用hive编目s3中的数据pbs

20jt8wwn 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(124)

我们在s3中有大量的数据（pb），希望它可以直接使用（可查询），并考虑创建一个管道，将这些文件作为属性分区的100mbParquet文件写入。
我们以前遇到的问题是，每当我们想对该数据执行一些特殊的数据处理时，必须在spark中开始处理数据之前列出bucket中的所有对象，即使数据是以hive格式分区的（尽管没有hive目录）。
如果将分区信息保存到配置单元元数据数据库中，是否可以避免此对象查找？我们将使用雅典娜->looker或spark的数据

Hive apache-spark amazon-emr

来源：https://stackoverflow.com/questions/61999045/cataloging-pbs-of-data-in-s3-with-hive