我们在s3中有大量的数据(pb),希望它可以直接使用(可查询),并考虑创建一个管道,将这些文件作为属性分区的100mbParquet文件写入。
我们以前遇到的问题是,每当我们想对该数据执行一些特殊的数据处理时,必须在spark中开始处理数据之前列出bucket中的所有对象,即使数据是以hive格式分区的(尽管没有hive目录)。
如果将分区信息保存到配置单元元数据数据库中,是否可以避免此对象查找?我们将使用雅典娜->looker或spark的数据
我们在s3中有大量的数据(pb),希望它可以直接使用(可查询),并考虑创建一个管道,将这些文件作为属性分区的100mbParquet文件写入。
我们以前遇到的问题是,每当我们想对该数据执行一些特殊的数据处理时,必须在spark中开始处理数据之前列出bucket中的所有对象,即使数据是以hive格式分区的(尽管没有hive目录)。
如果将分区信息保存到配置单元元数据数据库中,是否可以避免此对象查找?我们将使用雅典娜->looker或spark的数据
暂无答案!
目前还没有任何答案,快来回答吧!