读取数据块

fbcarpbf  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(224)

我在s3中有一个数据集,它由超过7000个gzip文件组成,这些文件扩展到几个字节。我试图读取数据转换它,并写回s3使用Spark电子病历。我经常遇到的问题是rdd太大,无法放入内存,因此转换rdd的过程会减慢到蜗牛般的速度,因为rdd必须缓存到磁盘(稍后需要再次计算统计数据)。我想做的是读取100或1000个文件处理它们,然后开始下一个1000。如果有任何方法可以在spark框架中实现这一点,或者我需要手动列出文件并将它们分块。
谢谢,内森

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题