读取数据块

fbcarpbf 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(224)

我在s3中有一个数据集，它由超过7000个gzip文件组成，这些文件扩展到几个字节。我试图读取数据转换它，并写回s3使用Spark电子病历。我经常遇到的问题是rdd太大，无法放入内存，因此转换rdd的过程会减慢到蜗牛般的速度，因为rdd必须缓存到磁盘（稍后需要再次计算统计数据）。我想做的是读取100或1000个文件处理它们，然后开始下一个1000。如果有任何方法可以在spark框架中实现这一点，或者我需要手动列出文件并将它们分块。
谢谢，内森

hadoop apache-spark amazon-s3 emr

来源：https://stackoverflow.com/questions/36406715/read-data-in-chunks-spark