通过spark mongo连接器读取完整集合,并进行顺序磁盘访问?

xeufq47z  于 2021-05-16  发布在  Spark
关注(0)|答案(0)|浏览(172)

我想使用mongospark连接器(scalaapi)在磁盘i/o方面尽可能高效地将完整的mongodb集合读入spark。
在阅读了连接器文档和代码之后,我了解到分区器都是用来计算索引字段的最小和最大边界的。我的理解是(我的测试使用 explain 显示)每个光标将扫描索引中计算边界内的文档键,然后获取相应的文档。
我担心的是,这种索引扫描方法会导致随机磁盘读取,最终会导致更多的i/O操作。在我的例子中,这个问题更加突出,因为集合大于可用的ram(我知道不建议这样做)。当文档存储在磁盘上时,使用自然顺序光标读取文档不是要快几个数量级吗?我怎样才能做到这一点?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题