通过spark mongo连接器读取完整集合，并进行顺序磁盘访问？

xeufq47z 于 2021-05-16 发布在 Spark

关注(0)|答案(0)|浏览(172)

我想使用mongospark连接器（scalaapi）在磁盘i/o方面尽可能高效地将完整的mongodb集合读入spark。
在阅读了连接器文档和代码之后，我了解到分区器都是用来计算索引字段的最小和最大边界的。我的理解是（我的测试使用 explain 显示）每个光标将扫描索引中计算边界内的文档键，然后获取相应的文档。
我担心的是，这种索引扫描方法会导致随机磁盘读取，最终会导致更多的i/O操作。在我的例子中，这个问题更加突出，因为集合大于可用的ram（我知道不建议这样做）。当文档存储在磁盘上时，使用自然顺序光标读取文档不是要快几个数量级吗？我怎样才能做到这一点？

mongodb apache-spark mongo-scala-driver

来源：https://stackoverflow.com/questions/65078082/read-full-collection-through-spark-mongo-connector-with-sequential-disk-access