如何从spark中的从属内存创建rdd?

ql3eal8s  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(351)

我知道这听起来很傻,但有没有办法从当前在集群从属内存中的文件创建rdd?我知道要创建rdd,我们必须指定存储文件的路径/hdfs路径。但我很好奇,如果我能在java应用程序之间复制对象,并以相同的名称将对象直接放入从属内存中,有没有办法用这些文件创建rdd和/或以分布式方式工作?提前谢谢!

fnx2tebb

fnx2tebb1#

简短的回答是否定的。
“奴隶”根本不参与计算。只有负责资源管理的部分。
另一方面,工人本身并不存在。它们与应用程序绑定,因此在应用程序之外没有“当前状态”。
你能做的就是创建一个假人 RDD 并在调用某些对象的函数时加载它们。但是,这永远不应该绑定到特定的物理主机。虽然spark对提示首选位置有一定的支持,但不能保证特定的任务将在特定的机器上处理,或者在不同的评估中,即使在同一个应用程序中,分配也是不变的。

相关问题