如何从spark中的从属内存创建rdd？

ql3eal8s 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(351)

我知道这听起来很傻，但有没有办法从当前在集群从属内存中的文件创建rdd？我知道要创建rdd，我们必须指定存储文件的路径/hdfs路径。但我很好奇，如果我能在java应用程序之间复制对象，并以相同的名称将对象直接放入从属内存中，有没有办法用这些文件创建rdd和/或以分布式方式工作？提前谢谢！

Java hadoop apache-spark

来源：https://stackoverflow.com/questions/48481625/how-to-create-rdd-from-memory-of-slaves-in-spark

1条答案

按热度按时间

fnx2tebb1#

简短的回答是否定的。
“奴隶”根本不参与计算。只有负责资源管理的部分。
另一方面，工人本身并不存在。它们与应用程序绑定，因此在应用程序之外没有“当前状态”。
你能做的就是创建一个假人 RDD 并在调用某些对象的函数时加载它们。但是，这永远不应该绑定到特定的物理主机。虽然spark对提示首选位置有一定的支持，但不能保证特定的任务将在特定的机器上处理，或者在不同的评估中，即使在同一个应用程序中，分配也是不变的。

赞(0）回复(0）举报 2021-05-29

我来回答

如何从spark中的从属内存创建rdd？

1条答案

相关问题

热门标签

最新问答