pyspark:need to 了解pyspark中缓存的行为

kuhbmx9i  于 2021-05-24  发布在  Spark
关注(0)|答案(1)|浏览(620)

我想了解缓存在 pysparkdf.cache() 不管怎样,那是不同的 df = df.cache() ?
在程序执行结束时是否有必要取消持久化缓存的Dataframe,我知道它是基于spark清除的(最近最少使用的机制),如果我不取消持久化Dataframe会有什么负面影响,我可以考虑内存不足的问题,但需要输入
当我使用 df = df.cache() ,程序的重新执行使用旧的缓存数据,而不是重新计算和重写缓存的Dataframe?

20jt8wwn

20jt8wwn1#

不需要在最后取消持久性。停止spark将清除缓存的Dataframe。你不能从一个Spark执行到另一个Spark执行。如果您想从一个Spark“持久”到另一个Spark,唯一的解决方案是物理地保存数据(写入)并在下一次执行时再次读取它们。

相关问题