pyspark:need to 了解pyspark中缓存的行为

kuhbmx9i 于 2021-05-24 发布在 Spark

关注(0)|答案(1)|浏览(620)

我想了解缓存在 pyspark 是 df.cache() 不管怎样，那是不同的 df = df.cache() ?
在程序执行结束时是否有必要取消持久化缓存的Dataframe，我知道它是基于spark清除的（最近最少使用的机制），如果我不取消持久化Dataframe会有什么负面影响，我可以考虑内存不足的问题，但需要输入
当我使用 df = df.cache() ，程序的重新执行使用旧的缓存数据，而不是重新计算和重写缓存的Dataframe？

python apache-spark pyspark

来源：https://stackoverflow.com/questions/64092149/pysparkneed-to-understand-the-behaviour-of-cache-in-pyspark

1条答案

按热度按时间

不需要在最后取消持久性。停止spark将清除缓存的Dataframe。你不能从一个Spark执行到另一个Spark执行。如果您想从一个Spark“持久”到另一个Spark，唯一的解决方案是物理地保存数据（写入）并在下一次执行时再次读取它们。

赞(0）回复(0）举报 2021-05-25

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 4个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 4个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 4个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前