apachespark性能改进

iugsix8n 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(274)

我有一个应用程序，它的共享总是运行全局sparksession，可以同时运行多个应用程序。为了避免以前运行过的应用程序每次都重新计算数据，我正在考虑将属于特定应用程序的Dataframe检查点设置为hdfs longterm，然后设置一个后台作业，每周清理一次检查点目录。

sparkSession.sparkContext().setCheckpointDir(HDFSpath+appId);
 dataset.checkpoint(true);

问题是，是否有任何方法可以检查特定appid的Dataframe是否已经检查过，如果没有，则继续使用现有流。
或者，是否有一种更有效的方法来实现上述Dataframe长期存储的目标，即使用持久到磁盘或其他技术，而不必每次都将数据保存在内存中或创建一个表？

目前还没有任何答案，快来回答吧！

相关问题