apachespark性能改进

iugsix8n  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(274)

我有一个应用程序,它的共享总是运行全局sparksession,可以同时运行多个应用程序。为了避免以前运行过的应用程序每次都重新计算数据,我正在考虑将属于特定应用程序的Dataframe检查点设置为hdfs longterm,然后设置一个后台作业,每周清理一次检查点目录。

sparkSession.sparkContext().setCheckpointDir(HDFSpath+appId);
 dataset.checkpoint(true);

问题是,是否有任何方法可以检查特定appid的Dataframe是否已经检查过,如果没有,则继续使用现有流。
或者,是否有一种更有效的方法来实现上述Dataframe长期存储的目标,即使用持久到磁盘或其他技术,而不必每次都将数据保存在内存中或创建一个表?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题