Spark与数据集长时间运行的工作

hgncfbus  于 2021-05-24  发布在  Spark
关注(0)|答案(0)|浏览(325)

我有一个用于运行批处理作业的spark代码(每个作业的时间跨度从几秒钟到几分钟不等)。现在我想用同样的代码运行很长时间。为了做到这一点,我想只创建一次spark上下文,然后在while循环中,我会等待新的配置/任务出现,并开始执行它们。
到目前为止,每当我尝试运行这段代码时,我的应用程序在5-6次迭代后停止运行,没有任何异常或错误。这个长时间运行的作业被分配了一个具有10gb内存的执行器和一个具有4gb内存的spark驱动程序(这对我们的批处理作业很好)。所以我的问题是,我们需要做哪些不同的事情,才能在代码本身中从小批量作业转移到长时间运行的作业。我看到了这个有用的链接-http://mkuthan.github.io/blog/2016/09/30/spark-streaming-on-yarn/ 但这个链接主要是关于spark配置,以使它们长期运行。
spark版本-2.3(可以移动到spark 2.4.1)在Yarn簇上运行

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题