Spark与数据集长时间运行的工作

hgncfbus 于 2021-05-24 发布在 Spark

关注(0)|答案(0)|浏览(325)

我有一个用于运行批处理作业的spark代码（每个作业的时间跨度从几秒钟到几分钟不等）。现在我想用同样的代码运行很长时间。为了做到这一点，我想只创建一次spark上下文，然后在while循环中，我会等待新的配置/任务出现，并开始执行它们。
到目前为止，每当我尝试运行这段代码时，我的应用程序在5-6次迭代后停止运行，没有任何异常或错误。这个长时间运行的作业被分配了一个具有10gb内存的执行器和一个具有4gb内存的spark驱动程序（这对我们的批处理作业很好）。所以我的问题是，我们需要做哪些不同的事情，才能在代码本身中从小批量作业转移到长时间运行的作业。我看到了这个有用的链接-http://mkuthan.github.io/blog/2016/09/30/spark-streaming-on-yarn/ 但这个链接主要是关于spark配置，以使它们长期运行。
spark版本-2.3（可以移动到spark 2.4.1）在Yarn簇上运行

yarn apache-spark

来源：https://stackoverflow.com/questions/64167996/spark-long-running-jobs-with-dataset