apacheSpark断路器

iyfjxgzm  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(323)

在hadoop集群中使用apachespark1.6.2。
一些(简单的)查询会消耗大量资源,我看到我们的开发人员正在运行 SELECT * FROM DB 对一个1to文件!因此,它需要很长的时间和“封锁”所有Yarn资源的一刻(和崩溃的大多数时间后,几个小时…)。
我想知道是否有可能限制spark在Yarn簇中运行所消耗的时间/资源:
限时
限制洗牌(缓存)磁盘空间
限制每个查询(或每个用户)的cpu时间
(不确定“断路器”是不是一个好词,我是从elasticsearch取的)

h6my8fg2

h6my8fg21#

这个问题非常广泛,但总的来说:
在多用户环境中,使用调度程序队列确保不同用户之间的最佳分配。适当的容量配置应该足以获得相当好的控制。
使用抢占来确保单个失控的应用程序不会阻塞单个队列(但如果考虑集群模式,请小心)。
临时空间比较棘手,因为yarn不认为磁盘是一种资源,但标准操作系统配额应该在这里起作用。

相关问题