apacheSpark断路器

iyfjxgzm 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(323)

在hadoop集群中使用apachespark1.6.2。
一些（简单的）查询会消耗大量资源，我看到我们的开发人员正在运行 SELECT * FROM DB 对一个1to文件！因此，它需要很长的时间和“封锁”所有Yarn资源的一刻（和崩溃的大多数时间后，几个小时…）。
我想知道是否有可能限制spark在Yarn簇中运行所消耗的时间/资源：
限时
限制洗牌（缓存）磁盘空间
限制每个查询（或每个用户）的cpu时间
（不确定“断路器”是不是一个好词，我是从elasticsearch取的）

hadoop yarn apache-spark

来源：https://stackoverflow.com/questions/48498604/apache-spark-circuit-breaker

1条答案

按热度按时间

h6my8fg21#

这个问题非常广泛，但总的来说：
在多用户环境中，使用调度程序队列确保不同用户之间的最佳分配。适当的容量配置应该足以获得相当好的控制。
使用抢占来确保单个失控的应用程序不会阻塞单个队列（但如果考虑集群模式，请小心）。
临时空间比较棘手，因为yarn不认为磁盘是一种资源，但标准操作系统配额应该在这里起作用。

赞(0）回复(0）举报 2021-05-29

我来回答

apacheSpark断路器

1条答案

相关问题

热门标签

最新问答