滚动升级hadoop集群？

vpfxa7rd 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(224)

我在一家大电信商店工作。一个主要的hadoop集群（hdp）有大约600个节点。它几乎每月升级一次，再加上一些其他的维护。每次这样做都需要几个小时到几天的时间，所有在上面运行的应用程序都必须关闭。我只是无法想象在其他公司执行如此重要工作的集群会如此频繁和如此长时间地被打断。我问我们为什么不做滚动升级？以下是主要架构师的答案之一。是真的吗？你们公司的升级怎么样？
关于滚动升级，我要小心让每个人都明白在这个过程中会发生什么。每小时多达12个节点可以升级到下一版本的hdp。当这个过程每过一个小时继续进行时，集群的容量就会减少x个完成的节点数。当集群接近75%时，大多数服务都需要重新启动。核心服务在up time下处理，如mapreduce、hdfs、name node ha、resource manager ha、zookeeper和hive ha（如果已配置）。spark、kafka、storm等服务不包含在滚动升级中，不停机。快速升级使我们的团队能够更快地升级集群。群集的最后一次升级是5个小时。我相信你上面提到的停机时间为2天4小时的问题对于实际的hdp停机时间是不正确的。这可能是整个维护过程，包括ambari升级、hdp升级、停止作业、健全性检查，以及重新启动所有作业以完成批处理。我想建议您的团队正在处理将发出的消息，并在升级将在周六上午执行时停止您的工作。升级完成后，您将能够再次启动作业，并将发送另一个通知。

hadoop hortonworks-data-platform upgrade

来源：https://stackoverflow.com/questions/43907141/rolling-upgrade-hadoop-cluster