在gcpdataproc中,集群中可以使用的最大工作节点数是多少?

0tdrvxhp  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(526)

我将训练包含7个分类变量(字符串)的500万行数据,但不久将训练3100万行数据。我想知道集群中可以使用的最大工作节点数是多少,因为即使我键入2000000这样的值,也不会显示任何错误迹象。
另一个问题是,确定需要多少工作节点的最佳方法是什么?
提前谢谢!

a7qyws3x

a7qyws3x1#

最大群集大小

dataproc不限制集群中节点的数量,但其他软件也有限制。例如,我们知道有些yarn集群部署有10k节点,因此,对于运行dataproc的spark-on-yarn来说,上面提到的可能不起作用。
此外,您还需要考虑gce的限制,如不同的配额(cpu、ram、磁盘、外部ip等)和qps限制,并确保您有足够的配额来支持如此大的集群。
我认为1k节点对于大型dataproc集群来说是一个合理的开始大小,如果您需要的话,您可以进一步升级它,以便在集群创建之后根据需要添加更多节点。

簇大小估计

您应该根据工作负载和要使用的虚拟机大小来确定需要多少节点。对于您的用例,您似乎需要找到一个关于如何为ml训练估计集群大小的指南。
或者你也可以做一个二进制搜索,直到你满意的训练时间。例如,您可以从500个8核节点群集开始,如果训练时间太长,则将群集大小增加到600-750个节点,然后查看训练时间是否如您所期望的那样减少—您可以重复此操作,直到您对训练时间感到满意,或者直到它不再扩展/改进。

相关问题