在azure synapse analytics中启动spark池需要时间

yvt65v4c 于 2021-05-17 发布在 Spark

关注(0)|答案(1)|浏览(353)

我在azure synapse analytics中使用pyspark代码创建了3个不同的笔记本。笔记本正在使用Spark池运行。只有一个Spark池为所有3个笔记本电脑。当这3个笔记本单独运行时，默认情况下，所有3个笔记本都会启动spark pool。
我面临的问题与Spark池有关。每本笔记本要花10分钟才能开始。分配的vcores为4，executor为1。有人能帮我知道如何在azure synapse analytics中启动spark pool吗。

python apache-spark pyspark Azure azure-synapse

来源：https://stackoverflow.com/questions/64998115/spark-pool-taking-time-to-start-in-azure-synapse-analytics

1条答案

按热度按时间

l2osamch1#

apachespark池作业的性能取决于多个因素。这些性能因素包括：
数据的存储方式
集群如何配置（小、中、大）
处理数据时使用的操作。
您可能面临的常见挑战包括：
由于执行器大小不正确而导致的内存限制。
耗时操作
导致笛卡尔操作的任务。
还有许多优化可以帮助您克服这些挑战，例如缓存和允许数据倾斜。
下面的文章在azuresynapse分析中优化apachespark作业（预览）描述了常见的spark作业优化和建议。

赞(0）回复(0）举报 2021-05-17

我来回答

在azure synapse analytics中启动spark池需要时间

1条答案

相关问题

热门标签

最新问答