scala—当只使用一台计算机/节点时，分区是否提高了性能？

pcrecxhr 于 2021-05-26 发布在 Spark

关注(0)|答案(2)|浏览(292)

我知道分区可以通过在集群中的不同节点上执行并行任务来提高性能。但是当我只使用一台计算机时，分区能帮助我获得更好的性能吗？我用的是spark和scala。

scala apache-spark performance

来源：https://stackoverflow.com/questions/64047479/do-partitions-increase-performance-when-only-using-one-computer-node

2条答案

按热度按时间

fquxozlt1#

是的，它会提高性能。
确保您的cpu有多个核心。
进行本地sparksession时，请确保使用多核心： local 使用一个线程在本地运行，或者 local[N] 要使用n线程在本地运行，我建议您使用 local[*] 并确保您的rdd/数据集有多个分区，我好的分区数是核心数的2到4倍。

赞(0）回复(0）举报 2021-05-27

brvekthn2#

apachespark也可以垂直（cpu，ram，…）和水平（节点）扫描。我假设您的计算机/节点有一个具有多个核心的cpu。然后并行处理分区。

赞(0）回复(0）举报 2021-05-27