microsoft.spark是否跨工作人员分发线程？

rjjhvcjd 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(170)

我的公司有很多用pyspark写的spark工作。由于我们所做的一切都是在azure上进行的，而且我们大多数都是c#编码人员，所以我被要求查看microsoft.spark库。我有很多工作，但我的最后一个障碍是线程和确定线程是否/如何分配给工人。在Pypark中，我们可以这样做：

with concurrent.futures.ThreadPoolExecutor() as executor:
   future_metrics = {executor.submit(
        get_metrics_from_query,
        query_item): query_item for query_item in query_list}

这将遍历query\列表中的项列表，并从新线程中的每个项的\ query中调出\度量。pyspark确保线程分布在集群上的worker上。
我找不到任何关于使用标准system.threading.net库创建的线程是否会适当地分布在工作线程之间，或者是否所有线程都将在驱动程序节点上执行的信息。microsoft.spark api文档似乎没有单独的线程调用。如果有单独的调用，是否有人有代码段？蒂亚！

apache-spark pyspark Azure .net-core

来源：https://stackoverflow.com/questions/62286970/does-microsoft-spark-distribute-threads-across-workers