我的公司有很多用pyspark写的spark工作。由于我们所做的一切都是在azure上进行的,而且我们大多数都是c#编码人员,所以我被要求查看microsoft.spark库。我有很多工作,但我的最后一个障碍是线程和确定线程是否/如何分配给工人。在Pypark中,我们可以这样做:
with concurrent.futures.ThreadPoolExecutor() as executor:
future_metrics = {executor.submit(
get_metrics_from_query,
query_item): query_item for query_item in query_list}
这将遍历query\列表中的项列表,并从新线程中的每个项的\ query中调出\度量。pyspark确保线程分布在集群上的worker上。
我找不到任何关于使用标准system.threading.net库创建的线程是否会适当地分布在工作线程之间,或者是否所有线程都将在驱动程序节点上执行的信息。microsoft.spark api文档似乎没有单独的线程调用。如果有单独的调用,是否有人有代码段?蒂亚!
暂无答案!
目前还没有任何答案,快来回答吧!