python线程与hadoop流

vlf7wbxs  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(252)

我正在使用hadoop流来编写一个基于python的html抓取器。我发现运行单线程python脚本速度很慢。我想把它修改成多线程版本。有人知道在Map器中设置线程数的合适数字吗。我不确定集群中每个节点的规格,但我假设它至少支持两个线程。

8iwquhpp

8iwquhpp1#

我尝试使用python线程,但是全局解释器锁有问题。为了使用多处理模块,hadoop在内部分配了与集群中的核心数量相同的Map器,因此如果需要加快速度,多处理不是一种可行的方法。如果执行正确,多线程可能会带来一些加速

whhtz7ly

whhtz7ly2#

我没有将hadoop流媒体用于html抓取器,但这里有一篇文章讨论了urllib2如何使用多线程(不是多处理包,只是简单的多线程)工作。
希望能有所帮助。

相关问题