mapreduce对处理大文件、抓取大量页面以获取数据并将它们插入hbase有用吗?

drkbr07n  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(258)

我每天都会运行一些python脚本,这些脚本可以完成以下任务:

parse 1000 text files (gziped) :
    ~ 100 GB 
    30 Millions rows
Crawl some data from many websites : 
    40 Millions rows    
    Script distributed in 50 Amazon EC2 micro instances (5 scripts / instance)

对于每一行,我都会做一些类似的事情(如果该行不存在,请确保在插入前在数据库中搜索一些需要与我的行一起添加的数据),最后,在hbase和solr中插入该行。要处理所有这些文件并爬网所有这些页面,需要花费大量时间,即使我在多台机器上分发脚本也是如此。
我现在不使用mapreduce,我的问题是:mapreduce在我的情况下有用吗(我学到了一点,我的理解是,如果我想在一些文件中做一些计算,比如wordcount示例,我真的需要它

j5fpnvbx

j5fpnvbx1#

mapreduce是由不同的分销商(apache、google等)实现的编程范式。如果您想使用mapreduce处理数据,您需要配置集群并将数据存储在分布式文件系统(hdfs或hadoop已知的其他实现)中。是的,mapreduce作业将在集群中的不同节点之间进行并行处理,从而节省您的时间。

相关问题