hadoop—在aws/gce上以最少的代码/脚本行实现交互式大数据集Map缩减

yebdmbv4  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(148)

我有10亿行数据(约400gb未压缩;大约40gb压缩),我想用map reduce风格处理,我有两个可执行文件(二进制文件,而不是脚本),可以处理“map”和“reduce”步骤。“map”步骤可以每秒处理大约10000行,每个核心,并且不管输入的大小,其输出大约为1mb。“reduce”步骤可以处理大约50mb/秒(不包括io延迟)。
假设我可以预处理数据一次,做任何我想做的事情,比如压缩它,把它分解成块,等等。为了简单起见,假设输入是纯文本,每一行以一个换行符结束,每一个换行符是一个行终止符。
一旦一次性预处理完成,目标就是能够在30秒内执行请求。所以,如果我唯一的瓶颈是map作业(我不知道这是否是真的——很可能是io),假设我能在5秒内完成所有reduce作业,那么我需要425台8核计算机,全部处理输入数据的不同部分,来完成磨合时间。
假设您有数据和两个map/reduce可执行文件,并且您对aws或gce有无限的访问权限,那么我可以用最少的代码行和/或脚本(并且不忽略潜在的io或其他非cpu瓶颈)来实现这个问题的解决方案是什么?
(顺便说一句,如果与sloc最少的解决方案不同,还应该了解使用最少的节点执行什么操作)

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题