hadoop—在aws/gce上以最少的代码/脚本行实现交互式大数据集Map缩减

yebdmbv4 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(148)

我有10亿行数据（约400gb未压缩；大约40gb压缩），我想用map reduce风格处理，我有两个可执行文件（二进制文件，而不是脚本），可以处理“map”和“reduce”步骤。“map”步骤可以每秒处理大约10000行，每个核心，并且不管输入的大小，其输出大约为1mb。“reduce”步骤可以处理大约50mb/秒（不包括io延迟）。
假设我可以预处理数据一次，做任何我想做的事情，比如压缩它，把它分解成块，等等。为了简单起见，假设输入是纯文本，每一行以一个换行符结束，每一个换行符是一个行终止符。
一旦一次性预处理完成，目标就是能够在30秒内执行请求。所以，如果我唯一的瓶颈是map作业（我不知道这是否是真的——很可能是io），假设我能在5秒内完成所有reduce作业，那么我需要425台8核计算机，全部处理输入数据的不同部分，来完成磨合时间。
假设您有数据和两个map/reduce可执行文件，并且您对aws或gce有无限的访问权限，那么我可以用最少的代码行和/或脚本（并且不忽略潜在的io或其他非cpu瓶颈）来实现这个问题的解决方案是什么？
（顺便说一句，如果与sloc最少的解决方案不同，还应该了解使用最少的节点执行什么操作）

hadoop mapreduce apache-spark amazon-web-services google-compute-engine

来源：https://stackoverflow.com/questions/35368682/achieving-interactive-large-dataset-map-reduce-on-aws-gce-in-the-least-lines-of