如何使用hadoopmapreduce将数据从awss3导入hdfs

jmp7cifd 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(349)

我知道apachehadoop提供了 discp 将文件从aws s3复制到hdfs。但它似乎没有那么有效，而且日志记录是不灵活的。
在我的项目中，每次文件传输到hdfs成功或失败后，都需要以我们定制的格式编写日志。由于数据加载量很大，使用hadoop mapreduce将aws数据加载到hdfs集群中肯定是最有效的，比如说我将编写一个类似于的hadoop mapreduce作业 discp .
我的计划是让每个节点上的每个Map器加载一个s3目录 aws Java SDK 因为有许多s3目录要加载到hdfs。有人能就如何实现这个目标提出一些建议吗？提前谢谢！

hadoop mapreduce amazon-s3

来源：https://stackoverflow.com/questions/37103736/how-to-import-data-from-aws-s3-to-hdfs-with-hadoop-mapreduce