如何使用hadoopmapreduce将数据从awss3导入hdfs

jmp7cifd  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(349)

我知道apachehadoop提供了 discp 将文件从aws s3复制到hdfs。但它似乎没有那么有效,而且日志记录是不灵活的。
在我的项目中,每次文件传输到hdfs成功或失败后,都需要以我们定制的格式编写日志。由于数据加载量很大,使用hadoop mapreduce将aws数据加载到hdfs集群中肯定是最有效的,比如说我将编写一个类似于的hadoop mapreduce作业 discp .
我的计划是让每个节点上的每个Map器加载一个s3目录 aws Java SDK 因为有许多s3目录要加载到hdfs。有人能就如何实现这个目标提出一些建议吗?提前谢谢!

tzxcd3kk

tzxcd3kk1#

你试过了吗 s3a , s3a 是原著的继承者 s3n -消除一些限制(文件大小)并提高性能?还有什么问题 distcp -s3使用哪个文件系统( s3n 或者 s3a ?)? 最近在中国做了一些工作 distcp -最新版本可能值得一看。

相关问题