我知道apachehadoop提供了 discp
将文件从aws s3复制到hdfs。但它似乎没有那么有效,而且日志记录是不灵活的。
在我的项目中,每次文件传输到hdfs成功或失败后,都需要以我们定制的格式编写日志。由于数据加载量很大,使用hadoop mapreduce将aws数据加载到hdfs集群中肯定是最有效的,比如说我将编写一个类似于的hadoop mapreduce作业 discp
.
我的计划是让每个节点上的每个Map器加载一个s3目录 aws Java SDK
因为有许多s3目录要加载到hdfs。有人能就如何实现这个目标提出一些建议吗?提前谢谢!
1条答案
按热度按时间tzxcd3kk1#
你试过了吗
s3a
,s3a
是原著的继承者s3n
-消除一些限制(文件大小)并提高性能?还有什么问题distcp
-s3使用哪个文件系统(s3n
或者s3a
?)? 最近在中国做了一些工作distcp
-最新版本可能值得一看。