linux—连续地将数据从一个hdfs目录复制到另一个目录

u1ehiz5o  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(689)

我在hdfs中有一个目录,每两天填充一次文件。我想把这个目录下的所有文件复制到另一个目录下,如果今天有新文件进来,我想把这个文件复制到复制目录下。
我们如何在hdfs中做到这一点。
我知道我们可以用rsync在linux中实现这一点。在hdfs中也有类似的方法吗?

gmol1639

gmol16391#

不,hdfs没有可用的文件同步方法。你要么 hdfs dfs -cp 或者 hadoop distcp 手动或通过任何调度程序( cron ).
如果文件数量更多, distcp 首选。

hadoop distcp -update <src_dir> <dest_dir>

这个 -update 如果源和目标的大小、块大小或校验和不同,标志将被覆盖。

相关问题