我正在对hadoop集群上的两个文件进行区分。diff<(hcat file1)<(hcat file2)挑战在于文件大小>10gb。如果我们想同时区分100个这样的文件,那么gnu/linux机器的处理能力就会受到影响。有没有一种方法可以利用hadoop集群的处理能力来同时区分如此大的文件?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!