你能使用s3distcp和gzip输入吗?

v2g6jxz6  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(357)

我正在尝试使用s3distcp来编译许多小的gzip文件,不幸的是这些文件不会以 gz 分机。这里有一个 outputCodec 参数,但没有相应的 inputCodec . 我试着用 --jobconf 使用hadoop流调用,但它似乎什么也没做(输出仍然是gzip)。我使用的命令是

hadoop jar lib/emr-s3distcp-1.0.jar -Dstream.recordreader.compression=gzip \
           --src s3://inputfolder --dest hdfs:///data

你知道会发生什么吗?我正在运行aws emr ami-3.9。

u5i3ibmn

u5i3ibmn1#

正如您在s3distcp代码中看到的:https://github.com/netshade/s3distcp/blob/b899910d04a112019ba695f29d3b0b3d9a785603/src/main/java/com/amazon/external/elasticmapreduce/s3distcp/copyfilesreducer.java 第197行,s3distcp依赖于文件扩展名来示例化inputstream。则无法将输入格式设置为参数。

相关问题