多输入实用性

bkkx9g8r  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(297)

根据数据管道文档,emractivity step命令使用与常规emr作业不同的格式。
下面是一个简化的示例:

/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3://mybucket/folder1/*.gz,-output,s3://output,-mapper=mapper,-reduce=reducer.

假设我需要从多个bucket中提取数据,如何将这些多个输入传递给一个单步命令?
在常规的emr作业设置中,我只是用逗号分隔输入路径,但这似乎不适用于emr的实用性。
我真正感兴趣的是一个实用性的解决方案,而不是设置复制活动来将数据带到一个临时的唯一位置。
谢谢。

j2cgzkjk

j2cgzkjk1#

验证json需要使用cli转义。如果从cli使用json,请尝试“\,”(\,)将从控制台工作。

相关问题