sqoop合并工具,在单个文件中生成输出

daupos2t  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(363)

目前我正在执行下面的命令
sqoop merge--new data/home/part1/part-m-00000--on/home/part2/part-m-00000--target dir/home/merged--jar file/home/hadoop/myjar.jar--类名myjar--merge key id
除了merge在多个部件文件中生成输出外,其他一切都正常工作,因为这是hadoop中的mapreduce任务,它使用多个reducer。
零件文件是Parquet文件,我想创建一个文件,因为下一个进程将输入同一个文件,下一个进程是对同一个提取的文件运行apachespark作业。
如何强制将sqoop的输出合并到单个文件中?有什么建议吗?
谢谢,
-Jackson

bsxbgnwa

bsxbgnwa1#

当我需要这样做时,我做的是:
创建新的目标文件
运行sqoop命令后,转到创建所有零件文件的目录
执行cat*>>目标文件
不确定这是否适用于你,因为我没有足够的细节来处理你的例子。
假设您正在从shell脚本执行sqoop命令。

相关问题