pig中加载的多个文件的多个输出

sirbozc5 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(333)

我的数据目录中有50个文本文件（路径：/home/admin/desktop/data）。我的任务是将文本文件中的数据展平（标记化），并将输出存储在50个输出文件中。
以下是我为完成这项工作而建立的关系：

--This will load all the 50 text files.
A = Load '/home/admin/Desktop/data' Using PigStorage(','); 

--This relation will create every word as a token and will flatten the data.
B = FOREACH A GENERATE FLATTEN(TOKENIZE($0));

STORE B into '/home/ameya/Desktop/PigOutput';

现在，当我执行这个pig脚本时，我只得到一个输出文件和50个输入文件。
如何得到50个不同的输出文件，每个文件包含与输入文件中的数据相对应的输出数据？

hadoop apache-pig

来源：https://stackoverflow.com/questions/31898439/multiple-output-for-multiple-files-loaded-in-pig

2条答案

按热度按时间

kulphzqa1#

split运算符可用于根据某个表达式将关系的内容划分为两个或多个关系。根据表达式中提供的条件，将执行以下两种操作之一：
元组可以分配给多个关系
元组不能分配给任何关系
在pig中用于加载、展平和存储的目录中有多个文件：

[user1@localhost ~]# ls /pigsamples/mfilesdata/
file1  file2  file3

正在加载以上目录：

grunt> input_data = LOAD '/pigsamples/mfilesdata' USING PigStorage (',') AS (f1:INT, f2:INT, f3:INT);
grunt> DUMP input_data;
(1,2,3)
(2,3,1)
(3,1,2)
(4,5,6)
(5,6,4)
(6,4,5)
(7,8,9)
(8,9,7)
(9,7,8)

根据您的要求格式化数据。我采取了和问题中相同的行动。

grunt> formatted_data = FOREACH input_data GENERATE FLATTEN(TOKENIZE($0));    //replace with your requirements

使用 SPLIT 运算符根据条件将关系拆分为多个关系。

grunt> 
SPLIT formatted_data 
INTO split1 IF f1 <= 3, 
split2 IF (f1 > 3 AND f1 <= 6), 
split3 IF f1 > 6;       //split based on the column which is unique within all the files

输出：

grunt> DUMP split1;
(1,2,3)
(2,3,1)
(3,1,2)

grunt> DUMP split2;
(4,5,6)
(5,6,4)
(6,4,5)

grunt> DUMP split3;
(7,8,9)
(8,9,7)
(9,7,8)

赞(0）回复(0）举报 2021-06-02

qq24tv8q2#

你试过Pig多存储自定义项吗？
如果您想为单独的50个i/p文件创建50个o/p文件，那么最好运行pig脚本50次（在一个循环中），并使用i/p文件和o/p文件作为pig脚本的参数。

赞(0）回复(0）举报 2021-06-02

我来回答

pig中加载的多个文件的多个输出

2条答案

相关问题

热门标签

最新问答