独立pig代码块的并行执行

jfewjypa  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(139)

我根据以下标准过滤了一个清管器数据集:

A = LOAD 'data' USING PigStorage() as (f1:int,f2:int,f3:int,...);
G1 = FILTER A BY f1<0;
G2 = FILTER A BY (f1+f2)>0;

现在,使用store语句处理上述两个过滤后的数据集并存储输出。

B = FOREACH G1 GENERATE ...
STORE B INTO 'location1'
C = FOREACH G2 GENERATE ...
STORE C INTO 'location2'

由于b和c都是完全独立的,并且是通过处理完全独立的数据集g1和g2生成的,为什么这两个操作不能并行运行?
它们在每个store语句中以顺序方式触发。根据我的理解,在启用多查询执行的情况下,这两个代码块不应该并行运行吗?如果这是不可能的,有没有办法让这些操作并行运行,因为这需要很多时间。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题