我已经处理了以下表格中的数据:
( id ,{ bag of words})
例如:
(foobar, {(foo), (foo),(foobar),(bar)})
(foo,{(bar),(bar)})
以此类推。。你给了我:
processed: {id: chararray,tokens: {tuple_of_tokens: (token: chararray)}}
现在我想要的是。。同时计算一个单词出现在该数据中的次数,并将其输出为
foobar, foo, 2
foobar,foobar,1
foobar,bar,1
foo,bar,2
and so on...
我在Pig里怎么做?
2条答案
按热度按时间mwyxok5s1#
虽然你可以在纯Pig身上做这件事,但用自定义项做这件事应该效率更高。大致如下:
您可以这样使用这个自定义项:
y0u0uwnf2#
试试这个:
输出: