从包含pig中的目录路径的日志文件中计算子目录

6kkfgxo0  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(239)

我有一个巨大的日志文件,其中包含作为列之一的目录路径。例如,

/
/a 
/a/b
/a/b/e
/d
/d/f
/e

日志中没有重复的行。
我的问题是,使用pig,如何计算每个目录下的子目录数,而不多次计算同一目录名?在上面的例子中,期望的结果有点像下面这样,

/ 6
/a 2
/a/b 1
/a/b/e 0
/d 1
/d/f 0
/e 0

我的方法是首先分割这些路径中的每一条,并为其指定相应的目录深度值。例如,/a/b将更改为3条新记录,

/ 2
/a 1 
/a/b 0

然后我尝试对相似的路径进行分组,并对每个元组中的深度值求和。但是,这些结果是不准确的,因为它们没有考虑到这样一个事实,即对于每个记录,一条被拆分的路径将被多次计数。我怎样才能达到期望的输出?任何形式的帮助都是非常有用的。谢谢您。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题