使用flume拦截器逐行过滤文件

hmtdttj4  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(312)

我正在尝试配置从.csv或.xl3读取的flume代理。文件示例:

ClientA  ClientB  Start-time  End-time    Duration    Status 
35862515 36958452 16/01/2017  16/01/2017  10          good
32456988 22583694 16/01/2017  16/01/2017  05          good
35968478 36985724 16/01/2017  16/01/2017
32456988 22583694 16/01/2017  16/01/2017  01          good

我要代理逐行过滤文件。如果持续时间不为空,则事件将发送到hdfs/usr/admin/good\u call,否则,事件将发送到另一个路径/usr/admin/bad\u call。
如何使用flume配置,拦截器

tpgth1q7

tpgth1q71#

您可以使用taildir sink和regex提取器拦截器。作为regex提取器的结果,对于“good”和“bad”行,您将有不同的标题。最后,添加多路复用通道选择器,它将根据报头的值来决定向何处发送事件。

相关问题