如何使用xquery剥离flume morpline.conf文件中的html内容

kt06eoxx  于 2021-06-04  发布在  Flume
关注(0)|答案(1)|浏览(271)

我们正在尝试使用flume morphlinesolrsink将示例xml文件索引到cloudera solr。
我们已经创建了2个通道(solrchannel,hdfschannel)和2个sink(solrsink,hdfssink)。  我们可以使用这个flume和morphline配置在clouderasolr中索引文档。
问题1):我们在xml文件中有两个字段title和content,我们想在发送给solr之前从这两个字段中去掉html内容。你能告诉我们怎样才能做到吗?
问题2):我必须更改createdate和publisheddate两个字段的日期格式。你能让我知道如何编写逻辑来一次性更改两个文件的日期格式吗。
我正在使用xquery从xml文件中提取日期。
变形线.confhttps://gist.github.com/jsbonline2006/e04433f9b11cdcafa865#file-变形线形态

5q4ezhmt

5q4ezhmt1#

我找到了以下解决问题的方法,因此我想和大家分享一下:
2) 在xquery命令块之后,我编写了以下代码将日期转换为所需的格式,并且工作得非常好。

{
    convertTimestamp {
      field : createDate
      inputFormats : ["E MMM dd HH:mm:ss z yyyy", "yyyy-MM-dd"]
      inputTimezone : UTC
      outputFormat : "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'"
      outputTimezone : America/Los_Angeles
    }
  }

  {
    convertTimestamp {
      field : publishedDate
      inputFormats : ["E MMM dd HH:mm:ss z yyyy", "yyyy-MM-dd"]
      inputTimezone : UTC
      outputFormat : "yyyy-MM-dd'T'HH:mm:ss.SSS'Z'"
      outputTimezone : America/Los_Angeles
    }
  }

1) 为了从标题和内容中剥离html标记,我们编写了一个java代码,在将文件内容发送到flume之前,我们已经将其插入到管道中。
希望这对你也有帮助!!!!
当做,
贾耶什·博亚尔
http://technical-fundas.blogspot.in/p/technical-profile.html

相关问题