如何提高Flume药剂的处理率

fhg3lkii  于 2021-06-04  发布在  Flume
关注(0)|答案(1)|浏览(209)

我有一个flume代理,它将数据吸收到elasticsearch中。代理正在使用 spoolDir 来源。还有另一个代理将文件写入elasticsearch代理的spooldir。
随着时间的推移,文件会增加,处理的文件和未处理的文件之间的差异也会增加。
我想增加flume代理处理的事件数,以加快接收过程。
以下是flume代理的配置。
agent04.sources=s1
agent04.channels=ch1
agent04.channels=内存通道
agent04.channels.memorychannel.type=内存
agent04.channels.memorychannel.capacity=100000
agent04.channels.memorychannel.transactioncapacity=1000
agent04.sources.s1.channels=内存通道
agent04.sources.s1.type=后台打印目录
agent04.sources.s1.spooldir=/datacollection/flume\u cleaner\u output/json\u弹性/
agent04.sources.s1.deserializer.maxlinength=100000
agent04.sinks=ElasticSearch
agent04.sinks.elasticsearch.channel=内存通道
agent04.sinks.elasticsearch.type=org.css.csselasticsearchsink
agent04.sinks.elasticsearch.batchsize=400
agent04.sinks.elasticsearch.hostnames=elastic-node01.css.org
agent04.sinks.elasticsearch.indexname=所有集合
agent04.sinks.elasticsearch.indextype=实时推文
agent04.sinks.elasticsearch.indexnamebuilder=org.css.sa.flume.elasticsearch.sink.indexnamebuilder.headervaluebasedindexnamebuilder
agent04.sinks.elasticsearch.clustername=css\u rai\u社交
agent04.sinks.elasticsearch.serializer=org.jai.flume.sinks.elasticsearch.serializer.elasticsearchjsonbodyeventserializer
agent04.sinks.elasticsearch.cache\周期\u ms=90d

fnatzsnv

fnatzsnv1#

为什么你要用spooldir链接两个flume代理?这将是非常缓慢,是一个令人惊讶的配置。在处理每一批时,您都要承担频繁fsync的成本。
我建议您使用avro接收器和avro源来链接它们。我还将批量大小至少增加到1000(计算机真的喜欢成批处理,flume就是这样设置的)。

相关问题