spark metrics-csv sink在初始更新后不更新,除非在每次更新后清除池目录

xzv2uavs  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(187)

我正在databricks集群上用csv接收器实现spark度量。
下面是我基于metrics.properties.template链接使用的metrics.properties配置


* .sink.csv.class=org.apache.spark.metrics.sink.CsvSink

* .sink.csv.period=1
* .sink.csv.unit=minutes

* .sink.csv.directory=/dbfs/metrics_sink_csv_test/

worker.sink.csv.period=1
worker.sink.csv.unit=minutes

这适用于初始池,但是除非清除池目录,否则不会添加或更新任何文件。
(正在添加到池目录的度量文件的快照)
我的假设是,每次合并度量时,它们都以相同的文件名添加,如果文件已经存在,则会出现文件名冲突,并且不会添加新的度量。
目前,我运行了另一个spark作业,它连续清理池目录。
有什么办法可以避免这种情况吗?
如果文件名发生冲突,是否可以将度量附加到现有文件或创建新文件?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题