flink检查点用于大型源数据

p4rjhz4m 于 2021-06-24 发布在 Flink

关注(0)|答案(1)|浏览(247)

我正在使用一个flink流应用程序，输入源作为nfs文件系统，sink作为kafka生产者。
我使用的是continousmonitoring函数，它转发不支持parllelism的文件分割，以及带有parllelism的continousfileoperator。
我们拥有的初始数据是4tb的数据。对于初始传输，continousmonitor函数需要很长时间来准备状态，这是正常的，但是检查点在完成之前会一直过期。我已经把checkpointTimeout改为3小时，仍然失败。
我能知道什么是检查点状态吗？它和数据的大小有关系吗？
我能知道我该怎么计算这个州的规模吗？
对于大数据的初始运行，有没有更好的方法？

Java apache-flink checkpoint state FileSystems

来源：https://stackoverflow.com/questions/61181387/flink-checkpoint-for-a-large-source-data