apache flink-dataset api支持将输出写入单个文件分区吗

cgfeq70w 于 2021-06-21 发布在 Flink

关注(0)|答案(1)|浏览(366)

我正在使用flink的dataset api，我正在尝试用pojo中的一个键（例如date）对Parquet文件进行分区。最终目标是使用以下文件结构写下我的文件。

/output/
    20180901/
        file.parquet
    20180902/
        file.parquet

flink提供了一个方便的 Package 类 AvroParquetOutputFormat 如下所示，但我没有看到提供分区键。

HadoopOutputFormat<Void, Pojo> outputFormat = 
    new HadoopOutputFormat(new AvroParquetOutputFormat(), Job.getInstance());

我在想最好的办法。我需要写我自己的版本吗 AvroParquetOutputFormat 它扩展了hadoop MultipleOutputs 或者我可以利用flinkapi来为我做这件事。
Spark的当量是。

df.write.partitionBy('date').parquet('base path')

parquet apache-flink

来源：https://stackoverflow.com/questions/52204034/apache-flink-does-dataset-api-support-writing-output-to-individual-file-partit

1条答案

按热度按时间

zc0qhyus1#

你可以用 BucketingSink<T> sink在通过提供的示例定义的分区中写入数据 Bucketer 接口。有关示例，请参见datetimebucketer。https://github.com/apache/flink/blob/master/flink-connectors/flink-connector-filesystem/src/main/java/org/apache/flink/streaming/connectors/fs/datetimebucketer.java

赞(0）回复(0）举报 2021-06-21

我来回答

apache flink-dataset api支持将输出写入单个文件分区吗

1条答案

相关问题

热门标签

最新问答