flink数据源迭代

doinxwow 于 2021-05-31 发布在 Hadoop

关注(0)|答案(2)|浏览(293)

我正在尝试迭代数据源：

val env = ExecutionEnvironment.getExecutionEnvironment
      env.setParallelism(1)

      val job = Job.getInstance
      FileInputFormat.addInputPath(
        job,
        new Path("file.parquet.gz")
      )

      val hadoopInputFormat: HadoopInputFormat[Void, GenericRecord] =
        new HadoopInputFormat(
          new AvroParquetInputFormat[GenericRecord],
          classOf[Void],
          classOf[GenericRecord],
          job
        )
       val data: DataSource[tuple.Tuple2[Void, GenericRecord]] = env.createInput(hadoopInputFormat)

当我做data.print时，我可以看到元组中的数据。
但当我这么做的时候：

data.map
     {
       res =>
         println("!!!!!!!!!!!111")
         println( res.f1)
     }

什么也没印出来。
我想迭代数据源并获取genericord。请帮帮我。

hadoop apache-flink flink-streaming DataSource

来源：https://stackoverflow.com/questions/60770087/flink-datasource-iterate

2条答案

按热度按时间

kzipqqlq1#

为了执行flink批处理程序而不调用 print 或者 collect ，你需要打电话 env.execute() . 在没有上述api调用的情况下，只有这个调用才会触发程序的执行。

赞(0）回复(0）举报 2021-06-01

e37o9pze2#

您可以使用data.collect然后使用：data.iterator（）.next（）进行迭代

赞(0）回复(0）举报 2021-06-01

我来回答

flink数据源迭代

2条答案

相关问题

热门标签

最新问答