scala—如何动态定义流数据集的模式以写入csv？

i7uaboj4 于 2021-06-08 发布在 Kafka

关注(0)|答案(1)|浏览(470)

我有一个流数据集，从Kafka读取，并试图写入csv

case class Event(map: Map[String,String])
def decodeEvent(arrByte: Array[Byte]): Event = ...//some implementation
val eventDataset: Dataset[Event] = spark
  .readStream
  .format("kafka")
  .load()
  .select("value")
  .as[Array[Byte]]
  .map(decodeEvent)
``` `Event` 持有 `Map[String,String]` 在内部和写入csv我需要一些模式。
假设所有字段都是 `String` 所以我尝试了spark回购的例子

val columns = List("year","month","date","topic","field1","field2")
val schema = new StructType() //Prepare schema programmatically
columns.foreach { field => schema.add(field, "string") }
val rowRdd = eventDataset.rdd.map { event => Row.fromSeq(
columns.map(c => event.getOrElse(c, "")
)}
val df = spark.sqlContext.createDataFrame(rowRdd, schema)

这会在运行时的“eventdataset.rdd”行上出现错误：
原因：org.apache.spark.sql.analysisexception:流源查询必须使用writestream.start（）执行；；
下面不起作用，因为“.map”有一个列表[string]而不是元组

eventDataset.map(event => columns.map(c => event.getOrElse(c,""))
.toDF(columns:_*)

有没有一种方法可以通过编程模式和结构化流数据集来实现这一点？

scala apache-kafka apache-spark spark-structured-streaming spark-csv

来源：https://stackoverflow.com/questions/45380479/how-to-define-schema-of-streaming-dataset-dynamically-to-write-to-csv

1条答案

按热度按时间

xesrikrc1#

我会使用更简单的方法：

import org.apache.spark.sql.functions._

eventDataset.select(columns.map(
  c => coalesce($"map".getItem(c), lit("")).alias(c)
): _*).writeStream.format("csv").start(path)

但是如果您想要更接近当前解决方案，请跳过rdd转换

import org.apache.spark.sql.catalyst.encoders.RowEncoder

eventDataset.rdd.map(event =>
  Row.fromSeq(columns.map(c => event.getOrElse(c,"")))
)(RowEncoder(schema)).writeStream.format("csv").start(path)

赞(0）回复(0）举报 2021-06-08

我来回答

scala—如何动态定义流数据集的模式以写入csv？

1条答案

相关问题

热门标签

最新问答