如何从kafka中减少sparkDataframe并收集结果？

kyxcudwk 于 2021-06-04 发布在 Kafka

关注(0)|答案(1)|浏览(282)

我有一个从Kafka流创建的Dataframe。我想把它减少到一个值，然后在我的程序中使用这个值。

```scala
import sparkSession.implicits._
val df = sparkSession
  .readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", ...)
  .option("subscribe", "theTopic")
  .load()

val result = df
  .selectExpr("CAST(value AS STRING) as json")
  .map(json => getAnInt(json))
  .reduce { (x, y) =>
    if (x > y) x else y
  }

 someOtherFunction(result)

我希望将流简化为一个值，然后在我的程序的其余部分中使用。相反，它失败了：
org.apache.spark.sql.analysisexception:具有流源的查询必须使用writestream.start（）执行；；kafka位于org.apache.spark.sql.catalyst.analysis.unsupportedoperationchecker$.throwerror（unsupportedoperationchecker）。scala:389)在org.apache.spark.sql.catalyst.analysis.u。。。

scala apache-kafka apache-spark reduce

来源：https://stackoverflow.com/questions/57122759/how-do-i-reduce-a-spark-dataframe-from-kafka-and-collect-the-result