如何打印流Dataframe的数据源选项(例如startingoffset)?

thtygnil  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(254)

我通过一个变量传递startingoffset。怀疑他们可能没有正确的价值观。如何打印回以验证spark结构化流选项?

val df = sparkSession
  .readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribe", "topic1")
  .option("startingOffsets", "{"topic1":{"1":100,"0":120}}")
)
 .load()
b1payxdu

b1payxdu1#

您可以打印流式Dataframe的扩展计划: df.explain(true) .
这将打印出您的选项,如下所示:

[...]StreamingRelation DataSource(org.apache.spark.sql.SparkSession@149aa7b2,kafka,List(),None,List(),None,Map(startingOffsets -> {"test":{"0":120}}, failOnDataLoss -> false, subscribe -> test, kafka.bootstrap.servers -> localhost:9092),None), kafka,[...]

(请不要混淆,我使用了我的个人选项,这意味着它们偏离了您的设置。)

相关问题