spark structed streaming pyspark sink csv不附加

c6ubokkw 于 2021-06-06 发布在 Kafka

关注(0)|答案(1)|浏览(224)

将json写入kafka主题并从kafka主题读取json。实际上，我订阅主题并逐行编写控制台。但我必须沉/写csv文件。但我不能。我只写了一次csv，但没有附加。
你可以在下面看到我的密码。
谢谢您！

import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import pyspark.sql.functions as func
spark = SparkSession.builder\
                    .config('spark.jars.packages', 'org.apache.spark:spark-sql-kafka-0-10_2.11:2.3.0') \
                    .appName('kafka_stream_test')\
                    .getOrCreate()
ordersSchema = StructType() \
        .add("a", StringType()) \
        .add("b", StringType()) \
        .add("c", StringType()) \
        .add("d", StringType())\
        .add("e", StringType())\
        .add("f", StringType())

df = spark \
    .readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", "localhost:9092") \
    .option("subscribe", "product-views") \
    .load()\

df_query = df \
    .selectExpr("cast(value as string)") \
    .select(func.from_json(func.col("value").cast("string"),ordersSchema).alias("parsed"))\
    .select("parsed.a","parsed.b","parsed.c","parsed.d","parsed.e","parsed.f")\

df = df_query \
    .writeStream \
    .format("csv")\
    .trigger(processingTime = "5 seconds")\
    .option("path", "/var/kafka_stream_test_out/")\
    .option("checkpointLocation", "/user/kafka_stream_test_out/chk") \
    .start()

df.awaitTermination()

apache-kafka apache-spark pyspark spark-structured-streaming python-3.x

来源：https://stackoverflow.com/questions/59695116/spark-structred-streaming-pyspark-sink-csv-doesnt-append

1条答案

按热度按时间

mnowg1ta1#

是的，因为你需要这个额外的选择 .option("format", "append") :

aa = df_query \
    .writeStream \
    .format("csv")\
    .option("format", "append")\
    .trigger(processingTime = "5 seconds")\
    .option("path", "/var/kafka_stream_test_out/")\
    .option("checkpointLocation", "/user/kafka_stream_test_out/chk") \
    .outputMode("append") \
    .start()

赞(0）回复(0）举报 2021-06-06

我来回答

spark structed streaming pyspark sink csv不附加

1条答案

相关问题

热门标签

最新问答