如何对pyspark数据块中的读取流数据应用用户定义的函数

5f0d552i  于 2021-07-14  发布在  Spark
关注(0)|答案(1)|浏览(245)

我有下面的代码将事件中心数据读入数据块。

问:在read_dfDataframe中,我有一个加密的json体。我想应用一个用户定义的函数,它返回一个带有解码体值的datafarme。假设函数名是decode(encoded\u body\u value)。如何将其应用于读取的流数据,以便此操作也成为流。意味着当事件到达时,它应该触发解码并用body的解码值创建Dataframe。

sirbozc5

sirbozc51#

由于udf在行级别工作,它也将与流Dataframe一起工作。只要做:

read_df.select(decode(col("value")).alias("decoded")

相关问题