在pyspark中基于条件连接表

vm0i2vca  于 6个月前  发布在  Spark
关注(0)|答案(1)|浏览(58)

我想连接pyspark表,其中第一个表有idstartTimeendTime,其中第二个表有Timevalue。合并后的表将有每个id的列Timevalue,其中startTime<=Time<=endTimeid中的startTimeendTime s可能重叠

06odsfpq

06odsfpq1#

假设df1和df2是你的两个数组:

from pyspark.sql import functions as F

result = df1.join(
    df2,
    on=F.col("Time").between(F.col("startTime"), F.col("endTime")),
    how="inner",
)

字符串

相关问题