python—将Dataframe中的值添加到另一个Dataframe中的列

vdzxcuhz 于 2021-07-14 发布在 Spark

关注(0)|答案(2)|浏览(536)

如何从dataframe添加值 A 添加到新列( sum )在Dataframe中 B 包含给定Dataframe对的 A ? 最好是有自定义项？
输出应如下所示：
Dataframea：

|id|value|
|--|-----|
|1 |   10|
|2 |  0.3|
|3 |  100|

Dataframeb:（添加列） sum )

|src|dst|sum  |
|---|---|-----|
|1  |2  |10.3 |
|2  |3  |100.3|
|3  |1  |110  |

我试过了

dfB = dfB.withColumn('sum', sum(dfB.source,dfB.dst,dfA))

def sum(src,dst,dfA):
    return dfA.filter(dfA.id == src).collect()[0][1][0] + dfA.filter(dfA.id == dst).collect()[0][1][0]

python DataFrame apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/66697451/adding-values-from-a-dataframe-to-a-column-in-another-dataframe-pyspark

2条答案

按热度按时间

mv1qrgav1#

如果 dfA 对于广播连接来说足够小，那么这应该可以工作：

dfB.join(dfA, how="left", on=F.col("src") == F.col("id")).select(
    "src", "dst", F.coalesce(F.col("value"), F.lit(0)).alias("v1")
).join(dfA, how="left", on=F.col("src") == F.col("id")).select(
    "src", "dst", (F.col("v1") + F.coalesce(F.col("value"), F.lit(0))).alias("sum")
)

您可以删除 .coalesce() ，如果id列包含每个src和dst值。有一些方法可以实现这一点，但你最好的选择可能是使用 .transform() .

def join_sum(join_df):
    def _(df):
        return (
            df.join(join_df, how="left", on=F.col("src") == F.col("id"))
            .select("src", "dst", F.coalesce(F.col("value"), F.lit(0)).alias("v1"))
            .join(join_df, how="left", on=F.col("src") == F.col("id"))
            .select(
                "src",
                "dst",
                (F.col("v1") + F.coalesce(F.col("value"), F.lit(0))).alias("sum"),
            )
        )

    return _

dfB.transform(join_sum(dfA))

赞(0）回复(0）举报 2021-07-14

gdx19jrr2#

基本上你需要加入2个Dataframe的条件 (id = src OR id = dst) 然后分组对列求和 value :

from pyspark.sql import functions as F

output = df_a.join(
    df_b, 
    (F.col("id") == F.col("src")) | (F.col("id") == F.col("dst"))
).groupBy("src", "dst").agg(F.sum("value").alias("sum"))

output.show()

# +---+---+-----+

# |src|dst|  sum|

# +---+---+-----+

# |  2|  3|100.3|

# |  1|  2| 10.3|

# |  3|  1|110.0|

# +---+---+-----+

赞(0）回复(0）举报 2021-07-14

我来回答

python—将Dataframe中的值添加到另一个Dataframe中的列

2条答案

相关问题

热门标签

最新问答