选择dataframe中sum=50的最大行数

aydmsdu9 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(370)

这是我的Dataframe

+--------------+-----------+------------------+
|           _c3|sum(number)|              perc|
+--------------+-----------+------------------+
|        France|    5170305|1.3201573334529797|
|       Germany|    9912088|2.5308982087190754|
|       Vietnam|   14729566| 3.760966630301244|
|United Kingdom|   19435674| 4.962598446648971|
|   Philippines|   21994132| 5.615861086093151|
|         Japan|   35204549| 8.988936539189615|
|         China|   39453426|10.073821498682275|
|     Hong Kong|   39666589|  10.1282493704753|
|      Thailand|   57202857|14.605863902228613|
|      Malaysia|   72364309| 18.47710593603423|
|     Indonesia|   76509597|19.535541048174547|
+--------------+-----------+------------------+

我只想选择占乘客总数50%的排名靠前的国家（国家、乘客人数、乘客百分比）。我该怎么做？

apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/62005936/select-top-max-rows-which-has-sum-50-in-dataframe

1条答案

按热度按时间

wpcxdonn1#

您可以使用运行总数来存储累积百分比，然后按其进行筛选。因此，假设您的Dataframe足够小，这样做应该可以：

import org.apache.spark.sql.expressions.Window
val result = df.withColumn("cumulativepercentage", sum("perc").over(
                  Window.orderBy(col("perc").desc))
               ).where(col("cumulativepercentage").leq(50))
result.show(false)

赞(0）回复(0）举报 2021-05-27

我来回答

选择dataframe中sum=50的最大行数

1条答案

相关问题

热门标签

最新问答