ApacheSpark—选择对列排序后的第一个元素，并将其转换为scala中的列表

zpf6vheq 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(307)

在scala中，对Dataframe中的一列进行排序、将其转换为list并将第一个元素赋给variable的最有效方法是什么。我试了以下方法

import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions.{col, first, regexp_replace}
import org.apache.spark.sql.functions._

println(CONFIG.getString("spark.appName"))

  val conf = new SparkConf()
    .setAppName(CONFIG.getString("spark.appName"))
    .setMaster(CONFIG.getString("spark.master"))

  val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()

val df = spark.read.format("com.databricks.spark.csv").option("delimiter", ",").load("file.csv")
val dfb=df.sort(desc("_c0"))
val list=df.select(df("_c0")).distinct

但我仍然无法将第一个元素保存为变量

scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/61810547/select-the-first-element-after-sorting-column-and-convert-it-to-list-in-scala

1条答案

按热度按时间

q43xntqr1#

使用 select , orderBy , map & head 假定列 _c0 属于类型 string ，如果是不同的类型，则必须在中修改列数据类型 _.getAs[<your column datatype>] 检查以下代码。

scala> import spark.implicits._
import spark.implicits._

scala> val first = df
.select($"_c0")
.orderBy($"_c0".desc)
.map(_.getAs[String](0))
.head

或

scala> import spark.implicits._
import spark.implicits._

scala> val first = df
.select($"_c0")
.orderBy($"_c0".desc)
.head
.getAs[String](0)

赞(0）回复(0）举报 2021-05-27

我来回答

ApacheSpark—选择对列排序后的第一个元素，并将其转换为scala中的列表

1条答案

相关问题

热门标签

最新问答