如何优化spark函数以将双精度值舍入到2位小数？

a64a0gku 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(878)

下面是我的Spark函数，这是直截了当的

def doubleToRound(df:DataFrame,roundColsList:Array[String]): DataFrame ={
    var y:DataFrame = df
    for(colDF <- y.columns){
      if(roundColsList.contains(colDF)){
        y = y.withColumn(colDF,functions.round(y.col(colDF),2))
      }
    }

这与预期的一样，通过使给定df的多列值将十进制值四舍五入到2个位置。但是我在Dataframey中循环，直到列数组[sting].length（）出现。有没有更好的办法？
谢谢大家

hadoop scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/56283394/how-can-i-optimize-spark-function-to-round-a-double-value-to-2-decimals

1条答案

按热度按时间

bqf10yzr1#

你可以简单地使用 select 还有一个 map 如下例所示：

import org.apache.spark.sql.functions._
import spark.implicits._

val df = Seq(
  ("a", 1.22, 2.333, 3.4444),
  ("b", 4.55, 5.666, 6.7777)
).toDF("id", "v1", "v2", "v3")

val roundCols = df.columns.filter(_.startsWith("v"))  // Or filter with other conditions
val otherCols = df.columns diff roundCols

df.select(otherCols.map(col) ++ roundCols.map(c => round(col(c), 2).as(c)): _*).show
// +---+----+----+----+
// | id|  v1|  v2|  v3|
// +---+----+----+----+
// |  a|1.22|2.33|3.44|
// |  b|4.55|5.67|6.78|
// +---+----+----+----+

使之成为一种方法：

import org.apache.spark.sql.DataFrame

def doubleToRound(df: DataFrame, roundCols: Array[String]): DataFrame = {
  val otherCols = df.columns diff roundCols
  df.select(otherCols.map(col) ++ roundCols.map(c => round(col(c), 2).as(c)): _*)
}

或者，使用 foldLeft 以及 withColumn 具体如下：

def doubleToRound(df: DataFrame, roundCols: Array[String]): DataFrame =
  roundCols.foldLeft(df)((acc, c) => acc.withColumn(c, round(col(c), 2)))

赞(0）回复(0）举报 2021-05-29

我来回答

如何优化spark函数以将双精度值舍入到2位小数？

1条答案

相关问题

热门标签

最新问答