scala Apache Spark中的shuffle read & shuffle write

pxq42qpu 于 5个月前发布在 Scala

关注(0)|答案(2)|浏览(60)

下面是Spark admin在8080端口上运行的截图：

的数据
“Shuffle Read”和“Shuffle Write”参数对于此代码始终为空：

import org.apache.spark.SparkContext;

object first {
  println("Welcome to the Scala worksheet")

  val conf = new org.apache.spark.SparkConf()
    .setMaster("local")
    .setAppName("distances")
    .setSparkHome("C:\\spark-1.1.0-bin-hadoop2.4\\spark-1.1.0-bin-hadoop2.4")
    .set("spark.executor.memory", "2g")
  val sc = new SparkContext(conf)

  def euclDistance(userA: User, userB: User) = {

    val subElements = (userA.features zip userB.features) map {
      m => (m._1 - m._2) * (m._1 - m._2)
    }
    val summed = subElements.sum
    val sqRoot = Math.sqrt(summed)

    println("value is" + sqRoot)
    ((userA.name, userB.name), sqRoot)
  }

  case class User(name: String, features: Vector[Double])

  def createUser(data: String) = {

    val id = data.split(",")(0)
    val splitLine = data.split(",")

    val distanceVector = (splitLine.toList match {
      case h :: t => t
    }).map(m => m.toDouble).toVector

    User(id, distanceVector)

  }

  val dataFile = sc.textFile("c:\\data\\example.txt")
  val users = dataFile.map(m => createUser(m))
  val cart = users.cartesian(users) //
  val distances = cart.map(m => euclDistance(m._1, m._2))
  //> distances  : org.apache.spark.rdd.RDD[((String, String), Double)] = MappedR
  //| DD[4] at map at first.scala:46
  val d = distances.collect //

  d.foreach(println) //> ((a,a),0.0)
  //| ((a,b),0.0)
  //| ((a,c),1.0)
  //| ((a,),0.0)
  //| ((b,a),0.0)
  //| ((b,b),0.0)
  //| ((b,c),1.0)
  //| ((b,),0.0)
  //| ((c,a),1.0)
  //| ((c,b),1.0)
  //| ((c,c),0.0)
  //| ((c,),0.0)
  //| ((,a),0.0)
  //| ((,b),0.0)
  //| ((,c),0.0)
  //| ((,),0.0)

}

字符串
为什么“Shuffle Read”&“Shuffle Write”字段为空？可以调整上述代码以填充这些字段，以便了解如何

scala

来源：https://stackoverflow.com/questions/27276884/what-is-shuffle-read-shuffle-write-in-apache-spark

2条答案

按热度按时间

r7xajy2e1#

Shuffling是指在多个Spark stage之间重新分配数据。“Shuffle Write”是在传输之前（通常在stage结束时）所有executors上所有写入的序列化数据的总和，而“Shuffle Read”是指在stage开始时所有executors上读取的序列化数据的总和。
你的程序只有一个阶段，由“collect”操作触发。不需要 Shuffle ，因为你只有一堆连续的map操作，它们在一个阶段中被流水线化。
试着看看这些幻灯片：http://de.slideshare.net/colorant/spark-shuffle-introduction
阅读原文第5章也会有帮助：http://people.csail.mit.edu/matei/papers/2012/nsdi_spark.pdf

赞(0）回复(0）举报 5个月前

zyfwsgd62#

我相信你必须在集群/分布式模式下运行你的应用程序才能看到任何Shuffle读或写值。通常“shuffle”由Spark操作的子集触发（例如，groupBy，join等）

赞(0）回复(0）举报 5个月前