级联可以重写/替换apachespark和scala吗？是不是更理想？

sgtfey8w 于 2021-07-15 发布在 Hadoop

关注(0)|答案(0)|浏览(165)

我必须尽可能地将用pig和java编写的map-reduce代码替换为apachespark&scala，并在不可能的地方重用或找到替代方法。我可以找到大多数Pig转化为Spark。现在，我遇到了我所知甚少的java级联代码。我已经研究了级联，了解了管道是如何工作的，但我不能得出结论，是否用spark取代它。以下是我的一些基本疑问。
级联java代码可以在apachespark中完全重写吗？
如果可能的话，是否应该用apachespark替换级联代码？它是否更加优化和快速？（考虑到ram不是rdd的问题）
烫伤是建立在级联之上的scala库。这是否应该用于将java代码转换为scala代码，从而消除java源代码依赖性？这样会更好吗？
级联在mapreduce上工作，mapreduce读取i/o流，而spark从内存读取。这是唯一的区别，还是有任何限制或特殊功能只能由其中一个执行？
我对大数据领域非常陌生，对所有与大数据相关的术语hadoop、spark、map reduce、hive、flink等的概念/比较非常不成熟。我通过新的工作简介和最少的高级知识/经验掌握了这些大数据职责。请尽可能提供解释性答案。谢谢

hadoop mapreduce scala apache-spark cascading

来源：https://stackoverflow.com/questions/65765705/can-cascading-rewritten-replaced-apache-spark-scala-is-it-more-optimal