mapreduce到spark

t9aqgxwy  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(213)

我有一份用java写的mapreduce工作。它取决于多个类。我想在spark上运行mapreduce作业。
我应该遵循哪些步骤来做同样的事情?
我只需要修改mapreduce类?
谢谢!

wnrlj8wa

wnrlj8wa1#

这是一个非常广泛的问题,但其不足之处在于:
创建输入数据的rdd。
呼叫 map 用你的Map代码。输出键值对。
呼叫 reduceByKey 用你的代码。
将生成的rdd写入磁盘。
spark比mapreduce更灵活:在步骤1和步骤4之间可以使用多种方法来转换数据。

相关问题