我有一份用java写的mapreduce工作。它取决于多个类。我想在spark上运行mapreduce作业。我应该遵循哪些步骤来做同样的事情?我只需要修改mapreduce类?谢谢!
wnrlj8wa1#
这是一个非常广泛的问题,但其不足之处在于:创建输入数据的rdd。呼叫 map 用你的Map代码。输出键值对。呼叫 reduceByKey 用你的代码。将生成的rdd写入磁盘。spark比mapreduce更灵活:在步骤1和步骤4之间可以使用多种方法来转换数据。
map
reduceByKey
1条答案
按热度按时间wnrlj8wa1#
这是一个非常广泛的问题,但其不足之处在于:
创建输入数据的rdd。
呼叫
map
用你的Map代码。输出键值对。呼叫
reduceByKey
用你的代码。将生成的rdd写入磁盘。
spark比mapreduce更灵活:在步骤1和步骤4之间可以使用多种方法来转换数据。