我可以在mapreduce作业中使用combiner来计算平均值吗？

4nkexdtk 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(293)

我想实现一个mapreduce作业，该作业读取具有以下架构的Parquet文件：

{
  optional int96 dropoff_datetime;
  optional float dropoff_latitude;
  optional float dropoff_longitude;
  optional int32 dropoff_taxizone_id;
  optional float ehail_fee;
  optional float extra;
  optional float fare_amount;
  optional float improvement_surcharge;
  optional float mta_tax;
  optional int32 passenger_count;
  optional binary payment_type (UTF8);
  optional int96 pickup_datetime;
  optional float pickup_latitude;
  optional float pickup_longitude;
  optional int32 pickup_taxizone_id;
  optional int32 rate_code_id;
  optional binary store_and_fwd_flag (UTF8);
  optional float tip_amount;
  optional float tolls_amount;
  optional float total_amount;
  optional float trip_distance;
  optional binary trip_type (UTF8);
  optional binary vendor_id (UTF8);
  required int64 trip_id;
}

这项工作的主要目标是计算出租车每天每小时的平均速度（0->23）。
我的mapper类计算每一小时的速度，因此它提供以下几点（小时，速度）。
减速器类通常应该计算每小时的平均速度。
但是，我想知道是否可以使用组合器类来促进数据处理，因为我了解到组合器类只能用于交换和关联操作，而这不是平均值的情况，对吗？
任何帮助都将不胜感激。
谢谢：）

hadoop mapreduce reducers average combiners

来源：https://stackoverflow.com/questions/49147578/can-i-use-combiner-to-compute-average-in-a-mapreduce-job

1条答案

按热度按时间

b5buobof1#

合并器可以帮助计算平均值。你基本上想使用合并器来给你一个运行总数，你可以用它来计算平均值。
作为输入，组合器将得到 (hour, (speed, 1)) ，并作为它应该产生的输出 (hour, (sum_speed, num_records)) . 然后，减速机可以通过除以 sum_speed 由 num_records .
例如，如果组合器1作为输入接收：

(1, (50, 1))
(1, (20, 1))
(1, (10, 1))
(23, (16, 1))

然后它会输出：

(1, (80, 3))
(23, (16, 1))

如果组合器2作为输入接收：

(1, (20, 1))
(23, (40, 1))

然后它会输出：

(1, (20, 1))
(23, (40, 1))

然后，在除以之前，减速机将再次求和：

(1, (80+20, 3+1)) = (1, (100, 4)) = (1, 25) 
(23, (16+40, 1+1)) = (23, (56, 2)) = (23, 28)

给你答案的形式 (hour, average_speed) .

赞(0）回复(0）举报 2021-06-01

我来回答

我可以在mapreduce作业中使用combiner来计算平均值吗？

1条答案

相关问题

热门标签

最新问答