使用hadoop流媒体和python计算中值

zzoitvuj 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(158)

我已经通读了这个问题的各种变体及其相关的答案，但没有找到解决我的特定问题的方法。我相信这个问题的答案对其他人也有帮助。
我试图在hadoop流框架中使用pythonMap器和reducer定义一种概念性方法来计算单个字段中一系列数字的中值。
假设我们有一个包含20个字段和400万行的csv。我们怎么计算场的中值呢，我们称之为 number ，它保存一个值（例如。 307, 212, 719, 2123, 77, 398 等等）？
我知道一些使用纯python和pandas的方法，但是它们不能在hadoop流框架中进行转换。谢谢您。

hadoop python Median

来源：https://stackoverflow.com/questions/36251151/calculating-median-using-hadoop-streaming-and-python