为什么我们不能在MapReduce中使用java原始数据类型？

lymnna71 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(320)

我正在学习hadoopmapreduce框架。我很难找到为什么我们不能在MapReduce中使用java原始数据类型。

Java hadoop mapreduce

来源：https://stackoverflow.com/questions/33892074/why-cant-we-use-java-primitive-data-types-in-map-reduce

2条答案

按热度按时间

mnowg1ta1#

在hadoop中，进程间通信是通过远程过程调用（rpc）构建的。rpc协议使用序列化将消息呈现为发送方的二进制流，并将其从接收方的二进制流反序列化为原始消息。
为了提高hadoop的效率，应该优化序列化/反序列化过程，因为集群中的节点之间会发生大量的远程调用。所以序列化格式应该是 fast, compact, extensible and interoperable . 由于这个原因，hadoop框架提出了一个io类来代替java原始数据类型。例如。 IntWritbale for int, LongWritable for long, Text for String etc. 有关更多详细信息，请参阅hadoop最终指南第4版。
在apache网站上，可写的目的是：
基于数据输入和数据输出实现简单、高效的序列化协议的可序列化对象。

赞(0）回复(0）举报 2021-06-02

mnemlml82#

java序列化要求在序列化格式的对象的每个示例前面加上类的哈希前缀。因此，要读取对象，不需要指定类名。这会导致读取对象的开销，因为每个对象都可以是不同类的示例。
在hadoop序列化中，我们在检索类名时指定类名。因此，不需要前缀，因为我们已经知道要检索的内容。因此我们设置输入格式。这在rpc的各个方面提高了速度和性能。

赞(0）回复(0）举报 2021-06-02

我来回答

为什么我们不能在MapReduce中使用java原始数据类型？

2条答案

相关问题

热门标签

最新问答