如何在pdf和doc文件上运行hadoop wordcount程序？

egdjgwm8 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(248)

如何在pdf和doc文件上运行hadoop wordcount程序？当我尝试在pdf文件上运行它时，输出显示奇怪的字符。

Java hadoop word-count pdf

来源：https://stackoverflow.com/questions/15302681/how-to-run-hadoop-wordcount-program-on-pdf-and-doc-files

2条答案

按热度按时间

6ljaweal1#

您提到的文件格式是二进制的，如果不将其预处理为纯文本，则不适合作为字数计算的输入。您首先必须使用其他工具/库将它们转换为纯文本格式。
可能有一些免费的命令行实用程序可以帮助您做到这一点。

赞(0）回复(0）举报 2021-06-03

sulc1iza2#

hadoop并不局限于处理明文文件，你当然可以处理二进制文件，例如 SequenceFile s是hadoop中最常见的二进制格式，但是如果您想要自定义二进制格式，也可以通过实现自己的二进制格式来实现 InputFormat 以及 RecordReader .
我建议您阅读这篇关于在hadoop中处理.doc文件的文章，以及这篇关于处理.docx和.pdf文件的文章，这篇文章应该适合您的需要。

赞(0）回复(0）举报 2021-06-03

我来回答

如何在pdf和doc文件上运行hadoop wordcount程序？

2条答案

相关问题

热门标签

最新问答