如何在pdf和doc文件上运行hadoop wordcount程序?

egdjgwm8  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(248)

如何在pdf和doc文件上运行hadoop wordcount程序?当我尝试在pdf文件上运行它时,输出显示奇怪的字符。

6ljaweal

6ljaweal1#

您提到的文件格式是二进制的,如果不将其预处理为纯文本,则不适合作为字数计算的输入。您首先必须使用其他工具/库将它们转换为纯文本格式。
可能有一些免费的命令行实用程序可以帮助您做到这一点。

sulc1iza

sulc1iza2#

hadoop并不局限于处理明文文件,你当然可以处理二进制文件,例如 SequenceFile s是hadoop中最常见的二进制格式,但是如果您想要自定义二进制格式,也可以通过实现自己的二进制格式来实现 InputFormat 以及 RecordReader .
我建议您阅读这篇关于在hadoop中处理.doc文件的文章,以及这篇关于处理.docx和.pdf文件的文章,这篇文章应该适合您的需要。

相关问题