如何在pdf和doc文件上运行hadoop wordcount程序?当我尝试在pdf文件上运行它时,输出显示奇怪的字符。
6ljaweal1#
您提到的文件格式是二进制的,如果不将其预处理为纯文本,则不适合作为字数计算的输入。您首先必须使用其他工具/库将它们转换为纯文本格式。可能有一些免费的命令行实用程序可以帮助您做到这一点。
sulc1iza2#
hadoop并不局限于处理明文文件,你当然可以处理二进制文件,例如 SequenceFile s是hadoop中最常见的二进制格式,但是如果您想要自定义二进制格式,也可以通过实现自己的二进制格式来实现 InputFormat 以及 RecordReader .我建议您阅读这篇关于在hadoop中处理.doc文件的文章,以及这篇关于处理.docx和.pdf文件的文章,这篇文章应该适合您的需要。
SequenceFile
InputFormat
RecordReader
2条答案
按热度按时间6ljaweal1#
您提到的文件格式是二进制的,如果不将其预处理为纯文本,则不适合作为字数计算的输入。您首先必须使用其他工具/库将它们转换为纯文本格式。
可能有一些免费的命令行实用程序可以帮助您做到这一点。
sulc1iza2#
hadoop并不局限于处理明文文件,你当然可以处理二进制文件,例如
SequenceFile
s是hadoop中最常见的二进制格式,但是如果您想要自定义二进制格式,也可以通过实现自己的二进制格式来实现InputFormat
以及RecordReader
.我建议您阅读这篇关于在hadoop中处理.doc文件的文章,以及这篇关于处理.docx和.pdf文件的文章,这篇文章应该适合您的需要。