如何将多个pdf转换解析为hadoop(示例)

50pmv0ei  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(220)

我有一百万个pdf,如何使用hadoop转换成文本,并将其用于分析。目标是利用hadoop的强大功能将pdf数据提取为文本。

xoefb8l8

xoefb8l81#

我已经在hadoop上处理了一个pdf文件,没有尝试过使用多个文件,但我相信它也可以用于多个文件。。
完整的代码可在下面的链接
http://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.html
希望这有帮助!!。。

相关问题