我有一百万个pdf,如何使用hadoop转换成文本,并将其用于分析。目标是利用hadoop的强大功能将pdf数据提取为文本。
xoefb8l81#
我已经在hadoop上处理了一个pdf文件,没有尝试过使用多个文件,但我相信它也可以用于多个文件。。完整的代码可在下面的链接http://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.html希望这有帮助!!。。
1条答案
按热度按时间xoefb8l81#
我已经在hadoop上处理了一个pdf文件,没有尝试过使用多个文件,但我相信它也可以用于多个文件。。
完整的代码可在下面的链接
http://ybhavesh.blogspot.in/2015/12/poc-sensex-log-data-processing-pdf-file.html
希望这有帮助!!。。