java—有没有bigdata工具来处理pdf文档

fhg3lkii  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(204)

我必须处理pdf文件。bigdata中是否有任何工具可以处理我的pdf文档(半结构化数据)??例如。。如果我的pdf文档包含任何主题,如摘要或行动,我必须检索那些没有任何页脚的段落。现在我正在使用pdfbox和javaapi来提取我的pdf文档,但是有没有bigdata工具可以做同样的提取??

cigdeys3

cigdeys31#

我不知道有什么工具可以做你想做的事情,但是如果你可以设置一个hadoop集群(或者使用amazonaws服务),那么你可以很容易地使用hadoop流通过一个用户定义的程序来传递pdf文档(你在java中拥有的应该可以很好地工作)。
在前面的问题中,有一个很好的例子说明了如何将hadoop流与自定义java程序结合使用。

相关问题