使用node.js搜索pdf文本

sulc1iza  于 2021-06-20  发布在  Mysql
关注(0)|答案(1)|浏览(402)

我有数千个可搜索的PDF,其中一些高达1gb,超过2000页。我需要能够搜索这些文件中的文本字符串使用node.js应用程序。
现在,文件存储在google云存储桶中。
最好的办法是什么?
一些选项:
使用npm包之类的东西将pdf文件中的文本读入mysql pdf-text-extract . 然后使用mysql查询来搜索文本字符串。
使用一些npm包直接搜索pdf文件。
我完全疯了吗?有更好的办法吗?

d6kp6zgx

d6kp6zgx1#

有专门的文本搜索库,像这个,或者这个。很可能您需要从每个pdf中提取纯文本,保存并索引它们。然后你就可以运行搜索查询了。为这个特定的任务建立数据库可能是一种过分的做法。

相关问题