高效的文本搜索大型术语列表：Python vs PostgreSQL vs Elasticsearch

rt4zxlrg 于 5个月前发布在 ElasticSearch

关注(0)|答案(1)|浏览(46)

bounty将在6天后过期。回答此问题可获得+50声望奖励。Batuhan B希望引起更多关注此问题。

我有一个包含长度从1到10个单词不等的术语的列表，大约有500，000个条目。（从PDF转换，通常1.5至2页长）。我需要执行的搜索不仅作为精确匹配，但也使用模糊（例如，术语“莱昂内尔梅西”应该匹配文本中的“莱昂内尔梅西”）和接近选项（例如，术语“莱昂内尔梅西”应该匹配文本中的“莱昂内尔J.梅西”）。
我的目标是近实时地解决这个问题（1-2秒）。我尝试过使用trie数据结构和并行化，但特别是当模糊方面发挥作用时，列表的大小和PDF长度导致处理时间很长（大约30秒）。
我该如何处理这个问题？
1.我可以用Python库（使用并行化、trie结构等）动态处理它吗？

PostgreSQL中是否有支持这种搜索的特性？
1.我应该使用像Elasticsearch这样的框架吗？”

来源：https://stackoverflow.com/questions/77749076/efficient-text-search-for-large-term-list-python-vs-postgresql-vs-elasticsearch

1条答案

按热度按时间

postgres提供了原生的全文搜索功能，如https://www.postgresql.org/docs/current/textsearch.html或https://www.postgresql.org/docs/current/pgtrgm.html
还有一些扩展，比如最近的https://docs.paradedb.com/blog/introducing_bm25或https://github.com/pgvector/pgvector，它们作用于LLM生成的向量（f.e）。

赞(0）回复(0）举报 5个月前

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 4个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 4个月前