最近,我与SOLR建立了一个映像。我的目标是在Windows和Linux服务器上索引和提取文件。我可以从多个文件类型中索引和提取数据。这由SOLR CELL请求处理程序完成。请参阅帖子。下面的jar命令。
j ava-Dauto-Drecursive-jar帖子。jar Y:\SimplePostTool 1.5版将文件发布到基本url localhost:8983/solr/update..进入自动模式。考虑的文件结尾为xml、json、csv、pdf、doc、docx、ppt、pp-tx、xls、xlsx、odt、odp、ods、ott、otp、ots、rtf、htm、html、txt、log进入递归模式,最大深度=999,延迟=0s,索引的文件为0。
是否可以从.sh和.sql等文件类型索引和提取元数据/内容?如果可能的话,我当然想知道怎么做:)
3条答案
按热度按时间5gfr0r5j1#
您特别希望从.sh文件和.sql文件中提取哪些与任何其他通用文件(名称、位置、日期等)不同的内容。
是否要提取.sh中使用的命令名?是否要从.sql中提取表/字段名?我认为现在不可能,但如果有文件格式的解析器,它可以作为模块连接到Tika。而蒂卡是Solr在幕后使用的。
hof1towb2#
我今天解决了。我只需要将de-sh和sql添加到SimplePostTool.Java的mimeMap中。
我还将sh和sql添加到以下代码中:
xe55xuns3#
在此处输入链接描述仅用于检查的虚拟测试文本
感谢您为Stack Overflow提供答案!
但要避免…