SOLR索引和提取.sh和.sql文件

mcdcgff0  于 2022-09-27  发布在  Solr
关注(0)|答案(3)|浏览(90)

最近,我与SOLR建立了一个映像。我的目标是在Windows和Linux服务器上索引和提取文件。我可以从多个文件类型中索引和提取数据。这由SOLR CELL请求处理程序完成。请参阅帖子。下面的jar命令。
j ava-Dauto-Drecursive-jar帖子。jar Y:\SimplePostTool 1.5版将文件发布到基本url localhost:8983/solr/update..进入自动模式。考虑的文件结尾为xml、json、csv、pdf、doc、docx、ppt、pp-tx、xls、xlsx、odt、odp、ods、ott、otp、ots、rtf、htm、html、txt、log进入递归模式,最大深度=999,延迟=0s,索引的文件为0。
是否可以从.sh和.sql等文件类型索引和提取元数据/内容?如果可能的话,我当然想知道怎么做:)

5gfr0r5j

5gfr0r5j1#

您特别希望从.sh文件和.sql文件中提取哪些与任何其他通用文件(名称、位置、日期等)不同的内容。
是否要提取.sh中使用的命令名?是否要从.sql中提取表/字段名?我认为现在不可能,但如果有文件格式的解析器,它可以作为模块连接到Tika。而蒂卡是Solr在幕后使用的。

hof1towb

hof1towb2#

我今天解决了。我只需要将de-sh和sql添加到SimplePostTool.Java的mimeMap中。

mimeMap = new HashMap<>();
mimeMap.put("xml", "text/xml");
mimeMap.put("csv", "text/csv");
mimeMap.put("json", "application/json");
mimeMap.put("pdf", "application/pdf");
mimeMap.put("rtf", "text/rtf");
mimeMap.put("html", "text/html");
mimeMap.put("htm", "text/html");
mimeMap.put("doc", "application/msword");
mimeMap.put("docx", "application/vnd.openxmlformats-officedocument.wordprocessingml.document");
mimeMap.put("ppt", "application/vnd.ms-powerpoint");
mimeMap.put("pptx", "application/vnd.openxmlformats-officedocument.presentationml.presentation");
mimeMap.put("xls", "application/vnd.ms-excel");
mimeMap.put("xlsx", "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet");
mimeMap.put("odt", "application/vnd.oasis.opendocument.text");
mimeMap.put("ott", "application/vnd.oasis.opendocument.text");
mimeMap.put("odp", "application/vnd.oasis.opendocument.presentation");
mimeMap.put("otp", "application/vnd.oasis.opendocument.presentation");
mimeMap.put("ods", "application/vnd.oasis.opendocument.spreadsheet");
mimeMap.put("ots", "application/vnd.oasis.opendocument.spreadsheet");
mimeMap.put("txt", "text/plain");
mimeMap.put("log", "text/plain");
mimeMap.put("sh", "text/plain");
mimeMap.put("sql", "text/plain");

我还将sh和sql添加到以下代码中:

private static final String DEFAULT_FILE_TYPES = "xml,json,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log";
xe55xuns

xe55xuns3#

在此处输入链接描述仅用于检查的虚拟测试文本
感谢您为Stack Overflow提供答案!

Please be sure to answer the question. Provide details and share your research!

但要避免…

Asking for help, clarification, or responding to other answers.
Making statements based on opinion; back them up with references or personal experience.

相关问题