在dfs中索引数据

np8igboo  于 2021-06-04  发布在  Flume
关注(0)|答案(1)|浏览(208)

我使用hadoop fs-put命令将数据加载到hdfs中,数据是一组丰富的文档,如pdf、doc和文本文件。如何索引这些数据以便能够在solr中查询它?

3okqufwl

3okqufwl1#

使用apache tika。它是为从pdf或doc等丰富的文件格式中提取文本和元数据而创建的。solr附带了用于tika的jar,因此您只需快速查看将jar用作命令行实用程序的说明,就可以开始了:http://tika.apache.org/1.5/gettingstarted.html

相关问题