如何在elasticsearch spark中获取实体索引

dkqlctbz  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(359)

我正在使用elasticsearch hadoop/spark库创建
Spark RDD 来自elasticsearch查询的。
这个 esRDD 方法返回原始文档( _source ,以及文档的id( _id 但是我还需要关于返回文档的附加信息,比如每个文档的elasticsearch索引和类型(这些信息总是可以从es restapi获得)。
如何获取文档的索引和类型信息 RDDesRDD 方法?
编辑
我正在查询多个索引,即调用 esRDD 看起来像这样:

sparkContext.esRDD("index*/entities", query)

而实际的索引是“index1”,“index2”,等等。所以,我想知道结果中每个实体的具体索引 RDD 来自。

thigvfpy

thigvfpy1#

万一将来有人偶然发现:
解决办法是设置 es.read.metadata 设置为 true (参见此处)。这增加了 _metadata 字段中的每个文档 esRDD ,其中包含文档的索引、类型、id、版本等信息。

相关问题