scala 什么时候使用opensearch-spark和opensearch-hadoop?

vdgimpew  于 5个月前  发布在  Scala
关注(0)|答案(1)|浏览(53)

我需要从Spark(Azure Databricks)读取和写入OpenSearch。我可以使用SparkSQL,Scala或Pyspark(但由于Databricks的限制,不能使用Java)。我使用两个单独的包,opensearch-hadoopopensearch-spark
我可以告诉这两个包是为了不同的事情,基于他们的高层次描述:

  • OpenSearch Hadoop:“OpenSearch实时搜索和分析与Hadoop原生集成。支持Map/Reduce、Apache Hive、Apache Spark。”
  • OpenSearch Spark:“Spark加速器框架;它支持远程数据存储的二级索引。

然而,我不知道这实际上意味着什么。什么时候我想使用它们中的每一个?对于标准的嵌入式框架读取和写入,一个比另一个快吗?我应该知道的功能中是否有权衡?

wkftcu5l

wkftcu5l1#

我已经设置了OpenSearch与Databricks(在AWS上)从Delta表流管道阅读数据:
Delta表→ PySpark DataFrame → Python转换→ OpenSearch REST API
它为前端应用程序的搜索提供动力,并且似乎工作得很好。您可能希望使用Azure服务原则访问OpenSearch来调用OpenSearch REST API。
在这个过程中,有几个问题得到了沿着解决,但它通常运行得很好,没有问题。OpenSearch通常会索引你扔给它的任何东西,但在索引中定义Map可能是一个好主意。

相关问题