scala 什么时候使用opensearch-spark和opensearch-hadoop？

vdgimpew 于 5个月前发布在 Scala

关注(0)|答案(1)|浏览(53)

我需要从Spark（Azure Databricks）读取和写入OpenSearch。我可以使用SparkSQL，Scala或Pyspark（但由于Databricks的限制，不能使用Java）。我使用两个单独的包，opensearch-hadoop和opensearch-spark。
我可以告诉这两个包是为了不同的事情，基于他们的高层次描述：

OpenSearch Hadoop：“OpenSearch实时搜索和分析与Hadoop原生集成。支持Map/Reduce、Apache Hive、Apache Spark。”
OpenSearch Spark：“Spark加速器框架;它支持远程数据存储的二级索引。

然而，我不知道这实际上意味着什么。什么时候我想使用它们中的每一个？对于标准的嵌入式框架读取和写入，一个比另一个快吗？我应该知道的功能中是否有权衡？

scala

来源：https://stackoverflow.com/questions/77654952/when-to-use-opensearch-spark-versus-opensearch-hadoop

1条答案

按热度按时间

wkftcu5l1#

我已经设置了OpenSearch与Databricks（在AWS上）从Delta表流管道阅读数据：
Delta表→ PySpark DataFrame → Python转换→ OpenSearch REST API
它为前端应用程序的搜索提供动力，并且似乎工作得很好。您可能希望使用Azure服务原则访问OpenSearch来调用OpenSearch REST API。
在这个过程中，有几个问题得到了沿着解决，但它通常运行得很好，没有问题。OpenSearch通常会索引你扔给它的任何东西，但在索引中定义Map可能是一个好主意。

赞(0）回复(0）举报 5个月前

我来回答

scala 什么时候使用opensearch-spark和opensearch-hadoop？

1条答案

相关问题

热门标签

最新问答