apachespark2.3.1-pyspark.sql.sparksession.builder.enablehivesupport()是否必要？

uhry853o 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(467)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗？**更新这个问题，这样就可以通过编辑这篇文章用事实和引文来回答。

两年前关门了。
改进这个问题
我对hive的理解是，它提供了一种使用sql命令查询hdfs的方法。
好吧，但还有Spark。spark有它所有的rdd类方法，它们完全有能力，但是我更喜欢sql。
输入spark sql。既然我可以使用sparksql用sql查询我的db，那么为什么hive会进入这个画面呢？
医生说：

enableHiveSupport():
Enables Hive support, including connectivity to a persistent Hive metastore, support for Hive serdes, and Hive user-defined functions.

为什么需要连接到配置单元元存储？在spark的文档中，它说要配置hdfs-site.xml和core-site.xml并设置 HADOOP_CONF_DIR 在 $SPARK_HOME/conf/spark-env.sh 到包含配置文件的位置。
http://spark.apache.org/docs/latest/configuration.html#inheriting-hadoop群集配置
注意：这是我第一次简单地阅读文档，并试图了解发生了什么。。。Apache很有趣。
有人能证实我能忘掉Hive吗？

hadoop Hive apache-spark

来源：https://stackoverflow.com/questions/51866108/apache-spark-2-3-1-is-pyspark-sql-sparksession-builder-enablehivesupport-nec

1条答案

按热度按时间

acruukt91#

Spark壳有这个自动。在已编译的spark submit中，您需要配置单元支持来访问和更新配置单元metastore或spark metastore。礼宾问题。对于数据库访问的jdbc用法，不需要它。如果只写文件，那么也不需要，例如Parquet写入或附加到hdfs子目录。但是你不能使用spark.sql。。。对一个Hive表， Impala 表，因为它只是一个文件。如果想通过 Impala jdbc，kudu有点不同。

赞(0）回复(0）举报 2021-05-29

我来回答

apachespark2.3.1-pyspark.sql.sparksession.builder.enablehivesupport()是否必要？

1条答案

相关问题

热门标签

最新问答