apachespark2.3.1-pyspark.sql.sparksession.builder.enablehivesupport()是否必要?

uhry853o  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(467)

关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。

两年前关门了。
改进这个问题
我对hive的理解是,它提供了一种使用sql命令查询hdfs的方法。
好吧,但还有Spark。spark有它所有的rdd类方法,它们完全有能力,但是我更喜欢sql。
输入spark sql。既然我可以使用sparksql用sql查询我的db,那么为什么hive会进入这个画面呢?
医生说:

enableHiveSupport():
Enables Hive support, including connectivity to a persistent Hive metastore, support for Hive serdes, and Hive user-defined functions.

为什么需要连接到配置单元元存储?在spark的文档中,它说要配置hdfs-site.xml和core-site.xml并设置 HADOOP_CONF_DIR$SPARK_HOME/conf/spark-env.sh 到包含配置文件的位置。
http://spark.apache.org/docs/latest/configuration.html#inheriting-hadoop群集配置
注意:这是我第一次简单地阅读文档,并试图了解发生了什么。。。Apache很有趣。
有人能证实我能忘掉Hive吗?

acruukt9

acruukt91#

Spark壳有这个自动。在已编译的spark submit中,您需要配置单元支持来访问和更新配置单元metastore或spark metastore。礼宾问题。对于数据库访问的jdbc用法,不需要它。如果只写文件,那么也不需要,例如Parquet写入或附加到hdfs子目录。但是你不能使用spark.sql。。。对一个Hive表, Impala 表,因为它只是一个文件。如果想通过 Impala jdbc,kudu有点不同。

相关问题