我使用pyspark3.4.0特性spark-connet模块连接远程hive 3.1.3。
在支持Hive的本地模式下创建SparkSession时,可以查看Hive中的所有数据库;
spark = SparkSession.builder.enableHiveSupport().master("local").getOrCreate()
spark.sql("show databases")
字符串
但是,当我尝试使用spark-connect时,只显示默认数据库。
spark = SparkSession.builder.enableHiveSupport().remote("sc://localhost:15002").getOrCreate()
spark.sql("show databases")
型
我希望它显示所有的数据库,以便选择/添加数据。
我已将'hive-site.xml'复制到$SPARK_HOME/conf。
1条答案
按热度按时间5fjcxozz1#
'pyspark-connect'
没有在PySpark中显示所有Hive数据库可能有几个原因。以下是您可能需要检查的一些可能问题:**权限:**用于连接
Hive
的用户帐户可能没有足够的权限访问所有数据库。确保用户具有查看所有数据库所需的权限。**配置:**在'pyspark-connect'中验证连接Hive的配置设置。确保正确配置了正确的Hive元存储区
URI
和其他相关属性。**配置单元元存储区同步:**配置单元元存储区可能与数据库同步不正确。尝试刷新或更新元存储区,以确保它反映最新的数据库更改。