pyspark无法到达Hive

pu82cl6c 于 2021-06-27 发布在 Hive

关注(0)|答案(1)|浏览(319)

简而言之：我在hdp3上有一个工作Hive，我无法从pyspark上够到它，在Yarn下运行（在同一个hdp上）。如何让Pypark找到我的table？ spark.catalog.listDatabases() 只显示默认值，任何查询运行都不会显示在我的配置单元日志中。
这是我的代码，spark 2.3.1

from pyspark.sql import SparkSession
from pyspark.conf import SparkConf
settings = []
conf = SparkConf().setAppName("Guillaume is here").setAll(settings)
spark = (
    SparkSession
    .builder
    .master('yarn')
    .config(conf=conf)
    .enableHiveSupport()
    .getOrCreate()
)
print(spark.catalog.listDatabases())

请注意 settings 是空的。我想这就足够了，因为在日志里我看到
加载配置单元配置文件：file:/etc/spark2/3.0.1.0-187/0/hive-site.xml
更有趣的是
注册函数intersectgroups io.x.x.intersectgroups
这是我手动编写并添加到配置单元的自定义项。这意味着有某种联系。
我得到的唯一输出（日志除外）是：
[数据库（name=u'default'，description=u'default database'，locationuri=u'hdfs://hdfsnameservice/apps/spark/warehouse')]
我明白我应该 spark.sql.warehouse.dir 在设置中。无论我将它设置为在配置单元站点中找到的值、我感兴趣的数据库的路径（它不在默认位置）、其父级，都不会更改。
我在设置中放置了许多其他配置选项（包括节俭uri），没有任何更改。
我也看到应该将hive-site.xml复制到spark2 conf目录中。我在集群的所有节点上都做了，没有改变。
我要运行的命令是：
hdp\u version=3.0.1.0-187 pythonpath=。：/usr/hdp/current/spark2 client/python/：/usr/hdp/current/spark2 client/python/lib/py4j-0.10.7-src.zip spark\u home=/usr/hdp/current/spark2 client hadoop\u user\u name=hive spark submit--master yarn--jars/usr/hdp/current/hive\u warehouse\u connector/hive-warehouse-connector-assembly-1.0.3.0.1.0-187.jar--py文件/usr/hdp/current/hive\u warehouse\u connector/pyspark\u hwc-1.0.0.3.0.1.0-187.zip--文件/etc/hive/conf/hive-site.xml./subanal/anal.py