如何在zeppelin中使用pyspark获取Hive数据

xsuvu9jc 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(215)

我正在学习hadoop环境，如果这些问题很愚蠢，我很抱歉！
我将数据（kaggle outbrain click prediction）存储到 HIVE ，我用了rdd。那我想用齐柏林飞艇 spark2.pyspark. 使用python函数。
当我用 %jdbc(hive) 我看得出来。
我的问题是；
我如何制作一个Dataframe在齐柏林飞艇上播放，或者我必须创建一个Dataframe？
如何开始python分析部分？如果我做任何改变会影响Hive数据吗？

hadoop Hive python pyspark apache-zeppelin

来源：https://stackoverflow.com/questions/46739594/how-can-use-pyspark-in-zeppelin-for-hive-data