我在从命令提示符或pycharm执行pyspark代码时遇到了一个问题。我已经安装了pip的spark/pyspark,但是我仍然无法从任何终端连接到spark
错误:系统找不到指定的路径
环境变量是按要求设置的,但问题仍然存在。
对于下面简单的pyspark代码,我从pycharm得到了错误。
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('Session1').getOrCreate()
df = spark.read.csv("C:/Users/1875977/Desktop/clustering_mindset_jan.csv")
df.printSchema()
注意:安装的软件有anaconda(python3.7)、windows操作系统、hadoop utils、java1.8
1条答案
按热度按时间tct7dpnv1#
查看教程[此处]
例子: