我是Pypark的新手。我在用数据库控制Pypark。我的数据存储在azure数据湖服务中。我正在尝试将csv文件从ADL读取到pysparkDataframe。所以我写了以下代码
import pyspark
from pyspark import SparkContext
from pyspark import SparkFiles
df = sqlContext.read.csv(SparkFiles.get("dbfs:mycsv path in ADSL/Data.csv"),
header=True, inferSchema= True)
但我收到了错误信息
Py4JJavaError: An error occurred while calling o389.csv.
你能建议我纠正这个错误吗?
1条答案
按热度按时间nwwlzxa71#
这个
SparkFiles
类用于访问作为spark作业的一部分提供的文件。如果您只需要访问adls上可用的csv文件,那么您只需要使用spark.read.csv
,例如:最好不要用
sqlContext
,出于兼容性原因保留。