在jupyter笔记本中使用pyspark读取xml

zhte4eai  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(481)

我正在尝试读取xml文件: df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml') 并得到以下错误: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.xml 我试着:
使用安装pyspark xml

$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-xml_2.12:0.10.0

使用配置运行spark: set jar_path = f'{SPARK_HOME}/jars/spark-xml_2.12-0.10.0.jar' spark = SparkSession.builder.config(conf=conf).config("spark.jars", jar_path).config("spark.executor.extraClassPath", jar_path).config("spark.executor.extraLibrary", jar_path).config("spark.driver.extraClassPath", jar_path).appName('my_app').getOrCreate() 设置evn变量: os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.12:0.10.0 pyspark' 下载jar文件并放入spark\u home/jars
在这里:https://github.com/databricks/spark-xml pyspark在“pyspark注解”一段中有另一种解决方案,但我不知道如何读取dataframe以便将其传递到函数ext\u schema\u of \u xml\u df。
那么,在jupyterlab中用pyspark读取xml还应该做些什么呢?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题