在jupyter笔记本中使用pyspark读取xml

zhte4eai 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(481)

我正在尝试读取xml文件： df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml') 并得到以下错误： java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.xml 我试着：
使用安装pyspark xml

$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-xml_2.12:0.10.0

使用配置运行spark： set jar_path = f'{SPARK_HOME}/jars/spark-xml_2.12-0.10.0.jar' spark = SparkSession.builder.config(conf=conf).config("spark.jars", jar_path).config("spark.executor.extraClassPath", jar_path).config("spark.executor.extraLibrary", jar_path).config("spark.driver.extraClassPath", jar_path).appName('my_app').getOrCreate() 设置evn变量： os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.12:0.10.0 pyspark' 下载jar文件并放入spark\u home/jars
在这里：https://github.com/databricks/spark-xml pyspark在“pyspark注解”一段中有另一种解决方案，但我不知道如何读取dataframe以便将其传递到函数ext\u schema\u of \u xml\u df。
那么，在jupyterlab中用pyspark读取xml还应该做些什么呢？

python apache-spark pyspark xml

来源：https://stackoverflow.com/questions/63951922/read-xml-using-pyspark-in-jupyter-notebook