我正在尝试读取xml文件: df = spark.read.format('com.databricks.spark.xml').load('/path/to/my.xml')
并得到以下错误: java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.xml
我试着:
使用安装pyspark xml
$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-xml_2.12:0.10.0
使用配置运行spark: set jar_path = f'{SPARK_HOME}/jars/spark-xml_2.12-0.10.0.jar' spark = SparkSession.builder.config(conf=conf).config("spark.jars", jar_path).config("spark.executor.extraClassPath", jar_path).config("spark.executor.extraLibrary", jar_path).config("spark.driver.extraClassPath", jar_path).appName('my_app').getOrCreate()
设置evn变量: os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-xml_2.12:0.10.0 pyspark'
下载jar文件并放入spark\u home/jars
在这里:https://github.com/databricks/spark-xml pyspark在“pyspark注解”一段中有另一种解决方案,但我不知道如何读取dataframe以便将其传递到函数ext\u schema\u of \u xml\u df。
那么,在jupyterlab中用pyspark读取xml还应该做些什么呢?
暂无答案!
目前还没有任何答案,快来回答吧!