python3.x—在pyspark中自动确定xml文件的根/子标记的有效方法?

ryhaxcpt  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(209)

尝试制作一些可以读入大型xml文件的东西,并将它们转换为sparkDataframe以供进一步处理。
我最初使用的是:

xml_rdd = sc.wholeTextFile("xml_file.xml")
xml_rdd.map(lambda x: xmltodict(x))

将rdd的内容保存到json中,然后将其作为json文件读入。这似乎是相当低效,所以我试图寻找一个更好的方式来做它。
Spark法:

df = spark.read \
    .format('xml') \
    .options(rowTag='row', rootTag = 'root') \
    .load('xml_file.xml')

看起来它的工作速度要快得多,但需要指定行和根标记。pyspark中有没有一种方法可以自动确定根和行标记?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题