python3.x—在pyspark中自动确定xml文件的根/子标记的有效方法？

ryhaxcpt 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(209)

尝试制作一些可以读入大型xml文件的东西，并将它们转换为sparkDataframe以供进一步处理。
我最初使用的是：

xml_rdd = sc.wholeTextFile("xml_file.xml")
xml_rdd.map(lambda x: xmltodict(x))

将rdd的内容保存到json中，然后将其作为json文件读入。这似乎是相当低效，所以我试图寻找一个更好的方式来做它。
Spark法：

df = spark.read \
    .format('xml') \
    .options(rowTag='row', rootTag = 'root') \
    .load('xml_file.xml')

看起来它的工作速度要快得多，但需要指定行和根标记。pyspark中有没有一种方法可以自动确定根和行标记？

目前还没有任何答案，快来回答吧！

相关问题