尝试制作一些可以读入大型xml文件的东西,并将它们转换为sparkDataframe以供进一步处理。
我最初使用的是:
xml_rdd = sc.wholeTextFile("xml_file.xml")
xml_rdd.map(lambda x: xmltodict(x))
将rdd的内容保存到json中,然后将其作为json文件读入。这似乎是相当低效,所以我试图寻找一个更好的方式来做它。
Spark法:
df = spark.read \
.format('xml') \
.options(rowTag='row', rootTag = 'root') \
.load('xml_file.xml')
看起来它的工作速度要快得多,但需要指定行和根标记。pyspark中有没有一种方法可以自动确定根和行标记?
暂无答案!
目前还没有任何答案,快来回答吧!