例如:
df = spark.read.json("path")
print(df.schema)
印刷品:
StructType(List(StructField(timestamp,StringType,true)))
而不是:
StructType([StructField("timestamp",StringType(),True)])
如果我想从一个文件中推断出一个模式,然后打印这个模式并在代码中硬编码,这对我来说是个问题。
有没有一种方法可以打印Dataframe的模式并使用python语法,这样我就可以将硬编码的模式设置为代码中的变量并使用它?
1条答案
按热度按时间xmakbtuz1#
理想的
(schema = df.schema)
适用于csv等常见文件格式,但对于json等文件,最好手动提供模式以避免任何错误