我试图从azuredatabricks读取csv文件作为Dataframe。标题列(在excel中打开时)如下所示。在csv文件中,所有头文件名的格式如下。
例如
"City_Name"ZYD_CABC2_EN:0TXTMD
基本上,我只想在引号中包含字符串作为标题(city\u name),而忽略字符串的第二部分(zyd\u c2\u en:0txtmd)
sales_df = spark.read.format("csv").load(input_path + '/sales_2020.csv', inferSchema = True, header=True)
2条答案
按热度按时间xyhw6mcr1#
您可以在读取csv文件后解析列名,使用正则表达式提取引号之间的单词,然后使用
toDF
要一次重新指定所有列名,请执行以下操作:mnowg1ta2#
你可以
split
实际名称使用"
要获取所需的列名,请执行以下操作: