在pyspark中读取tsv文件

l3zydbqr  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(684)

读取pyspark中带有头的.tsv文件并将其存储在sparkDataframe中的最佳方法是什么。
我正在尝试使用“spark.read.options”和“spark.read.csv”命令,但是运气不好。
谢谢。
敬你,Git

gwbalxhn

gwbalxhn1#

如果有如下可用的头文件,则可以直接读取tsv文件而不提供外部模式:

df = spark.read.csv(path, sep=r'\t', header=True).select('col1','col2')

由于spark是延迟计算的,所以它将只读取选定的列。希望有帮助。

相关问题