sparksql不读取multidelimter csv文件

2ic8powd  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(367)

我正在尝试使用pyspark sql读取multidelimter(|,| |)csv文件,无法从dataframe读取任何数据,它给出0条记录
csv文件的示例数据

Newyork|234567|company Ltd||PIN
df = spark.read.option.("sep","|").option("header","true").load(csv)

我需要读取数据,有没有其他方法来处理?

ma8fv8wu

ma8fv8wu1#

试试这个-

spark.read
      .option("sep", "|")
      .option("header", "true")
      .csv(spark.read.text("<path>").as(Encoders.STRING).map(_.replaceAll("\\|\\|", "|")))

相关问题