ApacheSpark—从分隔的.dat文件加载数据并将其转换为列Dataframescala

ssm49v7z  于 2021-05-19  发布在  Spark
关注(0)|答案(0)|浏览(226)

my.dat文件包含格式为“yyyyymdd”的自定义页眉和格式为“a1234”的页脚。没有列标题。
记录由“|”分隔,有12个字段。使用以下代码删除页脚和页眉im:

val fileDF = sc.texfFile(filedirectory)

val total = fileDF.count()
val fileRdd = fileDF.zipWithIndex().filter(x=> x._2 != 0).filter(x => x._2 != total-1).map(x => x._1)

在此之后,如果我尝试使用

.map(x => x.split("|"))

每列中字符串的每个字符也会被拆分。
我希望最终将rdd转换为Dataframe,然后对第一列和第二列的组合执行重复检查。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题