my.dat文件包含格式为“yyyyymdd”的自定义页眉和格式为“a1234”的页脚。没有列标题。
记录由“|”分隔,有12个字段。使用以下代码删除页脚和页眉im:
val fileDF = sc.texfFile(filedirectory)
val total = fileDF.count()
val fileRdd = fileDF.zipWithIndex().filter(x=> x._2 != 0).filter(x => x._2 != total-1).map(x => x._1)
在此之后,如果我尝试使用
.map(x => x.split("|"))
每列中字符串的每个字符也会被拆分。
我希望最终将rdd转换为Dataframe,然后对第一列和第二列的组合执行重复检查。
暂无答案!
目前还没有任何答案,快来回答吧!