ApacheSpark—从分隔的.dat文件加载数据并将其转换为列Dataframescala

ssm49v7z 于 2021-05-19 发布在 Spark

关注(0)|答案(0)|浏览(226)

my.dat文件包含格式为“yyyyymdd”的自定义页眉和格式为“a1234”的页脚。没有列标题。
记录由“|”分隔，有12个字段。使用以下代码删除页脚和页眉im：

val fileDF = sc.texfFile(filedirectory)

val total = fileDF.count()
val fileRdd = fileDF.zipWithIndex().filter(x=> x._2 != 0).filter(x => x._2 != total-1).map(x => x._1)

在此之后，如果我尝试使用

.map(x => x.split("|"))

每列中字符串的每个字符也会被拆分。
我希望最终将rdd转换为Dataframe，然后对第一列和第二列的组合执行重复检查。

scala rdd apache-spark

来源：https://stackoverflow.com/questions/64465207/loading-data-from-a-delimited-dat-file-and-transforming-it-into-columned-datafr

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

ApacheSpark—从分隔的.dat文件加载数据并将其转换为列Dataframescala

暂无答案！

相关问题

热门标签

最新问答