我需要读取一个日志文件并将其转换为sparkDataframe。
输入文件内容:
dateCreated : 20200720
customerId : 001
dateCreated : 20200720
customerId : 002
dateCreated : 20200721
customerId : 003
预期Dataframe:
---------------------------
|dateCreated | customerId |
---------------------------
|20200720 | 001 |
|20200720 | 002 |
|20200721 | 003 |
|------------|------------|
Spark代码:
val spark = org.apache.spark.sql.SparkSession.builder.master("local").getOrCreate
val inputFile = "C:\\log_data.txt"
val rddFromFile = spark.sparkContext.textFile(inputFile)
val rdd = rddFromFile.map(f => {
f.split(":")
})
rdd.foreach(f => {
println(f(0) + "\t" + f(1))
})
关于如何将上面的rdd转换成所需的df有什么想法吗?
1条答案
按热度按时间fivyi3re1#
检查以下代码。