使用sparksql查询hdfs

vc9ivgsu  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(354)

我在hdfs中有一个csv文件,如何用sparksql查询这个文件?例如,我想对特殊列发出select请求,并将结果再次存储到hadoop分布式文件系统中
谢谢

b4qexyjb

b4qexyjb1#

你应该创建一个sparksession。这里有一个例子。
加载csv文件: val df = sparkSession.read.csv("path to your file in HDFS") .
执行选择操作: val df2 = df.select("field1", "field2") .
将结果写回: df2.write.csv("path to a new file in HDFS")

xa9qqrwz

xa9qqrwz2#

您可以通过创建dataframe来实现。

val dataFrame = spark.sparkContext
  .textFile("examples/src/main/resources/people.csv")
  .map(_.split(","))
  .map(attributes => Person(attributes(0), attributes(1).trim.toInt))
  .toDF()

dataFrame.sql("<sql query>");

相关问题