使用sparksql查询hdfs

vc9ivgsu 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(354)

我在hdfs中有一个csv文件，如何用sparksql查询这个文件？例如，我想对特殊列发出select请求，并将结果再次存储到hadoop分布式文件系统中
谢谢

hadoop hdfs apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/41035503/query-hdfs-with-spark-sql

2条答案

按热度按时间

b4qexyjb1#

你应该创建一个sparksession。这里有一个例子。
加载csv文件： val df = sparkSession.read.csv("path to your file in HDFS") .
执行选择操作： val df2 = df.select("field1", "field2") .
将结果写回： df2.write.csv("path to a new file in HDFS")

赞(0）回复(0）举报 2021-05-29

xa9qqrwz2#

您可以通过创建dataframe来实现。

val dataFrame = spark.sparkContext
  .textFile("examples/src/main/resources/people.csv")
  .map(_.split(","))
  .map(attributes => Person(attributes(0), attributes(1).trim.toInt))
  .toDF()

dataFrame.sql("<sql query>");

赞(0）回复(0）举报 2021-05-29

我来回答

使用sparksql查询hdfs

2条答案

相关问题

热门标签

最新问答