如何设置与cloudera集群的sql/hive连接以读取集群上存储的数据

xcitsw88 于 2021-06-27 发布在 Hive

关注(0)|答案(1)|浏览(236)

我想通过hive、spark或sql检索存储在hadoopcloudera集群上的数据。我已经编写了sql查询，它应该从集群中获取数据。但在此之前，我想了解如何使用cluster设置连接/游标，以便它知道从何处读取或写入？ sc = spark.sparkContext 或者类似地，hivecontext或sparkcontext将不够。
我们可能需要为节点和所有的url。那怎么做呢？
任何小的例子都足够了。

Hive apache-spark-sql hadoop-streaming

来源：https://stackoverflow.com/questions/53431323/how-to-set-up-sql-hive-connection-with-cloudera-cluster-to-read-data-stored-on-c

1条答案

按热度按时间

pzfprimi1#

有两种方法可以在配置单元中创建表：
1-创建外部表架构：

CREATE EXTERNAL TABLE IF NOT EXISTS names_text(
          student_ID INT, FirstName STRING, LastName STRING,    
          year STRING, Major STRING)
          COMMENT 'Student Names'
          ROW FORMAT DELIMITED
          FIELDS TERMINATED BY ','
          STORED AS TEXTFILE
          LOCATION '/user/andrena';

2-a）为托管表创建架构：

CREATE TABLE IF NOT EXISTS Names(
  student_ID INT, FirstName STRING, LastName STRING,    
  year STRING, Major STRING)
  COMMENT 'Student Names'
  STORED AS ORC;

b）将外部表数据移动到托管表：

INSERT OVERWRITE TABLE Names SELECT * FROM names_text;

最后，验证配置单元仓库是否分别在外部表和内部表中存储了学生姓名：

SELECT * FROM names_text;

SELECT * from Names;

赞(0）回复(0）举报 2021-06-27

我来回答

如何设置与cloudera集群的sql/hive连接以读取集群上存储的数据

1条答案

相关问题

热门标签

最新问答