我可以直接从hive表拉数据到h2o吗?

oxf4rvwz  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(406)

我们有我们的数据存储在Hive文本文件和Parquet文件有没有反正直接从这些加载到h2o或我们必须通过一个中间步骤,如csv或PandasDataframe?

b4wnujal

b4wnujal1#

是的,你可以在这里找到你需要的所有信息
h2o当前支持以下文件类型:
csv(分隔)文件(包括gzip csv)
兽人
SVM灯光
阿夫
xls公司
xlsx公司
avro 1.8.0版(无多文件解析或列类型修改)
parquet
笔记:
orc仅在h2o作为hadoop作业运行时可用。
用户还可以导入以orc格式保存的配置单元文件。
将并行数据导入群集时:
如果数据是一个解压缩的csv文件,h2o可以进行偏移读取,因此集群中的每个节点都可以并行地直接读取csv文件的一部分。
如果数据是压缩的,h2o将不得不读取整个文件并在并行读取之前解压它。因此,如果您有从hdfs读取的非常大的数据文件,最好使用解压缩csv。但是如果数据比局域网更远,那么最好使用压缩csv。

相关问题