使用JavaAPI将Parquet格式写入hdfs,而不使用avro和mr

x3naxklr  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(341)

通过直接创建pojo的parquet模式,而不使用avro和mr,将parquet格式写入hdfs(使用javaapi)的简单方法是什么?
我发现的样本是过时的,使用了不推荐的方法,也使用了avro、spark或mr。

anhgbhbe

anhgbhbe1#

实际上,在没有外部框架帮助的情况下,读/写apacheparquet文件的示例并不多。
核心parquet库是parquet列,您可以在其中找到一些直接读取/写入的测试文件:https://github.com/apache/parquet-mr/blob/master/parquet-column/src/test/java/org/apache/parquet/io/testcolumnio.java
然后您只需要对hdfs文件使用相同的功能。您可以按照这个sow问题来解决这个问题:使用java访问hdfs中的文件
更新:为了响应api中不推荐使用的部分:avrowritesupport应该被avroparquetwriter替换,我检查parquetwriter它不是不推荐使用的,可以安全使用。
当做,
低ïc

相关问题