如何在python中读取gzipParquet文件

hpxqektj  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(391)

我需要打开一个gzip文件,里面有一个parquet文件和一些数据。我很难打印/读取文件中的内容。我尝试了以下方法:

with gzip.open("myFile.parquet.gzip", "rb") as f:
    data = f.read()

这似乎不起作用,因为我得到一个错误,我的文件id不是gz文件。谢谢!

iovurdzv

iovurdzv1#

你可以用 read_parquet 函数来自 pandas 模块:
安装 pandas 以及 pyarrow :

pip install pandas pyarrow

使用 read_parquet 它回来了 DataFrame :

data = read_parquet("myFile.parquet.gzip")
print(data.count()) # example of operation on the returned DataFrame

相关问题