将Dataframe写入hdf5

fae0ux8s 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(399)

我正在用python处理大量文件，需要用python编写输出（每个输入文件对应一个Dataframe） HDF5 直接。我想知道最好的写作方法是什么 pandas 从我的脚本到 HDF5 直接以快速的方式？我不确定像hdf5、hadoopy这样的python模块是否可以做到这一点。在这方面任何帮助都将不胜感激。

hadoop python DataFrame pandas

来源：https://stackoverflow.com/questions/38915917/write-a-pandas-data-frame-to-hdf5

1条答案

按热度按时间

mjqavswn1#

对于这个相当笼统的问题，很难给你一个好的答案。
不清楚如何使用（读取）hdf5文件-是否有条件地选择数据（使用 where 参数）？
打开存储对象所需的全部功能：

store = pd.HDFStore('/path/to/filename.h5')

现在您可以写入（或附加）到存储（我在这里使用 blosc 压缩-这是相当快和有效的），除此之外，我将使用 data_columns 参数以指定必须索引的列（以便您可以在中使用这些列） where 参数（稍后读取hdf5文件时）：

for f in files:
    #read or process each file in/into a separate `df`
    store.append('df_identifier_AKA_key', df, data_columns=[list_of_indexed_cols], complevel=5, complib='blosc')

store.close()

赞(0）回复(0）举报 2021-05-29

我来回答

将Dataframe写入hdf5

1条答案

相关问题

热门标签

最新问答