将Dataframe写入hdf5

fae0ux8s  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(399)

我正在用python处理大量文件,需要用python编写输出(每个输入文件对应一个Dataframe) HDF5 直接。我想知道最好的写作方法是什么 pandas 从我的脚本到 HDF5 直接以快速的方式?我不确定像hdf5、hadoopy这样的python模块是否可以做到这一点。在这方面任何帮助都将不胜感激。

mjqavswn

mjqavswn1#

对于这个相当笼统的问题,很难给你一个好的答案。
不清楚如何使用(读取)hdf5文件-是否有条件地选择数据(使用 where 参数)?
打开存储对象所需的全部功能:

store = pd.HDFStore('/path/to/filename.h5')

现在您可以写入(或附加)到存储(我在这里使用 blosc 压缩-这是相当快和有效的),除此之外,我将使用 data_columns 参数以指定必须索引的列(以便您可以在中使用这些列) where 参数(稍后读取hdf5文件时):

for f in files:
    #read or process each file in/into a separate `df`
    store.append('df_identifier_AKA_key', df, data_columns=[list_of_indexed_cols], complevel=5, complib='blosc')

store.close()

相关问题