java—通过级联将数据集分解成块

oewdyzsn  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(315)

级联是否提供了将数据集分解为块的方法?例如,每个区块将包含1000000条记录,或者加起来是1GB,等等。 Every + Buffer 存在,但需要在前面加上 GroupBy 我不需要(我也不确定它是否打算以这种方式使用,或者如何确切地实现它)。

nc1teljy

nc1teljy1#

你安装了python吗?

import pandas as pd
for i,chunk in enumerate(pd.read_csv('C:/your_path_here/main.csv', chunksize=1000000)):
    chunk.to_csv('chunk{}.csv'.format(i))

import os
os.getcwd()

csvfile = open('C:/your_path/Book1.csv', 'r').readlines()
filename = 1
for i in range(len(csvfile)):
    if i % 1000000 == 0:
        open(str(filename) + '.csv', 'w+').writelines(csvfile[i:i+1000000])
        filename += 1
owfi6suc

owfi6suc2#

你可以这样做http://docs.cascading.org/cascading/2.5/javadoc/cascading/tap/hadoop/partitiontap.html 以及实施 Partition 指定如何从 TupleEntry 到特定的子目录。

相关问题