java—通过级联将数据集分解成块

oewdyzsn 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(315)

级联是否提供了将数据集分解为块的方法？例如，每个区块将包含1000000条记录，或者加起来是1GB，等等。 Every + Buffer 存在，但需要在前面加上 GroupBy 我不需要（我也不确定它是否打算以这种方式使用，或者如何确切地实现它）。

Java hadoop mapreduce cascading

来源：https://stackoverflow.com/questions/56822407/breaking-a-data-set-into-chunks-with-cascading

2条答案

按热度按时间

nc1teljy1#

你安装了python吗？

import pandas as pd
for i,chunk in enumerate(pd.read_csv('C:/your_path_here/main.csv', chunksize=1000000)):
    chunk.to_csv('chunk{}.csv'.format(i))

或

import os
os.getcwd()

csvfile = open('C:/your_path/Book1.csv', 'r').readlines()
filename = 1
for i in range(len(csvfile)):
    if i % 1000000 == 0:
        open(str(filename) + '.csv', 'w+').writelines(csvfile[i:i+1000000])
        filename += 1

赞(0）回复(0）举报 2021-05-29

owfi6suc2#

你可以这样做http://docs.cascading.org/cascading/2.5/javadoc/cascading/tap/hadoop/partitiontap.html 以及实施 Partition 指定如何从 TupleEntry 到特定的子目录。

赞(0）回复(0）举报 2021-05-29

我来回答

java—通过级联将数据集分解成块

2条答案

相关问题

热门标签

最新问答