在1000万条记录的CSV中，无法读取CSV文件第7，777，761行之后的内容

jum4pzuy 于 5个月前发布在其他

关注(0)|答案(1)|浏览(81)

我有一个1000万条记录的CSV文件，失败了大约770万行。它无法进入Excel数据模型，MySQL，最后当使用Pandas分块成更小的CSV时。
失败没有错误消息。进程只是停止。检查最后一个分块的CSV文件，它似乎在第7，777，761行失败
Pandas shape（）和head（）显示有1000万条记录，46列，前5行看起来不错。
因此，我正在寻找如何解决这个问题的想法。
我使用skiprows隔离了第7，777，761行附近的区域。我得到了一条错误消息，说“没有可读取的列”或类似的话。看起来文件就在那里结束了。
当试图将其加载到数据模型中时（失败），它是否已被Excel损坏？如果需要，我可以发布脚本和错误消息。
谢谢你，
尝试以大约7.7 mm的线导入到Excel数据模型FAQs（不确定原因，没有错误，只是停止。导入了一些东西，但非常低，如4900线）
尝试在相同的位置导入到MySQL FAQs，没有错误消息，只是停止了。
在Python中使用Pandas进行了实验，确认了1000000行和46列。
在成功地对一个10,000行的虚拟CSV进行分块后.
使用Pandas FAQs将文件分块为100，000行CSV文件，没有错误。最后一行是7，777，761
将区块大小更改为50000 FAQs，最后一行ID为7，777，761，没有错误。
从7，777，761毫米开始重新测量，但这一次，d出现了错误

csv

来源：https://stackoverflow.com/questions/77671528/csv-file-cannot-be-read-past-line-7-777-761-in-a-10-million-record-csv

1条答案

按热度按时间

nkoocmlb1#

你可以试着仔细检查问题区域周围的线条。这里有一个小助手函数可能会有所帮助：

def lines_from(filename, *args):
    lines = set([i for a in args for i in ([a] if isinstance(a, int) else a)])
    buf = io.StringIO()
    with open(filename, 'r') as f:
        for i, line in enumerate(f, 1):
            if i in lines:
                buf.write(line)
    buf.seek(0)
    return buf

字符串
示例用法：

with open('test.csv', 'w') as f:
    f.write('x,y\n')
    for i in range(2, 30):
        f.write(f'{i},{i*2}\n')

型
然后又道：

b = lines_from('test.csv', 1, range(9, 12))

>>> b.read()
'x,y\n9,18\n10,20\n11,22\n'

>>> pd.read_csv(lines_from('test.csv', 1, range(9, 12)))
    x   y
0   9  18
1  10  20
2  11  22

型

赞(0）回复(0）举报 5个月前

我来回答

在1000万条记录的CSV中，无法读取CSV文件第7，777，761行之后的内容

1条答案

相关问题

热门标签

最新问答