我有一个Pandas数据框,它的结构如下:
ID TEXT
1 Start of document
1 middle
1 end of document
2 start of document 2
2 middle
2 end of document 2
我得到的原始数据有重复的id,如果将每个惟一id的文本连接起来,就会得到一个结果文档。其中一些ID重复数百次,产生大量文本,我想归结为一个观察结果。
我不知道如何循环并创建一个新文档。也不确定pandas是否是存储大量文本的正确数据结构(这些是转录的通话记录——其中一些是30分钟以上的通话记录)。如果有人指点我会很感激的。
2条答案
按热度按时间axkjgtzd1#
iiuc公司:
kxkpmulp2#
如果没有
groupby
```(df.set_index('ID').TEXT+' ').sum(level=0).str[:-1]
Out[1066]:
ID
1 Start of document middle end of document
2 start of document 2 middle end of document 2
Name: TEXT, dtype: object