python——结合文本生成新的Dataframe

yyyllmsg  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(272)

我有一个Pandas数据框,它的结构如下:

ID TEXT
1  Start of document
1  middle
1  end of document
2  start of document 2
2  middle
2  end of document 2

我得到的原始数据有重复的id,如果将每个惟一id的文本连接起来,就会得到一个结果文档。其中一些ID重复数百次,产生大量文本,我想归结为一个观察结果。
我不知道如何循环并创建一个新文档。也不确定pandas是否是存储大量文本的正确数据结构(这些是转录的通话记录——其中一些是30分钟以上的通话记录)。如果有人指点我会很感激的。

axkjgtzd

axkjgtzd1#

iiuc公司:

df.groupby('ID').TEXT.apply(' '.join)

ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object
kxkpmulp

kxkpmulp2#

如果没有 groupby ```
(df.set_index('ID').TEXT+' ').sum(level=0).str[:-1]
Out[1066]:
ID
1 Start of document middle end of document
2 start of document 2 middle end of document 2
Name: TEXT, dtype: object

相关问题