python——结合文本生成新的Dataframe

yyyllmsg 于 2021-06-01 发布在 Hadoop

关注(0)|答案(2)|浏览(272)

我有一个Pandas数据框，它的结构如下：

ID TEXT
1  Start of document
1  middle
1  end of document
2  start of document 2
2  middle
2  end of document 2

我得到的原始数据有重复的id，如果将每个惟一id的文本连接起来，就会得到一个结果文档。其中一些ID重复数百次，产生大量文本，我想归结为一个观察结果。
我不知道如何循环并创建一个新文档。也不确定pandas是否是存储大量文本的正确数据结构（这些是转录的通话记录——其中一些是30分钟以上的通话记录）。如果有人指点我会很感激的。

hadoop python DataFrame pandas text

来源：https://stackoverflow.com/questions/52449689/making-new-data-frame-from-combining-text-pandas

2条答案

按热度按时间

axkjgtzd1#

iiuc公司：

df.groupby('ID').TEXT.apply(' '.join)

ID
1        Start of document middle end of document
2    start of document 2 middle end of document 2
Name: TEXT, dtype: object

赞(0）回复(0）举报 2021-06-02

kxkpmulp2#

如果没有 groupby ```
(df.set_index('ID').TEXT+' ').sum(level=0).str[:-1]
Out[1066]:
ID
1 Start of document middle end of document
2 start of document 2 middle end of document 2
Name: TEXT, dtype: object

赞(0）回复(0）举报 2021-06-02

我来回答

python——结合文本生成新的Dataframe

2条答案

相关问题

热门标签

最新问答