Pandas聚集的条件和

iyzzxitl 于 5个月前发布在其他

关注(0)|答案(4)|浏览(40)

我最近刚从R转换到python，在使用 Dataframe 时遇到了一些麻烦，而不是使用R的data. table。我遇到的问题是，我想获取一个字符串列表，检查一个值，然后对该字符串的计数求和-按用户细分。所以我想获取以下数据：

A_id       B    C
1:   a1    "up"  100
2:   a2  "down"  102
3:   a3    "up"  100
3:   a3    "up"  250
4:   a4  "left"  100
5:   a5 "right"  102

字符串
并返回：

A_id_grouped   sum_up   sum_down  ...  over_200_up
1:           a1        1          0  ...            0
2:           a2        0          1                 0
3:           a3        2          0  ...            1
4:           a4        0          0                 0
5:           a5        0          0  ...            0

型
在我使用R代码（使用data.table）之前

>DT[ ,list(A_id_grouped, sum_up = sum(B == "up"),
+  sum_down = sum(B == "down"), 
+  ...,
+  over_200_up = sum(up == "up" & < 200), by=list(A)];

型
然而，我最近对Python的所有尝试都失败了：

DT.agg({"D": [np.sum(DT[DT["B"]=="up"]),np.sum(DT[DT["B"]=="up"])], ...
    "C": np.sum(DT[(DT["B"]=="up") & (DT["C"]>200)])
    })

型
谢谢你！这似乎是一个简单的问题，但我在任何地方都找不到。

pandas

来源：https://stackoverflow.com/questions/15259547/conditional-sums-for-pandas-aggregate

4条答案

按热度按时间

7tofc5zh1#

为了补充unutbu的答案，这里有一个在groupby对象上使用apply的方法。

>>> df.groupby('A_id').apply(lambda x: pd.Series(dict(
    sum_up=(x.B == 'up').sum(),
    sum_down=(x.B == 'down').sum(),
    over_200_up=((x.B == 'up') & (x.C > 200)).sum()
)))
      over_200_up  sum_down  sum_up
A_id                               
a1              0         0       1
a2              0         1       0
a3              1         0       2
a4              0         0       0
a5              0         0       0

字符串

赞(0）回复(0）举报 5个月前

f45qwnt82#

可能有更好的方法;我对Pandas很陌生，但这个方法很有效：

import pandas as pd
import numpy as np

df = pd.DataFrame({'A_id':'a1 a2 a3 a3 a4 a5'.split(),
                   'B': 'up down up up left right'.split(),
                   'C': [100, 102, 100, 250, 100, 102]})

df['D'] = (df['B']=='up') & (df['C'] > 200)
grouped = df.groupby(['A_id'])

def sum_up(grp):
    return np.sum(grp=='up')
def sum_down(grp):
    return np.sum(grp=='down')
def over_200_up(grp):
    return np.sum(grp)

result = grouped.agg({'B': [sum_up, sum_down],
                      'D': [over_200_up]})
result.columns = [col[1] for col in result.columns]
print(result)

字符串
收益率

sum_up  sum_down  over_200_up
A_id                               
a1         1         0            0
a2         0         1            0
a3         2         0            1
a4         0         0            0
a5         0         0            0

型

赞(0）回复(0）举报 5个月前

x4shl7ld3#

一个老问题;我觉得一个更好的方法，避免应用，将是创建一个新的框架，分组和聚合之前：

df = df.set_index('A_id')

outcome = {'sum_up' : df.B.eq('up'),
           'sum_down': df.B.eq('down'),
           'over_200_up' : df.B.eq('up') & df.C.gt(200)}

outcome = pd.DataFrame(outcome).groupby(level=0).sum()

outcome
 
      sum_up  sum_down  over_200_up
A_id                               
a1         1         0            0
a2         0         1            0
a3         2         0            1
a4         0         0            0
a5         0         0            0

字符串
另一种选择是在分组之前解栈;然而，我觉得这是一个更长，不必要的过程：

(df
  .set_index(['A_id', 'B'], append = True)
  .C
  .unstack('B')
  .assign(gt_200 = lambda df: df.up.gt(200))
  .groupby(level='A_id')
  .agg(sum_up=('up', 'count'), 
       sum_down =('down', 'count'), 
       over_200_up = ('gt_200', 'sum')
      )
)

      sum_up  sum_down  over_200_up
A_id                               
a1         1         0            0
a2         0         1            0
a3         2         0            1
a4         0         0            0
a5         0         0            0

型

赞(0）回复(0）举报 5个月前

kkih6yb84#

这里，我最近使用df assign和numpy的where方法学到了什么：
df3=

A_id       B    C
1:   a1    "up"  100
2:   a2  "down"  102
3:   a3    "up"  100
3:   a3    "up"  250
4:   a4  "left"  100
5:   a5 "right"  102

个字符
结局=

A_id  sum_up   sum_down  over_200_up
0   a1    1        0         0
1   a2    0        1         0
2   a3    2        0         1
3   a4    0        0         0
4   a5    0        0         0

型
这也类似于如果您熟悉SQL case并希望在pandas中应用相同的逻辑

select a,
       sum(case when B='up' then 1 else 0 end) as sum_up
       ....
from   table
group by a

型

赞(0）回复(0）举报 5个月前

我来回答

Pandas聚集的条件和

4条答案

相关问题

热门标签

最新问答