python—如何获得在考虑新列时受影响的新索引的数量(计数)

js81xvg6 于 2021-09-29 发布在 Java

关注(0)|答案(2)|浏览(341)

我有下一个问题要解决。
我有一个巨大的 Dataframe （14k行x1600列），由1和0组成。在考虑新列时，我需要获得唯一的新值。意思是，我有索引栏和第一列，如果我考虑第二列，我需要能够获得多少行与第一列不同的“计数”。然后，考虑第三列，并获得不同值的计数，从第一和第二列等。例如，以下数据集：

import pandas as pd
data = [[1, 1, 0], [1, 0, 0], [0, 1, 1], [1, 1, 1], [0, 0, 1]]
df = pd.DataFrame(data, columns=["S1", "S2", "S3"])
df

（1表示存在，0表示不存在，这意味着在第1列中，索引（0）为“已观察到”，在第2列中为“0”，表示未观察到，依此类推）。
因为我不知道如何编写代码，所以我不知道是否更容易在结尾处获得一个新行和新值的计数，或者转置df并获得一个具有这些值的新列。在任何情况下，我期望的输出应该是这样的：

import pandas as pd
data = [[1, 1, 0], [1, 0, 0], [0, 1, 1], [1, 1, 1], [0, 0, 1], [3, 1, 1]]
df_out = pd.DataFrame(data, columns=["S1", "S2", "S3"])
df_out

在这里，您可以看到，只有第1列有3个唯一的索引值对，当我们考虑第1列和第2列时，我们有2个重复值，但有1个新值，当我们添加第三列时，与第1列和第2列相比，我们只有1个新值。。。
所以，为了澄清我自己，请看下图。在此处输入图像描述

对于本例，我需要计算第1列中“1”的总数，然后，当我考虑第2列时，我需要计算案例[0,1]，当我考虑第三列时，我需要计算案例[0,0,1]，对于第四列，我需要计算案例[0,0,0,1]，依此类推。
在这个链接中，您可以下载原始df的一小部分，最后是唯一的“1”（手动获取）
我需要获得整个 Dataframe 的那种输出。
希望有人能帮忙。
谢谢

python DataFrame pandas

来源：https://stackoverflow.com/questions/68541236/how-to-obtain-the-number-count-of-new-indexes-affected-when-a-new-column-is-co

2条答案

按热度按时间

2g32fytz1#

您可以使用@Corrarien的解决方案进行一些预处理：

df[~df.sum(axis=1).eq(0)].idxmax(axis=1).value_counts()

或者，或者

df.cumsum(axis=1).cumsum(axis=1).eq(1).sum()

旧答案

您可以使用移位的 Dataframe 和总和计算差值：

df2 = ((df-df.shift(axis=1)).eq(1))
df2['S1'] = df['S1']
df.append(df2.sum(), ignore_index=True)

输出：

S1  S2  S3
0   1   1   0
1   1   0   0
2   0   1   1
3   1   1   1
4   0   0   1
5   3   1   1

工作原理：

>>> (df-df.shift(axis=1))
   S1   S2   S3
0 NaN  0.0 -1.0
1 NaN -1.0  0.0
2 NaN  1.0  0.0
3 NaN  0.0  0.0
4 NaN  0.0  1.0

>>> (df-df.shift(axis=1)).eq(1)
       S1     S2     S3
0  False  False  False
1  False  False  False
2  False   True  False
3  False  False  False
4  False  False   True

>>> df2['S1'] = df['S1']
   S1     S2     S3
0   1  False  False
1   1  False  False
2   0   True  False
3   1  False  False
4   0  False   True

>>> df2.sum()
S1    3
S2    1
S3    1
dtype: int64

赞(0）回复(0）举报 2021-09-29

w8rqjzmb2#

对于本例，我需要计算第1列中“1”的总数，然后，当我考虑第2列时，我需要计算案例[0,1]，当我考虑第三列时，我需要计算案例[0,0,1]，对于第四列，我需要计算案例[0,0,0,1]，依此类推。
事实上，您希望计算第一次出现“1”的位置：

>>> df[~df.eq(0).all(axis=1)].idxmax(axis=1).value_counts()
S1    151
S2    148
S3    113
dtype: int64

>>> df.append(df[~df.eq(0).all(axis=1)].idxmax(axis=1).value_counts(), ignore_index=True)
        S1   S2   S3
0        1    1    1
1        0    0    0
2        0    0    0
3        0    0    0
4        0    0    0
...    ...  ...  ...
14338    0    0    0
14339    0    0    0
14340    0    0    0
14341    0    0    0
14342  151  148  113

[14343 rows x 3 columns]

赞(0）回复(0）举报 2021-09-29

我来回答

python—如何获得在考虑新列时受影响的新索引的数量(计数)

2条答案

旧答案

相关问题

热门标签

最新问答