如何引用pandas中查询字符串中的未命名列？

2izufjch 于 2021-08-20 发布在 Java

关注(0)|答案(2)|浏览(520)

使用pandas.dataframe.query时，如何引用查询字符串中未命名的dataframe列？我知道我可以通过将列名用倒勾括起来来识别不是有效python变量名的列名。但是，这并不涉及未命名的列。
例如，我想查询dataframe中未命名列包含大于0.5的值的所有行。
我的代码是这样开始的：

import pandas as pd
import numpy as np
array=np.random.rand(10,3)
df=pd.DataFrame(array)

到目前为止还不错，但是当我尝试使用pandas.dataframe.query时，我应该使用什么查询字符串来查找第二列（未命名）中的值大于0.5的行？
我能想到的最接近的事情是

df.query('columns[1]>0.5')

这是完全错误的，因为列[1]返回列号1，并且不引用未命名的列。
我查看了Pandas的文档，包括
https://pandas.pydata.org/docs/reference/api/pandas.dataframe.query.html#pandas.dataframe.query
https://pandas.pydata.org/docs/user_guide/indexing.html#indexing-质疑
有什么想法吗？

python DataFrame pandas

来源：https://stackoverflow.com/questions/68310615/how-do-i-refer-to-an-unnamed-columns-in-query-string-in-pandas

2条答案

按热度按时间

yrdbyhpb1#

有几种方法可以实现您的目标：

虚拟 Dataframe ：

>>> df
          0         1         2
0  0.210862  0.894414  0.713472
1  0.804793  0.656390  0.842293
2  0.617104  0.763162  0.697050
3  0.158506  0.190683  0.740970
4  0.380092  0.984326  0.138277
5  0.665413  0.445192  0.525754
6  0.274770  0.870642  0.987045
7  0.619918  0.196403  0.221361
8  0.642992  0.572529  0.893655
9  0.101074  0.871377  0.130874

解决方案：

在另一种情况下，如果您使用未命名的列，您可以按如下方式查找dataframe列中的所有行，但请记住，它将保留不匹配的值 NaN 同时显示所有匹配项。

>>> df[ df.iloc[:,df.columns]> 0.5 ]
          0         1         2
0       NaN  0.894414  0.713472
1  0.804793  0.656390  0.842293
2  0.617104  0.763162  0.697050
3       NaN       NaN  0.740970
4       NaN  0.984326       NaN
5  0.665413       NaN  0.525754
6       NaN  0.870642  0.987045
7  0.619918       NaN       NaN
8  0.642992  0.572529  0.893655
9       NaN  0.871377       NaN

赞(0）回复(0）举报 2021-08-20

w46czmvw2#

解决方案

小结：下面给出了最佳选项。有关所有其他选项，请参阅下文。
df.query('@df[1] > 0.5') df[df[1] > 0.5] Pandas中未命名的列将自动命名为 0, 1, 2, ... ，其中这些是数字而不是字符串。
下面向您展示了实现所需目标的三种主要方法。
选项1：避免重命名列。
选项-1.1：使用 df.query('@df[1] > 0.5') . 这里我们使用 @df 具体说明 df 是一个变量。
选项1.2：这里我们使用另一个选项 df[df[1] > 0.5] .
选项2.x：重命名数据框的列 df 通过提供 dict : {0: 'A', 1: 'B', 2: 'C'} .
你可以用 df.query() 在这种情况下。
选项3：重命名 df 以听写理解为例 C# 哪里 # 表示列编号。
你可以用 df.query() 在这种情况下。


## Option-1: without renaming

# Option-1.1: with query

df.query('@df[1] > 0.5')

# Option-1.2: without using query

df[df[1] > 0.5]

## Option-2: rename columns (using a mapping provided manually)

# columns = {0: 'A', 1: 'B', 2: 'C'}

df = pd.DataFrame(arr).rename(columns={0: 'A', 1: 'B', 2: 'C'})

# Option-2.1

df[df['B'] > 0.5]

# Option-2.2

df[df.B > 0.5]

# Option-2.2

df.query('B > 0.5')

## Option-3: rename dynamically

df = pd.DataFrame(arr)
df = df.rename(columns=dict((x, 'C'+str(x)) for x in df.columns))
df.query('C1 > 0.5')

输出：

0         1         2
3  0.413839  0.889178  0.564845
5  0.802746  0.941901  0.564068
6  0.904837  0.716764  0.151075
8  0.788026  0.749503  0.960260

虚拟数据

import pandas as pd
import numpy as np

arr = np.random.rand(10, 3)
df = pd.DataFrame(arr)

参考资料

文件： pandas.DataFrame.query stackoverflow：如何在pandas中查询数字列名？
老Pandas医生： multiindex-query-syntax v-13.0

赞(0）回复(0）举报 2021-08-20

我来回答