python—通过过滤现有 Dataframe 中的字符来创建新的 Dataframe

cgvd09ve  于 2021-08-25  发布在  Java
关注(0)|答案(2)|浏览(295)

我有一个 pandas Dataframe :

id         name

63         T台
64        4S店
66    江南style
68        1号店
69         小S
70         大S
72          一
73         一一
74        一一二
77       一一列举
79       一一对应
80        一一记
81       一一道来
82         一丁
84        一丁点

我试图创建一个新的数据框,只包含列中没有特定列表中的字符的行 name :

letters = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '%', '+']

我发现有几个问题有点类似(像这样),但它们是基于特定值进行过滤的(例如。 df[(df['count'] == '2') & (df['price'] == '100')] ),而不是从值列表中。
在本例中,输出应该是没有第63-70行的新 Dataframe 。
我试着做一些类似的事情来获得 True / False 我可以在 Dataframe 上使用它进行筛选:

('a' not in current_dataframe['name'])

但出于某种原因,这只输出一个值:

>>> True
uurity8g

uurity8g1#

您可以使用正则表达式:

import re

pat = re.compile("|".join(re.escape(l) for l in letters), flags=re.I)
print(df[~df["name"].str.contains(pat)])

印刷品:

id  name
3   68   1号店
6   72     一
7   73    一一
8   74   一一二
9   77  一一列举
10  79  一一对应
11  80   一一记
12  81  一一道来
13  82    一丁
14  84   一丁点
m4pnthwp

m4pnthwp2#

通过列表理解:

to_keep = [not any(letter in val for letter in letters) for val in df.name]
new_df = df[to_keep]

哪里 to_keep 是一个布尔列表,条目为 True 如果字母中没有任何字母,则对应的值为 df.name . 然后我们使用布尔索引只保留这些行,
得到

>>> new_df

3   68   1号店
6   72     一
7   73    一一
8   74   一一二
9   77  一一列举
10  79  一一对应
11  80   一一记
12  81  一一道来
13  82    一丁
14  84   一丁点

相关问题