如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

2024-05-21

我在 Python Pandas 中有 DataFrame，如下所示：

col1
--------
John Simon prd
agc Ann White
BeN and Ann

bad_list = ["Ben", "Wayne"]

我需要这样做：创建新列“col2”，如果“col1”中的值具有 bad_list 中的值，则在“col2”中为该行提供“1”，如果没有，则为 0。

请注意，bad_list 和“col1”中的字母大小应被忽略，例如，“col1”中的值为“BeN”，而 bad_list 中的值为“Ben”，因此“col2”中的值也应为“1”

因此，根据上述数据框和条件，我需要如下结果：

col1            | col2
----------------|------
John Simon prd  |0
arc Ann White   |0
BeN and Ann     |1

“col2”中的最后一行的值为“1”，因为“Ben”在 bad_list 上，没关系，“col1”中被写为 BeN。我怎样才能在Python Pandas 中做到这一点？

您可以尝试通过str.title(),str.contains() and astype() method:

df['col2']=df['col1'].str.title().str.contains('|'.join(bad_list)).astype(int)

的输出df:

    col1            col2
0   John Simon prd  0
1   agc Ann White   0
2   BeN and Ann     1

代码的逐步细分：

由于您的列表（即 bad_list）包含格式中的单词（Ist 单词为大写，其余均为小写），因此我们使用以下方法转换整个 Series('col1')Series.str.title()所以现在 Series('col1') 看起来像：

0    John Simon Prd
1     Agc Ann White
2       Ben And Ann
Name: col1, dtype: object

然后我们使用str.contains()检查 bad_list 中的任何元素是否存在于 Series('col1') 行中后，为我们提供了一个布尔系列：

0    False
1    False
2     True
Name: col1, dtype: bool

Note:

这是里面的代码contains() method:

'|'.join(bad_list)
#giving you a string(output of above code):
'Ben|Wayne'

最后我们将 boolean Series 类型转换为 int viaastype() method:

0    0
1    0
2    1
Name: col1, dtype: int32

另一种方法是使用IGNORECASE标志来自re@seanbean 在评论中建议的模块：

from re import IGNORECASE

df['col2']=df['col1'].str.contains('|'.join(bad_list), flags=IGNORECASE).astype(int)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制] 的相关文章

嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何从pandas中的多列计算多列

我正在尝试使用函数从 pandas 数据框中的多个列计算多个列该函数采用三个参数 a b 和 c 并返回三个计算值 sum prod 和 quot 在我的 pandas 数据框中我有三个列 a b 和 c 我想从中计算列 sum pro
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460
span 和 iframe 正文中的宽度（以像素为单位）

我需要知道 a 的宽度 nbsp 以像素为单位以及是否取决于字体大小另外页面中不同元素的情况是否有所不同还有就是 nbsp 与常规不同目的 nbsp 不间断空格位于正常空格之上是为了防止单词之间出现换行您可以使用多个 nbs
将 Swagger 与命名空间版本的 WebApi 结合使用

我已经找到了如何使用基于名称空间的 WebAPI 版本这个班 https aspnet codeplex com SourceControl changeset view dd207952fa86 Samples WebApi Namesp
如何跟踪hadoop中哪个数据块在哪个数据节点？

如果复制一个数据块会复制到哪个数据节点是否有任何工具可以显示复制块存在的位置如果您知道文件名则可以通过 DFS 浏览器查找转到您的 namenode Web 界面说浏览文件系统并导航到您感兴趣的文件在页面底部将列出文件中
将 char 绑定到枚举类型

我有一段与此非常相似的代码 class someclass public enum Section START MID END vector section Full void ex for int i 0 i section
接口中“不能降低继承方法的可见性”的含义

我有两个文件 public interface PrintService void print PrintDetails details class PrintDetails private String printTemplate pub
Application.onLowMemory() 未调用

我创建了自己的应用程序类我尝试调试它代码在 Application onCreate 处停止但不会在 onLowMemory 处停止为了测试该场景我打开了许多其他高内存应用程序我看到的是调试会话终止在 Eclipse 中并且
MVVM 消息传递或事件或其他什么选项？

我在 MainViewModel 中有一个菜单现在在选择特定的菜单项时我想更新已加载的视图的数据即虽然 MainViewModel 中有该 viewModel 的实例但当我尝试通过该实例调用该方法并更改数据属性时它不会显示视图中的
我可以使用特征中的方法重写 scala 类方法吗？

class PasswordCaseClass val password String trait PasswordTrait self PasswordCaseClass gt override def password blue val
通过向上转换将 Java.sql.date 转换为 Java.util.date 安全吗？

java sql date 扩展了 java util date 那么通过将 java sql date 转换为 java util date 是否可以在两者之间进行转换或者有其他方法可以转换它们吗您不一定需要强制转换您可以将 SQL
如何修复超出最大调用堆栈大小

有一个 MERN Firebase 应用程序并收到此错误和一堆 atdeepExtend deepCopy ts 71 RangeError Maximum call stack size exceeded getApps as apps
pytesseract 无法从图像中识别复杂的数学公式

我在用pytesseractpython 中的模块 pytesseract从图像中识别文本但它不适用于包含复杂数学公式例如根推导积分数学问题或方程的图像代码2 py Import modules from PIL import
运行测试项目时自动启动ASP.MVC项目

我正在尝试为我的 ASP 网站设置一个测试项目对于某些测试我想使用 selenium 来执行端到端测试因此我的网站必须运行以便测试可以访问该网站运行测试时如何启动我的网站项目请参考以下链接我相信这是可能的但会有点棘手这些
AES 密钥是随机的吗？

AES 密钥可以通过此代码生成 KeyGenerator kgen KeyGenerator getInstance AES kgen init 128 but 如果我有一个非常可靠的生成随机数的方法我可以这样使用它吗 SecureR
如何绘制 Voronoi 曲面细分的多边形而不是线段？

我找到了一种使用 ggplot2 绘制 Voronoi 曲面细分的分段的方法 library deldir library ggplot2 library ggthemes set seed 123 df lt data frame lat
无法将共享项目添加到 Visual Studio 测试项目

我正在使用 Visual Studio 2015 我有一个作为独立解决方案的共享项目其他几个解决方案中使用的扩展的集合我想测试共享项目独立于任何其他解决方案因此我添加了一个新的测试项目但是在我的测试项目中我无法添加对共享项目
符合 POSIX 标准的 shell 相当于 Bash“while read -d $'\0' ...”？

我正在尝试使 Bash 脚本严格符合 POSIX 标准即消除任何潜在的 Bashisms http mywiki wooledge org Bashism 通过使用checkbashisms px script filename 在给定的
Express.js Passport认证自动失败跳过策略

UPDATE 我已将代码从护照本地注册内部移至单独的处理程序并且运行良好问题在于 Passport 和本地注册的使用但我不知道为什么我使用 Node js Express Passport 进行身份验证和注册设置这是以前使用过的标
尝试在空对象引用上调用虚拟方法 -> 解析？

我尝试使用一个按钮从一个主要活动切换到另一个活动但是当我尝试运行该应用程序时它在单击该应用程序后立即自行关闭我在命令中发现错误消息 Unable to start activity ComponentInfo fr amseu mys
如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

这个问题在这里已经有答案了我在 Python Pandas 中有 DataFrame 如下所示 col1 John Simon prd agc Ann White BeN and Ann bad list Ben Wayne 我需要这样做

如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制]

如何根据第一列创建新列，同时考虑Python Pandas中字母和列表的大小？ [复制] 的相关文章

随机推荐

热门标签