使用 PANDAS 在数据帧列中查找多个精确的字符串匹配

2024-01-09

我有数百万个条目数据集，其中包含人类输入的观察结果，以指示某些“操作”结果。尝试创建一些类别，我需要查看此列并提取某些确切的内容！最常用的表达方式。它们可以出现在字符串的开头、结尾或中间，并且可以缩写也可以不缩写。

我构建了以下示例：

data = {'file': ['1','2','3','4','5','6'],
        'observations': ['text one address', 'text 2 some', 
                         'text home 3', 'notified text 4',
                         'text 5 add','text 6 homer']}

df = pd.DataFrame(data=data)

我正在尝试使用 pandas 来查看是否可以隔离并提取“家”、“不”和“地址”。我尝试过以下方法...（'|'join取自本网站的另一个答案）

conditions = ['home','not','address']
test = df[df['observations'].str.contains('|'.join(conditions))]

str.contains不起作用，因为它会选择 6：“text 6 homer”，因为它包含“home”（实际情况更糟，因为缩写有“ho”之类的东西。
str.match不起作用，因为它会收到“通知”。
str.fullmatch不起作用，因为它只能查找精确的字符串，而且这些都是长句子......

帮助赞赏...

是不是你所期待的：

>>> df[df['observations'].str.contains(fr"\b(?:{'|'.join(conditions)})\b")]

  file      observations
0    1  text one address
2    3       text home 3

\b在字边界断言位置：(^\w|\w$|\W\w|\w\W)

(?:...)非捕获组

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 PANDAS 在数据帧列中查找多个精确的字符串匹配的相关文章

如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
打破嵌套循环[重复]

这个问题在这里已经有答案了有没有比抛出异常更简单的方法来打破嵌套循环在Perl https en wikipedia org wiki Perl 您可以为每个循环指定标签并且至少继续一个外循环 for x in range 10 fo
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

我有一个清单 things A1 B2 C3 我有一个 pandas 数据框其中有一列包含用分号分隔的值某些行将包含与上面列表中的一项的匹配它不会是完美的匹配因为它在其中包含字符串的其他部分该列例如该列中的一行可能有哇这里
在pyyaml中表示具有相同基类的不同类的实例

我有一些单元测试集希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求但测试属于不同的套装结果有不同的父类这是我所拥有的示例 gt gt gt rz shorthand for
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
如何改变Python中特定打印字母的颜色？

我正在尝试做一个简短的测验并且想将错误答案显示为红色欢迎来到我的测验您想开始吗是的祝你好运法国的首都是哪里法国随机答案不正确的答案我正在尝试将其显示为红色我的代码是 print Welcome to my Quiz be
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何将 PIL 图像转换为 NumPy 数组？

如何转换 PILImage来回转换为 NumPy 数组这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
C# 中最小化字符串长度

我想减少字符串的长度喜欢这串 string foo Lorem ipsum dolor sit amet consectetur adipiscing elit Aenean in vehicula nulla Phasellus li
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

查找矩阵中的面积数

假设我有一个像这样的矩阵 1 1 1 0 0 0 1 1 1 0 0 1 0 0 0 0 0 1 如果两个 1 彼此相邻仅水平和垂直因此属于同一区域我需要找出矩阵中有多少个这些区域您可以看到该矩阵中有两个区域为 1 我已经尝试解决这
当是公共存储库时，什么应该包含 .gitignore 文件？

我一直在学习有关 gitignore 文件的所有内容但有一个问题我想解决 gitignore 应包含您要忽略的所有文件因此您应该忽略操作系统您正在使用的 IDE 生成的文件当存储库位于 Github 上并且人们可以克隆它并推送更改
Sass 数组中的随机颜色[重复]

这个问题在这里已经有答案了我想指定一个颜色数组然后将颜色随机应用到列表中到目前为止我已经做到了颜色会按顺序循环我怎样才能随机化它这是到目前为止的 Sass 代码 colors red orange yellow green bl
根据异常类型调用ContainerStoppingErrorHandler

我使用的是 spring kafka 版本 2 2 4 Release 和 Kafka 版本 2 11 我在用容器停止错误处理程序作为我的错误处理程序每当出现异常时就会调用此方法并停止容器现在我需要根据异常类型停止容器如果发生某些
如何检测特定区域的触摸

目前我看到触摸事件将向我显示发生触摸的 UIView 但是如果我需要检测某些非矩形形状例如圆形的触摸该怎么办我该如何去做这样的事情呢基本上只有当用户触摸不可见的圆形区域内的某处时我才想做一些事情感谢任何帮助指导 TIA 你
了解 PHP/Laravel 中的构造函数、$this 关键字和控制器类

我知道以前已经对此进行过介绍但我正在努力解决如何将其应用到我的代码中我正在 Laravel 中开发一个 PHP 应用程序但希望使我的代码更加模块化和可测试这意味着将我的逻辑从我的重型控制器中分离出来并将它们分离到单独的文件中并从
WPF 中的下划线标签，使用样式

我有以下风格
JavaScript 和非常长的字符串

我在使用以下代码时遇到问题 function showTableData var tableArray var x 0 var theHTML for i 0 i lt 7032 i if x 0 theHTML tr th class s
链接到不带 .lib 的 .dll 文件

我需要将一些Delphi代码重写为C 并且我们需要链接到动态库TMLComm2004 dll 事实证明我们没有 lib文件因此我们决定使用以下命令行生成它 dumpbin EXPORTS C Users fayard Desktop TM
如何从 Java 验证 HTML？

从 Java 验证 HTML 的快速而简单的方法是什么我正在寻找一个开源 PD 类或一组类来描述 100 多个 HTML 标签的各种属性例如标签是可选的吗空的省略其结束标签是否合法该标签还可以包含哪些其他标签如果有哪些属
所有 JPEG 文件都是 JFIF 吗？

Active Directory 可以按照 JPEG 文件交换格式 JFIF 存储图像jpegPhoto 属性定义 http msdn microsoft com en us library ms676813 VS 85 aspx 我想使用
如何从 Catch 块返回错误消息。现在返回空

下面给出了我的 ApiKey 验证示例代码我使用的是 MVC4 Web api RC public class ApiKeyFilter ActionFilterAttribute public override void OnActio
如何验证关联的模型ID？

我有一个学生和一个课程模型学生属于课程课程有很多学生 class Student lt ActiveRecord Base attr accessible course id name password status studentID
Rails：使用现有数据更改现有列的数据类型的影响

我可能在错误的地方问这个问题所以如果我是这样的话请放轻松并为我指出正确的方向我无法理解使用 Rails 中的现有数据更改现有表中现有列的数据类型将如何影响我正在开发的任何应用程序如果我有一个名为的布尔列football The fo
通过用户 ID 查询 Google Analytics

有没有办法使用查询结果核心报告 API v3 https developers google com analytics devguides reporting core v3 并通过以下方式过滤这些结果User ID https deve
在哪里可以找到 Microsoft 应用程序的应用程序 ID URI？

我正在尝试以我注册的应用程序身份登录并授予以下权限 Azure 门户 gt 应用程序注册 gt 应用程序注册预览 gt 我的应用程序名称 API 权限根据本文档 https learn microsoft com en us grap
如何在 Swift 3.0 中将字符串转换为 UIColor？

我正在尝试将使用预定义颜色列表的现有程序从 Objective C 转换为 Swift 原始代码使用Selector来提取一个UIColor基于它的名称表示为NSString define UIColorFromRGB rgbValue U
正则表达式使 3 个单词彼此靠近。如何获取他们的上下文？

我有以下字符串 text I love jam I like all other kinds of confectionery as well cakes and croissants and things Bagels too Carbs
如何执行另一个php脚本？

如何执行另一个 php 脚本我想从我的 php 文件执行 3 个 php 脚本而不需要等待 3 个脚本完成换句话说这 3 个 php 文件需要同时执行并行而不是一个接一个顺序执行这 3 个脚本位于我的主 php 文件脚本
使用 PANDAS 在数据帧列中查找多个精确的字符串匹配

我有数百万个条目数据集其中包含人类输入的观察结果以指示某些操作结果尝试创建一些类别我需要查看此列并提取某些确切的内容最常用的表达方式它们可以出现在字符串的开头结尾或中间并且可以缩写也可以不缩写我构建了以下示例 data

使用 PANDAS 在数据帧列中查找多个精确的字符串匹配

使用 PANDAS 在数据帧列中查找多个精确的字符串匹配 的相关文章

随机推荐

热门标签

使用 PANDAS 在数据帧列中查找多个精确的字符串匹配的相关文章