Beautiful Soup 根据部分属性值查找标签

2023-11-23

我试图根据部分属性值来识别 html 文档中的标签。

例如,如果我有一个 Beautifulsoup 对象:

import bs4 as BeautifulSoup

r = requests.get("http:/My_Page")

soup = BeautifulSoup(r.text, "html.parser")

I want tr标签有id属性,其值的格式如下:“news_4343_23255_xxx”。我对任何一个都感兴趣tr标签只要其前 4 个字符为“news”id属性值。

我知道我可以按如下方式搜索:

trs = soup.find_all("tr",attrs={"id":True})

这给了我一切tr标签与id属性。

如何根据子字符串进行搜索?


Use regex to get tr with id从...开始"news"

Ex:

from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(html,  "html.parser")
for i in soup.find_all("tr", {'id': re.compile(r'^news')}):
    print(i)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Beautiful Soup 根据部分属性值查找标签 的相关文章

  • (discord.py) 尝试更改成员角色时,“用户”对象没有属性“角色”

    因此 我正在尝试编写一个机器人 让某人在命令中指定的主持人指定的一段时间内暂停角色 我知道该变量称为 小时 即使它目前以秒为单位 我稍后会解决这个问题 基本上 它是由主持人在消息 暂停 personmention numberofhours
  • 尽管极其懒惰,但如何在 Python 中模拟 IMAP 服务器?

    我很好奇是否有一种简单的方法来模拟 IMAP 服务器 例如imaplib模块 在Python中 without做很多工作 是否有预先存在的解决方案 理想情况下 我可以连接到现有的 IMAP 服务器 进行转储 并让模拟服务器在真实的邮箱 电子
  • Django REST序列化器:创建对象而不保存

    我已经开始使用 Django REST 框架 我想做的是使用一些 JSON 发布请求 从中创建一个 Django 模型对象 然后使用该对象而不保存它 我的 Django 模型称为 SearchRequest 我所拥有的是 api view
  • 如何使用固定的 pandas 数据框进行动态 matplotlib 绘图?

    我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度 我想找到一种方法以漂亮的动画风格绘制数据点 以便它显示逐渐加载的所有点 我知道有一个matplotlib animat
  • 更改自动插入 tkinter 小部件的文本颜色

    我有一个文本框小部件 其中插入了三条消息 一条是开始消息 一条是结束消息 一条是在 单位 被摧毁时发出警报的消息 我希望开始和结束消息是黑色的 但被毁坏的消息 参见我在代码中评论的位置 插入小部件时颜色为红色 我不太确定如何去做这件事 我看
  • Python 多处理示例不起作用

    我正在尝试学习如何使用multiprocessing但我无法让它发挥作用 这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
  • SQL Alchemy 中的 NULL 安全不等式比较?

    目前 我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较 其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
  • 安装后 Anaconda 提示损坏

    我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是 安装后当我关闭提示窗口并打开新航站楼弹出
  • 运行多个 scrapy 蜘蛛的正确方法

    我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
  • Python 中的二进制缓冲区

    在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区 内存映射文件 https docs python org library mmap
  • 在pyyaml中表示具有相同基类的不同类的实例

    我有一些单元测试集 希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求 但测试属于不同的套装 结果有不同的父类 这是我所拥有的示例 gt gt gt rz shorthand for
  • Geopandas 设置几何图形:MultiPolygon“等于 len 键和值”的 ValueError

    我有 2 个带有几何列的地理数据框 我将一些几何图形从 1 个复制到另一个 这对于多边形效果很好 但对于任何 有效 多多边形都会返回 ValueError 请指教如何解决这个问题 我不知道是否 如何 为什么应该更改 MultiPolygon
  • 表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

    这个问题在这里已经有答案了 我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
  • Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

    我正在尝试做的事情 我正在尝试使用 pywinauto 在 python 中创建一个脚本 以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例 因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
  • 如何将 PIL 图像转换为 NumPy 数组?

    如何转换 PILImage来回转换为 NumPy 数组 这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许 我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
  • Python:计算字典的重复值

    我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
  • 设置 torch.gather(...) 调用的结果

    我有一个形状为 n x m 的 2D pytorch 张量 我想使用索引列表来索引第二个维度 可以使用 torch gather 完成 然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
  • VSCode:调试配置中的 Python 路径无效

    对 Python 和 VSCode 以及 stackoverflow 非常陌生 直到最近 我已经使用了大约 3 个月 一切都很好 当尝试在调试器中运行任何基本的 Python 程序时 弹出窗口The Python path in your
  • 使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

    我有一个 Pandas 数据框 它有两列 一列 进程参数 列 包含字符串 另一列 值 列 包含相应的浮点值 我需要过滤出部分匹配列 过程参数 中的一组键的子数据帧 并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
  • Pandas 与 Numpy 数据帧

    看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组 否则我们的代码将无法工作 我知道 pandas Data

随机推荐

  • 使用 jQueryUI 的新自动完成功能的多列结果的快速示例?

    我刚刚发现jQueryUI 现在拥有自己的内置自动完成组合框 好消息 不幸的是 我发现的下一件事是 使其成为多列似乎并不那么简单 至少通过文档 有一个在这里发帖有人提到他们已经做到了 甚至提供了代码 但我无法理解他们的一些代码在做什么 我只
  • SecItemAdd 和 SecItemCopyMatching 返回错误代码 -34018 (errSecMissingEntitlement)

    有时 当我从 Xcode 在设备上运行应用程序时 我会尝试访问钥匙串 但由于错误 34018 而失败 这与任何记录的钥匙串错误代码都不匹配 并且无法一致地重现 大概有 30 的时间发生 我不清楚为什么会发生 完全缺乏文档使得调试这个问题变得
  • 如何更改/更新/删除 Spring ConfigurableEnvironment 中的属性

    在 Spring 中 您可以使用注入环境对象来读取所有环境属性 Resource private org springframework core env Environment environment 所以问题是我可以以编程方式更改某些属
  • React 类中的清除间隔

    因此 我们有这个简单的 React 组件 它从父组件接收一个整数 单击该按钮后 我们会在屏幕上显示整数并开始倒计时 问题是如何停止倒计时 在阅读其他 SO 帖子时 我发现了clearInterval 但似乎我在这里遗漏了一些东西 任何帮助将
  • 无边框窗口无法正确最大化

    好吧 我已经在谷歌上搜索了几个小时了 似乎找不到我遇到的问题的直接答案 我有一个自定义窗口WindowStyle None and AllowsTransparency True 当我点击最大化按钮时 private void Maximi
  • 检测phonegap应用程序中的卸载事件

    当用户安装我的应用程序时 我注册他的注册 ID android 或设备令牌 iOS 并发送工作正常的推送通知 但现在我想在卸载应用程序时从服务器中删除用户 如何在 Phonegap 中完成此操作 获取一个事件 之后我可以取消注册用户注册 I
  • 在 Django 模型中存储列表最有效的方法是什么?

    目前我的代码中有很多类似于以下内容的 python 对象 class MyClass def init self name friends self myName name self myFriends str x for x in fri
  • 计算 BST 中左节点的数量

    给定 BST 我需要找到树的左节点数 示例 3 5 2 1 4 6 7 答案应该是 4 因为 5 1 4 7 都是树的左节点 我想做的是 public int countL
  • R 中的 par(mfrow) 用于 ggplot [重复]

    这个问题在这里已经有答案了 我有这个代码 plotfn function u flt filter d utensil u ggplot flt aes x p geom histogram binwidth 0 5 position po
  • MySQL - 强制不使用缓存来测试查询速度

    我正在测试 MySQL 中某些查询的速度 数据库正在缓存这些查询 这使得我在测试这些查询的速度时很难获得可靠的结果 有没有办法禁用查询缓存 系统 Linux 虚拟主机上的 MySQL 4 我可以访问 PHPMyAdmin Thanks 尝试
  • Ruby gem mysql2 安装失败[重复]

    这个问题在这里已经有答案了 当我尝试安装 mysql2 gem 时 它失败了 没有明显的错误 有谁知道如何解决这个问题以便安装mysql2 sudo gem install mysql2 Building native extensions
  • “multipart/form-data”POST 请求实际上应该包含带有上传图像数据的字符串吗?

    我正在为一个 Web 应用程序创建一些性能测试 该应用程序发送的请求类型与浏览器发送到我们的服务器的类型相同 其中一个请求是上传图像的 POST 我在看这个问题看起来图像文件的实际内容应该位于请求正文内 然而 当我在 Chrome 中使用
  • 如何检查设备是否为 iPad 或 iPhone 无法正常工作

    我目前正在更新一个应用程序 我需要知道该应用程序是否正在 iPad 上使用 我上网查了一下 发现了下面的代码 我在 Xcode 中使用了 iPad 模拟器并运行了两个 if 语句 但是每当我运行代码时 什么也没有发生 打印消息不打印 此代码
  • 密封一个类

    过去我并没有太在意封闭班级 但我发现自己想知道最好的做法是什么 如果您知道一个类不会或不应该从中派生 您是否会将其密封 作为预防措施 只是将密封关键字保留在外 因为知道有人尝试从中派生的机会很小 我想我要问的是 您是否应该密封所有不打算用于
  • 如何将 EC2 实例分配给子网内的固定 IP 地址?

    我正在使用 CloudFormation 定义子网和 EC2 实例 我想为 EC2 实例分配特定的私有 IP 地址 并尝试使用如下资源定义来实现此目的 当我尝试部署模板时 NetworkInterface 资源的创建失败并显示以下消息 地址
  • Django Rest Framework - 如何在序列化器中嵌套多个字段?

    我有几个带有多个控制字段的基本模型 其中位置字段由纬度 经度 精度 提供商和客户时间组合而成 我的大多数可写模型 以及资源 都是从这个基本模型继承的 我试图让 DRF 序列化嵌套 位置 字段中的位置相关字段 例如 id 1 name Som
  • MYSQL 禁用自动修剪

    如果我输入两个只有空格的字符串 我会收到此错误消息 错误 1062 键 PRIMARY 的条目 重复 如何关闭 自动修剪 我正在用这个Charset uft8 uft8 bin和这个数据类型 Varchar 根据SQL 92根据文档 当比较
  • 如何使用 RxJs 推迟任何 AJAX 调用请求,直到前一个请求解决

    我有一个可观察的对象 它表示由某些外部组件触发的操作 为了这个问题的目的 我们将其称为createBananaAction 我有一个bananaService用一种方法create执行 AJAX 请求并返回创建的香蕉作为Promise 因此
  • 对包含引号的字符串使用替换运算符 powershell

    我正在寻找运行命令 foreach object replace 然而 我尝试使用的字符串可以描述如下 this string has quotes 整条线是 foreach object replace this string has q
  • Beautiful Soup 根据部分属性值查找标签

    我试图根据部分属性值来识别 html 文档中的标签 例如 如果我有一个 Beautifulsoup 对象 import bs4 as BeautifulSoup r requests get http My Page soup Beauti