需要使用 RegEx 和 BeautifulSoup 查找文本

2023-11-25

我正在尝试解析一个网站以提取存储在正文中的一些数据,如下所示:

<body>
    <b>INFORMATION</b>
    Hookups: None
    Group Sites: No
    Station: No

    <b>Details</b>
    Ramp: Yes
</body>

我想使用 BeautifulSoup4 和 RegEx 来提取 Hookups 和 Group Sites 等的值,但我对 bs4 和 RegEx 都是新手。我已尝试以下方法来获取连接值:

soup = BeautifulSoup(open('doc.html'))
hookups = soup.find_all(re.compile("Hookups:(.*)Group"))

但搜索结果却是空的。


美丽汤find_all仅适用于tags。实际上,假设 HTML 就是这么简单,您只需使用纯正则表达式即可获得所需的内容。否则你可以使用find_all然后得到.text nodes.

re.findall("Hookups: (.*)", open('doc.html').read())

您还可以使用标签内容进行搜索text从 BeautifulSoup 4.2 开始的属性

soup.find_all(text=re.compile("Hookups:(.*)Group"));

编辑:从 BeautifulSoup 4.4 开始,text参数被命名为string.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

需要使用 RegEx 和 BeautifulSoup 查找文本 的相关文章

  • 检查给定字符串是否等于给定字符串集中的至少一个字符串的有效方法

    给定一组字符串 比如说 String1 String2 StringN C 中确定最有效的方法是什么 返回true or false 是否给定string s匹配上面集合中的任何字符串吗 Boost Regex 可以用于此任务吗 std u
  • 如何在android上的python kivy中关闭应用程序后使服务继续工作

    我希望我的服务在关闭应用程序后继续工作 但我做不到 我听说我应该使用startForeground 但如何在Python中做到这一点呢 应用程序代码 from kivy app import App from kivy uix floatl
  • pandas 替换多个值

    以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
  • SQL Alchemy 中的 NULL 安全不等式比较?

    目前 我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较 其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
  • 安装后 Anaconda 提示损坏

    我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是 安装后当我关闭提示窗口并打开新航站楼弹出
  • 没有特殊字符的密码验证器

    我是 RegEx 的新手 已经进行了大量搜索 但没有找到任何具体内容 我正在编写一个验证密码字符串的正则表达式 可接受的字符串必须至少具有 4 种字符类型中的 3 种 数字 小写字母 大写字母 特殊字符 我对包含有一个想法 也就是说 如果这
  • 运行多个 scrapy 蜘蛛的正确方法

    我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
  • 在 NumPy 中获取 ndarray 的索引和值

    我有一个 ndarrayA任意维数N 我想创建一个数组B元组 数组或列表 其中第一个N每个元组中的元素是索引 最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
  • 使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

    问题是当我尝试启动应用程序 app py 时 我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效 整个文件app py coding utf 8 from flask
  • Python 中的二进制缓冲区

    在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区 内存映射文件 https docs python org library mmap
  • python pandas 中的双端队列

    我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
  • 检查条件并通过 Zend 中的 Regex 识别 url 中的模式

    我正在实现 Zend Regex 路由 并且必须对 url 执行多次检查 例如 如果这是我的网址 http localhost application public index php module controller action 这是
  • Geopandas 设置几何图形:MultiPolygon“等于 len 键和值”的 ValueError

    我有 2 个带有几何列的地理数据框 我将一些几何图形从 1 个复制到另一个 这对于多边形效果很好 但对于任何 有效 多多边形都会返回 ValueError 请指教如何解决这个问题 我不知道是否 如何 为什么应该更改 MultiPolygon
  • Python:尝试检查有效的电话号码

    我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字 现在我有了这个 如果启动不正确 它将允许您重新输入正确的数字 然后它会翻译输入的原始数字 我该如何解决 def main phon
  • 为美国东部以外地区的 Cloudwatch 警报发送短信?

    AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议 我想连接我的 CloudWatch 警报并在发生故障时接收短信 但无法将其发送到 SMS YES 经过一番挖掘后 我能够让它发挥作用 它比仅仅选择一个主题或输入闹钟
  • 在Python中重置生成器对象

    我有一个由多个yield 返回的生成器对象 准备调用该生成器是相当耗时的操作 这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
  • VSCode:调试配置中的 Python 路径无效

    对 Python 和 VSCode 以及 stackoverflow 非常陌生 直到最近 我已经使用了大约 3 个月 一切都很好 当尝试在调试器中运行任何基本的 Python 程序时 弹出窗口The Python path in your
  • 对输入求 Keras 模型的导数返回全零

    所以我有一个 Keras 模型 我想将模型的梯度应用于其输入 这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
  • 如何使用google colab在jupyter笔记本中显示GIF?

    我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点 我正在使用下面的代码 它并没有在笔记本中为 gif 制作动画 我希望笔记本是交互式的 这样人们就可以看到代码的动画效果 而无需运行它 我发现很多方法在 Goo
  • 改变字典的哈希函数

    按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

  • Let's Encrypt 证书问题:https://www.example.com 无法重定向到 https://example.com

    我为网站生成的证书有问题 此处称为example com 我可以在浏览器中输入http www example com并成功重定向到https example com如我所愿 带有由let s encrypt 我已经使用 Apache2 的
  • Python Plotly 中的默认字体是什么?

    For instance for a graph such as this made with basic plotly code 这里使用的字体是什么 默认字体系列规格是 Open Sans verdana arial sans seri
  • 从 Firestore 集合中检索文档 ID (Android)

    我正在尝试提取文档下自动生成的 ID 以便我可以在其他地方使用它 这是完整的代码 mStartChatButton setOnClickListener new View OnClickListener Override public vo
  • 当 NodeJS 应用程序设计为在客户端上运行时,如何在它的服务器端使用 javascript 库?

    我正在深入研究 NodeJS 和 Express 这对我来说太复杂了 来构建一个实时 Web 应用程序 目前 我正在尝试了解如何在服务器端使用现有的 javascript 库 问题是该库似乎被设计为在客户端运行 因此说明仅向您展示如何在客户
  • 检查是否有东西被malloced

    给定一个指向某个变量的指针 有没有办法检查它是静态分配还是动态分配 引用你的评论 我正在制作一个基本上摆脱结构的方法 它有一个数据成员 它是一个指向可能会或可能不会被分配的东西的指针 根据哪一个 我想释放它 正确的方法是添加another结
  • 将当前页码与最后页码进行比较

    如何检查当前打印的页面是否实际上是最后打印的页面 我已经尝试过以下方法 V currentPage intValue V totalNumberOfPages Boolean TRUE Boolean FALSE 等了很久 但Stackov
  • 返回指向文字(或常量)字符数组(字符串)的指针

    我知道这是错误的 char getSomething char szLocal 5 Put something in the char array somehow return szLocal 因为szLocal可以在函数返回后的某个时候被
  • python 二维数组的最小值

    我有一个以下结构的数组 针对这个问题进行了简化 8 2 3 4 5 6 3 6 6 7 2 6 3 8 5 1 2 9 6 4 2 7 8 3 我希望找到这个二维数组中的最小值 但是使用内置的 min 函数会返回一个值错误 ValueErr
  • 如何使用 Python 监视文件而不是目录的更改?

    问题 如何使用 Python 监视文件的更改 建议使用看门狗 但我发现它只能监视目录 不能监视文件 看门狗测试 py是看门狗的示例脚本 python watchdog test py ab test res sh 1 30628 fbt f
  • 如何使用 stdlibc++ 为 OS X 64b 平台编译 boost?

    我想使用 stdlibc 为 Mac OS X 10 9 编译 boost 我运行以下命令 b2 threading multi link static runtime link static cxxflags stdlib libstdc
  • :not(:empty) CSS 选择器不起作用?

    我对这个特定的 CSS 选择器感到很厌烦 当我添加时它不想工作 not empty 到它 它似乎与其他选择器的任意组合都能正常工作 input not empty not focus invalid border color A22 box
  • 如何使用 Drive.API 从 Google Drive 下载文件?

    我正在使用 Google Drive Api 以使用户的应用程序数据与用户驱动器帐户同步 用户数据库采用sqlite数据库格式 我已成功将二进制文件上传到驱动器 但无法从应用程序内下载文件 我如何获取文件 URl final GoogleA
  • 使用 ImageMagick.NET 和 C# 调整裁剪大小

    我有一个大图像 我想将其大小调整为 230 320 精确 我希望系统在不损失纵横比的情况下调整它的大小 即 如果图像为 460 650 则应首先将其大小调整为 230 325 然后裁剪多余的 5 个像素的高度 我正在做以下事情 ImageM
  • 我可以将 JSON.NET 与我的商业应用程序一起分发吗? [关闭]

    Closed 这个问题不符合堆栈溢出指南 目前不接受答案 我正在寻找一个 NET JSON 库 我可以使用它以类似 xpath 的方式访问 JSON 对象 例如 给定字符串中的 JSON 对象 可以通过指定另一个字符串中的路径来访问其属性
  • 选择性(强制、可选)和参与(全部、部分)相同吗?

    据我所知 可选性意味着关系的最小基数 表示为可选对可选 强制对可选 强制对强制 参与表示为粗线和普通线 在互联网上 有些人将参与称为实体对关系的依赖 这也看起来像识别和非识别关系 有些人将其称为最小基数 这些关系的正确定义是什么以及有什么区
  • 在 Qt 中将公历日期转换为波斯日期 (jalali)

    如何在 Qt 中将公历日期转换为波斯日期 Q日期转换器课程可以帮助您将日期从公历转换为贾拉利日期 以及将贾拉利日期转换为公历日期 Edit 将此类添加到您的项目中 并在需要转换日期的位置包含 qdateconvertor h gregori
  • 为什么固定元素会减慢 Firefox 中的滚动速度?

    为什么元素要用CSSposition fixed应用于它们会导致 Firefox 在滚动它们所在的页面时占用 100 CPU 有什么解决方法吗 我在一些网站上注意到了这种行为 例如 StackOverflow 页面顶部的通知栏 我正在使用
  • 了解Seq2Seq模型

    这是我对基本序列到序列 LSTM 的理解 假设我们正在处理问答设置 您有两组 LSTM 下面的绿色和蓝色 每组分别共享权重 即 4 个绿色单元格中的每一个都具有相同的权重 并且与蓝色单元格类似 第一个是多对一的LSTM 总结了问题在最后一个
  • 在 PyTorch 中使用 None 索引张量

    我在 PyTorch 中看到过这种用于索引张量的语法 但不确定它的含义 v torch div t n None where v t and n是张量 的作用是什么 None 在这里 我在文档中似乎找不到它 与 NumPy 类似 您可以插入
  • 需要使用 RegEx 和 BeautifulSoup 查找文本

    我正在尝试解析一个网站以提取存储在正文中的一些数据 如下所示 b INFORMATION b Hookups None Group Sites No Station No b Details b Ramp Yes 我想使用 Beautifu