需要使用 RegEx 和 BeautifulSoup 查找文本

2023-11-25

我正在尝试解析一个网站以提取存储在正文中的一些数据，如下所示：

<body>
    <b>INFORMATION</b>
    Hookups: None
    Group Sites: No
    Station: No

    <b>Details</b>
    Ramp: Yes
</body>

我想使用 BeautifulSoup4 和 RegEx 来提取 Hookups 和 Group Sites 等的值，但我对 bs4 和 RegEx 都是新手。我已尝试以下方法来获取连接值：

soup = BeautifulSoup(open('doc.html'))
hookups = soup.find_all(re.compile("Hookups:(.*)Group"))

但搜索结果却是空的。

美丽汤find_all仅适用于tags。实际上，假设 HTML 就是这么简单，您只需使用纯正则表达式即可获得所需的内容。否则你可以使用find_all然后得到.text nodes.

re.findall("Hookups: (.*)", open('doc.html').read())

您还可以使用标签内容进行搜索text从 BeautifulSoup 4.2 开始的属性

soup.find_all(text=re.compile("Hookups:(.*)Group"));

编辑：从 BeautifulSoup 4.4 开始，text参数被命名为string.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python27

webscraping

beautifulsoup

需要使用 RegEx 和 BeautifulSoup 查找文本的相关文章

检查给定字符串是否等于给定字符串集中的至少一个字符串的有效方法

给定一组字符串比如说 String1 String2 StringN C 中确定最有效的方法是什么返回true or false 是否给定string s匹配上面集合中的任何字符串吗 Boost Regex 可以用于此任务吗 std u
如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
安装后 Anaconda 提示损坏

我刚刚安装张量流GPU创建单独的后环境按照以下指示here https github com antoniosehk keras tensorflow windows installation 但是安装后当我关闭提示窗口并打开新航站楼弹出
没有特殊字符的密码验证器

我是 RegEx 的新手已经进行了大量搜索但没有找到任何具体内容我正在编写一个验证密码字符串的正则表达式可接受的字符串必须至少具有 4 种字符类型中的 3 种数字小写字母大写字母特殊字符我对包含有一个想法也就是说如果这
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
检查条件并通过 Zend 中的 Regex 识别 url 中的模式

我正在实现 Zend Regex 路由并且必须对 url 执行多次检查例如如果这是我的网址 http localhost application public index php module controller action 这是
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

Let's Encrypt 证书问题：https://www.example.com 无法重定向到 https://example.com

我为网站生成的证书有问题此处称为example com 我可以在浏览器中输入http www example com并成功重定向到https example com如我所愿带有由let s encrypt 我已经使用 Apache2 的
Python Plotly 中的默认字体是什么？

For instance for a graph such as this made with basic plotly code 这里使用的字体是什么默认字体系列规格是 Open Sans verdana arial sans seri
从 Firestore 集合中检索文档 ID (Android)

我正在尝试提取文档下自动生成的 ID 以便我可以在其他地方使用它这是完整的代码 mStartChatButton setOnClickListener new View OnClickListener Override public vo
当 NodeJS 应用程序设计为在客户端上运行时，如何在它的服务器端使用 javascript 库？

我正在深入研究 NodeJS 和 Express 这对我来说太复杂了来构建一个实时 Web 应用程序目前我正在尝试了解如何在服务器端使用现有的 javascript 库问题是该库似乎被设计为在客户端运行因此说明仅向您展示如何在客户
检查是否有东西被malloced

给定一个指向某个变量的指针有没有办法检查它是静态分配还是动态分配引用你的评论我正在制作一个基本上摆脱结构的方法它有一个数据成员它是一个指向可能会或可能不会被分配的东西的指针根据哪一个我想释放它正确的方法是添加another结
将当前页码与最后页码进行比较

如何检查当前打印的页面是否实际上是最后打印的页面我已经尝试过以下方法 V currentPage intValue V totalNumberOfPages Boolean TRUE Boolean FALSE 等了很久但Stackov
返回指向文字（或常量）字符数组（字符串）的指针

我知道这是错误的 char getSomething char szLocal 5 Put something in the char array somehow return szLocal 因为szLocal可以在函数返回后的某个时候被
python 二维数组的最小值

我有一个以下结构的数组针对这个问题进行了简化 8 2 3 4 5 6 3 6 6 7 2 6 3 8 5 1 2 9 6 4 2 7 8 3 我希望找到这个二维数组中的最小值但是使用内置的 min 函数会返回一个值错误 ValueErr
如何使用 Python 监视文件而不是目录的更改？

问题如何使用 Python 监视文件的更改建议使用看门狗但我发现它只能监视目录不能监视文件看门狗测试 py是看门狗的示例脚本 python watchdog test py ab test res sh 1 30628 fbt f
如何使用 stdlibc++ 为 OS X 64b 平台编译 boost？

我想使用 stdlibc 为 Mac OS X 10 9 编译 boost 我运行以下命令 b2 threading multi link static runtime link static cxxflags stdlib libstdc
:not(:empty) CSS 选择器不起作用？

我对这个特定的 CSS 选择器感到很厌烦当我添加时它不想工作 not empty 到它它似乎与其他选择器的任意组合都能正常工作 input not empty not focus invalid border color A22 box
如何使用 Drive.API 从 Google Drive 下载文件？

我正在使用 Google Drive Api 以使用户的应用程序数据与用户驱动器帐户同步用户数据库采用sqlite数据库格式我已成功将二进制文件上传到驱动器但无法从应用程序内下载文件我如何获取文件 URl final GoogleA
使用 ImageMagick.NET 和 C# 调整裁剪大小

我有一个大图像我想将其大小调整为 230 320 精确我希望系统在不损失纵横比的情况下调整它的大小即如果图像为 460 650 则应首先将其大小调整为 230 325 然后裁剪多余的 5 个像素的高度我正在做以下事情 ImageM
我可以将 JSON.NET 与我的商业应用程序一起分发吗？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我正在寻找一个 NET JSON 库我可以使用它以类似 xpath 的方式访问 JSON 对象例如给定字符串中的 JSON 对象可以通过指定另一个字符串中的路径来访问其属性
选择性（强制、可选）和参与（全部、部分）相同吗？

据我所知可选性意味着关系的最小基数表示为可选对可选强制对可选强制对强制参与表示为粗线和普通线在互联网上有些人将参与称为实体对关系的依赖这也看起来像识别和非识别关系有些人将其称为最小基数这些关系的正确定义是什么以及有什么区
在 Qt 中将公历日期转换为波斯日期 (jalali)

如何在 Qt 中将公历日期转换为波斯日期 Q日期转换器课程可以帮助您将日期从公历转换为贾拉利日期以及将贾拉利日期转换为公历日期 Edit 将此类添加到您的项目中并在需要转换日期的位置包含 qdateconvertor h gregori
为什么固定元素会减慢 Firefox 中的滚动速度？

为什么元素要用CSSposition fixed应用于它们会导致 Firefox 在滚动它们所在的页面时占用 100 CPU 有什么解决方法吗我在一些网站上注意到了这种行为例如 StackOverflow 页面顶部的通知栏我正在使用
了解Seq2Seq模型

这是我对基本序列到序列 LSTM 的理解假设我们正在处理问答设置您有两组 LSTM 下面的绿色和蓝色每组分别共享权重即 4 个绿色单元格中的每一个都具有相同的权重并且与蓝色单元格类似第一个是多对一的LSTM 总结了问题在最后一个
在 PyTorch 中使用 None 索引张量

我在 PyTorch 中看到过这种用于索引张量的语法但不确定它的含义 v torch div t n None where v t and n是张量的作用是什么 None 在这里我在文档中似乎找不到它与 NumPy 类似您可以插入
需要使用 RegEx 和 BeautifulSoup 查找文本

我正在尝试解析一个网站以提取存储在正文中的一些数据如下所示 b INFORMATION b Hookups None Group Sites No Station No b Details b Ramp Yes 我想使用 Beautifu

需要使用 RegEx 和 BeautifulSoup 查找文本

需要使用 RegEx 和 BeautifulSoup 查找文本 的相关文章

随机推荐

热门标签

需要使用 RegEx 和 BeautifulSoup 查找文本的相关文章