如何确保 re.findall() 停止在正确的位置？

2024-05-23

这是我的代码：

a='<title>aaa</title><title>aaa2</title><title>aaa3</title>'
import re
re.findall(r'<(title)>(.*)<(/title)>', a)

结果是：

[('title', 'aaa</title><title>aaa2</title><title>aaa3', '/title')]

如果我设计了一个爬虫来获取网站标题，我最终可能会得到类似这样的内容，而不是网站的标题。

我的问题是，我该如何限制findall到一个单一的<title></title>?

Use re.search代替re.findall如果您只想要一场比赛：

>>> s = '<title>aaa</title><title>aaa2</title><title>aaa3</title>'
>>> import re
>>> re.search('<title>(.*?)</title>', s).group(1)
'aaa'

如果您想要所有标签，那么您应该考虑将其更改为非贪婪的（即 -.*?):

print re.findall(r'<title>(.*?)</title>', s)
# ['aaa', 'aaa2', 'aaa3']

但真正考虑使用 BeautifulSoup 或 lxml 或类似的方法来解析 HTML。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python27

findAll

如何确保 re.findall() 停止在正确的位置？的相关文章

检查给定字符串是否等于给定字符串集中的至少一个字符串的有效方法

给定一组字符串比如说 String1 String2 StringN C 中确定最有效的方法是什么返回true or false 是否给定string s匹配上面集合中的任何字符串吗 Boost Regex 可以用于此任务吗 std u
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
没有特殊字符的密码验证器

我是 RegEx 的新手已经进行了大量搜索但没有找到任何具体内容我正在编写一个验证密码字符串的正则表达式可接受的字符串必须至少具有 4 种字符类型中的 3 种数字小写字母大写字母特殊字符我对包含有一个想法也就是说如果这
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
ExpectedFailure 被计为错误而不是通过

我在用着expectedFailure因为有一个我想记录的错误我现在无法修复但想将来再回来解决我的理解expectedFailure是它会将测试计为通过但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是当我
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
设置 torch.gather(...) 调用的结果

我有一个形状为 n x m 的 2D pytorch 张量我想使用索引列表来索引第二个维度可以使用 torch gather 完成然后然后还设置新值到索引的结果 Example data torch tensor 0 1 2 3 4
VSCode：调试配置中的 Python 路径无效

对 Python 和 VSCode 以及 stackoverflow 非常陌生直到最近我已经使用了大约 3 个月一切都很好当尝试在调试器中运行任何基本的 Python 程序时弹出窗口The Python path in your
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql

随机推荐

添加到列表时有没有办法避免循环？

我想知道这样的代码 List
MySQL 两种日期格式之间的转换

用户将以这种格式输入日期 2017 年 2 月 17 日存储在 mysql 数据库中的日期格式如下 2015 02 17 00 00 00 我想做的是 SELECT FROM insurance where DATE FORMAT in
协程从未被等待

我正在使用一个简单的上下文管理器其中包含一个异步循环 class Runner def init self self loop asyncio get event loop def enter self return self def e
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
如何在 Tensorflow 对象检测 API 中查找边界框坐标

我正在使用 Tensorflow 对象检测 API 代码我训练了我的模型并获得了很高的检测百分比我一直在尝试获取边界框坐标但它不断打印出 100 个奇怪数组的列表经过在线广泛搜索后我发现数组中的数字意味着什么边界框坐标相对于底层
在需要时初始化模块

我有一个模块里面有一些初始化代码加载模块时应执行 init 目前我正在这样做 in the module exports init function config do it in main var mod require myModu
是否可以使用 http url 作为 DirectShow .Net 中源过滤器的源位置？

我正在使用 DirectShow Net 库创建一个过滤器图该过滤器图通过使用 http 地址和 WM Asf Writer 来流式传输视频然后在网页上我可以使用对象元素在 Windows Media Player 对象中呈现视频源
从子域中的 ../ 路径

假设我创建了一个子域 http subdomain mydomain com http subdomain mydomain com 最初是在这个网址 http mydomain com subfolder folder http mydo
将数字的各个数字部分相加/求和的最快方法

不久前我在数学论坛上看到一个问题其中一个人正在讨论一遍又一遍地将数字中的数字相加直到达到个位数即 362 将变成 3 6 2 这将变成 11 然后 11 将变成 1 1 将变成 2 因此 362 将返回2 我写了一些很好的代码来得到
我应该如何实现将状态保存到 localStorage？

CODE var React require react var Recipe require Recipe jsx var AddRecipe require AddRecipe jsx var EditRecipe require Ed
调用 IndexFaces 操作时出现 InvalidS3ObjectException

我正在尝试以下教程 https aws amazon com blogs machine learning easily perform facial analysis on live feeds by creating a serverl
UIView 周围的虚线边框

如何在周围添加虚线边框UIView 像这样的东西如果您喜欢子层还有另一种方法在您的自定义视图的 init 中输入以下内容 border 是 ivar border CAShapeLayer layer border strokeCo
如何为WCF服务创建重定向？

我的网站 A 上托管了一个 WCF 服务我还有另一个网站 B 它使用 IIS URL 重写将所有请求重定向到我的网站 A 但是站点 B 不处理任何对 svc 文件的请求返回 404 not find 知道如何让它发挥作用吗 UPD重定
如何在 EGit 中创建正确的新本地和远程分支组合？

我想在 Egit 中执行以下操作 git checkout b newbranch git push u origin newbranch 这给了我一个新的本地分支将其推送到上游服务器并创建正确的跟踪参考我如何在 Egit 中做同样的事
MongoDB：与基本查找相比，管道查找性能较慢

我有两个收藏 matches date 2020 02 15T17 00 00Z players id 5efd9485aba4e3d01942a2ce id 5efd9485aba4e3d01942a2cf and players id
在 python pandas 中，如何保存“网格图”？

我对 pandas 绘图工具很陌生在文档中以下命令非常方便 myplot rts ret hist bins 50 by rts primary mic 然而当我尝试从图中获取图形参考并保存它时问题就出现了 myfigure myp
Android 上的 MIDI：Java 和/或 AIR 库

一段时间以来我一直在考虑在 iPad 上重新构建一个应用程序其中我将使用 Objective C 和DSMI http dsmi tobw net 将 MIDI 信号发送到主机这还不错我的意思是除了实际编写应用程序之外现在我
将项目中的node_modules集中到子项目中

是否可以以在中心点上拥有所需模块的方式配置 grunt 我有以下项目结构 Project subproject subproject subproject 我通过 grunt 构建项目的所有子项目并且我也可以为自己构建每个子项目目前我
Facebook Workplace API 身份验证

我正在开发一个与 Facebook 的 Workplace 集成的 Web 应用程序我花了一整天的时间试图弄清楚如何使用 OAUTH 身份验证机制进行成员身份验证由于我拥有应用程序访问令牌我能够获取用于模拟的成员访问令牌但是我如何
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa

如何确保 re.findall() 停止在正确的位置？

如何确保 re.findall() 停止在正确的位置？ 的相关文章

随机推荐

热门标签

如何确保 re.findall() 停止在正确的位置？的相关文章