Python 正则表达式未按预期工作

2023-12-10

我已经制作了这个正则表达式:

<entry>\\n<(\w+)>(.+?)</\w+>\\n</entry>

解析以下内容RSS Feed:

<?xml version="1.0" encoding="UTF-8"?>\n<feed version="0.3" xmlns="http://purl.org/atom/ns#">\n<title>Gmail - Inbox for [email protected]</title>\n<tagline>New messages in your Gmail Inbox</tagline>\n<fullcount>2</fullcount>\n<link rel="alternate" href="http://mail.google.com/mail" type="text/html" />\n<modified>2011-03-15T11:07:48Z</modified>\n<entry>\n<title>con due mail...</title>\n<summary>Gianluca Bargelli http://about.me/proudlygeek/bio</summary>\n<link rel="alternate" href="http://mail.google.com/[email protected]&amp;message_id=12eb9332c2c1fa27&amp;view=conv&amp;extsrc=atom" type="text/html" />\n<modified>2011-03-15T11:07:42Z</modified>\n<issued>2011-03-15T11:07:42Z</issued>\n<id>tag:gmail.google.com,2004:1363345158434847271</id>\n<author>\n<name>me</name>\n<email>g.barg[email protected]</email>\n</author>\n</entry>\n<entry>\n<title>test nuova mail</title>\n<summary>Gianluca Bargelli sono tornato!?& http://about.me/proudlygeek/bio</summary>\n<link rel="alternate" href="http://mail.google.com/[email protected]&amp;message_id=12eb93140d9f7627&amp;view=conv&amp;extsrc=atom" type="text/html" />\n<modified>2011-03-15T11:05:36Z</modified>\n<issued>2011-03-15T11:05:36Z</issued>\n<id>tag:gmail.google.com,2004:1363345026546890279</id>\n<author>\n<name>me</name>\n<email>[email protected]</email>\n</author>\n</entry>\n</feed>\n'skinner.com/products/spl].

问题是我没有通过使用得到任何匹配Python的re模块:

import re

regex = re.compile("""<entry>\\n<(\w+)>(.+?)</\w+>\\n</entry>""")
regex.findall(rss_string) # Returns an empty list

使用在线正则表达式测试器（例如this）按预期工作，所以我认为不是正则表达式问题。

Edit

我很清楚使用正则表达式来解析上下文无关语法是不好的，但就我而言，正则表达式可能有效only对于 RSS feed（顺便说一句，它是 Gmail 收件箱 feed），我知道我可以使用外部库/xml 解析器来完成此任务：它只是一个exercise，不是一个habit.

问题应该是为什么下面的正则表达式在 Python 中不能按预期工作？

在正则表达式编译器看到字符串之前，Python 已经处理了斜杠转义符，因此您必须将其转义两次（例如\\\\n for \\n）。然而，Python 对于这类事情有一个方便的表示法，只需粘贴一个r字符串之前：

regex = re.compile(r"""<entry>\\n<(\w+)>(.+?)</\w+>\\n</entry>""")

顺便说一下，我同意其他人的观点，不要使用正则表达式来解析 XML。但是，希望您会发现此字符串表示法对将来的正则表达式很有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 正则表达式未按预期工作的相关文章

通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
Perl 非贪婪

我遇到非贪婪正则表达式 regex 的问题我已经看到有关于非贪婪正则表达式的问题但它们没有回答我的问题 Problem 我正在尝试匹配 lol 锚点的 href Note 我知道这可以通过 Perl HTML 解析模块来完成我的问题是
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
将数据从 python pandas 数据框导出或写入 MS Access 表

我正在尝试将数据从 python pandas 数据框导出到现有的 MS Access 表我想用已更新的数据替换 MS Access 表在 python 中我尝试使用 pandas to sql 但收到错误消息我觉得很奇怪使用 p
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
.htaccess 如果 URL 错误，请执行某些操作

我正在做我的个人CMS http en wikipedia org wiki Content management system 我想在其中使用很酷友好的 URL 这是我的 htaccess 文件代码 RewriteEngine on
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
如何替换 pandas 数据框列中的重音符号

我有一个数据框dataSwiss其中包含瑞士城市的信息我想用普通字母替换带有重音符号的字母这就是我正在做的 dataSwiss Municipality dataSwiss Municipality str encode utf 8 d
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
在 SQLite 中搜索时排除 HTML 标签和一些 UNICODE 字符

更新 4 我已经成功运行了firstchar例如但现在的问题是使用regex 即使包含头文件它也无法识别regex操作员有什么线索可以解决这个问题吗更新 2 我已经编译了sqlite3我的项目中的库我现在正在寻找任何人帮助我为我的
如何为俚语和表情符号构建正则表达式 (regex)

我需要构建一个正则表达式来匹配俚语即 lol lmao imo 等和表情符号即 P 等我按照以下示例进行操作http www coderanch com t 497238 java java Regular Expression D
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
使用 php/regex 验证美国电话号码

EDIT 我混合并修改了下面给出的两个答案以形成完整的功能现在它可以完成我想要的功能然后是一些所以我想我会将其发布在这里以防其他人来寻找同样的东西 Function to analyze string against many p
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

如何将两个零的 00 作为整数打印？

我正在做一些应用程序学院练习题但我似乎无法打印两个 00 来进行时间转换这是我到目前为止所拥有的 def time conversion minutes hours minutes 60 if minutes 60 lt 10 minu
如何获取“keyof T”的子集，其值 T[K] 是 Typescript 中的可调用函数

我要过滤keyof T根据类型T keyof T 它应该像这样工作 type KeyOfType
powershell out 文件到文本文件单行？

Date2 Difference Out File To2 Outputfile txt Append width 200 导致我的输出在文本文件中分为两行如下所示但是我期望在一行中以另一行开头 Friday August 22 201
剔除动态生成元素上的数据绑定

如何才能在动态生成的元素上进行淘汰数据绑定例如我在 div 内插入一个简单的 html 选择菜单并希望使用剔除选项绑定来填充选项这就是我的代码的样子 menu html
如何在 Java 中向现有文件追加文本？

我需要将文本重复附加到 Java 中的现有文件中我怎么做您这样做是为了记录目的吗如果有的话有为此有几个库其中最受欢迎的两个是Log4j and Logback Java 7 对于一次性任务文件类让这变得容易 try Files w
Hashtable.Synchronized 适合在多线程环境中用作简单缓存吗？

我目前正在使用包装为 Hashtable Synchronized 的 Hashtable 作为库中的简单缓存可供多线程环境例如 asp net 使用这是否适合此集合的用途我知道 Net 4 0 中有更合适的结构但我坚持使用 Ne
如何在 flutter 中禁用每个设备/用户的云消息传递？

对于 flutter 应用程序我使用 Firebase Cloud Messaging 和云函数通过 FCM 注册令牌向用户发送推送通知该应用程序有一个设置页面用户应该能够在其中关闭某些推送通知通知是特定于用户的因此订阅或取消订阅
如何在 React Native 中为 IOS 创建带有全屏图像的 LaunchScreen，该屏幕与 iPad 和所有 iPhone 兼容

我需要一个我的启动屏幕上的全屏图像使用 React Native 构建 IOS 应用程序我已经推荐了不同的帖子但大多数都解释了中间带有徽标的启动屏幕但没有一个对适合所有设备分辨率包括 iPad 的全屏启动图像给出正确的解释我创建了
增加复制因子对 cassandra 性能的影响

我正在对 Cassandra 的性能进行一些实验我有一个包含 8 个节点的集群在将复制因子从 1 增加到 8 时我注意到总体吞吐量有所下降我对读取和写入都使用一致性级别 1 我发现这些都不是预期的结果有人解释为什么会发生这种情况吗
如何使用 Perl 获取 DOS 工具的命令行输出？

我想使用 Perl 脚本内的 Windows 内置 FTP 工具来测量链接的吞吐量因此该脚本创建以下命令脚本 open
在 JavaFX8 中播放视频

我是 JavaFX 新手目前正在使用一个在应用程序开头播放视频 MP4 的应用程序但是我似乎无法使其工作请告诉我我的代码有什么问题 import java io File import javafx geometry Pos imp
IE 8 的 InternetExplorer COM 对象忽略活动选项卡

这是在 net 3 5 winform 上运行的 Web 单点登录代码只要 ie8 仅打开一个选项卡该代码就可以在 ie6 或 ie8 上正常运行问题是如果用户打开新选项卡选项卡 2 3 等并导航到网站组织内部的 Web 表单
使用 docker-compose 将 Azure 文件共享挂载到 Linux 容器的 Web 应用程序

我正在尝试安装天蓝色文件共享 to a 容器 Web 应用程序 Linux 服务这是一个具有 Angular 前端的 net Core 3 Web API 应用程序当我安装本地驱动器以加载与文件共享中完全相同的文件时应用程序容器在本地
参考 Internet Explorer - 使用 Internet Explorer 对象模型

我想在运行时创建一个 Internet Explorer 对象并且需要它来引用或查找已在当前会话中打开的浏览器对象 IE 使用以下代码作为启动创建一个新的 Internet Explorer 对象并打开浏览器并引用该对象但是如何创建一个
使用 Gson 将 Json 解析为具有通用字段的项目列表

public class OwnCollection
ARM64在iOS上使用gas？

我已经将一些汇编函数移植到了 64 位 ARM 并且它们在 Android 上运行良好但是当我尝试在 Xcode 中编译相同的文件时我发现 clang 使用不同的语法与官方 ARM 不同文档我发现一些脚本可以将源文件从一种格式转换
PyQt4 QTimer 不起作用

我是 PyQt4 QTimer 的新手我只是从某处复制代码但似乎不起作用有人可以帮我弄这个吗 from PyQt4 import QtCore QtGui from PyQt4 QtGui import from PyQt4 QtCo
谁能帮我找出这段代码有什么问题吗？
Typescript：与先前参数的解析类型相同的泛型类型

我想知道当类型可以是多种类型时如果与前一个参数的解析类型相同如何指定该泛型类型 TypeScript 游乐场 function add
Python 正则表达式未按预期工作

我已经制作了这个正则表达式

Python 正则表达式未按预期工作

Edit

Python 正则表达式未按预期工作 的相关文章

随机推荐

热门标签

Python 正则表达式未按预期工作的相关文章