python 正则表达式无法识别 Markdown 链接

2023-12-21

我正在尝试用 python 编写一个正则表达式来查找 Markdown 文本字符串中的 url。找到 url 后，我想检查它是否被 markdown 链接包裹：text 我对后者有疑问。我正在使用正则表达式 - link_exp - 进行搜索，但结果不是我所期望的，并且无法理解它。

这可能是我没有看到的简单事情。

这是 link_exp 正则表达式的代码和解释

import re

text = '''
[Vocoder](http://en.wikipedia.org/wiki/Vocoder )
[Turing]( http://en.wikipedia.org/wiki/Alan_Turing)
[Autotune](http://en.wikipedia.org/wiki/Autotune)
http://en.wikipedia.org/wiki/The_Voder
'''

urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+', text) #find all urls
for url in urls:
    url = re.escape(url)
    link_exp = re.compile('\[.*\]\(\s*{0}\s*\)'.format(url) ) # expression with url wrapped in link syntax.     
    search = re.search(link_exp, text)
    if search != None:
        print url

# expression should translate to:
# \[ - literal [
# .* - any character or no character 
# \] - literal ]
# \( - literal (
# \s* - whitespaces or no whitespace 
# {0} - the url
# \s* - whitespaces or no whitespace 
# \) - literal )
# NOTE: I am including whitespaces to encompass cases like [foo]( http://www.foo.sexy   )

我得到的输出只是：

http\:\/\/en\.wikipedia\.org\/wiki\/Vocoder

这意味着表达式仅查找右括号之前带有空格的链接。这不仅是我想要的，而且只应考虑一种没有空格的链接。

你认为你能在这件事上帮我吗？
cheers

这里的问题是你的正则表达式首先提取 URL，其中包括)在 URL 内。这意味着您要查找右括号两次。除了第一个之外，所有的事情都会发生这种情况（空间可以节省你的时间）。

我不太确定你的 URL 正则表达式的每个部分试图做什么，但那部分说：[$-_@.&+]，包括从$(ASCII 36) 至_(ASCII 137)，其中包含大量您可能不想要的字符，包括).

与其先查找 URL，然后检查它们是否在链接中，为什么不同时执行这两项操作呢？这样你的 URL 正则表达式就可以变得更懒，因为额外的约束使它不太可能是其他东西：

# Anything that isn't a square closing bracket
name_regex = "[^]]+"
# http:// or https:// followed by anything but a closing paren
url_regex = "http[s]?://[^)]+"

markup_regex = '\[({0})]\(\s*({1})\s*\)'.format(name_regex, url_regex)

for match in re.findall(markup_regex, text):
    print match

Result:

('Vocoder', 'http://en.wikipedia.org/wiki/Vocoder ')
('Turing', 'http://en.wikipedia.org/wiki/Alan_Turing')
('Autotune', 'http://en.wikipedia.org/wiki/Autotune')

如果您需要更严格，您可以改进 URL 正则表达式。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 正则表达式无法识别 Markdown 链接的相关文章

无法使用 beautifulsoup 模块 python 从 HTML 检索温度值

我正在使用 BeautifulSoup4 来解析此 HTML 查看源代码 https weather com en IN weather today l 17 39 78 49 https weather com en IN weather
AttributeError：模块“tensorflow.python.framework.ops”没有属性“RegisterShape”

我正在使用 TensorFlow 2 1 0 dev20191125 不幸的是我无法编译一个带有错误的简单示例 AttributeError 模块 tensorflow python framework ops 没有属性 Registe
为什么具有复杂无穷大的 NumPy 运算会导致有趣的结果？

我注意到复杂的无穷大的有趣结果 In 1 import numpy as np In 2 np isinf 1j np inf Out 2 True In 3 np isinf 1 1j np inf Out 3 True In 4 np
代码 zip( *sorted( zip(units, error) ) ) 的作用是什么？

对于我的申请units and errors始终是数值列表我尝试用谷歌搜索每个部分的作用并找出了 zip 的第一部分它似乎 ziped list zip units errors 只需将单位和误差配对即可生成一个列表如下所示 uni
尽管 ioff() 和 matplotlib.use('Agg')，Pyplot“无法连接到 X 服务器 localhost:10.0”

我有一段代码它被不同的函数调用为我执行一些计算然后将输出绘制到文件中鉴于整个脚本可能需要一段时间才能运行更大的数据集并且由于我可能想在给定时间分析多个数据集所以我开始它screen然后断开连接并关闭我的腻子会话并在第二天再检查
创建一个行为类似于任何变量但具有更改/读取回调的类

我想创建一个类其行为类似于 python 变量但在更改读取变量时调用一些回调函数换句话说我希望能够按如下方式使用该类 x myClass change callback read callback 将 x 定义为 myclas
预处理 csv 文件以与 tflearn 一起使用

我的问题是关于在将 csv 文件输入神经网络之前对其进行预处理我想使用 python 3 中的 tflearn 为著名的 iris 数据集构建一个深度神经网络数据集 http archive ics uci edu ml machine
使用opencv+picamera流IO用树莓派捕获视频

我使用 Raspberry 来简单地显示一个视频目前仅此为此我必须使用 opencv cv2 我尝试了很多解决方案但现在我想使用 Picamera 库捕获视频我将向您展示我的代码 import io import time imp
不使用 graphviz/web 可视化决策树

由于某些限制我无法使用 graphviz webgraphviz com 可视化决策树工作网络与另一个世界是封闭的问题是否有一些替代实用程序或一些 Python 代码用于至少非常简单的可视化可能只是决策树的 ASCII 可视化 py
Tensorflow 到 ONNX 的转换

我目前正在尝试转换我使用本教程创建的已保存且正在工作的 pb 文件 https github com thtrieu darkflow https github com thtrieu darkflow 到 onnx 文件中我目前正在
使用 shell=True 将 PATH 设置为 bitbake 的“source”在 Python 中没有效果

下面是shell脚本中的代码 source proj common tools repo etc profile d repo sh repo project init branch repo project sync source pok
使用主宰器将实时数据发送给客户端

我尝试使用 Flask 的主宰框架以便按照 Flask 代码片段将实时信息发送到客户端浏览器http flask pocoo org snippets 80 http flask pocoo org snippets 80 当我尝试为我的
替换 pandas 数据框中的点

我有一个如图所示的数据框数字实际上是对象正在做df treasury rate pd to numeric df treasury rate 可预见的炸弹然而做df replace np nan 似乎没有摆脱这个点所以我很困惑有
如何使用 Python Pandas 制作 DataFrame 切片并在特定切片中“fillna”？

问题让我们从 Kaggle 获取泰坦尼克号数据集我有包含 Pclass 性别和年龄列的数据框我需要用特定组的中位数填充年龄列中的 NaN 如果是来自一等的女性我想用一等女性的中位数填写她的年龄而不是整个年龄列的中位数问
python 中的异步编程

python 中有异步编程的通用概念吗我可以为一个函数分配一个回调执行它并立即返回主程序流无论该函数的执行需要多长时间吗您所描述的主程序流程在另一个函数执行时立即恢复不是通常所说的异步又名事件驱动编程而是多任务又名
在 Django 中翻译文件时的 Git 命令

我在 Django 中有一个现有的应用程序我想在页面上添加翻译在页面上我有 trans Projects 在 po 文件中我添加了 templates staff site html 200 msgid Projects msgid P
如何在 Flask 中获取 POSTed JSON？

我正在尝试使用 Flask 构建一个简单的 API 现在我想在其中读取一些 POSTed JSON 我使用 Postman Chrome 扩展进行 POST 我 POST 的 JSON 很简单 text lalala 我尝试使用以下方法读取
使用多行选项和编码选项读取 CSV

在 azure Databricks 中当我使用以下命令读取 CSV 文件时multiline true and encoding SJIS 似乎编码选项被忽略了如果我使用multiline选项 Spark 使用默认值encoding那
Tensorboard——High-level节点的计算时间与其子节点计算时间的总和不同

继tutorial https www tensorflow org programmers guide graph viz在 TensorFlow 上我试图使用张量板来理解运行时统计数据我发现代表名称范围的高级节点的计算时间不等于其子
有效积累稀疏 scipy 矩阵的集合

我有一个 O N NxN 的集合scipy sparse csr matrix 每个稀疏矩阵都有 N 个元素集我想将所有这些矩阵加在一起以获得一个常规的 NxN numpy 数组 N 约为 1000 矩阵内非零元素的排列使得所得总和肯定不

随机推荐

四分之一圆形状，容器在颤动

我想要一个四分之一圆形的容器想象一下整个披萨的四分之一片我该如何实现这一目标基本上我想使用堆栈小部件将其放置在右下位置的另一个容器的顶部圆形部分朝内并且角度当然与底部容器的右下角相匹配 Thanks 您可以使用CustomPai
在 CSS 样式表之间切换

因此与其他问题不同我想使用这里的代码如何使用 jQuery 切换 CSS 样式表 https stackoverflow com questions 7846980 how do i switch my css stylesheet
防止 SKNode 相互施加力量

我有两个SKNode对象当它们碰撞时它们的位置会发生变化我怎样才能防止这种情况发生同时我仍然希望能够通过以下方式回复他们的联系 void didBeginContact 我尝试设置他们的mass财产给0 0f但这没有用您可以通过
Xgrid 与 Xcode 并行编译的配合效果如何？

我对使用 Xgrid 来加速跨多台机器编译 Xcode 的想法很感兴趣但似乎很难找到有关人们使用它的经验任何陷阱等的任何信息我没有多台 Mac我现在就可以测试它所以我很好奇你尝试过吗它对你来说效果如何您看到过什么样的加速我
不间断 utf-8 0xc2a0 空格和 preg_replace 奇怪的行为

在我的字符串中我有 utf 8 不间断空格 0xc2a0 我想用其他东西替换它当我使用 str preg replace xc2 xa0 X str 它工作正常但是当我使用 str preg replace x C2A0 siu W
Postgres 列名或表名何时需要引号，何时不需要？

让我们考虑以下 postgres 查询 SELECT FROM MY TABLE WHERE bool var FALSE AND str var something 当我删除周围的引号时查询无法正确响应 str var 但当我做同样的事
如何使用我们的 T4 模板生成器包含自定义实用程序类？

如何使用我们的 T4 模板生成器包含自定义实用程序类我尝试向项目添加一个模块但似乎无法将其包含在内以便我的生成器使用其中的方法 Thanks 您无法从模板访问项目中的任何代码即使可以它会如何执行该模板在设计时执行使用 Inhe
运行 selenium 独立服务器和集线器/节点设置有什么区别

我从 selenium 独立服务器设置开始 java jar selenium server standalone 2 32 0 jar 这使我能够成功连接并运行我的测试同时运行多个浏览器当我使用以下设置作为集线器时有什么区别 java
DropDownList 的 SelectedIndexChanged 事件未触发

我的网页中有一个 DropDownList 对象当我单击它并选择不同的值时没有任何反应即使我有一个函数连接到SelectedIndexChanged event 首先实际对象的 HTML 代码
在 Axis2 中创建自定义异常

我正在使用 Axis2 1 5 2 和 Eclipse 我使用 Eclipse 生成 WSDL 并根据生成的 WSDL 生成客户端代码我创建了一个我的服务可以抛出的自定义异常创建网络服务时一切看起来都正常 Web 服务成功启动我可以通
Golang 模板变量 isset

我创建了一个函数来检查变量是否已定义 fm isset func a interface bool if a nil a a 0 fmt Println is not set return false fmt Println is set
IE8 预期标识符错误

IE 7 和 8 抛出错误通过 jQuery 预期标识符 jQuery document ready function jQuery i18n properties name messages path myproject js i18n
请提供 ENGINE 值 Django 数据库配置

伙计们我很困惑我已经安装了 Django 并正常运行服务器但是当尝试配置数据库并运行 db 同步命令时它崩溃返回我的 ENGINE 参数不正常但设置文件正常按照设置文件操作 DATABASES default ENGINE d
嵌入式 Jetty - IllegalStateException：没有 SessionManager

我在谷歌上找到了很多关于这个问题的参考但没有答案我正在使用最新版本的 jetty 8 1 2 v20120308 但我似乎无法获得能够使用会话的嵌入式 servlet 当然该示例是用 scala 编写的但任何 java 程序员都应该
突然无法推送到heroku：“无法协商密钥交换方法”

git Push heroku 突然失败了我安装了 Node js 我认为它可能升级了一些东西并以某种方式破坏了它我读过所有类似的帖子它没有告诉我提供了哪个交换并且一切看起来都匹配但是调用失败我不知所措我成功执行了hero
asp.net mvc 单选按钮状态

我正在为一个新项目尝试 asp net mvc 并且遇到了一些奇怪的事情当我对文本框使用 MVC UI 帮助程序时这些值在调用之间会保留下来但是当我使用一系列单选按钮时选中状态不会持续存在这是我认为的一个例子 li li
在任何打开的工作簿中检测刚刚停用的工作表中的选择类型

我想要一个方法来查询改变后ActiveSheet 编辑任何开放的Workbook 检测类型Selection在上一个活动表中最重要的是如果它是ChartObject or Range 如果它是一个Range 获取地址这可能吗 ED
无法从数据存储实体访问 ID 属性

使用 Google App Engine SDK 和 Python 我遇到一个问题我无法访问给定实体属性的 ID 属性我可以访问的唯一属性是我的类模型中定义的属性加上关键属性请参阅下面的答案 class Question db Mo
pyproject.toml 文件的用途是什么？

背景我正准备尝试从 GitHub 下载的 Python 包发现它没有setup py 所以我无法安装它 pip install e
python 正则表达式无法识别 Markdown 链接

我正在尝试用 python 编写一个正则表达式来查找 Markdown 文本字符串中的 url 找到 url 后我想检查它是否被 markdown 链接包裹 text 我对后者有疑问我正在使用正则表达式 link exp 进行搜索但结

python 正则表达式无法识别 Markdown 链接

python 正则表达式无法识别 Markdown 链接 的相关文章

随机推荐

热门标签

python 正则表达式无法识别 Markdown 链接的相关文章