Python正则表达式捕获各种url模式组

2024-03-28

我有包含这样的字符串的数据集，我想从中删除所有网址

http://google.com having trouble finding regex https://google.com for this case http // google com / test some gibberish https // google . com / test / test1 great http.//google.org

现在，我使用这个正则表达式模式来查找所有网址：

https?:?\s?\/\/\s?\S+

现在，理想情况下，它应该捕获所有 url，例如在本例中，

http://google.com
https://google.com
http // google com / test
https // google . com / test / test1
http.//google.org

但使用我的正则表达式模式，它仅捕获

http://google.com
https://google.com
http // google
https // google

Link to .

您可以使用

https?[:.]?\s?\/\/(?:\s*[^\/\s.]+)+(?:\s*\.\s*[^\/\s.]+)*(?:\s*\/\s*[^\/\s]+)*

See the 正则表达式演示 https://regex101.com/r/syMCD7/3.

Details

https? - http or https
[:.]?- 可选的: or .
\s?- 可选的空白 -\/\/ - //字符序列
(?:\s*[^\/\s.]+)+ - (to match all domain name parts till the last . before TLD) 1 or more occurrences of
- \s*- 0个或多个空格
- [^\/\s.]+- 1 个或多个字符以外的字符/, .和空白
(?:\s*\.\s*[^\/\s.]+)* - 0 or more sequences of
- \s*\.\s*- 一个由 0+ 个空格包围的点
- [^\/\s.]+- 1 个或多个字符以外的字符/, .和空白
(?:\s*\/\s*[^\/\s]+)* - 0 or more sequences of
- \s*\/\s* - a /包含 0+ 个空格
- [^\/\s]+- 1 个或多个字符以外的字符/和空白

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

Python正则表达式捕获各种url模式组的相关文章

OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
IO 密集型任务中的 Python 多线程

建议仅在 IO 密集型任务中使用 Python 多线程因为 Python 有一个全局解释器锁 GIL 只允许一个线程持有 Python 解释器的控制权然而多线程对于 IO 密集型操作有意义吗 https stackoverflow c
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
正则表达式 - 从 markdown 字符串中提取所有标题

我在用灰质 https www npmjs com package gray matter 以便将文件系统中的 MD 文件解析为字符串解析器产生的结果是这样的字符串 n Clean er ReactJS Code Conditional
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
Python Selenium：如何在文本文件中打印网站上的值？

我正在尝试编写一个脚本该脚本将从 tulsaspca org 网站获取以下 6 个值并将其打印在 txt 文件中最终输出应该是 905 4896 7105 23194 1004 42000 放置的动物的 HTML span class
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

在 vscode 中将现有 Java 项目转换为 Maven

我有一个没有任何东西的旧Java项目我想使用maven 因为缺少一些依赖项并且我找不到库有人可以告诉我如何将该项目转换为 MavenWITH VSCODE 以下是一些步骤告诉 VS Code使用Maven https code vis
如何获取最顶层活动的标识符？

我有一个服务当最顶层的 Activity 发生变化时它的行为必须改变假设活动 A 处于活动状态然后服务开始某种处理当 Activity A 不再可见时此处理必须停止用户按下后退主页或执行任何其他操作使 Activity
MySQL 记录 UPDATE 应该会失败，但实际上却没有。为什么？

这是一个有趣的情况我用 MySQL 开始一个事务我的交易涉及3个相关查询每个查询都必须成功如果没有成功则不应将任何查询写入数据库现在故意对于第二个查询这恰好是一个更新查询我改变了标识要更新为无效不存在 PK 值的记录
在散点图中将值绘制为符号的最简单方法？

在回答我之前关于修复 4D 数据散点图像的色彩空间的问题时 Tom10 建议将值绘制为符号以便仔细检查我的数据一个好主意我过去运行过一些类似的演示但我一生都找不到我记得的演示非常简单那么将数值绘制为散点图中的符号而不是 o 的
IPv6 地址的正则表达式

我有一个 IPv6 地址的正则表达式如下所示 IPV4ADDRESS t digit 1 3 3 digit 1 3 t x4 xdigit 1 4 xseq x4 x4 0 7 xpart xseq xseq xseq xseq IPV
Scala sbt：sbt 中的多个依赖项

我是 Scala 的新用户正在按照创建 scala sbt 项目的方式进行操作 https www youtube com watch v Ok7gYD1VbNw https www youtube com watch v Ok7gYD1
如何在shell中剪切字符串的第一列（可变长度）

如何在shell中剪切字符串的第一列可变长度字符串的前 23006 帮助 txt 我需要 23006 作为输出很多方法 cut d f1
为什么我的 WebClient 大多数时候会返回 404 错误，但并非总是如此？

我想要获取有关我的程序中的 Microsoft 更新的信息但是服务器在大约 80 的情况下会返回 404 错误我将有问题的代码归结为这个控制台应用程序 using System using System Net namespace W
实施 Dijkstra 算法

我的任务是大学课程实施某种形式的寻路现在在规范中我可以实现强力因为要搜索的节点数量有限制开始中间两个结束但我想重新使用此代码并来实现迪杰斯特拉算法 http en wikipedia org wiki Dijkstra
如何防止android服务被杀死（带通知的服务）

我正在开发一个需要不断显示通知的应用程序我有一项服务可以每秒显示一次通知当资源不足时 android 就会终止我的服务我已经从 onStartCommand 给出了返回 START STICKY 因此一段时间后服务将重新启动但与
如何创建自定义元素扩展类的新实例

我正在尝试以下示例谷歌开发者网站 https developers google com web fundamentals getting started primers customelements extendhtml我收到错误 Typ
如何使用 Grunt 为 LESS 配置 sourceMap？

我正在使用 grunt 0 4 2 和 grunt contrib less 0 9 0 我希望将我的 LESS 编译成 CSS 并支持源映射我的 LESS 文件位于public less 主要的称为main less 的编译public
无论如何，Bootstrap 导航栏都不会居中

我一直在尝试使用 Bootstrap 将我的导航栏集中在导航栏的中心这非常糟糕我尝试过使用类似问题中的信息例如this one https stackoverflow com questions 7165423 twitter boo
JS hasAttribute 带有数据属性值

有没有一种原生方法没有 jQuery 来检查 dom 元素是否具有具有所选值的属性例如 assume doc has data mod do defined 这将是真的 document hasAttribute data mod 但这
Xamarin 表单 - 以流形式打开文件

这可能是一个非常简单的问题但当我们谈论流时我总是感到困惑我正在尝试在 Xamarin Forms 项目的 Android 部分中打开一个文件我有一个 Java IO File 我想将其转换为流以便能够使用这个简单的函数将其发送到 A
当一个值的所有者可以读取它而另一个线程更改它时，Rust 如何防止数据竞争？

Rust 书中指出了以下内容参考文献和借用 https doc rust lang org book ch04 02 references and borrowing html mutable references 当我们有一个不可变的引用
可观察，出错时重试并仅在完成时缓存

我们可以使用cache 运算符来避免多次执行长任务 http请求并重用其结果 Observable apiCall createApiCallObservable cache notice the cache the first time
JQuery 检测程序更改事件

如果我执行 jQuery expr change function 那么当用户更改值时我可以触发一个事件函数如果以编程方式更改它即如果我调用 jQuery expr val moo 是否可以触发它或者如果一些普通的旧 JavaScr
Laravel 5：未找到 DB Seed 类

我有这个 DatabaseSeeder php
Python正则表达式捕获各种url模式组

我有包含这样的字符串的数据集我想从中删除所有网址 http google com having trouble finding regex https google com for this case http google com te

Python正则表达式捕获各种url模式组

Python正则表达式捕获各种url模式组 的相关文章

随机推荐

热门标签

Python正则表达式捕获各种url模式组的相关文章