从标签之间提取文本的有效方法

2023-11-25

假设我有这样的事情:

var = '<li> <a href="/...html">Energy</a>
      <ul>
      <li> <a href="/...html">Coal</a> </li>
      <li> <a href="/...html">Oil </a> </li>
      <li> <a href="/...html">Carbon</a> </li>
      <li> <a href="/...html">Oxygen</a> </li'

提取标签之间文本的最佳(最有效)方法是什么?我应该为此使用正则表达式吗?我当前的技术依赖于分割字符串li标签并使用for循环,只是想知道是否有更快的方法来做到这一点。


从标记语言中提取信息的推荐方法是使用解析器,例如美丽的汤是一个不错的选择。避免使用正则表达式为此,它不是适合这项工作的工具!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从标签之间提取文本的有效方法 的相关文章

  • Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')(找不到可调用或导入错误)

    当我尝试使用 uWSGI 启动 Flask 时 出现以下错误 我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
  • pandas 替换多个值

    以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
  • __del__ 真的是析构函数吗?

    我主要用 C 做事情 其中 析构函数方法实际上是为了销毁所获取的资源 最近我开始使用python 这真的很有趣而且很棒 我开始了解到它有像java一样的GC 因此 没有过分强调对象所有权 构造和销毁 据我所知 init 方法对我来说在 py
  • 从 scikit-learn 导入 make_blobs [重复]

    这个问题在这里已经有答案了 我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
  • 从列表中的数据框列中搜索部分字符串匹配 - Pandas - Python

    我有一个清单 things A1 B2 C3 我有一个 pandas 数据框 其中有一列包含用分号分隔的值 某些行将包含与上面列表中的一项的匹配 它不会是完美的匹配 因为它在其中包含字符串的其他部分 该列 例如 该列中的一行可能有 哇 这里
  • feedparser 在脚本运行期间失败,但无法在交互式 python 控制台中重现

    当我运行 eclipse 或在 iPython 中运行脚本时 它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么 但
  • Abaqus 将曲面转化为集合

    我一直试图在模型中找到两个表面的中心 参见照片 但未能成功 它们是元素表面 面 查询中没有选项可以查找元素表面的中心 只能查找元素集的中心 找到节点集的中心也很好 但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中 而且我找不到
  • Pandas Dataframe 中 bool 值的条件前向填充

    问题 如何转发 fill boolTruepandas 数据框中的值 如果是当天的第一个条目 True 到一天结束时 请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
  • 当玩家触摸屏幕一侧时,如何让 pygame 发出警告?

    我使用 pygame 创建了一个游戏 当玩家触摸屏幕一侧时 我想让 pygame 给出类似 你不能触摸屏幕两侧 的错误 我尝试在互联网上搜索 但没有找到任何好的结果 我想过在屏幕外添加一个方块 当玩家触摸该方块时 它会发出警告 但这花了很长
  • 循环中断打破tqdm

    下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
  • Numpy 优化

    我有一个根据条件分配值的函数 我的数据集大小通常在 30 50k 范围内 我不确定这是否是使用 numpy 的正确方法 但是当数字超过 5k 时 它会变得非常慢 有没有更好的方法让它更快 import numpy as np N 5000
  • 通过数据框与函数进行交互

    如果我有这样的日期框架 氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
  • 如何将 PIL 图像转换为 NumPy 数组?

    如何转换 PILImage来回转换为 NumPy 数组 这样我就可以比 PIL 进行更快的像素级转换PixelAccess允许 我可以通过以下方式将其转换为 NumPy 数组 pic Image open foo jpg pix numpy
  • 在Python中重置生成器对象

    我有一个由多个yield 返回的生成器对象 准备调用该生成器是相当耗时的操作 这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
  • 如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

    给定一个在多个服务器上同时执行的 Django 应用程序 该应用程序如何记录到单个共享日志文件 在网络共享中 而不保持该文件以独占模式永久打开 当您想要利用日志流时 这种情况适用于 Windows Azure 网站上托管的 Django 应
  • Python:计算字典的重复值

    我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
  • VSCode:调试配置中的 Python 路径无效

    对 Python 和 VSCode 以及 stackoverflow 非常陌生 直到最近 我已经使用了大约 3 个月 一切都很好 当尝试在调试器中运行任何基本的 Python 程序时 弹出窗口The Python path in your
  • 如何从没有结尾的管道中读取 python 中的 stdin

    当管道来自 打开 时 不知道正确的名称 我无法从 python 中的标准输入或管道读取数据 文件 我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
  • 对输入求 Keras 模型的导数返回全零

    所以我有一个 Keras 模型 我想将模型的梯度应用于其输入 这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
  • 循环标记时出现“ValueError:无法识别的标记样式 -d”

    我正在尝试编码pyplot允许不同标记样式的绘图 这些图是循环生成的 标记是从列表中选取的 为了演示目的 我还提供了一个颜色列表 版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代

随机推荐

  • 泛型内存管理

    我对如何管理强类型泛型的内存有疑问 List
  • 为什么变量不更新?

    我目前正在编辑 AD 的新员工脚本 遇到了一个问题 我为主文件夹添加了 2 个单选按钮 一个单选按钮会将 BaseHomeFolderPath 更新为 Path1 第二个单选按钮会将其更新为 Path2 我导出变量到 csv 以验证它是否有
  • Spring 3.1中如何使用通配符加载xml资源文件

    我想加载 xml 文件 其中包含 Spring Maven 项目中多个模块的一些错误定义 我想加载文件 然后将其传递给 JAXB unmasheller 这就是我到目前为止所做的 String path classpath definiti
  • GC(分配失败)VS OutOfMemoryError异常

    内存不足错误 通常 当 Java 堆中没有足够的空间来分配对象时 会抛出此错误 GC 分配失败 分配失败 意味着存在大于年轻代可用空间的分配请求 这是否意味着年轻代内存已满 Minor GC 时会抛出Allocation Failure 而
  • BigQuery 通过查询获取表架构

    是否可以通过查询获取 BigQuery 表架构信息 就像是TABLES但对于模式 对 cli 方法不感兴趣 我想要实现的是在 2 个 BQ 表 比方说暂存和生产 之间执行 增量 更新 其具有基于 1 个 键 列的相同结构 但采用自动方式来创
  • 防止页面在新选项卡/窗口中打开

    我正在开发一个项目 当用户在新选项卡或新窗口中打开页面时 该项目的行为非常奇怪 导致应用程序崩溃 我需要一些 javascript 来帮助我防止这种情况 所以基本上我想阻止 ctrl 单击 鼠标中键 shift 单击 从上下文菜单在新选项卡
  • SQL 查找违反 UNIQUE 共同索引的行

    我想在表中的两个 或更多 列上放置唯一索引 但我得到 找到重复的键 如何选择那些导致重复的行 您可以使用Group By and Having为了这 SELECT col1 col2 FROM table GROUP BY col1 col
  • Github:权限被拒绝(公钥),但我收到“您已成功通过身份验证”消息

    我所做的步骤 https help github com articles generate ssh keys 完全遵循 eval ssh agent s Agent pid 31944 ssh add Enter passphrase f
  • 与 Mac 和 Linux 上的 exp 函数的结果略有不同

    以下 C 程序在我的 Mac 和 Linux 上产生不同的结果 我很惊讶 因为我认为实施libm以某种方式标准化 include
  • 使用 Exchangelib 将电子邮件标记为已读

    我正在使用Pythonexchangelib包裹 如何使用 Exchangelib 将电子邮件标记为已读 我已经看过了官方 GitHub Exchangelib 页面对于我的查询 但没有找到答案 要添加到 joe 的评论 您还必须 保存 该
  • Java Spring Boot 中的服务器端渲染 React

    我是服务器端渲染的新手 我想在服务器端渲染 React 组件并以 html 形式传递它 我按照本教程进行操作https spring io guides tutorials react and spring data rest 它仍在客户端
  • .NET 和 C# 初学者书籍? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心以获得指导 我想做一个项目 使用 NE
  • GUI 元素在调整窗口大小之前不会显示

    我一直在尝试用 java 制作 GUI 而不是一直使用 静态 并遇到了 SwingUtilities invokeLater 方法 我设法完成所有设置 但在运行应用程序时 JPanel 上什么也没有出现 直到我调整窗口大小 有解决这个问题的
  • make:并行运行多个任务并等待完成

    我的 makefile 中的一个目标是一项非常消耗 CPU 和时间的任务 但我可以拆分工作负载并并行运行该任务多次 以加快整个过程 我的问题是 make 不会等待所有进程完成 考虑这个简单的脚本 名为myTask sh bin bash e
  • 通过标准 JDK 11 使用 graalvm

    我有一个项目使用 Nashorn Javascript 引擎 我正在尝试迁移到 java11 并从 Nashorn 迁移到 Graal 我读了here我可以通过从 JDK 11 开始的标准 JDK 安装来使用 graal 此外 我还读到 G
  • CXF 中的格式化 XML 输出?

    我知道如何在使用 Marshaller 时打开格式 但我正在使用 Apache CXF JAX RS 并返回类似的响应return Response ok entity build 我还没有找到任何如何格式化输出的选项 我该怎么做 首先 获
  • 使用给定的步长/步长从 numpy 数组中获取子数组

    假设我有一个 Python Numpy 数组a a numpy array 1 2 3 4 5 6 7 8 9 10 11 我想从这个长度为 5 步幅为 3 的数组创建一个子序列矩阵 因此结果矩阵将如下所示 numpy array 1 2
  • ASP.NET CORE LINUX 获取 CPU 使用情况

    使用此代码 这适用于 Windows 对于 Linux Ubuntu Linux 中未提供 PerformanceCounter PerformanceCounter counter GetPerfCounterForProcessId p
  • 如何在 DirectWrite 中渲染混合颜色文本?

    我想使用 DirectWrite 进行混合颜色文本格式设置 准确地说是语法突出显示 但似乎无法在 布局 或 版式 选项中找到实现此目的的方法 唯一的选择是在渲染文本时传递画笔 这对我不起作用 因为我基本上只有一个布局 帮助 Use IDWr
  • 从标签之间提取文本的有效方法

    假设我有这样的事情 var li a href html Energy a ul li a href html Coal a li li a href html Oil a li li a href html Carbon a li li