使用 XPath 和变量解析 lxml.html

2023-11-27

我有这个 HTML 片段

<div id="dw__toc">
<h3 class="toggle">Table of Contents</h3>
<div>

<ul class="toc">
<li class="level1"><div class="li"><a href="#section">#</a></div>
<ul class="toc">
<li class="level2"><div class="li"><a href="#link1">One</a></div></li>
<li class="level2"><div class="li"><a href="#link2">Two</a></div></li>
<li class="level2"><div class="li"><a href="#link3">Three</a></div></li>

现在我想用 lxml.html 解析它。最后我想要一个可以提供搜索词（即“one”）的函数，并且该函数应该返回

One
#link1

现在我正在尝试获取 XPath 中的变量。

Works:

import lxml.html
html = lxml.html.parse("www.myurl.com/slash/something")

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a/text()='One'")

print test

尝试使用变量。我想替换硬编码'One'带有一个变量，我可以稍后返回该函数。

不起作用：

import lxml.html
html = lxml.html.parse("www.myurl.com/slash/something")

desiredvars = ['One']
myresultset=((var, html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='%s']"%(var))[0]) for var in desiredvars)

for each in myresultset: 
        print each

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "<stdin>", line 1, in <genexpr>
IndexError: list index out of range

这是基于这个答案：https://stackoverflow.com/a/10688235/2320453知道为什么它不起作用吗？这是做这样的事情的“正确方法”吗？

EDIT:总结一下：我想在 a-标签内搜索并从此属性中获取文本，但我不需要完整的列表，而是希望能够使用变量进行搜索。伪代码：

import lxml.html
html = lxml.html.parse("www.myurl.com/slash/something")

searchterm = 'one'

test=html.xpath("...a/text()=searchterm")

print test

预期结果

One
#link1

您的第一个示例有效，但可能不是您想象的那样：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a/text()='One'")

返回的是一个布尔值，如果条件满足则为 true...='One'对于 xpath 表达式左侧结果集中的任何节点都为 true。这就是您在第二个示例中收到错误的原因：True[0]无效。

您可能希望所有节点都与表达式匹配，具有'One'作为文本。相应的表达式为：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='One']")

这会返回一个节点集作为结果，或者如果您只需要 url 作为字符串：

test=html.xpath("//ul[@class='toc']/li[@class='level2']/div[@class='li']/a[text()='One']/@href")
# returns: ['#link1']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

Parsing

webscraping

lxml

使用 XPath 和变量解析 lxml.html 的相关文章

两列表：一列尽可能小，另一列占据其余部分

我在 div 中有一个 to columns 表 div table tbody tr td class action a a td td class content p Bigger text variable size p td tr
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
导航栏下拉菜单（折叠）在 Bootstrap 5 中不起作用

我在尝试使用以下命令创建响应式菜单或下拉按钮时遇到问题Bootstrap 5一切似乎都正常导航图标和下拉图标出现但它不起作用当我单击nav图标或dropdown按钮无dropdown menu apears 我想特别提到的是我还包
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
如何使用角度材料在具有可扩展行的表格中创建嵌套垫表

我有以下数据 id c9d5ab1a subdomain wing domain aircraft part id c9d5ab1a info mimetype application json info dependent parent
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
如何停止TinyMCE删除span标签？

在我的工作中前一位程序员决定使用公司网站上精彩的TinyMCE 我遇到的数千个问题之一是如果原文有的话span标签当我按下退格键删除一行 p仅标签全部span标签已从文本中删除这个错误比另一个错误更具体我可以删除anything
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Python：尝试检查有效的电话号码

我正在尝试编写一个接受以下格式的电话号码的程序XXX XXX XXXX并将条目中的任何字母翻译为其相应的数字现在我有了这个如果启动不正确它将允许您重新输入正确的数字然后它会翻译输入的原始数字我该如何解决 def main phon
Python - 按月对日期进行分组

这是一个简单的问题起初我认为很简单而忽略了它一个小时过去了我不太确定所以我有一个Python列表datetime对象我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量也许一个例子可以更好地证明这
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Antlr 解析器运算符优先级

考虑以下语法我对运算符优先级有疑问例如 res 2 a b有一个类似的解析树res 2 a b 我知道问题出在哪里但我没有想到没有相互左递归的漂亮解决方案你能帮我一点忙吗该语法与自定义访问者一起使用 grammar Math

随机推荐

完全外连接，在 2 个数据表上，带有列列表

我有2个数据表我不知道它们的数据列列表该列表必须在运行时提取并用于完整外连接使用这些列时需要合并两个表之间的列并且我需要显示所有数据到目前为止我正在做的是获取公共列使用 intersect 并实现 IEqualityCom
Razor View 抛出“当前上下文中不存在名称“模型””

在我的 MVC 4 应用程序中进行重大重构后 Razor 在调试视图时显示此错误当前上下文中不存在名称 model 这是有问题的代码行 model ICollection
应该先考虑什么——设计模式还是代码？

我正在开始一个全新的项目我应该查看我的规范并决定应用哪些设计模式还是只是提出一个总体的组织理念并允许模式通过重构有机地出现根据您的经验哪种技术最有成效并且更有可能产生干净优雅的代码我还想知道是否有一些设计模式不是由 GoF 定义的
将 SSIS 出价与 Visual Studio 2012 / 2013 结合使用

我想在 Visual Studio 2012 中使用 SSIS BIDS 项目我安装了 Visual Studio 2010 和 Visual Studio 2012 以及 Microsoft SQL 服务器2012 首先安装了 VS 2
为什么 HTML5 不支持 font 元素？

我只是真的很好奇希望有人能在 W3C 的疯狂中揭示这个方法最新的HTML5标准不支持该元素的原因是什么我知道该元素在 HTML 4 01 中已被弃用但我不明白为什么对我来说这似乎完全合乎逻辑您有一段文本只想更改字体或者使用
set issubset 性能差异取决于参数类型

为什么提出此问题呢我试图回答这个问题检查所有值是否作为字典中的键存在比生成器理解更好的东西all 与某些函数执行的隐式循环相比 Python 循环即使在推导式中也会减慢执行速度 all i in bar for i in foo whe
如何检索 UITableView 的 UISwitch 行号？

我已经尝试了此处发布的几种方法但我无法让我的表充满开关来返回已更改开关的单元格的索引值我正在以编程方式创建包含表的视图无 xib TableSandboxAppDelegate m我实例化视图控制器didFinishLaunching
Eclipse android 项目不创建空白活动

每次我创建一个新的 android 项目时我都会指定要创建空白活动我进入了我为其命名的页面但是点击完成后空白的Activity就找不到了我知道我可以手动创建空白活动文件但我想知道为什么 Eclipse 没有创建空白活动即使它在
传递父类作为参数？

是否可以在创建实例之前不指定父类例如像这样的东西 class SomeParentClass something class Child unspecifiedParentClass something instance Child So
php类中的回调函数

由于某些原因我们的托管公司使用 PHP 5 2 甚至没有预安装 mysqli 和 PDO 我别无选择只能重写部分代码以使其兼容 5 2 所以这是我的问题在 PHP 5 2 中不支持匿名函数因此我做了以下测试以确保我正确更改了代码
iOS 使 UIImage 的一部分透明

我有一个 UIImage 其中一部分已被用户选择清除使其透明为了进行选择我使用了 NSBezierPath 如何在 iOS 中清除使 UIImage 的部分透明首先我假设您有 UIBezierPath iOS 而不是 NSBez
PHP cURL HTTP 代码返回 0

我不明白当我 echo httpCode 时我总是得到 0 当我将 html brand 更改为损坏的网址时我期待 404 有什么我想念或不知道的吗谢谢 check if url exist ch curl init curl se
如何重新构建默认的“Launcher”应用程序？

我的目标是修改Launcher应用程序并动态修改和更改主题我在以下位置看到了几个家庭应用程序http www cyrket com p android com stain46 taghome 看来他们采用了默认的主页启动器并对其进
printf 中用星号填充？

我已经搜索了高低但在 C 中的 printf 中似乎只有零填充和空白填充我正在寻找自己的填充在本例中使用星号例如假设宽度为8个字符 Input 123 Ouput 123 00 Input 3输出 3 00 我怎样才能做到这一点
Bash 中的嵌套函数调用

现在我正在尝试将一个 bash 函数调用嵌套在另一个函数调用中以便一个函数的输出用作另一个函数的输入是否可以像我在这里尝试那样在 bash 中嵌套函数调用首先我定义了这两个函数 returnSomething return 5 f
使用ggplot2过度绘制分组箱线图中的平均点

我有一个像这样的 ggplot2 分组箱线图 p lt qplot factor cyl mpg data mtcars geom boxplot fill factor gear 我想透支平均点我试过这个 p stat summary
如何在 iOS 中使用 3D 纹理？

我找不到glTexImage3D OpenGL ES 2 0 中的 OpenGL 函数那么如何使用 3D 纹理例如 tga 文件有人知道如何在 OpenGL ES 2 0 中使用 3D 纹理吗 OpenGL ES 1 x 和 2 x
替换列表列表中的字符串

我有一个字符串列表列表例如 example string 1 a r ntest string string 1 test 2 another r ntest string 我想更换 r n 有一个空格并去掉在所有字符串的末尾对于普
Haskell 库导入语法

对于这个非常基本的问题抱歉在 GHCi 中两者之间有区别吗 import Library Name and m Library Name 它们看起来是等效的但我认为使用替代语法是有原因的你说得对import Module and m
使用 XPath 和变量解析 lxml.html

我有这个 HTML 片段 div h3 class toggle Table of Contents h3 div ul class toc li class level1 div class li a href section a div

使用 XPath 和变量解析 lxml.html

使用 XPath 和变量解析 lxml.html 的相关文章

随机推荐

热门标签