使用 python lxml xpath 迭代表中的所有行

2023-12-24

这是我想要从中提取数据的html页面的源代码。

网页：该表格位于页面底部

     <html>
               <table class="clCommonGrid" cellspacing="0">
                        <thead>
                            <tr>
                                <td colspan="3">Kommande matcher</td>
                            </tr>
                            <tr>
                                <th style="width:1%;">Tid</th>
                                <th style="width:69%;">Match</th>
                                <th style="width:30%;">Arena</th>
                            </tr>
                        </thead>

                        <tbody class="clGrid">

                    <tr class="clTrOdd">
                        <td nowrap="nowrap" class="no-line-through">
                            <span class="matchTid"><span>2014-09-26<!-- br ok --> 19:30</span></span>



                        </td>
                        <td><a href="?scr=result&amp;fmid=2669197">Guldhedens IK - IF Warta</a></td>
                        <td><a href="?scr=venue&amp;faid=847">Guldheden Södra 1 Konstgräs</a> </td>
                    </tr>

                    <tr class="clTrEven">
                        <td nowrap="nowrap" class="no-line-through">
                            <span class="matchTid"><span>2014-09-26<!-- br ok --> 13:00</span></span>



                        </td>
                        <td><a href="?scr=result&amp;fmid=2669176">Romelanda UF - IK Virgo</a></td>
                        <td><a href="?scr=venue&amp;faid=941">Romevi 1 Gräs</a> </td>
                    </tr>

                    <tr class="clTrOdd">
                    <td nowrap="nowrap" class="no-line-through">
                        <span class="matchTid"><span>2014-09-27<!-- br ok --> 13:00</span></span>



                    </td>
                    <td><a href="?scr=result&amp;fmid=2669167">Kode IF - IK Kongahälla</a></td>
                    <td><a href="?scr=venue&amp;faid=912">Kode IP 1 Gräs</a> </td>
                </tr>

                <tr class="clTrEven">
                    <td nowrap="nowrap" class="no-line-through">
                        <span class="matchTid"><span>2014-09-27<!-- br ok --> 14:00</span></span>



                    </td>
                    <td><a href="?scr=result&amp;fmid=2669147">Floda BoIF - Partille IF FK </a></td>
                    <td><a href="?scr=venue&amp;faid=218">Flodala IP 1</a> </td>
                </tr>


                        </tbody>
                </table>
        </html>

现在我有这段代码，它实际上产生了我想要的结果。

import lxml.html
url = "http://gbgfotboll.se/information/?scr=table&ftid=51168"
html = lxml.html.parse(url)
for i in range(12):
    xpath1 = ".//*[@id='content-primary']/table[3]/tbody/tr[%d]/td[1]/span/span//text()" %(i+1)
    xpath2 = ".//*[@id='content-primary']/table[3]/tbody/tr[%d]/td[2]/a/text()" %(i+1)
    time = html.xpath(xpath1)[1]
    date = html.xpath(xpath1)[0]
    teamName = html.xpath(xpath2)[0]
    if date == '2014-09-27':
        print time, teamName

给出结果：

13:00 罗梅兰达 UF - IK 处女座

13:00 代码 OF - 英国 Kongahälla

14:00 Floda BoIF - Partille IF FK

现在回答问题。我不想使用带有范围的 for 循环，因为它不稳定，该表中的行可能会发生变化，如果超出范围就会崩溃。所以我的问题是如何以安全的方式进行迭代。这意味着它将迭代表中可用的所有行。不多也不少。另外，如果您有任何其他建议使代码更好/更快，请继续。

以下代码将迭代任意行数。 rows_xpath将直接过滤目标日期。 xpath 也在 for 循环之外创建一次，所以它应该更快。

import lxml.html
from lxml.etree import XPath
url = "http://gbgfotboll.se/information/?scr=table&ftid=51168"
date = '2014-09-27'

rows_xpath = XPath("//*[@id='content-primary']/table[3]/tbody/tr[td[1]/span/span//text()='%s']" % (date))
time_xpath = XPath("td[1]/span/span//text()[2]")
team_xpath = XPath("td[2]/a/text()")

html = lxml.html.parse(url)

for row in rows_xpath(html):
    time = time_xpath(row)[0].strip()
    team = team_xpath(row)[0]
    print time, team

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

webscraping

htmltable

lxml

使用 python lxml xpath 迭代表中的所有行的相关文章

当 xml 具有名称空间前缀时，为什么只有某些 XPath 表达式才能找到节点

在下面的示例代码中任何采用形式的 XPath元素名称当源 xml 有命名空间前缀时返回 null 请参阅testWithNS 在底部的代码中当源 xml 没有名称空间前缀时所有列出的 XPath 表达式都会返回一个节点请参阅te
在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
如何使用Conda下载python包并随后离线安装？

我知道通过 pip 我可以使用以下命令下载 Python 包但 pip install 破坏了我的内部包依赖关系当我做 pip download
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
如何在 Python 中追加到 JSON 文件？

我有一个 JSON 文件其中包含 67790 1 kwh 319 4 现在我创建一个字典a dict我需要将其附加到 JSON 文件中我尝试了这段代码 with open DATA FILENAME a as f json obj js
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

使用 XStream 序列化 Hibernate 对象的问题

我一直面临这个问题序列化时的 hibernate 对象会生成意外的 xml 其中包含 Hibernate 中的所有检测代码在序列化对象之前我们对对象进行了一些清理但是是否有标准选项可用于直接序列化对象我以前没有使用过 XStre
并发冲突：UpdateCommand 影响了预期 1 条记录中的 0 条。 DB concurrencyException 未处理

我定义了 2 个数据集和 2 个数据适配器每个数据集一个创建后我为 2 个 dataAdapter 中的每一个定义了一个 SqlCommandBuilder 到这里一切都很好我可以使用 dataAdapter1 Update dat
如何清楚地解释Keras中units参数的含义？

我想知道 LSTM 在 Keras 中是如何工作的在本教程 https machinelearningmastery com time series prediction lstm recurrent neural networks py
WCF 服务端点 localhost 混淆

我很困惑为什么有些东西会起作用我正在配置这样的 wcf 服务
如何让 Git 在控制台窗口中正确显示 UTF-8 编码的路径名？

我有 UTF 8 格式的文件名 git 可以正常处理它们它将正确创建文件并且 github 页面也可以正确显示它除了它会在控制台中显示它如下所示是否可以使 git 在控制台中正确显示超出 ASCII 127 的 UTF 8 编码字
SOAP-ENV：WSDL 中的错误

我创建了 SOAP Web 服务而且我对 SOAP 还很陌生在创建网络服务时我面临以下问题
如何将向量拆分为列 - 使用 PySpark [重复]

这个问题在这里已经有答案了 Context 我有一个DataFrame有 2 列单词和向量其中向量的列类型是VectorUDT 一个例子 word vector assert 435 323 324 212 我想得到这个 word
多输入多变量数据可视化

我试图通过从多个输入文件中读取多元数据模型来可视化它们我正在寻找一个简单的解决方案来可视化从多个输入 csv 文件读取的多个类别数据没有各个文件中输入的行数范围为 1 到 10000 格式与 4 列 csv 文件的所有输入相同 Inp
从 C# 项目的资源区域加载图像

我的项目中有一张图像存储在 Resources myimage jpg 中如何动态将此图像加载到 Bitmap 对象中您使用的是 Windows 窗体吗如果您使用属性资源 UI 添加了图像则可以从生成的代码访问该图像因此您可以
无需用户名的 HTTP 身份验证

我正在 Node js 中创建一个 HTTP 服务器并且我想向只有我会使用的页面添加密码这Basic https developer mozilla org en US docs Web HTTP Authentication Basi
如何添加节点终端Visual Studio Code？

我尚未成功但我重新安装了 Visual Studio Code 并且无法再次向其中添加节点终端请不要说我也可以使用 bash 运行并使用 powershell 这两个在Vscode中默认可达但我想更改默认终端并更改为节点终端不是 p
如何使用 ggplot2 + directlabels 的标签自定义名称

我将 ggplot2 与 directlabels 包一起使用geom line 情节我希望其中一个标签上写着 X M 然而在我的data frame X M 作为列名被重命名为 X M 我找不到有关如何提供direct label具有
计算身体宽度百分比时出现问题

我需要构建一个经典的 960px 布局并且必须将 960px 转换为所以我应该使用960px 16px 60 right 注 960px 主体宽度16px 字体大小问题 body width 60 960 16px 比 body w
如何禁用添加到 ASP.NET Core 日志中的 ANSI/VT100 颜色代码

我们在 Google Cloud 中托管 ASP NET Core 服务来自 Stack Driver 的日志始终使用 ANSI VT100 颜色代码如下所示 40m 32minfo 39m 22m 49m 有没有办法告诉 ASP NE
HQL 查询检查集合大小是否为 0 或空

我尝试生成一个 HQL 查询其中包含具有空约会集合的用户由 OneToMany 映射 SELECT u FROM User u JOIN u appointments uas WHERE u status 1 AND uas time
HSQLDB 可以处理几百万行吗？

我正在开发一个需要数据库的单用户应用程序大多数表都具有合理数量的数据但也有一些表可能会增长到数百万行我的任何查询都不会返回大型结果集有人知道 HSQLDB 是否可以处理这么大量的行吗 From HSQLDB 官方页面 http ww
内存层次结构 - 为什么寄存器昂贵？

我明白那个 Faster访问时间 gt More昂贵的 Slower访问时间 gt Less昂贵的我还了解到寄存器是层次结构的顶部并且具有最快的访问时间我很难研究的是why这么贵吗据我所知寄存器实际上是直接内置于 ALU 中的电路
给定年份和月份的月份函数的最后一天

多次单步执行代码后我无法找到具体导致此错误的原因我希望有人以前见过这个错误这就是我的think与问题相关 Load packages library lubridate MONTH lt 1 YEAR lt 2018 Last day
如何使用 ie11 在 Threejs 中加载 gltf 场景

我使用 Three js 及其 gltfloader js 编写了一个简单的 html 来加载 gltf 模型它在 Mozilla 上完美运行但即使没有错误它也不会显示在 ie11 上我尝试过使用 es6 promise polly
使用 python lxml xpath 迭代表中的所有行

这是我想要从中提取数据的html页面的源代码网页该表格位于页面底部 table class clCommonGrid cellspacing 0 thead tr td Kommande matcher td tr tr th th t

使用 python lxml xpath 迭代表中的所有行

使用 python lxml xpath 迭代表中的所有行 的相关文章

随机推荐

热门标签

使用 python lxml xpath 迭代表中的所有行的相关文章