python、lxml 和 xpath - html 表解析

2024-01-01

我对 lxml 很陌生，对 python 也很陌生，找不到以下问题的解决方案：

我需要导入一些包含 3 列和从第 3 行开始的未定义行数的表。

当任何行的第二列为空时，该行将被丢弃，并且表的处理将中止。

以下代码可以很好地打印表的数据（但之后我无法重用这些数据）：

from lxml.html import parse

def process_row(row):  
    for cell in row.xpath('./td'):  
        print cell.text_content()  
        yield cell.text_content()  

def process_table(table):  
    return [process_row(row) for row in table.xpath('./tr')]

doc = parse(url).getroot()  
tbl = doc.xpath("/html//table[2]")[0]  
data = process_table(tbl)

这仅打印第一列:(

for i in data:  
    print i.next()

以下仅导入第三行，而不导入后续行

tbl = doc.xpath("//body/table[2]//tr[position()>2]")[0]

任何人都知道一个奇特的解决方案，将第 3 行的所有数据放入 tbl 并将其复制到数组中，以便可以将其处理到没有 lxml 依赖项的模块中？

预先感谢您的帮助，亚历克斯

这是一个生成器：

def process_row(row):  
     for cell in row.xpath('./td'):  
         print cell.text_content()  
         yield cell.text_content()

您调用它就好像您认为它返回一个列表一样。事实并非如此。在某些情况下，它behaves就像一个列表：

print [r for r in process_row(row)]

但这只是因为生成器和列表都向for循环。在仅评估一次的上下文中使用它，例如：

return [process_row(row) for row in table.xpath('./tr')]

只需为每个新值调用一次生成器的新实例row，返回第一个结果。

所以这是你的第一个问题。你的第二个是你所期望的：

tbl = doc.xpath("//body/table[2]//tr[position()>2]")[0]

给你第三行和所有后续行，这只是设置tbl到第三排。好吧，打电话给xpath is返回第三行和所有后续行。这是[0]最后那会让你陷入困境。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

lxml

python、lxml 和 xpath - html 表解析的相关文章

与 iexact 一起使用时，Django get_or_create 无法设置字段

我想用name iexact with get or create尽可能避免用户输入字段的重复我的提供者模型有一个名称字段我在其中使用get or create 查找工作正常但在第一次创建实例时如下面的 p1 Timber 示例名
Python Nose 导入错误

我似乎无法理解鼻子测试框架 https nose readthedocs org en latest 识别文件结构中测试脚本下方的模块我已经设置了演示该问题的最简单的示例下面我会解释一下这是包文件结构 init py foo py t
Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
编辑 scikit-learn 决策树

我想编辑 sklearn DecisionTree 例如改变条件或切割节点叶子等但似乎没有功能可以做到这一点如果我可以导出到文件编辑它以导入如何编辑决策树环境 Windows 10 python3 3 sklearn 0 17
Python 在 chroot 中运行时出现错误

我尝试在 chroot 中运行一些 Python 程序但出现以下错误 Could not find platform independent libraries
Python 遍历目录树的方法是什么？

我觉得分配文件和文件夹并执行 item 部分有点黑客有什么建议么我正在使用Python 3 2 from os import from os path import def dir contents path contents list
将 API 数据存储到 DataFrame 中

我正在运行 Python 脚本来从 Interactive Brokers API 收集金融市场数据连接到API后终端打印出请求的历史数据如何将数据保存到数据帧中而不是在终端中流式传输 from ibapi wrapper impor
Scikit-learn 的内核 PCA：如何在 KPCA 中实现各向异性高斯内核或任何其他自定义内核？

我目前正在使用Scikit learn 的 KPCA https scikit learn org stable modules generated sklearn decomposition KernelPCA html对我的数据集执行降
如何找到列表S的所有分区为k个子集（可以为空）？

我有一个唯一元素列表比方说 1 2 我想将其拆分为 k 2 个子列表现在我想要所有可能的子列表 1 2 1 2 2 1 1 2 我想分成 1 1 2 我怎样才能用 Python 3 做到这一点更新我的目标是获取 N 个唯一数字列表的
Python 正则表达式部分匹配或“hitEnd”

我正在编写一个扫描器因此我将任意字符串与正则表达式规则列表进行匹配如果我可以模拟 Java hitEnd 功能不仅知道正则表达式何时不匹配还知道何时匹配这将非常有用 can t匹配当正则表达式匹配器在决定拒绝输入之前到达输入末尾
str.translate 给出 TypeError - Translate 采用一个参数（给定 2 个参数），在 Python 2 中工作

我有以下代码 import nltk os json csv string cPickle from scipy stats import scoreatpercentile lmtzr nltk stem wordnet WordNetL
pip 安装软件包两次

不幸的是我无法重现它但我们已经见过几次了 pip 将一个软件包安装两次如果卸载第一个第二个就会可见并且也可以被卸载我的问题如果一个包安装了两次如何用 python 检查背景我想编写一个测试来检查这一点 devOp Updat
一起使用 Flask 和 Tornado？

我是以下的忠实粉丝Flask 部分是因为它很简单部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的而 WSGI 不是非阻塞的所以我相信它
大型数据集上的 Sklearn-GMM

我有一个很大的数据集我无法将整个数据放入内存中我想在这个数据集上拟合 GMM 我可以用吗GMM fit sklearn mixture GMM 重复小批量数据没有理由重复贴合只需随机采样您认为机器可以在合理时间内计算的尽可能多的数据
使用Beam IO ReadFromPubSub模块时，可以在Python中提取带有属性的消息吗？尚不清楚是否支持

尝试将具有存储在 PubSub 中的属性的消息拉取到 Beam 管道中我想知道是否添加了对 Python 的支持这就是我无法阅读它们的原因我看到它存在于Java中 pipeline options PipelineOptions pi
从另一个 python 脚本获取返回信息

我在 Linux 上我有一个 python 脚本我想从另一个 python 脚本调用它我不想将其作为模块导入为了一层安全性现在为了学术练习因为我想弄清楚这一点我实际上想让一个脚本使用 os system 或另一个类似的函数并
最小硬币找零问题——回溯

我正在尝试用最少数量的硬币解决硬币找零问题采用回溯法我实际上已经完成了它但我想添加一些选项按其单位打印硬币数量而不仅仅是总数这是我下面的Python代码 def minimum coins coin list change mi
issubclass() 对从不同路径导入的同一类返回 False

目的是实现某种插件框架其中插件是同一基类即 A 的子类即 B 基类使用标准导入加载而子类使用 imp load module 从众所周知的包即 pkg 的路径加载 pkg init py mod1 py class A mod2
在Python中从日期时间中减去秒

我有一个 int 变量它实际上是秒让我们调用这个秒数X 我需要得到当前日期和时间以日期时间格式减去的结果X秒 Example If X是 65 当前日期是2014 06 03 15 45 00 那么我需要得到结果2014 06 03
为什么用字符串和时间增量转置 DataFrame 会转换数据类型？

这种行为对我来说似乎很奇怪 id列字符串在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v

随机推荐

指向 Git 存储库作为 Jenkins Job DSL 作业的源吗？

我可以选择文件系统或嵌入式脚本如何指向 Git 存储库我具体询问的是 Job DSL 而不是多分支管道只需将标准 SCM 步骤添加到您的作业配置中即可在此步骤中检查所需的存储库和包含 DSL 脚本的分支然后 DSL Script
Git 推送到一个远程存储库，该存储库部署到多个其他远程存储库

我们正在学习 Git 并且只想推送到我们的主 Git 服务器 git example com 它必须部署基于存储库到其他服务器例如我们的开发网络服务器 dev example com 和Redmine redmine example
窗口事件上的 jQuery 函数（加载和调整大小）

我不确定如何使用 jQuery 上窗口事件加载和调整大小的顺序使其在调整大小时正常工作第一个函数用于获取除滚动条宽度之外的总宽度因为CSS使用的是设备宽度而JS使用的是文档宽度当总屏幕宽度在 768px 到 1024px 之间时
如何在 JavaScript 中声明字符串常量？ [复制]

这个问题在这里已经有答案了我想在 JavaScript 中声明字符串常量有办法做到这一点吗许多浏览器的实现和 Node 都有常量与const https developer mozilla org en US docs Web J
SSL 握手失败错误 (-9806) 仅在 ios 设备中

连接到服务时我在 iphone 和 ipad 中收到此错误但它在 android 应用程序以及 chrome 和 firefox 中工作正常在接受不受信任的证书后可以在 mac safari 浏览器中打开相同的链接但不能在 iph
Pyinstaller 运行具有 pyzmq 依赖项的脚本时出错

这是我的第一篇 StackOverflow 帖子我在创建具有 pyzmq v22 0 2 依赖项的 pyinstaller v4 2 可执行文件时遇到问题我通过运行 pyinstaller main py 创建了一个可执行文件 dist
错误：使用 mysite.urls 中定义的 URLconf，Django 尝试了这些 URL 模式

我正在做 Django by example 中的教程博客但出现错误 http 127 0 0 1 8000 admin http 127 0 0 1 8000 admin 工作正常我做错了什么错误找不到页面 404 请求方式 G
Angular - 在应用程序组件中获取路线数据

我在中配置了以下路由app routing module ts const routes Routes path abc id component AbcComponent data category Public path xyz id
如何动态定义一个类方法来引用外部的局部变量？

class C end var I am a local var outside C class eval do def self a class method puts var end end 我知道这是不正确的因为def创建了一个新
使用Android Studio将html文件从assets文件夹加载到android上的webview

我正在使用 Android Studio Gradle app src main android asset 文件夹中有一个名为 Chart html 的文件我正在尝试将此文件加载到我的网络视图中如下所示 WebView view ne
如何从 python 中使用 Seaborn 创建的直方图中删除透明度？

我正在 python 中使用seaborn 创建直方图并想要自定义颜色默认设置创建透明的直方图我希望我的直方图是实心的如何去除透明度我尝试创建调色板并将去饱和度设置为 0 但这并没有改变生成的直方图的饱和度 Example In
ASP.NET MVC 为每个操作命中输出缓存

我们正在使用 ASP NET MVC 3 和 AppFabric 作为分布式缓存解决方案来运行相当大的站点构建我们实现了一个自定义 OutputCacheAdapter 来使用我们的 AppFabric 集群我们看到 ASP NET 为
PHP Documentor 中的注释关联数组

我在 PHP 应用程序中使用了多个关联数组并且使用 PHP 文档管理器来注释我的源代码我从来没有真正为数组中的数组指定注释但现在我需要这样做但不知道如何做 array array id gt test class gt tester
Skype：接收链接时阻止显示图像

在 Skype 中当有人向我发送链接例如https github com sameersbn docker postgresql blob master docker compose yml 我没有将链接视为文本而是将其视为图像单击
获取有关 YouTube 直播的实时信息

我正在构建一个网页来显示我不管理的几个 YouTube 频道的直播状态该页面将显示所选频道的列表并带有 red dot在任何正在直播的频道旁边我还希望网页实时更新该状态因此如果频道开始直播我需要立即添加点当频道停止直播时我需要
迁移以将新数据行插入 Room DB

我正在制作一个新版本的应用程序其新功能需要 Room DB 中的设置表中包含更多行数据尽管我的数据库在结构上没有改变没有新表没有列更改等但我正在考虑在 Room DB 上运行新的迁移 DB v2 gt v3 只是为了将这些新数据行
尽管导入了Python模块的包，但访问Python模块失败

我的 Django 项目的目录层次结构如下所示 pybsd devices templates views interaction init py geraete py geraetemodelle py geraetegruppen py
Collection.loadTable：在 GEE 中找不到

当我尝试在 Google Earth Engine Asset 中上传 shp 文件并在 Python 中导入时如下所示 self TS POP ee FeatureCollection 用户 arafayknysys pop TS 当我
vert.x 获取 - 无法创建子事件循环

我正在创建大约 150 个大小约为 5MB 的文件 Vertx 文件 API 在创建 10 15 个文件后随机给出异常无法创建子事件循环我使用的是 vertx 3 和 java 8 下面是我的代码片段在我收到回调后我只能再次调用该函
python、lxml 和 xpath - html 表解析

我对 lxml 很陌生对 python 也很陌生找不到以下问题的解决方案我需要导入一些包含 3 列和从第 3 行开始的未定义行数的表当任何行的第二列为空时该行将被丢弃并且表的处理将中止以下代码可以很好地打印表的数据但之后我无

python、lxml 和 xpath - html 表解析

python、lxml 和 xpath - html 表解析 的相关文章

随机推荐

热门标签

python、lxml 和 xpath - html 表解析的相关文章