Python - beautifulsoup - 如何处理丢失的结束标签

2023-12-14

我想使用 beautifulsoup 从 html 代码中抓取表格。 html 的片段如下所示。使用时table.findAll('tr')我得到整个表，而不仅仅是行。（可能是因为 html 代码中缺少结束标签？）

  <TABLE COLS=9 BORDER=0 CELLSPACING=3 CELLPADDING=0>
  <TR><TD><B>Artikelbezeichnung</B>
  <TD><B>Anbieter</B>
  <TD><B>Menge</B>
  <TD><B>Taxe-EK</B>
  <TD><B>Taxe-VK</B>
  <TD><B>Empf.-VK</B>
  <TD><B>FB</B>
  <TD><B>PZN</B>
  <TD><B>Nachfolge</B>

  <TR><TD>ACTIQ 200 Mikrogramm Lutschtabl.m.integr.Appl.
  <TD>Orifarm
  <TD ID=R>     30 St
  <TD ID=R>  266,67
  <TD ID=R>  336,98
  <TD>&nbsp;
  <TD>&nbsp;
  <TD>12516714
  <TD>&nbsp;

  </TABLE>

这是我的 python 代码来展示我所遇到的问题：

     soup = BeautifulSoup(data, "html.parser")
     table = soup.findAll("table")[0]
     rows = table.find_all('tr')
     for tr in rows:
         print(tr.text)

正如他们中所述文档 html5lib像网络浏览器一样解析文档（比如lxml在这种情况下）。它会在需要时尝试通过添加/关闭标签来修复您的文档树。

在您的示例中，我使用 lxml 作为解析器，它给出了以下结果：

soup = BeautifulSoup(data, "lxml")
table = soup.findAll("table")[0]
rows = table.find_all('tr')
for tr in rows:
    print(tr.get_text(strip=True))

注意lxml添加了 html 和 body 标签，因为它们不存在于源中（它将尝试创建一个格式良好的文档，如之前所述）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

htmltable

Python - beautifulsoup - 如何处理丢失的结束标签的相关文章

Django REST序列化器：创建对象而不保存

我已经开始使用 Django REST 框架我想做的是使用一些 JSON 发布请求从中创建一个 Django 模型对象然后使用该对象而不保存它我的 Django 模型称为 SearchRequest 我所拥有的是 api view
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
如何等到 Excel 计算公式后再继续 win32com

我有一个 win32com Python 脚本它将多个 Excel 文件合并到电子表格中并将其另存为 PDF 现在的工作原理是输出几乎都是 NAME 因为文件是在计算 Excel 文件内容之前输出的这可能需要一分钟如何强制工作簿计算值
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
如何使用装饰器禁用某些功能的中间件？

我想模仿的行为csrf exempt see here https docs djangoproject com en 1 11 ref csrf django views decorators csrf csrf exempt and h
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
在 NumPy 中获取 ndarray 的索引和值

我有一个 ndarrayA任意维数N 我想创建一个数组B元组数组或列表其中第一个N每个元组中的元素是索引最后一个元素是该索引的值A 例如 A array 1 2 3 4 5 6 Then B 0 0 1 0 1 2 0 2 3 1 0
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
PyAudio ErrNo 输入溢出 -9981

我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐

服务器关闭使用 httpclient 和 Java 7 建立的连接

我正在尝试连接到使用 SNI 提供证书的远程服务器我注意到服务器正在关闭使用 Java 7 编译和运行代码时建立的连接而不是通过 Java 8 编译和运行代码时建立的连接下面是我为测试这个假设而编写的代码我切换 Java 版本并运行
如何通过 .htaccess 在 404 错误重定向中传递查询字符串？

我有一个index php处理对服务器的所有请求的文件我已经设置了 404 错误重定向 htaccess这样 ErrorDocument 404 index php 如果用户请求一个文件比如说 page php 然后它被重定向到inde
当我尝试连接到 Oracle 11g 时，为什么 Perl 的 DBI 会抱怨“失败：错误 OCIEnvNlsCreate”？

我使用简单的 Perl 脚本连接到 Oracle 11g 数据库时遇到以下错误 failed ERROR OCIEnvNlsCreate Check ORACLE HOME Linux env var or PATH Windows and
在C中使用scanf读取一定数量的字符？

我无法接受来自文本文件的输入我的程序应该读取用户指定的字符串并且该字符串的长度在运行时确定当用户运行程序手动输入值时它工作正常但是当我运行老师的文本文件时它会陷入无限循环对于这个例子当我输入 4 个字符并且他在文件中的输入
在特定位置创建 Docker 卷

我可以告诉 Docker 在主机上的特定位置创建卷吗主机有一些存储限制我希望将卷存储在 data代替 var lib docker vfs dir 这甚至没有在文档所以我怀疑我误解了什么您想使用与默认目录不同的目录吗 var lib
获取 ssl 端点时出现 RCurl 错误

RCurl 给了我一个error 1411809D SSL routines SSL CHECK SERVERHELLO TLSEXT tls invalid ecpointformat list当我尝试通过 SSL 连接到 https 不
jQuery/Javascript 函数清除表单的所有字段[重复]

这个问题在这里已经有答案了我正在寻找一个 jQuery 函数它可以在提交表单后清除表单的所有字段我没有任何 HTML 代码可以显示我需要一些通用的东西你能帮我吗 Thanks Note 这个答案与重置表单字段相关而不是清除字段
Java Applet 部署、ClassNotFoundException（初级类）

这让我陷入困境我已经检查并重新检查了拼写和路径我尝试了几乎所有路径组合包括相对路径绝对路径和完整 http 路径尝试加载 Java 小程序时我继续收到以下错误 java lang ClassNotFoundException A
这是在 cloudbuild.yaml 文件中编写 if..else 语句的正确方法吗？

我正在尝试使用 cloudbuild yaml 部署云功能如果我不使用任何条件语句它就可以正常工作当我执行 cloudbuild yaml 文件时遇到错误if conditional陈述正确的写法是什么下面是我的代码 steps
在片段内添加日期选择器片段

我正在尝试在片段内创建日期选择器对话框主要片段 public class DataFragment extends Fragment implements DatePickerDialog OnDateSetListener privat
Libgdx 如何使用手机方向在多个轴上旋转 3D 模型

我正在尝试使用手机的加速计同时在多个轴上旋转 3D 模型当我这样做时我使用setToRotation 然而这一次只能执行一个轴例如 ModelInstance modelInstance instances first ROLL m
使用 VS2017 安装程序项目安装 vcredist_x64

我目前想为 VS2017 项目创建一个安装程序该项目的先决条件是 vcredist x64 要创建我已经安装的安装程序 ClickOnce 发布通过 VS2017 安装程序 Microsoft Visual Studio 2017 安装
连接PHP源代码并将表单提交到MySQL数据库

我正在尝试学习 PHP 并尝试将 MySQL 数据库与我的 PHP 代码连接起来以创建一个提交表单让我可以将数据输入到数据库中我的问题是源代码正在连接但 HTML 没有将变量发布到 PHP 文件我真的需要一些帮助这是我的 HTM
Google BigQuery 架构与使用 load_table_from_dataframe 的数字数据类型发生冲突（pyarrow 错误）

当我将数字数据 int64 或 float64 从 Pandas 数据帧上传到数字 Google BigQuery 数据类型 pyarrow lib ArrowInvalid 获得长度为 8 的字节串预期为 16 我尝试更改 Panda
RSpec测试数据库索引

有没有办法用 RSpec 测试数据库索引是否存在我在用着friendly id gem我经常忘记为 slug 字段创建数据库索引因此我想将其包含在我的 RSpec 测试中您可以使用index exists check unique通
调试时在 pool.close() 上抛出异常，但在运行时不会抛出异常

我认为我在 Python 2 7 中处理这个问题时没有遇到这个问题但是在 3 7 中调试时 Python 会抛出异常pool close 叫做这是该函数的相关部分 pool multiprocessing Pool 6 iterator
将 XYZ 文件中的不规则 3D 数据插值到规则网格

我有一个包含大量 3D 坐标的 xyz 文件如下所示 370373 771 6535261 431 2 908 370373 788 6535261 441 2 911 370373 787 6535261 442 2 909 37037
如何使用 jQuery 删除父元素

我的 jsp 中有一些列表项标签每个列表项内部都有一些元素包括一个称为删除的链接 a 标签我想要的只是在单击链接时删除整个列表项这是我的代码的结构 a click function event event preventDefa
MongoDB根据对象成员过滤对象数组内容

我有以下对象数组想知道是否有一种方法可以过滤结果仅返回 QtyIn 记录或仅返回 QtyOut 记录任何提示都将受到高度赞赏感谢您的帮助 warehouseID 1234 transactions qtyIn 10 transDat
Python - beautifulsoup - 如何处理丢失的结束标签

我想使用 beautifulsoup 从 html 代码中抓取表格 html 的片段如下所示使用时table findAll tr 我得到整个表而不仅仅是行可能是因为 html 代码中缺少结束标签 table border 0 cel

Python - beautifulsoup - 如何处理丢失的结束标签

Python - beautifulsoup - 如何处理丢失的结束标签 的相关文章

随机推荐

热门标签

Python - beautifulsoup - 如何处理丢失的结束标签的相关文章