Python 中最宽容的 HTML 解析器是什么？

2024-05-11

我有一些随机的 HTML，我使用 BeautifulSoup 来解析它，但在大多数情况下 (>70%) 它会令人窒息。我尝试使用Beautiful soup 3.0.8和3.2.0（3.1.0以上有一些问题），但结果几乎相同。

我可以从我的脑海中回忆起 Python 中可用的几个 HTML 解析器选项：

美丽汤
lxml
pyquery

我打算测试所有这些，但我想知道您的测试中哪一个最宽容，甚至可以尝试解析错误的 HTML。

他们都是。我还没有遇到过任何 lxml.html 无法解析的 html 页面。如果您尝试解析的页面上存在 lxml barfs，您始终可以使用一些正则表达式对它们进行预处理，以使 lxml 满意。

lxml 本身相当严格，但是lxml.html是一个不同的解析器，可以处理非常损坏的 html。对于极其糟糕的 html，lxml 还附带lxml.html.soupparser它与 BeautifulSoup 库交互。

这里描述了使用 lxml.html 解析损坏的 html 的一些方法：http://lxml.de/elementsoup.html http://lxml.de/elementsoup.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

htmlparsing

beautifulsoup

lxml

pyquery

Python 中最宽容的 HTML 解析器是什么？的相关文章

如何使用 cython 编译扩展？

我正在尝试从示例页面编译一个简单的 cython 扩展here http docs cython org src userguide tutorial html在我安装了 Python 2 6 64 位版本的 Windows 7 64 位计
行未从树视图复制

该行未在树视图中复制我在按行并复制并粘贴到未粘贴的任何地方后制作了弹出复制 The code popup tk Menu tree opportunity tearoff 0 def row copy item tree opportun
如何在Python中循环并存储自变量中的值

我对 python 很陌生所以这听起来可能很愚蠢我进行了搜索但没有找到解决方案我在 python 中有一个名为 ExcRng 的函数我可以对该函数执行什么样的 for 循环以便将值存储在独立变量中我不想将它们存储在列表中而是
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
错误：permission_manager_qt.cpp(82) 不支持的权限类型：13

我正在开发具有内置浏览器功能的 python 代码 PyQt 5 13 import sys from PyQt5 QtCore import from PyQt5 QtGui import from PyQt5 QtWidgets imp
如何限制Django CreateView中ForeignKey字段的选择？

我有一个沿着这些思路的模型结构 models py class Foo models Model class Bar models Model foo models ForeignKey Foo class Baz models Model
sudo pip install python-Levenshtein 失败，错误代码 1

我正在尝试在 Linux 上安装 python Levenshtein 库但每当我尝试通过以下方式安装它时 sudo pip install python Levenshtein 我收到此错误命令 usr bin python c 导入
定义函数后对其进行修饰？

I think答案是否定的但我似乎找不到明确的说法我有以下情况 def decorated function function functools wraps function def my function print Hello s
如何在 Python 中将彩色输出打印到终端？

是否有与 Perl 等效的 Python 语言 print color red print
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
无法截取宽度为 0 的屏幕截图

我正在尝试截取 Bootstrap 模态内元素的屏幕截图经过一番努力我终于想出了这段代码 driver get https enlinea sunedu gob pe driver find element by xpath div c
为什么实现 __iter__ 的对象不被识别为可迭代的？

假设您使用包装对象 class IterOrNotIter def init self self f open tmp toto txt def getattr self item try return self getattribute
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

我如何公开我的IP，外部可以访问我的本地主机

我只是想让我的IP公开这样就可以从任何地方访问它我正在使用ubuntu 18 04 已经安装了apache2和PHP 索引文件位于 var www html example com public html index php 在本地主机
从本地存储保存和检索日期

这似乎是一个愚蠢的问题但我在理解 Typescript 方面遇到了相当困难我有以下代码 var date new Date window localStorage setItem date date 如您所见我正在生成今天的日期并通过
重新采样 H264 视频以降低帧速率，同时保持高图像质量

以下是感兴趣的视频的 mplayer 输出 br carina tmp mplayer foo mov mplayer Symbol ff codec bmp tags has different size in shared object
数据表 JSF 中的延迟加载

在我负责的许多项目中没有什么比数据表中的延迟分页更好的了 JSF 是否有某种魔力或者我说得对吗它确实是一个很大的性能问题如果你看过一些教程几乎没有人关心惰性分页假设您在支持 bean 上有 List 并且数据库中有 2000 行
带有泛型类声明的命名空间约束

我想知道是否如果可以的话如何可以将命名空间定义为泛型类声明中的约束参数我所拥有的是这样的 namespaceMyProject Models Entities namespaceMyProject Tests BaseTest 现在我
Watir 脚本偶尔返回 Net::ReadTimeout 错误

我有一个 Watir 脚本偶尔会意外地返回此错误 Net ReadTimeout 我搜索了这个错误并发现这个问题 https stackoverflow com questions 47452276 watir get sometimes
非 Activity 类中的 findViewById

对此我仍然相对较新在我在活动类 MainActivity 中使用的非活动类 MyLocation 中查找视图时遇到问题我正在使用 MyLocation 来获取经度和纬度我想在使用 GPS 或网络时突出显示文本视图为此我需要在非活动
Pytesseract，尝试检测屏幕上的文本

我将 MSS 与 pytesseract 结合使用尝试在屏幕上读取以确定正在监视的区域中的字符串我的代码如下 import Image import pytesseract import cv2 import os import mss
C# 泛型重载 - 编译器无法确定正确的调用

我不明白为什么编译器无法解析此处使用的正确重载代码如下只有一个版本的 Add 是合适的 BigFoo 是一个 IFoo 并且不实现 IEnumerable 其中 T 是一个 IFoo 但它坚持报告含糊之处有任何想法吗我尝试添加第二个
Delphi DataSnap REST 服务器从 TStream 返回 JSON 数组，而不是二进制

我有一个与 Android 客户端通信的 REST 服务器我将它从 XE3 ish 升级到 Berlin 其中一个服务器方法返回一个包含 jpeg 的 TStream 并且工作得很好很高兴将图像作为二进制图像返回升级到 Berlin
如何向 WordPress.com 上托管的 WordPress 博客添加语法突出显示？

我希望为我的 WordPress 博客提供一个好的语法荧光笔我有哪些选择我经常看到它具有颜色鲜艳的语法突出显示和复制到剪贴板的选项有谁知道这是什么工具吗在 wordpress com 上您无法安装插件因此您必须使用 Wordpr
如何在Python中完美地将单元素列表转换为元组？ [复制]

这个问题在这里已经有答案了所以我正在尝试这样做 tuple 1 我期望的输出是 1 但是我得到了这个 1 但如果我这样做 tuple 1 2 它工作完美像这样 1 2 这太奇怪了我不知道为什么元组函数会导致这个结果请帮我解决它这
从 DoubleLinkedList 中删除重复项

我正在尝试删除 C 中的重复项我已经设法使用对象默认构造函数将对象设置为 null 但我无法将其从列表中完全删除此代码还删除了两个对象而不仅仅是一个这是另一个问题的转帖我的代码和部分帖子已更改如何按全名从双向链表中删除重复项 h
MongoDB 查询返回空数组

有一个基本的 Express 应用程序连接到几乎 0 5 GB 的 MongoDB 数据库当我运行时 router get function req res next medical data find State CT function
从 google Drive 自行下载 xlsx 文件

所以我正在尝试制作一个小脚本它将使用谷歌驱动器API下载一个Excel文件通过遵循谷歌API教程我遇到了两个错误无法读取未定义的 on 属性和请求的转换是不支持这是代码 const fs require fs const r
如何手动推断表达式的类型

给定 Haskell 函数 head filter fst 现在的问题是如何手动手动找到类型如果我让 Haskell 告诉我我得到的类型 head filter fst Bool b gt Bool b 但我想了解仅使用所用函数的签名
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
跟踪 C++ 中递归函数被调用的次数

我正在尝试编写一个程序该程序具有一个参数是字符串向量的函数我想在该函数上使用递归但每次调用该函数时我想更改参数例如 fun stringArray i 其中 i 是调用该函数的次数因此以更简单的方式如下所示但我需要跟踪函数
用于裁剪和转置视频的 FFMPEG 命令放大后质量较差

我正在尝试将尺寸通常为 960x720 的 mp4 视频转换为方形 480 480 视频但它通常看起来被压扁命令是 y i s vf crop 480 480 transpose d threads 5 metadata s v rot
Python 中最宽容的 HTML 解析器是什么？

我有一些随机的 HTML 我使用 BeautifulSoup 来解析它但在大多数情况下 gt 70 它会令人窒息我尝试使用Beautiful soup 3 0 8和3 2 0 3 1 0以上有一些问题但结果几乎相同我可以从我的脑海中

Python 中最宽容的 HTML 解析器是什么？

Python 中最宽容的 HTML 解析器是什么？ 的相关文章

随机推荐

热门标签

Python 中最宽容的 HTML 解析器是什么？的相关文章