在 Python 3.2 中使用 HTMLParser

2024-05-03

我一直在使用 HTML 解析器从网站中抓取数据并剥离 html 编码。我知道各种模块，例如 Beautiful Soup，但决定走不依赖“外部”模块的道路。 Eloff 提供了一个代码：在 Python 中从字符串中去除 HTML https://stackoverflow.com/a/925630/3416774

from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return ''.join(self.fed)

def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

它适用于 Python 3.1。然而，我最近升级到 Python 3.2.x，发现我遇到了有关上面编写的 HTML 解析器代码的错误。

我的第一个错误指向这一行：

s.feed(html)

...错误说...

AttributeError: 'MLStripper' object has no attribute 'strict'

因此，经过一番研究后，我将“strict=True”添加到顶行，使其......

class MLStripper(HTMLParser, strict=True)

但是，我收到新的错误：

TypeError: type() takes 1 or 3 arguments

为了看看会发生什么，我删除了“self”参数并保留了“strict=True”...这放弃了错误：

NameError: global name 'self' is not defined

……我有一种“我在猜测”的感觉。

我不知道第三个参数是什么class MLStripper(HTMLParser)线将是，之后self and strict=True;研究并没有带来任何启示。

你正在子类化HTMLParser，但你没有调用它__init__方法。您需要在您的__init__ method:

def __init__(self):
    super().__init__()
    self.reset()
    self.fed = []

另外，对于 Python 3，导入行是：

from html.parser import HTMLParser

通过这些更改，一个简单的示例就可以工作了。不要改变class线，这不相关。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

htmlparsing

arguments

webscraping

stripping

在 Python 3.2 中使用 HTMLParser 的相关文章

如何使用 Python 抓取网站中嵌入的表格

这是我正在尝试抓取的网站 https clinicaltrials gov ct2 results term wound care https clinicaltrials gov ct2 results term wound care 具
mac安装Tensorflow出错

我正在尝试使用以下说明在 mac 中安装 Tensorflow https www tensorflow org install https www tensorflow org install 但是当我想导入tensorflow时我总是
Python HTTP Post 方法将响应返回为 magicmock 对象而不是值

我正在尝试使用 POST 方法触发某些 API 后检查响应状态代码响应状态代码是 Magicmock 实例类型我正在使用在 python 2 中工作但引发 TypeError 的比较运算符检查状态代码是否在 400 和 500 之间在P
pip 安装最新的依赖版本

当我使用安装包时pip install e 它仅安装不满足的依赖项并忽略依赖项升级如何在每次运行时安装最新的依赖版本pip install e 我尝试过使用pip install upgrade e 但是使用这个选项没有任何改变我仍然得
使用python编辑html，但是lxml将漂亮的html实体转换为奇怪的编码

我正在尝试使用 python 带有 pyquery 和 lxml 来更改和清理一些 html Eg html div p It 146 s a spicy meatball p div lxml html clean 函数 clean ht
无法将 librosa 与 python 3 一起使用

我已经在 Windows 上的 ubuntu 子系统上使用 pip3 正确安装了 librosa 但是当我尝试执行像这样的简单程序时 import librosa data sr librosa load sound mp3 print d
在 Windows 上导入 scipy.linalg 时出错（python 3.3）

我在 Windows 上使用 python 3 3 我下载了scipy 0 13 2 win32 py3 3 exe from scipy 库 http www lfd uci edu 7Egohlke pythonlibs scipy并安
从 C++ 调用 Python 脚本并使用其输出

我想从 C 调用 python 脚本并希望使用该脚本生成的输出 csv 文件返回 C 我在 main 中尝试过 std string filename home abc xyz script py std string command p
min() arg 是一个空序列

我试图找到矩阵行中的最小元素但有两个条件 1 它必须 gt 0 2 并且这个点一定不能被访问 is visited k is False 我下一步正在尝试做 min x for x in matr sum i if x gt 0 if i
运行时错误：大小不匹配，m1：[4 x 3136]，m2：[64 x 5]位于c：\ a \ w \ 1 \ s \ tmp_conda_3.7_1

我使用 python 3 当我插入变换随机裁剪大小 224 时它会给出未匹配错误这是我的代码 https github com kajasumanie medical plant classification blob master i
如何在参数上使用 .reduce() 而不是特定的数组或对象？

我想定义一个函数 flatten 将多个元素展平为一个数组我知道以下是不可能的但本质上我想这样做 var flatten function var flattened arguments reduce function acc elem
SMTP 库 Python3：不太安全的应用程序访问

自 5 月 30 日起 Google 已取消允许不太安全的应用程序访问 G Mail 我正在使用 SMTP 库从我的 Flask 网站发送电子邮件由于这种方法需要 Google 刚刚删除的功能所以我陷入了困境我正在寻找此问题的任何解决
在 python 中指定文件夹位置时使用 / 和 \\ 有什么区别？

我在 Windows 10 上使用 python v3 6 当指定字符串来表示目录位置时下面的 2 种方法有什么区别 folder location C Users username Dropbox Inv folder location
ValueError：超出整数字符串转换的限制（4300）

gt gt gt import sys gt gt gt sys set int max str digits 4300 Illustrative this is the default gt gt gt int 2 5432 Traceb
如何使用 Box API 和 Python 下载文件

目前我的代码的上传部分正在运行我该如何将其转换为从 box 文件夹下载相应文件的程序这是上传程序 import requests import json the user acces token access token UfUNeH
Python subprocess.Popen 结果存储在变量中

我看过关于此的各种其他帖子但不幸的是我仍然无法弄清楚如果我做这样的事情 temp subprocess Popen whoami shell True stdout subprocess PIPE out temp communicat
如何从当前项目向 scrapyd 添加新服务

我试图同时运行多个蜘蛛并在 scrapy 中制作了自己的自定义命令现在我尝试通过 srapyd 运行该命令我尝试将其作为新服务添加到我的 scrapd conf 中但它抛出一个错误指出没有这样的模块 Failed to load
如何从 python 获取 BQL (bLOOMBERG) 查询

我在 Excel 中使用 BQL 有以下查询 BQL MEMBERS INEMCBI LX Equity type holdings 名称列 2 行 223 这显示了特定共同基金的证券表像这样在此输入图像描述 https i stac
如何在 Windows 上使用 Python 3.6 来安装 Python 2.7

我想问一下如何使用pip install对于 Python 2 7 当我之前安装并使用 Python 3 6 时我现在必须使用 Windows 上的 Python 版本 pip install 继续安装 Python 3 6 我需要使用以
在 Tkinter 中使用锚点

我正在尝试对自动点唱机进行编程但是我还处于早期阶段并且在使用时遇到了问题anchor 这是我的代码 from tkinter import from tkinter import messagebox as box def main m

随机推荐

比较中单引号与双引号的意义是什么？ [复制]

这个问题在这里已经有答案了这会返回一个错误 return arg 0 arg 1 true false 错误 ISO C 禁止指针和整数之间的比较然而这并不 return arg 0 arg 1 true false 有什么区别 an
FlatBuffers：写入和读取二进制文件？

我对 C 和 Google 中的文件流有基本了解平面缓冲区 http google github io flatbuffers Schema文件非常简单也是创建一个缓冲区并读取来自缓冲区指针我不明白的是如何将多个缓冲区保存到一个二进制
Firebase持久化，清除Firebase缓存

我的应用程序使用 Firebase 来同步和恢复数据我用setValue withCompletionBlock 插入更新和删除 Firebase 对象的方法每当有 CoreData 保存时就会调用此方法从而将我的所有本地更改同步到
是否可以将 contentEditable 与 jQuery DatePicker 一起使用？

我正在寻找一种将 contentEditable 与 jQuery DatePicker 一起使用的方法我如何在可编辑表格上使用它我在这里找到了一个答案 http www sencha com forum showthread php
VBA Excel 提示用户选择默认文件夹中的文件

我想提示用户在默认文件夹中打开 Excel 文件我不知道如何打开默认文件夹 Sub Program1 DefaultFolder C user dump FName Application GetOpenFilename If FName
Assembly.GetTypes() 返回类型的顺序是什么？

如果我获得 AppDomain 中的类型列表这些类型是否有固有的顺序 List
在 ubuntu 18.04 仿生中安装 TDA 时出错

我尝试在 R 中安装 TDA 但出现错误 make diag o 错误 1 错误包 TDA 编译失败删除 usr local lib R site library TDA i p 中的错误我尝试 sudo yum install gm
使用 C# 网页浏览器单击 Javascript 按钮

我需要让一个程序在网络浏览器中为我点击一个 javascript 按钮这有可能吗我想用 C 来完成这个按钮 INPUT id str class text style TEXT ALIGN center maxLength 4 siz
CSS Transition - 两个方向？

这是一个粗略的示例可以帮助展示我想要的内容 http jsfiddle net GVaNv http jsfiddle net GVaNv 我想知道是否有办法制作叠加层transition从左侧进入然后从右侧离开因此在悬停时叠加层
多个Android IntentService可以同时运行吗？

据我了解一个IntentService一次只能处理一个 Intent 因为它共享一个工作线程来完成所有工作但如果我有多个IntentService在我的应用程序中它们可以并行运行还是都共享单个工作线程但是如果我的应用程序中有多个
在 SQL 中将 CSV 字段拆分为不同的行

我的一位同事在做COBOL程序时遇到了这个问题最终在应用程序层面解决了它我仍然很好奇是否可以使用 SQL 在数据访问级别上解决它这在某种程度上与这另一个问题 https stackoverflow com questions 2903
来自 Popover 的 UIActionSheet 和 iOS8 GM

有人在尝试从弹出窗口显示 UIActionSheet 时收到此消息吗您的应用程序呈现了 UIAlertController 样式的 UIAlertControllerStyleActionSheet 具有此样式的 UIAlertContr
关闭 MediaStyle 通知

Lollipop 中的新 Android MediaStyle 通知没有关闭按钮看起来 Google Code 上已经存在一个错误在错误解决之前有谁知道解决此问题的好方法是什么我们应该推迟切换到 MediaStyle 吗或者使用其
C# 窗口形式的漂亮图形

我需要使用 C 在 Windows 窗体中创建一些简单的图形简单地说我指的是线条圆圈等但是当我画画时例如实心圆边缘不平滑正如使用方形像素绘制圆时所预期的那样但是当在矢量程序中使用相同数量的像素绘制相同的圆时它看起来很完美
将 JSTL 添加到 jsp (Tomcat 8) [重复]

这个问题在这里已经有答案了我想在我的 jsp 中使用 JSTL 库现在我按照教程进行操作它告诉我将此行添加到 jsp 页面它给我错误无法解析 taglib 与 uri 然后是 URL 我正在运行 tomcat 8 我的 web xm
对不同长度的数组使用 setValues()

我在 Google Apps 脚本中有一个二维数组其中包含不同长度的数组我想在电子表格中设置数组的值但是由于其中的数组长度不同我收到一个错误本质上是说范围和数组高度不对齐我在下面列出了数组结构的示例如果我向每个单独的数组添加
Swift3：如何处理优先组现在运算符应该用主体声明？

以前的 Swift 3 运算符代码是 infix operator associativity left precedence 150 但现在根据 Xcode 8 beta 6 这会生成以下警告 operator should not b
打印堆栈指针的值

如何在 Linux Debian 和 Ubuntu 中用 C 打印堆栈指针的当前值我尝试谷歌但没有找到结果一个技巧是简单地将本地地址作为指针打印出来但它不可移植甚至无法保证有效 void print stack pointer vo
Angularjs 1.2.x Injector：添加 ngRoute 后即使出现 modulerrr 错误

我正在自学 AngularJS 但似乎无法解决这个错误我尝试过排除故障放弃了这就是我得到的索引 html div div main js var app angul
在 Python 3.2 中使用 HTMLParser

我一直在使用 HTML 解析器从网站中抓取数据并剥离 html 编码我知道各种模块例如 Beautiful Soup 但决定走不依赖外部模块的道路 Eloff 提供了一个代码在 Python 中从字符串中去除 HTML https

在 Python 3.2 中使用 HTMLParser

在 Python 3.2 中使用 HTMLParser 的相关文章

随机推荐

热门标签