如何告诉 python HTMLParser 停止

2024-03-30

我有一个用例告诉我们当标签是link它的属性是rel=dns-prefetch然后就说预解析dns已启用。

我做了一个标志pre_resolve_dns_enabled并将其设置为 true，如下所示。

class Extractor(HTMLParser):

    def __init__(self):
        HTMLParser.__init__(self)
        self.pre_resolve_dns_enabled = False

    def feed(self, data):
        HTMLParser.feed(self,data)

    def handle_starttag(self, tag, attrs):
        if tag == 'link' and ('rel', 'dns-prefetch') in attrs:
            self.pre_resolve_dns_enabled = True
            #Now if one dns is resolved so whole domain remains resolved , how do I tell the parser to abort now , leaving the flag to true.

有什么帮助吗？

HTMLParser 并不是设计来停止的。为此，您想使用流解析器，例如xml.sax or xml.etree.cElementTree.

消化整个 HTML 文件真的有问题吗？预期的用例如下：

extractor = Extractor()
... feed html to extractor using one or more .feed() calls ...
extractor.close()

if extractor.pre_resolved_dns_enabled:
  ...
else:
  ...

如果这确实是一个问题，您可以将输入的 HTML 分成块并提供它们，直到找到您的标签，例如：

html = ...the html to parse...
chunks = [ html[i:i+1024] for i in xrange(0, len(html), 1024) ]
extractor = Extractor()
for c in chunks:
  if extractor.pre_resolved_dns_enabled:
    break
  extractor.feed(c)
extractor.close()
# check extractor.pre_resolved_dns_enabled

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

DNS

htmlparsing

如何告诉 python HTMLParser 停止的相关文章

使用多个具有不同日志级别的处理程序时出现意外的 python 记录器输出

我正在尝试将数据记录到 stderr 并记录到文件中该文件应包含all日志消息并且 stderr 应该只转到命令行上配置的日志级别这在日志记录指南中多次描述但它似乎对我不起作用我创建了一个小测试脚本来说明我的问题 usr bin
在 MacOSX10.6 上运行 python 服务器时 MySQLdb 错误

运行我的服务器 python manage py runserver 产生以下错误 django core exceptions ImproperlyConfigured 加载 MySQLdb 模块时出错没有名为 MySQLdb 的模块
AttributeError：模块“tensorflow.python.framework.ops”没有属性“RegisterShape”

我正在使用 TensorFlow 2 1 0 dev20191125 不幸的是我无法编译一个带有错误的简单示例 AttributeError 模块 tensorflow python framework ops 没有属性 Registe
如何在 python 中使用 libSVM 计算精度、召回率和 F 分数

我想计算precision recall and f score using libsvm在Python中但我不知道如何我已经发现这个网站 http www csie ntu edu tw cjlin libsvmtools eval
插入多行并返回主键时 Sqlalchemy 的奇怪行为

插入多行并返回主键时我注意到一些奇怪的事情如果我在 isert 查询中添加使用参数值我会得到预期的行为但是当将值传递给游标时不会返回任何内容这可能是一个错误还是我误解了什么我的sqlachemy版本是0 9 4 下面如何重现错
代码 zip( *sorted( zip(units, error) ) ) 的作用是什么？

对于我的申请units and errors始终是数值列表我尝试用谷歌搜索每个部分的作用并找出了 zip 的第一部分它似乎 ziped list zip units errors 只需将单位和误差配对即可生成一个列表如下所示 uni
Python3如何安装.ttf字体文件？

我想使用 python3 更精确的 Python 3 6 代码在 Windows 10 上安装 ttf 字体文件我用谷歌搜索但我发现的唯一的就是这个使用python在windows上安装TTF字体 https stackoverflow
熊猫 style.background_gradient 忽略 NaN

我有以下代码来转储数据帧results到 HTML 表格中这样的列TIME FRAMES根据seaborn 的颜色图进行着色 import seaborn as sns TIME FRAMES 24h 7d 30d 1y Set CSS
Python控制台默认十六进制显示

我在 Python 控制台中做了很多工作其中大部分都涉及地址我更喜欢以十六进制形式查看地址 So if a 0xBADF00D 当我简单地输入Python gt a进入控制台查看其值我更喜欢 python 回复0xBADF00D代替1
在 PyCharm 中运行命令行命令

你好我正在使用Python 但之前从未真正使用过它我收到一些命令需要在终端中运行基本上 python Test py GET feeds 我正在使用 PyCharm 我想知道是否有办法从该 IDE 中运行这些相同的命令按 Alt
Python：动态向对象添加字段

我想知道是否可以动态向对象添加字段例如我希望能够添加如下内容 user object user first name John user last name Smith 当我在 Python 命令行解释器中执行该命令时我得到 Attr
使用 shell=True 将 PATH 设置为 bitbake 的“source”在 Python 中没有效果

下面是shell脚本中的代码 source proj common tools repo etc profile d repo sh repo project init branch repo project sync source pok
如何使用子进程打开新的浏览器选项卡？

我正在打开一个新的 IE 窗口 subprocess Popen r os environ PROGRAMFILES Internet Explorer IEXPLORE EXE Call URL 当 IE 关闭时这很好但即使打开它也会生
wxPython：更新wx.ListBox列表

我在 python 程序中有一个 wx ListBox 我不想在 wx Timer 更新时更改其中的列表我的计时器正在工作我只是不知道如何更改它显示的列表这是一个例子 http www daniweb com code snippet
Celery 设计帮助：如何防止并发执行任务

我对 Celery AMQP 相当陌生正在尝试提出一个任务队列工作人员设计来满足以下要求我有多种类型的每用户任务例如 TaskA TaskB TaskC 这些每用户任务中的每一个都为系统中的一个特定用户读取写入数据因此
安装python启动文件

我如何安装pythonstartup文件以便它在命令上运行例如python myfile py 我尝试将其安装到我的 home myuserUbuntu的目录但它说我没有足够的权限此外不同的地方交替说它应该全部大写或全部小写前面
如何使用 Python Pandas 制作 DataFrame 切片并在特定切片中“fillna”？

问题让我们从 Kaggle 获取泰坦尼克号数据集我有包含 Pclass 性别和年龄列的数据框我需要用特定组的中位数填充年龄列中的 NaN 如果是来自一等的女性我想用一等女性的中位数填写她的年龄而不是整个年龄列的中位数问
在 Django 中翻译文件时的 Git 命令

我在 Django 中有一个现有的应用程序我想在页面上添加翻译在页面上我有 trans Projects 在 po 文件中我添加了 templates staff site html 200 msgid Projects msgid P
有效积累稀疏 scipy 矩阵的集合

我有一个 O N NxN 的集合scipy sparse csr matrix 每个稀疏矩阵都有 N 个元素集我想将所有这些矩阵加在一起以获得一个常规的 NxN numpy 数组 N 约为 1000 矩阵内非零元素的排列使得所得总和肯定不
Pymongo 批量插入

我正在尝试批量插入文档但批量插入时不会插入超过 84 个文档给我这个错误 in insert pymongo errors InvalidOperation cannot do an empty bulk insert 是否可以批量插入

随机推荐

错误：没有名为“fcntl”的模块

我收到以下错误 Traceback most recent call last File C Users aaaa Desktop ttttttt py line 5 in
Rockscroll 之类的记事本++ 插件？

有没有像 Rockscoll for VisualStudio for notepad 这样的插件至少有接近它的东西吗 Thanks 它是内置的 View gt Document Map
Rails link_销毁嵌套资源？

我有一个嵌套的资源附件我想创建一个link to销毁删除附件这是我所拥有的但它是作为 GET 与 PUT 发布的有想法吗谢谢 Try link to Delete Attachment a
瑞典 BankID 使用 hmac 生成 Python 动画 QR 代码

我正在开发一个 Django 项目它将使用 BankID 进行授权和数字签名我在用pybankid https github com hbldh pybankid 关于这个项目我除了好话之外没有什么可说的我的问题在于尝试使用bank
为什么可为 null 的 int 不能隐式转换为 int ？技术原因还是设计选择？

在 C 中没有从int 键入int type 我定义了以下隐式运算符 namespace System public partial struct Int32 public static implicit operator Int32 i
关于函数指针转换的澄清

函数类型左值可以转换为函数指针右值 int func int func ptr func 但从 4 1 1 非函数非数组类型 T 的左值 3 10 可以转换到一个右值这是否意味着函数上未完成左值到右值的转换另外当数组衰减为指
如何在 C++ 中编写具有多个数据字段的类似 Java 枚举的类？

来自 Java 背景的我发现 C 的枚举非常蹩脚我想知道如何在 C 中编写类似 Java 的枚举其中枚举值是对象并且可以具有属性和方法例如将以下 Java 代码其中一部分足以演示该技术翻译为 C public enum Pl
MediaStyle：RemoteServiceException：从包中发布的错误通知

我正在尝试使用下面的代码在我的应用程序中创建一个通知媒体控制器该代码在所有设备上都可以正常工作华为 P8 Lite with 安卓5 0 我从 Firebase 测试实验室收到此错误日志 android app RemoteService
带 params 的命名参数

我有一种从数据库获取值的方法 public virtual List
警告：重载的虚拟函数“Base::process”在“派生”类中仅部分被重写

我低于警告我的代码的一部分是 class Base public virtual void process int x virtual void process int a float b protected int pd float p
如何设置 IHostingEnvironment.ContentRootPath？

在我的 Azure Service Fabric Web API 项目中我可以使用以下代码将 appsettings json 文件添加到我的配置中 Api cs class protected override IEnumerable
djangorest框架-使用detail_route和detail_list

在我的代码中我有一个用户的视图集我想要的是只允许读取操作用户 42 and users ReadOnlyModelViewSet 做得很好另外我想要一个用户注册我可以的网址POST以便注册新用户 class UserViewS
查找多边形重叠

我必须找到多边形重叠并获取它们的几何形状有人知道该怎么做吗这是多边形表 DECLARE Table TABLE id varchar 32 shape geometry INSERT INTO Table VALUES Californ
如何使用三个不同的键，例如(Ctrl Shift O) 在 vb.net 中打开窗体？

I need to use three different keys e g Ctrl Shift F12 to open another form in vb net 请帮我在 keydown 事件中您可以访问这些键例如在此处理程序
添加 request_mem_region 后，我的驱动程序每次第一次访问都会失败，并显示“忙”消息

好吧这对我来说真的很奇怪我有一个模拟的 CAN 总线驱动程序它是一个 Linux 内核模块然后我有一个在用户空间中运行的测试应用程序它通过打开文件描述符并发送来访问驱动程序ioctl 消息现在 CAN 总线驱动程序只是我一直采用
我可以使用哪些工具来确定应用程序的硬件要求？

For regular readers The saga continues 我的应用程序在我的开发机器上运行良好该机器是作为相当好的游戏装备购买的 5 年前因此它是 64 位 2 2GHz 时钟速度和 2GB 内存然而工作中的机
如何为已渲染的多个3D模型拥有多个模型矩阵？

我已经遵循了 vulkan 教程的大部分内容 https vulkan tutorial com https vulkan tutorial com 我目前有一个 vulkan 程序可以使用 OBJ 文件加载多个 3D 模型但是我只有一
如何从源代码构建 VSCode 应用程序包

我正在尝试在 Mac 上从源代码构建 VSCode 并制作应用程序包我尝试以下这些说明 https github com Microsoft vscode wiki How to Contribute packaging这表明你可以运行g
向量迭代器

我有以下代码 vector
如何告诉 python HTMLParser 停止

我有一个用例告诉我们当标签是link它的属性是rel dns prefetch然后就说预解析dns已启用我做了一个标志pre resolve dns enabled并将其设置为 true 如下所示 class Extractor HTML

如何告诉 python HTMLParser 停止

如何告诉 python HTMLParser 停止 的相关文章

随机推荐

热门标签

如何告诉 python HTMLParser 停止的相关文章