Beautifulsoup，达到最大递归深度

2023-11-21

这是一个beautifulsoup抓取所有内容的过程<p>html 标签。从某些网页抓取内容后，我收到一条错误消息，指出超出了最大递归深度。

def printText(tags):
    for tag in tags:
        if tag.__class__ == NavigableString:
            print tag,
        else:
            printText(tag)
    print ""
#loop over urls, send soup to printText procedure

跟踪的底部：

 File "web_content.py", line 16, in printText
    printText(tag)
  File "web_content.py", line 16, in printText
    printText(tag)
  File "web_content.py", line 16, in printText
    printText(tag)
  File "web_content.py", line 16, in printText
    printText(tag)
  File "web_content.py", line 16, in printText
    printText(tag)
  File "web_content.py", line 13, in printText
    if tag.__class__ == NavigableString:
RuntimeError: maximum recursion depth exceeded in cmp

如果 printText() 遇到 NavigableString 以外的任何内容，则它会递归地调用自身。这包括 NavigableString 的子类，例如 Comment。对注释调用 printText() 会迭代注释的文本，并导致您看到的无限递归。

我建议在 if 语句中使用 isinstance() 而不是比较类对象：

if isinstance(tag, basestring):

我通过在递归之前插入打印语句来诊断这个问题：

print "recursing on", tag, type(tag)
printText(tag)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

Beautifulsoup，达到最大递归深度的相关文章

Python：记录垃圾收集器

我有一个 python 应用程序有一些性能问题我想将垃圾收集器的事件特别是何时调用添加到我的日志中是否可以 thanks http docs python org library gc html gc set debug http
如何从谷歌云存储桶读取音频文件并在datalab笔记本中使用ipd播放

我想在数据实验室笔记本中播放我从谷歌云存储桶中读取的声音文件这个怎么做 import numpy as np import IPython display as ipd import librosa import soundfile as
如何在 ReportLab 段落中插入回车符？

有没有办法在 ReportLab 的段落中插入回车符我试图将 n 连接到我的段落字符串但这不起作用 Title Paragraph Title n Page myStyle 我想要这样做因为我将名称放入单元格中并且想要控制单元格中的
使用 Scipy imsave 将 Numpy 数组保存到图像时保留未更改的数据

使用 Scipy 保存二维 Numpy 数组单个值时toimage or imsave像素值与 Numpy 数组中的像素值不完全匹配相反在某些区域主要是边缘图像算法似乎使用某种插值是否有一个选项可以停止插值并保留准确的数据例
在 Flask (WSGI) 中使用全局单例，我是否需要担心竞争条件？ [复制]

这个问题在这里已经有答案了 Flask 的 hello world 演示是 from flask import Flask app Flask name app route def hello return Hello World if n
如何使用 Pandas 将巨大的 CSV 转换为 SQLite？

我有一个巨大的表大约 60 GB 采用存档的 CSV 文件形式我想将其转换为 SQLite 文件我现在所做的事情如下 import pandas import sqlite3 cnx sqlite3 connect db sqlite
错误：无法访问文件“$libdir/plpython2”：没有这样的文件或目录

我正在运行 postgresql 9 4 PostgreSQL 9 4 4 on x86 64 unknown linux gnu compiled by gcc GCC 4 1 2 20070626 Red Hat 4 1 2 14 64
str.translate 给出 TypeError - Translate 采用一个参数（给定 2 个参数），在 Python 2 中工作

我有以下代码 import nltk os json csv string cPickle from scipy stats import scoreatpercentile lmtzr nltk stem wordnet WordNetL
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
numpy.cov() 返回意外的输出

我有一个 X 数据集有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵我使用np cov originalData generatedData rowvar False 代
大型数据集上的 Sklearn-GMM

我有一个很大的数据集我无法将整个数据放入内存中我想在这个数据集上拟合 GMM 我可以用吗GMM fit sklearn mixture GMM 重复小批量数据没有理由重复贴合只需随机采样您认为机器可以在合理时间内计算的尽可能多的数据
使用Beam IO ReadFromPubSub模块时，可以在Python中提取带有属性的消息吗？尚不清楚是否支持

尝试将具有存储在 PubSub 中的属性的消息拉取到 Beam 管道中我想知道是否添加了对 Python 的支持这就是我无法阅读它们的原因我看到它存在于Java中 pipeline options PipelineOptions pi
最小硬币找零问题——回溯

我正在尝试用最少数量的硬币解决硬币找零问题采用回溯法我实际上已经完成了它但我想添加一些选项按其单位打印硬币数量而不仅仅是总数这是我下面的Python代码 def minimum coins coin list change mi
获取调用者文件的绝对路径

假设我在不同的目录中有两个文件 1 py 比如说在C FIRST FOLDER 1 py and 2 py 比如说在C SECOND FOLDER 2 py 文件1 py进口2 py using sys path insert 0 pa
在Python中从日期时间中减去秒

我有一个 int 变量它实际上是秒让我们调用这个秒数X 我需要得到当前日期和时间以日期时间格式减去的结果X秒 Example If X是 65 当前日期是2014 06 03 15 45 00 那么我需要得到结果2014 06 03
Python 枚举子集迭代

我想迭代以下枚举的子集 class Items enum Enum item1 0 item2 1 item3 2 item4 3 item5 4 item6 5 item7 6 item8 7 说我想 for item in Items
在Python 3.2中，我可以使用http.client打开并读取HTTPS网页，但urllib.request无法打开同一页面

我想打开并阅读https yande re https yande re with urllib request 但我收到 SSL 错误我可以使用以下方式打开并阅读页面http client用这个代码 import http client
为什么用字符串和时间增量转置 DataFrame 会转换数据类型？

这种行为对我来说似乎很奇怪 id列字符串在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v
从 pandas 数据框中绘制堆积条形图

我有数据框 payout df head 10 复制以下 Excel 绘图的最简单最智能和最快的方法是什么我尝试过不同的方法但无法让一切都到位 Thanks 如果您只想要一个堆积条形图那么一种方法是使用循环来绘制数据框中的每一列并

随机推荐

如何限制对node.js javascript中的api的访问？

我做了一些研究但找不到任何能让我的案例成功的东西所以我正在加载 js从外部脚本require 每个脚本导出一个函数 main js var main 10 var mod1 require mod1 js mod1 js module
Spring 4.0 中的字符串到日期转换

我正在学习 Spring 4 0 0 M3 以下是代码 Bean package org chebus springs import java util Date public class Traingle private String n
HttpServletRequest#getParts() 返回一个空列表

我有以下 HTML 表单
如何合并两个 JSON 对象数组 - 在 Javascript/jQuery 中删除重复项并保留顺序？

jsfiddle link http jsfiddle net vN6fn 1 假设我有这两个对象 var obj1 data id 1 comment comment1 id 2 comment comment2 id 3 comment
Rails 上的复选框

在 Ruby on Rails 中制作与某个问题相关的复选框的正确方法是什么目前我有 div class form row div
在ggplot2中将一个面板设为空白

p lt ggplot mtcars aes mpg wt p geom point facet grid cyl vs theme bw 我想将面板右下角的 1 vs 8 设为空白不显示任何数据点但同时我想保留这种安排 so fa
Excel：如果上面的单元格具有相同的值，则抑制？

当上面的单元格具有相同的值时 Excel 是否可以抑制列中的值我想要这样的东西 A 1234 2345 3456 B 4567 C 5678 6789 D 7890 8901 其中 A 下面的 2 个单元格实际上是 A 但被隐藏了理想情
从模块导入的变量在再次导入同一模块后变为$null

我有一个简单的模块 varExp psm1 var1 20 导出模块成员变量 var1 我将此模块导入到 PS 会话中 PS gt 导入模块 varExp psm1 then PS gt var1 20 但是当我第二次导入它之后 PS g
了解 Selenium IDE 与 Selenium RC

Selenium IDE 和 Selenium RC 在功能上有什么区别 Selenium IDE 是一个 Firefox 插件为您提供用于记录测试的基本记录器这些测试使用关键字记录在基于 HTML 表的架构中 IDE 使您能够将代码导
如何使用 php 命令行定义多个 ini 设置？

我正在尝试允许allow url fopen and rename暂时用于脚本的函数我可以只用一个函数来完成它但不能同时使用两个函数像这样的东西 php d allow url fopen on rename on
为强制定向网络中的每个链接指定颜色，networkD3::forceNetwork()

问题是根据链接的值或权重指定两种不同的颜色networkD3 forceNetwork在 R 中例如 Blue对于大于1的链接权重 dark对于小于 1 的链接权重示例代码复制自here the forceNetwork部分 libr
为什么 Ruby 似乎随机访问目录中的文件？

这是设计使然吗这是代码 class FileRenamer def RenameFiles folder path files Dir glob folder path end end puts Renaming files rename
Java Swing GUI 的自动化测试 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案有哪些选项可以为用 Java Swing 编写的 GUI 构建自动化测试我想测试一些使用以下代码编写的 GUINetBeans Swing GUI
惰性洗牌算法

我有一个很大的元素列表我想以随机顺序迭代它们但是我无法修改该列表也不想创建它的副本因为 1 它很大 2 可以预期迭代会提前取消 List
解析 XPath 表达式

我正在尝试为 XPath 创建一个 AET 抽象表达式树因为我正在编写一个 WYSIWYG XSL 编辑器在过去的三到四个小时里我一直在与 XPath BNF 碰头我想到了另一个解决方案我想我可以编写一个实现 IXPathNavi
在 Android 中禁用屏幕锁定（电源）按钮

我希望当我的应用程序运行电源按钮时按下该按钮会锁定屏幕并且屏幕变黑应该被禁用使用户无法锁定屏幕我在三星 Galaxy S 手机的默认相机应用程序中注意到了这个东西这也是我尝试做同样事情的原因我还有一个与相机相关的应用程序试试这
vim 显示两行选项卡

当你同时打开很多文件时 Vim 是否可以显示两行选项卡我不希望出现选项卡溢出样式的箭头这不完全是你所要求的但我从使用选项卡切换到使用 BufExplorer 在它们之间切换的普通旧式多个缓冲区 http www vim org scr
比较 VBA 中的日期

我有两个文本框有两个不同的日期 orderDate 和 receiveDate 收到的日期需要手动输入到表单中我想包括在 orderDate 之后应该发生 receiveData 的验证我已经尝试过 If txtRecievedDat
使用相机拍摄的照片不包含任何 ALAsset 元数据

最奇怪的事情正在发生我有一个操作表用户可以选择使用相机拍照或从相机胶卷中选择一张照片当 UIImagePicker 从选择返回时我使用 ALAssetsLibrary 来确定照片中嵌入的 GPS 信息从相机胶卷中选择照片效果非常好
Beautifulsoup，达到最大递归深度

这是一个beautifulsoup抓取所有内容的过程 p html 标签从某些网页抓取内容后我收到一条错误消息指出超出了最大递归深度 def printText tags for tag in tags if tag class Na

Beautifulsoup，达到最大递归深度

Beautifulsoup，达到最大递归深度 的相关文章

随机推荐

热门标签

Beautifulsoup，达到最大递归深度的相关文章