ElementTree的iterparse() XML解析错误

2024-03-08

我需要解析一个编码为“ISO-8859-1”的 1.2GB XML 文件，在阅读了 NET 上的几篇文章后，似乎 Python 的 ElementTree 的 iterparse() 比 SAX 解析更受青睐。

我写了一段非常短的代码只是为了测试它，但它提示了一个我不知道如何解决的错误。

我的代码（Python 2.7）：

from xml.etree.ElementTree import iterparse

for (event, node) in iterparse('dblp.xml', events=['start']):
    print node.tag
    node.clear()

Edit:啊，由于文件确实很大而且很慢，所以我输入了 XML 行，然后犯了一个错误。是“ü”没有空间。我对此表示歉意。

这段代码工作正常，直到它到达 XML 文件中如下所示的一行：

<Journal>Technical Report 248, ETH Z&uuml;rich, Dept of Computer Science</Journal>

我猜这意味着苏黎世，但解析器似乎不知道这一点。

运行上面的代码给我一个错误：

xml.etree.ElementTree.ParseError: undefined entity &uuml;

无论如何我可以解决这个问题吗？我在谷歌上搜索了很多解决方案，但似乎没有一个能直接解决这个问题。

尝试以下操作：

from xml.etree.ElementTree import iterparse, XMLParser
import htmlentitydefs

class CustomEntity:
    def __getitem__(self, key):
        if key == 'umml':
            key = 'uuml' # Fix invalid entity
        return unichr(htmlentitydefs.name2codepoint[key])

parser = XMLParser()
parser.parser.UseForeignDTD(True)
parser.entity = CustomEntity()

for (event, node) in iterparse('dblp.xml', events=['start'], parser=parser):
    print node.tag
    node.clear()

from xml.etree.ElementTree import iterparse, XMLParser
import htmlentitydefs

parser = XMLParser()
parser.parser.UseForeignDTD(True)
parser.entity = {'umml': unichr(htmlentitydefs.name2codepoint['uuml'])}

for (event, node) in iterparse('dblp.xml', events=['start'], parser=parser):
    print node.tag
    node.clear()

相关问题：Python ElementTree 支持解析未知的 XML 实体吗？ https://stackoverflow.com/questions/7237466/python-elementtree-support-for-parsing-unknown-xml-entities

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

ElementTree的iterparse() XML解析错误的相关文章

使用ASP/VB获取节点属性值

我有以下 XML 架构
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
当玩家触摸屏幕一侧时，如何让 pygame 发出警告？

我使用 pygame 创建了一个游戏当玩家触摸屏幕一侧时我想让 pygame 给出类似你不能触摸屏幕两侧的错误我尝试在互联网上搜索但没有找到任何好的结果我想过在屏幕外添加一个方块当玩家触摸该方块时它会发出警告但这花了很长
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
HTTPS 代理不适用于 Python 的 requests 模块

我对 Python 还很陌生我一直在使用他们的 requests 模块作为 PHP 的 cURL 库的替代品我的代码如下 import requests import json import os import urllib impor
循环中断打破tqdm

下面的简单代码使用tqdm https github com tqdm tqdm在循环迭代时显示进度条 import tqdm for f in tqdm tqdm range 100000000 if f gt 100000000 4 b
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
从 pygame 获取 numpy 数组

我想通过 python 访问我的网络摄像头不幸的是由于网络摄像头的原因 openCV 无法工作 Pygame camera 使用以下代码就像魅力一样 from pygame import camera display camera in
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

如何让 Kivy 显示文本输入框？

我目前正在 Kivy 中为一个学校项目编写一个应用程序我不得不深入使用 Kivy 我已经为文本输入编写了 kv 代码您可以在下面看到 AnswerInput
iOS 8 Core 蓝牙未发现外设

我在让 Core Bluetooth 发现 iOS 8 上的外围设备时遇到问题相同的代码在 iOS 7 设备上运行良好最初我认为这可能是一个权限问题因为我一直在做一些 iBeacon 工作并且 iOS 8 上的核心位置权限发生了一
字符串无法识别？ C4430：缺少类型说明符 - 假定为 int

我定义了这个类但它根本不起作用 ifndef LIBROS H define LIBROS H include Articulo h class Libros public Articulo public Libros Libros st
为什么这个使用移位的交换宏不适用于负数？

我在我拥有并需要扩展的内置库中找到了一些代码但它似乎被打破了 define BSWAP16 x x gt gt 8 x lt lt 8 其功能与以下不同 builtin bswap16 这个程序证明了这一点 include
是什么原因导致 updateUIView() 在这段代码中被调用？

我知道 State 变量的更改通知 Binding 状态已更改但是什么导致 updateUIView 方法被调用 Binding 和调用之间显然存在一些隐藏的联系但它是如何工作的呢 Experiment Map View swift i
FineUploader：更改预设 ACL 值时 S3 访问被拒绝响应

我有一个 S3 Fine Uploader 实现运行良好默认情况下它可以正常上传文件但它们是私有的根据 FineUploader 的文档我将 objectProperties 选项添加到 FineUploader 的客户端 js
获取一系列单元格中 5 个最常见的分隔子字符串

我有一个 Excel 工作表每个单元格内都有子字符串由例如 A B C F G H I J K L M N O P A B C D E F G H I N O P A B C E 如何找到单元格范围内 5 个最常见的子字符串示例数据
您如何实施 SCRUM 来单独工作？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我在一个大型开源项目的开始阶段独自工作希望利用 Scrum 的一些核心思想方法来帮助管理我的时间并继续专注于开发和部署早期的可演示
使用适用于 Android 的 LibVLC 创建视频播放器

我正在尝试使用最后一个 LibVLC 为 Android 应用程序创建一个视频播放器问题是我不知道这个库是如何工作的而且我找不到示例来帮助我正如这里所说https bitbucket org edwardcw libvlc andro
Cygwin 中的库“rt”和“dl”

也许这很愚蠢但我无法找出必须在 Cygwin 中安装哪个软件包才能修复以下缺失的库 config status creating unix buildinfo config status creating include HsUnixCo
当手机不使用时，AlarmManager 重复警报会随机丢失

我正在调用背景Service每隔30分钟读取当前位置的经纬度并通过POST API发送到服务器我在用setRepeating 的方法AlarmManager班级每 30 分钟安排一次闹钟但有时警报会被错过服务也不会被调用为了监控每
SQL Server 数据透视表中为空？

我有这个查询 DECLARE Test TABLE RowID INT IDENTITY 1 1 PRIMARY KEY Name VARCHAR 10 NOT NULL tool VARCHAR 10 NOT NULL stam NVAR
ubuntu中libusb.h和usb.h有什么区别？哪一个更好？

我是 libusb c 编程的新手我应该知道 libusb h 和 usb h 之间的区别吗我已经在 Ubuntu xenial 中安装了它们并带有 libusb 1 0 0 dev 和 libusb dev 包哪一个更好它们来自
在 Android 10 / Android Q 上使用捆绑的 ttf 字体时发生崩溃

当我将 Android 应用程序的目标级别从 28 更新到 29 Android 10 后应用程序在 Pixel 3 使用 Android 10 上崩溃使用的版本 Android Gradle 插件 3 5 0 摇篮5 5 1 问题这
新的 HTML5 Canvas API 支持

我发现了几篇关于 HTML5 Canvas API 中新功能的帖子例如路径基元或命中区域目前的规范 4 8 11 似乎具有以下功能 http www whatwg org specs web apps current work mult
仅加载适用于 ipad 的 css 文件

我正在尝试加载仅适用于 ipad 的 css 文件我试过这个它适用于 iPad 但如果我在桌面上将分辨率降低到 1024 x 768 并在 Firefox 中查看该网站 ipad 样式表也会加载所以我尝试但仍然是同样的问题我如
Express JS 路由中使用 formData 获取 POST 为空

我有一个表单它使用 fetch 到 AJAX 并在 NodeJS 上有一个路由当 AJAX POST 命中路由时 req body 显示一个空对象这是代码在 app js 中 app use bodyParser json app
Web 服务一次只允许我获取 1000 行，但总数超过 30000

我正在使用 Netsuite 提供的一些 Web 服务https system netsuite com help helpcenter en US Output Help SuiteFlex WebServices STP searchM
AWS Lambda：任务超时

我的学校项目要求我们编写在 AWS Lambda 中运行的 Java 代码它应该获取特定 URL 的源代码然后将其上传到 S3 存储桶 Java 代码应在 AWS Lambda 上运行我获取了 Java 中 String 变量的源代码
ElementTree的iterparse() XML解析错误

我需要解析一个编码为 ISO 8859 1 的 1 2GB XML 文件在阅读了 NET 上的几篇文章后似乎 Python 的 ElementTree 的 iterparse 比 SAX 解析更受青睐我写了一段非常短的代码只是为了测试

ElementTree的iterparse() XML解析错误

ElementTree的iterparse() XML解析错误 的相关文章

随机推荐

热门标签

ElementTree的iterparse() XML解析错误的相关文章