Python xml - 处理未封闭的令牌

2024-01-07

我正在读取数百个 XML 文件并使用 xml.etree.ElementTree 解析它们。

快速背景：这些 XML 文件在某一时刻是完全有效的，但不知何故，在历史上处理它们时，我复制/粘贴它们的过程可能已损坏它们。（事实证明，这是一个冲洗问题/声明未结束，如果您关心，请参阅我在该调查中获得的良好帮助......Python Shutil Copyfile - 缺少最后几行 https://stackoverflow.com/questions/31546902/python-shutil-copyfile-missing-last-few-lines ).

无论如何，回到这个问题的重点。
我仍然想阅读这些文档的前 100,000 行左右，它们是有效的 XML。这些文件仅缺少 6MB 文件的最后 4 或 5KB。不过，正如前面提到的，该文件只是“剪切”了。它看起来像这样：

</Maintag>




<Maintag>
    <Change_type>NQ</Change_type>
    <Name>Atlas</Name>
    <Test>ATLS</Test>
    <Other>NYSE</Other>
    <Scheduled_E

其中（也许很明显）Scheduled_E 应该是另一个属性 <.scheduled_event> 的开头。但文件的中间标签被缩短。再一次，在文件中的这一点之前，我想读入数千个“好”“Maintag”条目，接受截止条目（以及显然应该在之后出现的任何内容）作为不可恢复的失败。

处理这个问题的一个简单但不完整的方法可能是简单地 - 预 XML 处理 - 查找文件中字符串 <.> 的最后一个实例，并将后面的内容（在某些时候会被破坏）替换为“开始”标签。同样，这至少让我可以处理仍然存在且有效的内容。

如果有人想帮助我进行这种字符串替换，那么 fwiw 的开始标签是：

<?xml version="1.0" encoding="ISO-8859-1" ?>
<FirstTag>
    <Source FileName="myfile">

我希望比这更容易，可能有一个 elementtree 或 beautifulsoup 或其他方式来处理这种情况......我已经做了相当多的搜索，但没有什么看起来是容易/明显的。

Thanks

为了处理未封闭的元素 - 或本问题标题中的标记 - 我建议尝试lxml. lxml's XMLParser has recover选项哪个有记录的 http://lxml.de/parsing.html as :

恢复 - 努力解析损坏的 XML

例如，给定一个损坏的 XML，如下所示：

from lxml import etree

xml = """
<root>
    <Maintag>
        <Change_type>NQ</Change_type>
        <Name>Atlas</Name>
        <Test>ATLS</Test>
        <Other>NYSE</Other>
        <Scheduled_E
"""
parser = etree.XMLParser(recover=True)
doc = etree.fromstring(xml, parser=parser)
print(etree.tostring(doc))

上述代码打印的恢复的 XML 如下：

<root>
    <Maintag>
        <Change_type>NQ</Change_type>
        <Name>Atlas</Name>
        <Test>ATLS</Test>
        <Other>NYSE</Other>
        <Scheduled_E/></Maintag></root>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python xml - 处理未封闭的令牌的相关文章

如何访问 log4net 附加程序文件值并在 azure 管道中替换

我正在尝试替换管道中的日志文件路径
为什么在 Windows 中使用 GetConsoleScreenBufferInfoEx 时控制台窗口会缩小？

我正在尝试使用 GetConsoleScreenBufferInfoEx 和 SetConsoleScreenBufferInfoEx 设置 Windows 命令行控制台的背景和前景色我正在 Python 中使用 wintypes 进行此
字典中的列表，Python 中的循环

我有以下代码 TYPES hotmail type hotmail lookup mixed dkim no signatures S Return Path email protected cdn cgi l email protecti
如何找到列表S的所有分区为k个子集（可以为空）？

我有一个唯一元素列表比方说 1 2 我想将其拆分为 k 2 个子列表现在我想要所有可能的子列表 1 2 1 2 2 1 1 2 我想分成 1 1 2 我怎样才能用 Python 3 做到这一点更新我的目标是获取 N 个唯一数字列表的
Django 的 URL 覆盖率测试为 0%，为什么？

使用姜戈鼻子我对 URL 进行了测试但 URL 覆盖率仍然为 0 为什么 python manage py 测试配置文件这是我的报道 Name Stmts Miss Cover Missing profiles 0 0 100 pro
用Python中的嵌套for循环替换重复的if语句？

在我编写的下面的代码中 n 4 所以有五个 if 语句所以如果我想将 n 增加到比如说 10 那么就会有很多 if 语句因此我的问题是如何用更优雅的东西替换所有 if 语句 n p 4 5 number of trials prob
如何使用 Python 多处理避免在分叉进程中加载父模块

当您创建一个Pool使用Python的进程multiprocessing 这些进程将分叉父进程中的全局变量将显示在子进程中如下面的问题所述如何限制多处理进程的范围 https stackoverflow com questions 2
一行Python和SQLite代码，为什么需要加“，”？ [复制]

这个问题在这里已经有答案了 c execute INSERT INTO numbers VALUES random randint 0 100 如果我将上面的代码更改为 c execute INSERT INTO numbers VALUE
如何从 Python 中指定运行程序的输入文件？

我正在编写一个外部脚本以通过笔记本电脑上的 Python mrjob 模块而不是在 Amazon Elastic Compute Cloud 或任何大型集群上运行 mapreduce 作业我读自mrjob文档 http packag
如何反序列化 XML 文档

如何反序列化此 XML 文档
一起使用 Flask 和 Tornado？

我是以下的忠实粉丝Flask 部分是因为它很简单部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的而 WSGI 不是非阻塞的所以我相信它
求解不等式系统时“多项式错误：仅允许使用单变量多项式”

我想找到以下两个常数的区间cons1 and cons2我写了下面的代码 from sympy import Poly from sympy import Abs from sympy solvers inequalities import
为什么“return self”返回 None ？ [复制]

这个问题在这里已经有答案了我正在尝试获取链的顶部节点getTopParent 当我打印出来时self name 它确实打印出了父实例的名称然而当我回来时self 它返回 None 为什么是这样 class A def init sel
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
smooth_idf 是多余的吗？

The scikit learn 文档 http scikit learn org stable modules generated sklearn feature extraction text TfidfTransformer html
numpy.cov() 返回意外的输出

我有一个 X 数据集有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵我使用np cov originalData generatedData rowvar False 代
Spyder 如何在同一线程的后台运行 asyncio 事件循环（或者确实如此？）

我已经研究 asyncio 模块功能几天了因为我想将它用于我的应用程序的 IO 绑定部分并且我认为我现在对它的工作原理有一个合理的理解或者在至少我认为我已经理解了以下内容任一时刻任一线程中只能运行一个异步事件循环一旦一切都设置
scipysolve_ivp() 中的访问时间步长

我有一个常微分方程系统正在使用 scipy 的solve ivp 函数求解它运行良好但我在访问每个步骤中使用的时间步时遇到问题我知道solve ivp 将当前时间传递给用户定义的函数但我需要使用的时间步长而不是当前时间为了解决
从数据集的给定日期范围中提取属于一天的数据

我有一个数据集日期范围为 2018 年 1 月 12 日到 8 月 3 日其中包含一些值维数为my df数据框是 my df shape 9752 2 每行包含半小时频率第一行开始于2018 01 12 my df iloc 0 D
为什么用字符串和时间增量转置 DataFrame 会转换数据类型？

这种行为对我来说似乎很奇怪 id列字符串在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v

随机推荐

UISwipeGestureRecognizer 滑动长度

知道是否有办法获取滑动手势或触摸的长度以便我可以计算距离不可能通过滑动手势获得距离因为当手势结束时 SwipeGesture 会触发您可以准确访问该位置一次的方法也许您想使用 UIPanGestureRecognizer 如果您可以
如何从 Azure 数据工厂运行 PowerShell

I have PowerShell该脚本将复杂的 CSV 文件分割为每 1000 条记录的较小的 CSV 文件这是代码 i 0 Get Content C Users dell Desktop Powershell Input bigsi
SignTool 错误：访问被拒绝

我正在尝试使用 pfx 文件签署外部 dllSignTool在cmd exe中使用以下代码 SignTool 签名 f MyCert pfx p MyPassword MyControl dll 但是我不断收到以下错误消息 Done Ad
如何过滤列表

我正在编写一个简单的函数从列表中取出任何奇数并返回仅包含偶数的列表 def purify numbers for i in numbers if i 2 0 numbers remove i return numbers print pu
无法从其他应用程序读取 SharedPreferences

EDITED 我有一个应用程序可以像这样写入 SharedPreferences Context otherAppsContext null try otherAppsContext createPackageContext AfroKey
如何获取 jPlayer 中歌曲当前播放的时间？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我使用 jPlayer 控件来播放音
在notifyAppWidgetViewDataChanged之后没有调用RemoteViewService中的onDataSetChanged()

在我的 AppWidgetProvider 类中我有以下代码onUpdate method Update each of the widgets with the remote adapter for int appWidgetId ap
完美转发、可变参数模板、initializer_list - 一起

gcc 4 8 1 和 clang 3 3 c 11 功能完整我需要在某些构造 make shared c 14 make unique 等元素的函数中转发参数但我对类型推导转发初始值设定项列表数组有问题我需要的工作示例foo f
了解托管 bean/支持 bean [重复]

这个问题在这里已经有答案了我正在学习 Java EE 6 我正在尝试掌握它的整体形象我正在阅读有关 JSF 以及如何添加组件的内容我正在将组件中的值设置读取到具有 ManagedBean 注释的 bean 我在正确理解它时遇到一些困
单个变量的线程安全

我了解线程安全的概念我正在寻找在尝试保护单个变量时简化线程安全的建议假设我有一个变量 double aPass 我想保护这个变量所以我创建了一个互斥体 pthread mutex t aPass lock 现在我可以想到两种好方法但
导入打字稿时如何在路径中使用变量

是否可以将变量或常量放入路径中而不是将整个路径写为字符串文字看起来 Angular 除了字符串文字之外不接受任何内容 import aClass require simpleClass import aComponent from
将 pandas 数据框转换为 pandas 系列

我需要一些有关数据类型问题的帮助我正在尝试转换 pandas 数据框如下所示 timestamp number 2018 01 01 1 2018 02 01 0 2018 03 01 5 2018 04 01 0 2018 05 01
从 NSURLConnection 的响应头中读取数据

如何从服务器响应中发送的标头中读取数据我正在使用 NSURLConnection 发送请求如果 URL 是 HTTP URL 则NSURLResponse您在连接的委托中收到的 connection didReceiveResponse
xampp mysql 和 phpmyadmin 不起作用

昨天我使用 xampp 并使用 apache 和 mysql 服务今天想启动mysql服务没成功我尝试在论坛上搜索解决方案但找不到任何内容所以我问你在 mysql 停止工作后我在日志文件中找到此消息 2015 10 29 12
ASP.NET MVC 将数据从视图传递到控制器

我有一个带有网格的视图其中包含添加到工作站的项目用户可以从下拉列表中选择一个项目然后单击一个操作链接该链接调用控制器将该项目添加到工作站我可以通过读取控制器的 Post 操作中的 FormCollection 对象来使其工作 p
如何在 AWS 负载均衡器响应中禁用 Apache HTTP 标头信息？

我在 Apache 服务器上使用 AWS Elastic Beanstalk 部署了一个 node js 环境我对环境运行了 PCI 扫描但出现了 2 次失败 Apache ServerTokens 信息披露 Web服务器HTTP头信息
从逗号分隔字段中选择

说我有一个subscribers表每个用户都有一行如下所示 id name subscribers 1 user1 user2 user3 user4 2 user2 user4 user5 user3 3 user3 user1 us
Apache Spark：核心数量与执行器数量

我试图了解在 YARN 上运行 Spark 作业时核心数量和执行器数量的关系测试环境如下数据节点数量 3 Data node machine spec CPU Core i7 4790 核心数 4 线程数 8 内存 32GB 8GB x
Firebase 功能 HTTPS 403 禁止

我使用 Node 和 Express 构建了 Firebase HTTP 事件函数该函数正在工作但是当我在客户端调用该函数时我得到403 Forbidden 第一次调用该功能时我被要求使用 Google 帐户登录我使用与 Fire
Python xml - 处理未封闭的令牌

我正在读取数百个 XML 文件并使用 xml etree ElementTree 解析它们快速背景这些 XML 文件在某一时刻是完全有效的但不知何故在历史上处理它们时我复制粘贴它们的过程可能已损坏它们事实证明这是一个冲洗问题

Python xml - 处理未封闭的令牌

Python xml - 处理未封闭的令牌 的相关文章

随机推荐

热门标签

Python xml - 处理未封闭的令牌的相关文章