使用python ElementTree的itertree函数并将修改后的树写入输出文件

2023-11-26

我需要解析一个非常大（~40GB）的 XML 文件，从中删除某些元素，然后将结果写入新的 xml 文件。我一直在尝试使用 python 的 ElementTree 中的 iterparse，但我对如何修改树然后将生成的树写入新的 XML 文件感到困惑。我已经阅读了 itertree 上的文档，但它还没有弄清楚。有什么简单的方法可以做到这一点吗？

谢谢你！

编辑：这是我到目前为止所拥有的。

import xml.etree.ElementTree as ET
import re 

date_pages = []
f=open('dates_texts.xml', 'w+')

tree = ET.iterparse("sample.xml")

for i, element in tree:
    if element.tag == 'page':
        for page_element in element:
            if page_element.tag == 'revision':
                for revision_element in page_element:
                    if revision_element.tag == '{text':
                        if len(re.findall('20\d\d', revision_element.text.encode('utf8'))) == 0:
                            element.clear()

如果您有一个大的 xml 无法放入内存，那么您可以尝试一次序列化它一个元素。例如，假设<root><page/><page/><page/>...</root>文档结构并忽略可能的命名空间问题：

import xml.etree.cElementTree as etree

def getelements(filename_or_file, tag):
    context = iter(etree.iterparse(filename_or_file, events=('start', 'end')))
    _, root = next(context) # get root element
    for event, elem in context:
        if event == 'end' and elem.tag == tag:
            yield elem
            root.clear() # free memory

with open('output.xml', 'wb') as file:
    # start root
    file.write(b'<root>')

    for page in getelements('sample.xml', 'page'):
        if keep(page):
            file.write(etree.tostring(page, encoding='utf-8'))

    # close root
    file.write(b'</root>')

where keep(page)回报True if page应保留，例如：

import re

def keep(page):
    # all <revision> elements must have 20xx in them
    return all(re.search(r'20\d\d', rev.text)
               for rev in page.iterfind('revision'))

为了比较，修改smallxml 文件，您可以：

# parse small xml
tree = etree.parse('sample.xml')

# remove some root/page elements from xml
root = tree.getroot()
for page in root.findall('page'):
    if not keep(page):
        root.remove(page) # modify inplace

# write to a file modified xml tree
tree.write('output.xml', encoding='utf-8')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

elementtree

使用python ElementTree的itertree函数并将修改后的树写入输出文件的相关文章

如何计算 pandas datetime 对象的均值和方差？

如何计算 YYYY MM DD 形式的 python 日期时间对象的汇总统计数据均值和标准差我想对具有不同 ID 的不同日期时间对象组执行此操作数据如下 import datetime as dt df pd DataFrame Da
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
Tensorboard SyntaxError：语法无效

当我尝试制作张量板时出现语法错误尽管开源代码我还是无法理解我尝试搜索张量板的代码但不清楚即使我不擅长Python 我这样写路径C Users jh902 Documents logs因为我正在使用 Windows 10 但我不确定
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
无法导入 langchain.agents.load_tools

我正在尝试使用 LangChain Agents 但无法导入 load tools 版本 langchain 0 0 27 我尝试过这些 from langchain agents import initialize agent from
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何将Python3设置为Mac上的默认Python版本？

有没有办法将 Python 3 8 3 设置为 macOS Catalina 版本 10 15 2 上的默认 Python 版本我已经完成的步骤看看它安装在哪里 ls l usr local bin python 我得到的输出是这样的
使用 powershell 将 XML 转换为特定的 JSON 结构

需要有关将 xml 转换为特定 json 结构的帮助 XML 看起来像这样

随机推荐

您是如何学习的/学习 Silverlight 的最佳方式

所以我在 stackoverflow 上搜索过似乎没有任何答案因此如果可以的话真正完全学习 silverlight 的最佳方法是什么我有这方面的书但似乎当你读到 30 章中的第 15 章时你已经有点忘记了所学的内容必须重新开
将数组保存为 xml

array name gt text surname gt text country gt text date gt text 1 如何将此数组保存为 xml 文件 2 如何读取这个文件作为数组 save doc new DOMDocume
我可以在 JavaScript 中将数组附加到“formdata”吗？

我正在使用 FormData 上传文件我还想发送一系列其他数据当我只发送图像时效果很好当我将一些文本附加到表单数据时它工作正常当我尝试附加下面的标签数组时其他一切都正常但没有发送数组 FormData 和附加数组有任何已
在 Windows 启动时启动 Window

我希望我的应用程序 WPFWindow 在 Windows 启动时启动我尝试了不同的解决方案但似乎没有一个有效我必须在代码中写什么才能做到这一点当您说必须向注册表添加一个密钥时您是正确的添加一个键 HKEY CURRENT US
如何在 Erlang 中处理 SIGINT？

感谢 Google 和大量教程我知道如何用 Java Python Ruby Perl 和 Lisp 创建自定义信号处理程序我无法在线找到如何在 Erlang 中为 SIGINT SIGTERM HUP 等创建处理程序你不能操作系统
如何修复对 inflate/deflate 函数的未定义引用？

我正在尝试编译示例中提供的现有代码zlib 但它本身就给了我错误 nikhil nikhil Vostro 3500 zlib 1 2 8 examples gcc o zpipe g zpipe c tmp ccVZzqsb o In f
shell 脚本的第一行空白：解释 UID 变量的行为

我有两个非常简单的脚本区别仅在于第一行存在空白 cat test bash bin bash echo UID cat test blank bash bin bash echo UID 现在我跑步无论有没有nice test bash
如何让 PHP 会话在 30 分钟后过期？

我需要让一个会话保持 30 分钟的活动状态然后销毁它 Answer recommended by PHP Collective 您应该实现自己的会话超时其他人提到的两个选项会话 gc maxlifetime and session c
如何解决 http 和站点行为：android 应用程序中的导航错误？

最近我将 android 9 更新到 android 10 但不幸的是该应用程序有时会崩溃并给出此错误 com fgapps maker E chromium ERROR cookie manager cc 137 Strict Secu
智能支付按钮为 IPN 传递自定义变量

我的网站上有两个用于每月订阅的智能按钮运行良好我成功收到 IPN 响应其中付款信息已准备好添加到数据库中但我需要通过 IPN 响应获取应用程序的 UserID 如何使用智能支付按钮传递自定义变量以便将其传递到 IPN 如果可能的话
Maven 本地存储库与 leiningen 的依赖关系

我正在开始lein newclojure 中的项目并想要使用goose文章提取库不幸的是我在任何公开可用的 Maven 存储库中都找不到该库的 jar 因此我开始将其添加到本地 Maven 存储库中在项目目录中我复制了 goose
如何在 Python 中使用 BeautifulSoup 找到文本字符串后的表格？

我正在尝试从几个网页中提取数据这些网页的显示方式并不统一我需要编写代码来搜索文本字符串然后转到紧随该特定文本字符串的表然后我想提取该表的内容这是我到目前为止所得到的 from BeautifulSoup import Beauti
如何确定 Office 加载项是否在 Excel 或 Excel Online 下运行？

我正在编写一个 Office 加载项以前称为 Apps for Office 我在用着office js在某些代码点中我想检查应用程序是在 Excel 桌面软件中运行还是在 Web 上运行 Excel Online 就像是 if Of
如何为 Amazon S3 存储桶配置 SSL

我使用 Amazon S3 存储桶通过 NET 应用程序上传和下载数据现在我的问题是我想使用 SSL 访问我的 S3 存储桶是否可以为 Amazon s3 存储桶实施 SSL 您可以通过 SSL 访问您的文件如下所示 https s
Firebase Cloud Messaging 开发和发布简介

我最近从 Google Cloud Messaging 切换到 Firebase Cloud Messaging 对于 GCM 我必须选择沙箱选项正如这里所描述的 https developers google com cloud mes
使用 Google App Engine 实现“开头为”和“结尾为”查询

我想知道是否有人可以提供一些指导指导我如何使用 Python 对数据存储模型实现开头或结尾查询在伪代码中它的工作原理类似于查询属性 P 以 X 开头的所有实体 A or 查询属性 P 以 X 结尾的所有实体 B 谢谢马特您可以使
如何从服务器优雅地关闭套接字

在服务器端我试图优雅地关闭连接的套接字我知道套接字上事件的正确顺序应该是使用 SocketShutdown Send 选项关闭套接字循环等待直到套接字接收返回 0 字节套接字关闭我有几个问题如果 Socket Receiv
使用连接字符串的 DocumentDB .Net 客户端

我检查了 MSDN on DocumentDB for Net here 并找到了 3 个有效的构造函数然而它们都没有使用连接字符串这对我来说听起来很奇怪是否真的没有办法用连接字符串而不是端点 authKey组合来实例化客户端或者
Spring Oauth2 Client，自动刷新过期的access_token

让我解释一下我的用例我需要有一个 spring boot oauth2 客户端应用程序不是资源服务器因为我们已经有一个单独的资源服务器另外我还有以下要求对于每个向资源服务器发出的请求我们需要发送 id token 通过自定义re
使用python ElementTree的itertree函数并将修改后的树写入输出文件

我需要解析一个非常大 40GB 的 XML 文件从中删除某些元素然后将结果写入新的 xml 文件我一直在尝试使用 python 的 ElementTree 中的 iterparse 但我对如何修改树然后将生成的树写入新的 XML 文件

使用python ElementTree的itertree函数并将修改后的树写入输出文件

使用python ElementTree的itertree函数并将修改后的树写入输出文件 的相关文章

随机推荐

热门标签

使用python ElementTree的itertree函数并将修改后的树写入输出文件的相关文章