Python 中是否有一个快速的 XML 解析器，允许我将标签的开头作为流中的字节偏移量？

2024-03-16

我正在处理可能巨大的 XML 文件，其中包含来自我的项目的复杂跟踪信息。

我想为这些 XML 文件建立索引，以便可以快速找到 XML 文档的子部分，而不必将其全部加载到内存中。

如果我创建了一个“搁置”索引，其中可能包含诸如“作者 Joe 的书籍”之类的信息，其偏移量为 [22322, 35446, 54545]，那么我可以像常规文本文件一样打开 xml 文件并查找这些偏移量，然后将其交给接受文件或字符串的 DOM 解析器之一。

我还没有弄清楚的部分是如何快速解析 XML 并创建这样的索引。

所以我需要一个快速的 SAX 解析器，它允许我找到文件中标签的起始偏移量以及起始事件。因此，我可以将 XML 的一小部分连同起始点一起解析到文档中，提取关键信息并将关键和偏移量存储在搁置索引中。

由于定位器返回行号和列号来代替偏移量，因此您需要一些换行来跟踪行尾——一个简化的示例（可能有一些offbyones；-）...：

import cStringIO
import re
from xml import sax
from xml.sax import handler

relinend = re.compile(r'\n')

txt = '''<foo>
            <tit>Bar</tit>
        <baz>whatever</baz>
     </foo>'''
stm = cStringIO.StringIO(txt)

class LocatingWrapper(object):
    def __init__(self, f):
        self.f = f
        self.linelocs = []
        self.curoffs = 0

    def read(self, *a):
        data = self.f.read(*a)
        linends = (m.start() for m in relinend.finditer(data))
        self.linelocs.extend(x + self.curoffs for x in linends)
        self.curoffs += len(data)
        return data

    def where(self, loc):
        return self.linelocs[loc.getLineNumber() - 1] + loc.getColumnNumber()

locstm = LocatingWrapper(stm)

class Handler(handler.ContentHandler):
    def setDocumentLocator(self, loc):
        self.loc = loc
    def startElement(self, name, attrs):
        print '%s@%s:%s (%s)' % (name, 
                                 self.loc.getLineNumber(),
                                 self.loc.getColumnNumber(),
                                 locstm.where(self.loc))

sax.parse(locstm, Handler())

当然，您不需要保留所有的 linelocs - 为了节省内存，您可以删除“旧”的（在查询的最新行锁下方），但是您需要将 linelocs 设为字典，等等。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

Parsing

Indexing

SAX

Python 中是否有一个快速的 XML 解析器，允许我将标签的开头作为流中的字节偏移量？的相关文章

GUI 测试工具 PyUseCase 与 Dogtail 相比如何？

GUI测试工具如何Py用例 http pypi python org pypi PyUseCase重命名为故事文本 http pypi python org pypi StoryText 相比于Dogtail http en wikiped
如何通过 python 中的函数运行列表？

我试图通过我创建的函数运行我的列表但不断收到错误我不知道出了什么问题温度 F temp f 19 21 21 21 23 功能 def fahrToCelsius tempFahrenheit return tempFahrenhei
使用 Boto3 超时的 AWS Lambda 函数

我已经解决了我自己的问题但无论如何我都会发布它希望能节省其他人几个小时我在 AWS 上有一个无服务器项目使用 Python 将记录插入到 kinesis 队列中但是当我使用 boto3 client kinesis 或 put
Python Requests 库重定向新 url

我一直在浏览 Python 请求文档但看不到我想要实现的任何功能在我的脚本中我设置allow redirects True 我想知道该页面是否已重定向到其他内容新的 URL 是什么例如如果起始 URL 为 www google c
Python Selenium 打印另存为 PDF 等待文件名输入

我正在尝试通过打印对话框将网站另存为 PDF 我的代码允许我另存为pdf 但要求我输入文件名我不知道如何将文件名传递到弹出框附上我的代码 import time from selenium import webdriver import
如何用函数记录一个文件？

我有一个带有函数 lib py 但没有类的python 文件每个函数都有以下样式 def fnc1 a b c This fonction does something param a lalala type a str param b
如何找到多个 pandas 数据框中一对列与任意顺序对的交集？

我有多个 pandas 数据框为了简单起见假设我有三个 gt gt df1 col1 col2 id1 A B id2 C D id3 B A id4 E F gt gt df2 col1 col2 id1 B A id2 D C id
在 Python 中从 Excel 复制 YEARFRAC() 函数

因此我使用 python 来自动执行一些必须在 Excel 中执行的重复任务我需要做的计算之一需要使用yearfrac 这在Python中被复制了吗 I found this https lists oasis open org arc
Pandas 字典键到列[重复]

这个问题在这里已经有答案了我有一个像这样的数据框 index column1 e1 u c680 5 u c681 1 u c682 2 u c57 e2 u c680 6 u c681 2 u c682 1 u c57 e3 u c68
Python 在哪些系统上不使用 IEEE-754 双精度浮点数

Python 对 IEEE 754 浮点运算进行了各种引用但不保证1 https docs python org 3 tutorial floatingpoint html 2 https pythondev readthedocs io
pandas groupby 操作缺少数据

在 pandas 数据框中我有一列如下所示 0 M 1 E 2 L 3 M 1 4 M 2 5 M 3 6 E 1 7 E 2 8 E 3 9 E 4 10 L 1 11 L 2 12 M 1 a 13 M 1 b 14 M 1 c 15
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
Python：导入模块一次然后与多个文件共享

我有如下文件 file1 py file2 py file3 py 假设这三个都使用 lib7 py lib8 py lib9 py 目前这三个文件中的每一个都有以下行 import lib7 import lib8 import lib
如何从邻接表高效创建稀疏邻接矩阵？

我正在与last fm http labrosa ee columbia edu millionsong lastfm数据集来自百万歌曲数据集 http labrosa ee columbia edu millionsong 数据以一组 j
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
将 Django 中的所有视图限制为经过身份验证的用户

我是 Django 新手我正在开发一个项目该项目有一个登录页面作为其索引和一个注册页面其余页面都必须仅限于登录用户如果未经身份验证的用户尝试访问这些页面则必须将他她重定向到登录页面我看到 login required装饰器会将
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
如何有效地比较 pandas DataFrame 中的行？

我有一个 pandas 数据框其中包含雷击记录以及时间戳和全球位置格式如下 Index Date Time Lat Lon Good fix 0 1 20160101 00 00 00 9962692 7 1961 60 7604 1
ProcessPoolExecutor 传递多个参数

ESPN播放器免费 class ESPNPlayerFree def init self player id match id match id team 团队名单1 277906 cA2i150s81HI3qbq1fzi za1Oq5CG
使用 python 将 CSV 文件上传到 Microsoft Azure 存储帐户

我正在尝试上传一个 csv使用 python 将文件写入 Microsoft Azure 存储帐户我已经发现C sharp https blogs msdn microsoft com jmstall 2012 08 03 convert

随机推荐

类型错误：字符串索引必须是整数（Python）[重复]

这个问题在这里已经有答案了我正在尝试检索 id 值 ad284hdnn 我收到以下错误 TypeError string indices must be integers data response json print data for
当您执行 CPU 不支持的指令时会发生什么？

如果 CPU 尝试执行使用您的 CPU 不支持的某些指令编译的二进制文件会发生什么情况我特别想知道一些在旧处理器上运行的新 AVX 指令我假设这可以进行测试并且理论上可以向用户显示一条友好的消息想必大多数低级库都会代表您检查这一点
使用相同数据透视表的子类的 Hibernate 多对多

具有此模型架构 Person Student SchoolBoy CollegeStudent 我正在使用 Hibernate 3 6 并且我使用tperson所有类的表使用鉴别器列我的映射是这样完成的
如何在 OpenCV 中使用 cv::createButton 原型

我想了解如何使用 OpenCV 文档中定义的 cv createButton http opencv jp opencv 2svn org cpp highgui qt new functions html cv createbutton
如何让 jq 将参数视为数字而不是字符串？

怎么做jq将输入参数视为数字而不是字符串在下面的示例中 CURR INDEX是一个 Bash 变量它具有我想要提取的数组索引值 jq arg ARG1 CURR INDEX ARG1 patchSets inputfile json 我
Android 延迟后播放声音

我必须在 GUI 事件上播放声音例如单击按钮等为此我从 WebView 调用以下本机代码 MediaPlayer SoundPlayer new MediaPlayer private void playSound String so
R 中使用插入符号进行分类的预测（模型）和预测（模型$ FinalModel）之间的区别

有什么区别 predict rf newdata testSet and predict rf finalModel newdata testSet 我训练模型preProcess c center scale tc lt trainCon
tableView：“全局”常量的 dequeueReusableCellWithIdentifier 问题

请保存我的头发或指出我的明显的错误我正在尝试使用 UITableViewStyle 的UITableViewCellStyleSubtitle在子类 UITableViewController 中我在实现中定义了一个静态常量 sta
在 Three.js 中的 MeshPhongMaterial 或 MeshLambertMaterial 上投射阴影

我觉得我在这里缺少一些简单的东西 I used JSFiddle 作者 WestLangley http jsfiddle net 4Txgp 234 它演示了如何将物体的阴影投射到平面上当飞机只填充颜色时一切都会按预期进行 var g
如何找到覆盖R中一组点的给定部分的最小椭圆？

我在想有没有一些功能聪明的方法来找到smallest椭圆覆盖 R 中一组 2d 点的给定部分 With smallest我的意思是面积最小的椭圆澄清如果点数很大我可以接受近似正确的解决方案因为我猜精确的解决方案必须尝试点子集的所
如何将 SwiftUI 图像保存到磁盘或取出数据？

我正在尝试将 SwiftUI 图像不是 UIKit 中的 UIImage 保存到磁盘我到处寻找但找不到任何有关如何执行此操作的文档信息我也看不到从 SwiftUI 图像中提取数据的方法有人可以帮忙吗提前致谢对于 SwiftUI
AspNetCore Angular 6.0 SPA 模板中的未知选项 --extractCss

我已经搭建了脚手架AspNetCore Angular 6 0 SPA template from cli然后安装npm相应地进行封装但是当我尝试运行该项目时dotnet run它不会启动而是提示错误我截取了一个屏幕截图供您参考我不
使用 string.format 绑定到文本框

有没有办法使绑定以字符串格式工作
Angular 4 - 如何使垫卡填充整个父组件区域

我有一个mat grid tile 父级包含一个组件app window 子其中包含mat card在其根源 The app window填充mat grid tile根据需要并且垂直和水平居中对齐现在我想要app window s
大气+弹簧+自动装配问题[重复]

这个问题在这里已经有答案了我正在开发一个网络应用程序并尝试集成聊天功能目前我正在使用 Spring 和 Atmosphere 来做到这一点我设法让聊天正常进行但现在我似乎遇到了问题我在一个单独的 servlet 中使用 Mana
Google App Engine 提供 Content-Length 标头

我使用以下内容通过 PHP App Engine 从 GS 提供文件 google appengine api cloud storage CloudStorageTools serve 这不会设置 Content Length 标头并且
将音频文件拆分为多个文件，每个文件都低于大小阈值

我有一个 FLAC 文件需要将其拆分为几个不同的 FLAC 文件每个文件的大小必须低于 100 MB 有没有任何 UNIX 工具可以帮我做到这一点我可以自己实现这个逻辑吗旁注由于 FLAC 是压缩的我认为最简单的解决方案需要首先
如何构建 py2exe 而不会出现错误？

我通常不是 Windows 用户但我需要从 python 代码构建 exe 所以我想使用 py2exe 来执行此操作我有一个XP系统我安装了python 2 6 6 我下载了 py2exe 0 6 9 源代码但是当我尝试安装通过
C++ 中的 4d 映射？

你能告诉我如何编写多维地图吗对于二维地图我做了以下操作 map
Python 中是否有一个快速的 XML 解析器，允许我将标签的开头作为流中的字节偏移量？

我正在处理可能巨大的 XML 文件其中包含来自我的项目的复杂跟踪信息我想为这些 XML 文件建立索引以便可以快速找到 XML 文档的子部分而不必将其全部加载到内存中如果我创建了一个搁置索引其中可能包含诸如作者 Joe 的书

Python 中是否有一个快速的 XML 解析器，允许我将标签的开头作为流中的字节偏移量？

Python 中是否有一个快速的 XML 解析器，允许我将标签的开头作为流中的字节偏移量？ 的相关文章

随机推荐

热门标签

Python 中是否有一个快速的 XML 解析器，允许我将标签的开头作为流中的字节偏移量？的相关文章