如何使用 xml-conduit 游标接口从大型 XML 文件（大约 30G）中提取信息

2023-12-26

以下问题基于此接受的答案question https://stackoverflow.com/questions/22748303/get-all-names-from-xml-conduit。已接受答案的作者表示，流式处理助手 APIxml-conduit多年未更新（来源：SO问题的接受答案 https://stackoverflow.com/questions/21367423/streaming-xml-conduit-parse-results），他推荐Cursor界面。

基于第一个问题的解决方案，我编写了以下 haskell 代码，该代码使用Cursor的接口xml-conduit包裹。

import Text.XML as XML (readFile, def)
import Text.XML.Cursor (Cursor, ($/), (&/), ($//), (>=>), 
    fromDocument, element, content)
import Data.Monoid (mconcat)
import Filesystem.Path (FilePath)
import Filesystem.Path.CurrentOS (fromText)

data Page = Page
    { title :: Text
    } deriving (Show)

parse :: FilePath -> IO ()
parse path = do
    doc <- XML.readFile def path
    let cursor = fromDocument doc
    let pages = cursor $// element "page" >=> parseTitle
    writeFile "output.txt" ""
    mapM_ ((appendFile "output.txt") . (\x -> x ++ "\n") . show) pages

parseTitle :: Cursor -> [Page]
parseTitle c = do
    let titleText = c $/ element "title" &/ content
    [Page (mconcat titleText)]

main :: IO ()
main = parse (fromText "input.xml")

此代码适用于小型 XML 文件。但是，当代码在 30G XML 文件上运行时，执行会被操作系统终止。

如何使该代码在非常大的 XML 文件上运行？

The Cursor模块要求整个内容都在内存中，这在这种情况下似乎是不可能的。如果要处理那么大的文件，则需要使用流接口。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Haskell

xmlparsing

xmlconduit

如何使用 xml-conduit 游标接口从大型 XML 文件（大约 30G）中提取信息的相关文章

为什么Haskell没有split函数？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在许多语言中都有一个函数可以使用指定的分隔符将字符串分成几部分它经常被称为split 您可以在 Python C Java JavaScri
在 win32/cygwin 上编译 haskell 模块网络

我正在尝试编译 Network HTTP http hackage haskell org package network http hackage haskell org package network 在 win32 cygwin 上
镜头中的观看和使用有什么区别？

有什么区别 view MonadReader s m gt Getting a s a gt m a and use MonadState s m gt Getting a s a gt m a in 控制镜头吸气剂 https hacka
我是否应该使用 GHC Haskell 扩展？

当我学习 Haskell 时我发现有很多语言扩展 http haskell org ghc docs latest html users guide ghc language features html在现实生活中使用的代码作为初学者
在生成此 SOP 函数时，如何修复类型错误，包括“无法对 Traversable 进行量化”？

我只是说我什至不确定这是否可能这是迄今为止我在 Haskell 中尝试过的最通用的事情我正在尝试制作一个更通用的版本applyFunc在发现https stackoverflow com a 58890226 3096687 https
Haskell 单例：我们可以通过 SNat 获得什么

我正在尝试使用 Haskell 单例在论文中使用单例进行依赖类型编程 http cs brynmawr edu rae papers 2012 singletons paper pdf并在他的博客文章中单例 v0 9 发布 https t
应用交换律

带有效果的应用程序编程 http staff city ac uk ross papers Applicative html麦克布莱德和帕特森的论文提出了互换法 u lt gt pure x pure f gt f x lt gt u 为了
如何使用 Qt DOM 通过此语法获取 xml 属性

我正在使用 Qt DOM XML 解析器并且遇到了如下属性定义的问题
Haskell，范围缩小到无步骤[重复]

这个问题在这里已经有答案了为什么在 Haskell 中工作范围不能降低到没有步骤 7 1 gt 但只工作这个 7 6 1 gt 7 6 5 4 3 2 1 Haskell 无法知道您想要执行 1 除非您给出提示在某些情况下您可能需要一
算法 - 如何有效删除列表中的重复元素？

有一个list L 它包含以下元素任意类型each 如何有效删除此类列表中的所有重复元素必须保留订单只需要一个算法因此不允许导入任何外部库相关问题在Python中从列表中删除重复项以使所有元素都是唯一的最快算法是什么在维持秩序的
表达式“ap zip tail”如何工作

我想知道怎么写f x zip x tail x 点免费所以我使用了pointfree程序结果是f ap zip tail ap作为 Control Monad 的函数我不明白点自由定义是如何工作的如果我能从类型的角度去理解的话希望
如何向 Scotty 中间件添加基本身份验证？

我目前正在制作 Scotty API 但找不到任何 basicAuth 实现的示例 Wai Middleware HttpAuth 具体来说我想将基本身份验证标头用户通行证添加到我的某些端点即以 admin 开头的端点我已经设置
Haskell 二进制解析

我一直在尝试在 haskell 中实现一个协议解析器而且我对这门语言还很陌生特别是当涉及到 monad 时我一直在使用binary 0 5 0 2 并描述了协议的标头和所有有效负载我想要解析的消息如下所示 header payloa
'lens' 的阴谋集团依赖性解析失败

我刚刚做了一个阴谋更新并尝试从 hackage 安装 lens 这给了我以下错误 cabal install j lens Resolving dependencies Configuring dlist 0 7 0 1
在 haskell 中处理 IO 与纯代码

我正在编写一个shell脚本我在haskell中的第一个非示例它应该列出一个目录获取每个文件大小进行一些字符串操作纯代码然后重命名一些文件我不确定我做错了什么所以有两个问题我应该如何安排这样的程序中的代码我有一个具体问题
有没有办法在 Emacs 中使用 Djinn 自动生成 Haskell 代码？

标题几乎说明了一切我正在寻找这样的东西 f Int gt Bool gt Int f body Djinn 可以使用定理证明来通过证明该类型存在来生成此类函数的代码我想知道是否有现有的方法可以从 Emacs 中获取此功能因此我不需
使用 Haskell 将函数注入到 Java .class 文件中

我使用 Haskell 编写了一个 Java 字节码解析器它工作得很好然而下一步让我完全难住了我的 Haskell 程序需要修改 class 文件以便在执行时 Java 程序打印输入此处的方法名称在执行方法之前并且退出此
简单的秒差距示例会产生类型错误

我正在尝试编译这个简单的秒差距代码 import Text Parsec simple letter 但我不断收到此错误 No instance for Stream s0 m0 Char arising from a use of let
为什么 Haskell 中的点是从右向左排列的？

如果我们有两个函数 f and g 然后在哈斯克尔h f g相当于h x f g x IE 这些函数从右到左应用于输入有什么根本原因可以解释为什么它是从右到左而不是从左到右吗 IE 他们为什么不做h f g相当于h x g f x 反而
为什么以下内容会并行运行而不是顺序运行？

给定以下函数evalPair parPair and deepSeq分别 evalPair Strategy a gt Strategy b gt Strategy a b evalPair sa sb a b do a lt sa a b

随机推荐

.NET版本和C#版本之间的关系？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案如何确定可以针对特定 NET Framework 版本使用哪个版本的 C 我读过了 https sta
Git 精选语法和合并分支

所以我之前已经做过无数次樱桃挑选看来我现在必须在生活中失败我正在尝试从一个分支挑选到另一个分支这应该很容易但是我收到了关于它是合并的错误但是没有给出 m 吗 git cherry pick a8c5ad438f6173dc34f6
Mono无法打开sqlite数据库

我正在尝试对 sqlite v3 数据库进行非常基本的连接并且我正在使用 monodevelop 3 0 和 Mono 2 10 但无法连接到数据库我可以让应用程序创建数据库但随后它尝试连接到数据库时立即失败有什么建议么我从不同的
查找可点击的元素

有没有办法找到用 click 或 live click 指定的所有可点击元素如果单击任何此类元素我想执行一些操作 container bind click function event actions 这个捕获所有点击 Thanks 这
如何使用时区偏移格式化 LocalDateTime

我尝试这样做 ZoneOffset zoneOffset ZoneOffset ofHours 3 DateTimeFormatter fmt DateTimeFormatter ofPattern HH mm ss LocalDateTi
如何确定我的 iOS 设备是否有手电筒？

在我的应用程序中我可以选择手电筒然而只有 iPhone 4 和 iPhone 4S 有手电筒灯其他设备没有手电筒灯如何找到当前设备型号请帮我提前致谢您不应使用设备型号作为是否存在某项功能的指示符相反请使用 API 来准确
blur.js 尝试请求“none”并且 div 未扩展 100%

我正在尝试使用http blurjs com http blurjs com 模糊标题栏的标题图像的背景然而它给了我一个有趣的错误我似乎无法追踪这可能与主要代码和兼容性有关但我不确定 http jordan rave5 com t
在 Numpy（或 Scipy）中计算斜率

我正在尝试找到使用 Numpy 和 Scipy 计算斜率的最快最有效的方法我有一组由三个 Y 变量和一个 X 变量组成的数据集我需要计算它们各自的斜率例如我可以轻松地一次一行执行此操作如下所示但我希望有一种更有效的方法来执行此
按下 iOS swift 后更改 UIBarButtonItem 图标

In the viewDidload方法我声明了一个按钮并设置了 RightBarButton let btnFavourite UIButton frame CGRectMake 0 0 30 30 btnFavourite addTa
找不到任何与 com.google.android.gms 匹配的版本：strict-version-matcher-plugin:[15.0.0, 16.0.0)

项目一直运行良好直到前两天突然出现错误我不知道如何解决它因为我已经做了我能做的一切包括重新安装 android studio 和 gradle 无法解析配置 app debugCompileClasspath 的所有文件找不到与
Array.push 返回推送值？

是否有任何实质性原因需要修改Array push 返回推送的对象而不是新数组的长度可能是一个坏主意我不知道这是否已经被提议或询问过谷歌搜索只返回了大量与当前功能相关的问题Array push 这是此功能的示例实现请随意更正它 func
ChildNode 类型上不存在属性“tagName”[Typescript]

我正在从父节点循环子节点我想访问子节点的 tagName 但错误是 tagName 在类型 ChildNode 上不存在 const contentParsed new DOMParser parseFromString content
创建 LocalDB 以从 Visual Studio SQL 项目进行测试

我正在尝试为我的项目创建集成测试我需要测试一个通过存储库调用存储过程的控制器应在每次运行某些范围的测试时创建一个空数据库所以我将实施以下步骤 Create LocalDB 运行一些预脚本以添加测试数据 Run test 运行一些后脚
GIMP的图层合成/混合方法

在我寻求为 Matlab 中的图像混合工具添加 Alpha 功能时我遇到了一些障碍其中我一直在使用these http ssp impulsetrain com porterduff html links http www adobe
显示一个 div，单击时隐藏所有其他 div

我有一个简单的图像视频库我想用 jQuery 制作动画我想要做的就是当有人点击链接时 big具有相同ID的div被设置为display block opacity 1所有其他 div 都设置为display none opacity
将多通道 PyAudio 转换为 NumPy 数组

我能找到的所有例子都是单声道的 CHANNELS 1 如何使用 PyAudio 中的回调方法读取立体声或多声道输入并将其转换为 2D NumPy 数组或多个 1D 数组对于单声道输入类似这样的工作 def callback in dat
NodeJS 中的 Rijndael 256 CBC PKCS7 加密/解密

我正在为一项服务构建一个 NodeJS 客户端该服务使用 256 位块 Rijndael CBC 和 PKCS7 填充来加密数据我看过 NodeJS 中的几个 Rijndael 实现但似乎没有一个提供我正在寻找的组合如何使用Rijn
从 python hook 调用 Mercurial 命令（“hg update”）

我在 Windows 2008 64 位和 IIS 上设置了 Mercurial hgweb 存储库的位置是网络共享我想在存储库上创建一个挂钩以在更改组上发出 hg update 命令我无法使用外部挂钩因为这会以网络共享作为工作目录
正确组织最终用户无法访问的模板化和非模板化功能的混合

在我正在进行的一个项目中我目前正在实现一个模板化的算法我在组织函数声明和定义时遇到了一些问题因为涉及模板我问了一个问题here https stackoverflow com q 25139535 884412关于如何处理非模板化函
如何使用 xml-conduit 游标接口从大型 XML 文件（大约 30G）中提取信息

以下问题基于此接受的答案question https stackoverflow com questions 22748303 get all names from xml conduit 已接受答案的作者表示流式处理助手 APIxml

如何使用 xml-conduit 游标接口从大型 XML 文件（大约 30G）中提取信息

如何使用 xml-conduit 游标接口从大型 XML 文件（大约 30G）中提取信息 的相关文章

随机推荐

热门标签

如何使用 xml-conduit 游标接口从大型 XML 文件（大约 30G）中提取信息的相关文章