在 Clojure 中使用 data.zip 解析 XML 时出现 OutOfMemoryError

2023-12-31

我想使用 Clojure 从维基词典 XML 转储中提取标题。

I used head -n10000 > out-10000.xml创建原始怪物文件的较小版本。然后我用文本编辑器进行修剪，使其成为有效的 XML。我根据里面的行数重命名了文件（wc -l):

(def data-9764 "data/wiktionary-en-9764.xml") ; 354K
(def data-99224 "data/wiktionary-en-99224.xml") ; 4.1M
(def data-995066 "data/wiktionary-en-995066.xml") ; 34M
(def data-7999931 "data/wiktionary-en-7999931.xml") ; 222M

以下是 XML 结构的概述：

<mediawiki>
  <page>
    <title>dictionary</title>
    <revision>
      <id>20100608</id>
      <parentid>20056528</parentid>
      <timestamp>2013-04-06T01:14:29Z</timestamp>
      <text xml:space="preserve">
        ...
      </text>
    </revision>
  </page>
</mediawiki>

这是我尝试过的，基于这是“Clojure XML 解析”的答案 https://stackoverflow.com/a/9595315/109618:

(ns example.core
  (:use [clojure.data.zip.xml :only (attr text xml->)])
  (:require [clojure.xml :as xml]
            [clojure.zip :as zip]))

(defn titles
  "Extract titles from +filename+"
  [filename]
  (let [xml (xml/parse filename)
        zipped (zip/xml-zip xml)]
    (xml-> zipped :page :title text)))

(count (titles data-9764))
; 38

(count (titles data-99224))
; 779

(count (titles data-995066))
; 5172

(count (titles data-7999931))
; OutOfMemoryError Java heap space  java.util.Arrays.copyOfRange (Arrays.java:3209)

我的代码中做错了什么吗？或者这可能是我正在使用的库中的错误或限制？根据 REPL 实验，我使用的代码似乎很懒。在底层，Clojure 使用 SAX XML 解析器，因此仅此一个应该不是问题。

也可以看看：

clojure-xml/parse 是否返回惰性序列？ https://stackoverflow.com/questions/11213083/does-clojure-xml-parse-return-a-lazy-sequence
Clojure 中的庞大 XML https://stackoverflow.com/questions/9939844/huge-xml-in-clojure

2013年4月30日更新：

我想分享一些来自 clojure IRC 频道的讨论。我在下面粘贴了编辑后的版本。（我删除了用户名，但如果您想要信用，请告诉我；我将编辑并给您一个链接。）

整个标签一次读入内存xml/parse, 早在你打电话给 count 之前。和clojure.xml使用 ~lazy SAX 解析器生成一个急切的具体集合。延迟处理 XML 需要比你想象的更多的工作——而且这就是工作you做，而不是一些魔法clojure.xml可以为你做的。随意反驳通过致电(count (xml/parse data-whatever)).

总结一下，即使在使用之前zip/xml-zip, this xml/parse导致OutOfMemoryError有足够大的文件：

(count (xml/parse filename))

目前，我正在探索其他 XML 处理选项。我的列表顶部是clojure.data.xml https://github.com/clojure/data.xml如所提到的https://stackoverflow.com/a/9946054/109618 https://stackoverflow.com/a/9946054/109618.

这是拉链数据结构的限制。 Zipper 旨在高效地导航各种类型的树，支持在树层次结构中上/下/左/右移动，并在近乎恒定的时间内进行就地编辑。

从树中的任何位置，拉链都需要能够重新构建原始树（应用编辑）。为此，它会跟踪树中当前节点、父节点以及当前节点左侧和右侧的所有兄弟节点，大量使用持久数据结构。

您使用的过滤器函数从节点最左边的子节点开始，并逐一向右进行，一路测试谓词。最左边的孩子的拉链从其左侧兄弟姐妹的空向量开始（注意:l []部分来源zip/down https://github.com/clojure/clojure/blob/clojure-1.5.1/src/clj/clojure/zip.clj#L109）。每次向右移动时，它都会将最后访问的节点添加到左手兄弟姐妹的向量中（:l (conj l node) in 拉链/右 https://github.com/clojure/clojure/blob/clojure-1.5.1/src/clj/clojure/zip.clj#L149）。当您到达最右边的子节点时，您已经构建了树中该级别中所有节点的内存向量，对于像您这样的宽树，这可能会导致 OOM 错误。

作为解决方法，如果您知道顶级元素只是列表的容器<page>元素，我建议使用拉链在页面元素内导航，然后使用map处理页面：

(defn titles
  "Extract titles from +filename+"
  [filename]
  (let [xml (xml/parse filename)]
    (map #(xml-> (zip/xml-zip %) :title text)
         (:content xml))))

因此，基本上，我们避免将 zip 抽象用于整个 xml 输入的顶层，从而避免将整个 xml 保存在内存中。这意味着，对于更大的 xml，其中每个第一级子级都很大，我们可能必须在 XML 结构的第二级中再次跳过使用拉链，依此类推......

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Clojure 中使用 data.zip 解析 XML 时出现 OutOfMemoryError 的相关文章

在 Clojure 中处理两个序列中的值对

我正在尝试加入 Clojure 社区我经常使用 Python 我广泛使用的功能之一是 zip 方法用于迭代值对在 Clojure 中是否有一种聪明且简短的方法可以实现相同的目标另一种方法是简单地将 map 与一些按顺序收集其参数
有没有一种简单的方法可以在 Eclipse 的 java 项目中使用 XML 资源？

我想用 java 解析 XML 文件好吧很简单如果我可以使用在同一个 Eclipse 项目的文件夹我们称之为资源文件夹中创建的 XML 文件那就太好了由于版本控制多个开发平台和总体简单性等问题拥有此功能而不是访问文件系
使用 ApacheFOP 从 Java 中的 XML 生成 PDF

我正在尝试从 Java 对象生成即时 PDF 报告我找不到很多这方面的例子所以我一直在关注这个例子 http svn apache org viewvc xmlgraphics fop trunk examples embedding
XSLT 输出格式：删除换行符，并从删除的元素中删除输出行，同时保持缩进

这是我的 XML
如何为 EditText 的提示应用动画？

我正在通过 java 更改 EditText 的提示editText setHint 当提示文本更改时如何将过渡或动画应用于提示文本我想做的是这样的但是当我在java代码中更改它时提示文本https i stack imgur com
PHP 对象作为 XML 文档

获取给定 PHP 对象并将其序列化为 XML 的最佳方法是什么我正在查看 simple xml 并用它来将 XML 解析为对象但我不清楚它是如何以相反的方式工作的我同意使用 PEAR 的 XML Serializer 但是如果您想要一
BIRT 不显示 base64 编码的图像

我想将图像包含到 BIRT 报告中图像应由 XML 数据源 base64 编码给出但XML数据源不支持Blob数据类型我找到了一个很好的答案这个 BIRT 问题 https stackoverflow com questions 2
从 shell 查找不包含特定注释的 XML 文件

我想搜索 awk grep sed 几个 XML 文件 pom xml 文件跳过某些文件夹而且第一个条件是它们必须包含标签
使用 XSLT 根据属性值合并 2 个 XML 文件？

文件1 xml
如何禁用 Clojure 断言，包括前提条件？

在 REPL 中禁用 Clojure 断言包括前置条件和后置条件有哪些好方法对于任意的莱宁根轮廓 Per https github com technomancy leiningen blob b82b228 sample proje
使用 PHP 从 XML 文件重新调整多个动态结果的 XPATH 方法

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我有一个用户输入或选择一个值的表单
具有自定义资源解析器的 Java XML 模式验证器无法解析元素

Java XML 模式验证 ResourceResolver 问题我正在尝试在 Web 应用程序中构建一个组件该组件将根据一组模式验证不同的 XML 文档我在 java 包 com example xml 中有验证器类然后有一个用于
在c中使用xslt创建xml文件

我有 5 个不同的键值对并且我知道我的 xml 文件应该是什么样子我怎样才能用它创建一个 xml 文件 1 我总是可以做 printf 不太好 2 我可以使用 xslt 样式表 xsl 文件来执行此操作吗而且我还希望能够进行我刚
为什么 CouchDB 使用仅追加 B+ 树而不是 HAMT

我正在阅读数据结构尤其是不可变的数据结构例如仅追加 B 树 http guide couchdb org draft btree html用于 CouchDB 和哈希数组映射 trie http en wikipedia org wik
Linq to XML - 更新/更改 XML 文档的节点

我有 2 个问题 1 我已经开始使用 Linq to XML 我想知道是否可以通过 Linq 更改 XML 文档我的意思是有没有类似的东西 XDocument xmlDoc XDocument Load sample xml updat
如何为键盘上的 xml 中的功能键设置不同的背景？

我正在开发 Android 键盘应用程序我尝试为普通键和功能键设置不同的背景但它不起作用
我应该如何使 Clojure STM 程序持久化？

我正在编写一个使用 STM 的 clojure 程序目前我在启动时从数据库填充 STM 使用引用然后在 dosync 事务成功时异步更新数据库我不知道我是否以正确的方式这样做或者是否有更好的标准技术来做到这一点谁能向我解释一下他
使用 XSLT 将 XML 转换为 SQL

由于我无法控制的原因我将获得一个 XML 文件和一个 XSLT 文件该文件可以将 XML 文件转换为 SQL 代码或错误现在让我们假设我们可以信任提供 XML 文件的人不会在 XML 中包含危险的构造我什至不知道是否应该使用 Sim
在 Delphi 中使用 XML（将特定数据返回到变量）

过去几天我一直在尝试使用 Delphi 2010 和 MSXML 我是一个极端的新手需要一点指导 var MemoryStream TMemoryStream XMLPath String sName String XMLDoc vari
按钮 - 单击时更改背景颜色

我的活动中有 8 个按钮我正在寻找的是按钮具有默认背景单击按钮时背景颜色应更改为其他颜色这部分非常简单但是当我单击任何其他按钮时第一个按钮的背景颜色应该变回默认颜色我知道这将使用选择器状态来完成但我不太确定如何实现它

随机推荐

在加载上下文中加载非托管静态 dll

我有本机非托管 dll 它是静态的如果我想并行运行它每次需要库做一些工作时都必须加载它在 NET 中我会使用 AppDomain 并在需要时加载此 dll 但在 NET Core 中 AppDomain 已经消失暂时我查看了 A
路由关注和多态模型：如何共享控制器和视图？

给定路线 Example Application routes draw do concern commentable do resources comments end resources articles concerns commen
GeoPandas 中的格式/圆形数字图例标签

我正在寻找一种方法来格式化舍入这些地图中的数字图例标签 plot GeoPandas 中的函数例如 gdf plot column pop2010 scheme QUANTILES k 4 这给了我一个有很多小数位的图例我希望图例标签
将应用程序渲染到主体时，语义 UI 侧边栏会使用 ReactJS 抛出控制台错误

有什么方法可以在不使用 HTML 正文中的 id 标签的情况下将 Semantic UI 侧边栏渲染到 React 应用程序中我想避免必须将 React 组件渲染到 HTML 正文中的 tagis 例如不使用 div div 我正在使用
将 Scala 类作为参数传递？

我希望将一个类作为参数传递给 Scala 函数如下所示 def sampleFunc c Class List Any 附带问题参数中的类型应该是 Class 还是 Class 我传递 Class 类型的原因是检查对象是否属于特定类型
如何将 UIImageView 设置为圆角以适应宽高比模式

我通常使用以下代码来设置圆角 imageView layer cornerRadius 10 当 imageView 设置为 Aspect Fill 时它会起作用但是当imageView设置为Aspect Fit模式时 imageVie
在 Node.js 上使用 aes-ecb 加密二进制数据

我尝试在 Node js 上进行加密但糟糕的是我无法获得与在线网站相同的结果我想用二进制密钥加密一些二进制数据我使用教程节点站点 https nodejs org api crypto html crypto class cipher
nginx - 从上游服务器读取自定义标头

我使用 nginx 作为反向代理并尝试从上游服务器 Apache 的响应中读取自定义标头但没有成功 Apache 的响应如下 HTTP 1 0 200 OK Date Fri 14 Sep 2012 20 18 29 GMT Serve
ListView 适配器和焦点状态

我有一些列表视图这是项目视图的代码
Matplotlib 图未使用 ipywidgets 滑块更新

我有以下代码来生成一个简单的图表 matplotlib notebook from ipywidgets import import numpy as np import matplotlib pyplot as plt x np lins
无法自动选择 Xcode 项目

当我在正确的目录中输入 pod install 时我总是得到这个分析依赖关系 Could not automatically select an Xcode project Specify one in your Podfile lik
SQL 计算所有行而不是计算单个行

我有一个从数据库请求数据的 SQL 语句 SELECT ID To Poster Content Time ifnull Aura 0 as Aura FROM SELECT FROM SELECT DISTINCT FROM messag
WCF 票证基础身份验证

我正在编写使用 wsHttpBinding 绑定的 WCF 服务该服务不是托管在 IIS 中而是托管在 Windows 服务中我希望在服务中有一个 Login user pass 方法如果用户有效它将向客户端提供一张票证谁能帮助我
Swift 4 Decodable：嵌套数组的结构

鉴于以下 JSON 文档我想创建一个struct有四个属性 filmCount Int year Int category 字符串以及actor 演员阵列 filmCount 5 year 2018 category Other act
将循环缓冲区就地移动/对齐/旋转为零

我正在使用循环缓冲区将数据推送到列表的任一端完成后我想对齐缓冲区以便列表中的第一个元素位于位置零并且可以像常规数组一样使用而无需任何花哨的索引开销所以我有我的循环list有能力N 它有n从任意索引开始的元素f 移动旋转所有元素
用鸭子类型语言模拟静态类型的各个方面

在我目前的工作中我正在构建一套严重依赖于对象的 Perl 脚本使用 Perl 的bless 在哈希上尽可能接近 OO 现在由于缺乏更好的表达方式我公司的大多数程序员都不是很聪明更糟糕的是他们不喜欢阅读文档并且似乎在理解其他人的
检查 SaveAs 是否成功 VBA

我需要什么样的语句来检查vba中的SaveAs操作是否成功 Sub saveBookAs wb SaveAs fileName newFile End Sub 您不需要语句来检查工作簿是否已保存如果Save As进程失败那么该行将自动出
详细命名空间常用来做什么

在一些较大的项目或库例如 Eigen 中您可以看到诸如internal or detail 我明白什么是internal有好处但是什么是detail常用于是否有任何通用约定将代码分发到这样的命名空间中特别是在具有公共接口的库的情况
Flutter Firebase Cloud Messaging onMessage 被触发两次

我已经实现了 firebase messaging flutter 包建议的基本配置但是每次我在 flutter 应用程序上收到通知时 onMessage 都会被触发两次我正在使用 firebase messaging 6 0 9 D
在 Clojure 中使用 data.zip 解析 XML 时出现 OutOfMemoryError

我想使用 Clojure 从维基词典 XML 转储中提取标题 I used head n10000 gt out 10000 xml创建原始怪物文件的较小版本然后我用文本编辑器进行修剪使其成为有效的 XML 我根据里面的行数重命名了文件

在 Clojure 中使用 data.zip 解析 XML 时出现 OutOfMemoryError

在 Clojure 中使用 data.zip 解析 XML 时出现 OutOfMemoryError 的相关文章

随机推荐

热门标签