解析非常大的 XML 文件并编组为 Java 对象

2023-11-23

我有以下问题：我有非常大的 XML 文件（例如 300+ Megs），我需要解析它们以便将它们的一些值添加到数据库中。这些文件的结构也非常复杂。我想使用 Stax Parser，因为它提供了一次仅拉解析（从而处理）XML 文件的一部分的良好可能性，因此不会将整个文件加载到内存中，但另一方面可以使用以下命令获取值Stax（至少在这些 XML 文件上）很麻烦，我需要编写大量代码。从后一个角度来看，如果我可以将 XML 文件编组为 Java 对象（就像 JAX-B 所做的那样），这将对我有很大帮助，但是这会一次性加载整个文件以及内存中的大量对象实例。

我的问题是，是否有某种方法可以按顺序提取解析（或部分解析）文件，然后仅将这些部分编组到 Java 对象，以便我可以轻松处理它们，而不会陷入内存困境？

我推荐 Eclipse EMF。但它也有同样的问题，如果你给它文件名，它会解析整个文件。虽然有一些选项可以减少加载量，但我并没有太在意，因为我们在 96 GB RAM 的机器上运行。 :)

不管怎样，如果您的 XML 格式定义良好，那么一种解决方法就是通过将整个文件分解为几个较小的（但仍然定义良好的）XML 片段来欺骗 EMF。然后一个接一个地输入每个片段。我不了解 JAX-B，但也许同样的解决方法也适用于那里。我会推荐这个，因为对于这么小的问题来说，EMF 太大了。

如果您的 XML 如下所示，请详细说明一下：

<tag1>
    <tag2>
        <tag3/>
        <tag4>
            <tag5/>
        </tag4>
        <tag6/>
        <tag7/>
    </tag2>

    <tag2>
        <tag3/>
        <tag4>
            <tag5/>
        </tag4>
        <tag6/>
        <tag7/>
    </tag2>
............
    <tag2>
        <tag3/>
        <tag4>
            <tag5/>
        </tag4>
        <tag6/>
        <tag7/>
    </tag2>
</tag1>

然后它可以分解为一个 XML，每个 XML 开头为<tag2>并以</tag2>。在java中，大多数解析器都会接受Stream，因此只需使用您想要的任何内容进行解析，为每个解析器创建一些StringStream或其他东西<tag2>循环并传递给 JAX-B 或 EMF。

HTH

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

xml

解析非常大的 XML 文件并编组为 Java 对象的相关文章

如何在android上的python kivy中关闭应用程序后使服务继续工作

我希望我的服务在关闭应用程序后继续工作但我做不到我听说我应该使用startForeground 但如何在Python中做到这一点呢应用程序代码 from kivy app import App from kivy uix floatl
如何将 XML 文档嵌入到 XHTML 文档中？

例如我如何嵌入
java中如何连接字符串

这是我的字符串连接代码 StringSecret java public class StringSecret public static void main String args String s new String abc s co
按第一列排序二维数组，然后按第二列排序

int arrs 1 100 11 22 1 11 2 12 Arrays sort arrs a b gt a 0 b 0 上面的数组已排序为 1 100 1 11 2 12 11 22 我希望它们按以下方式排序a 0 b 0 首先如果
Cassandra java驱动程序协议版本和连接限制不匹配

我使用的java驱动程序版本 2 1 4卡桑德拉版本 dsc cassandra 2 1 10cql 的输出给出以下内容 cqlsh 5 0 1 Cassandra 2 1 10 CQL spec 3 2 1 Native protocol
Hibernate.createBlob() 方法从 Hibernate 4.0.1 开始已弃用，并移至 Hibernate.getLobCreator(Session session).createBlob()

Method Hibernate createBlob 已弃用自休眠4 0 1并搬到Hibernate getLobCreator Session session createBlob 任何解决方案我应该在方法内传递什么getLobCrea
我可以使用子接口重新编译公共 API 并保持二进制兼容性吗？

我有一个公共 API 在多个项目中多次使用 public interface Process
画透明圆，外面填充

我有一个地图视图我想在其上画一个圆圈以聚焦于给定区域但我希望圆圈倒转也就是说圆的内部不是被填充而是透明的其他所有部分都被填充请参阅这张图片了解我的意思 http i imgur com zxIMZ png 上半部分显示了我可以
Hazelcast 分布式锁与 iMap

我们目前使用 Hazelcast 3 1 5 我有一个简单的分布式锁定机制应该可以跨多个 JVM 节点提供线程安全性代码非常简单 private static HazelcastInstance hInst getHazelcastIn
在 Netbeans 8 上配置 JBoss EAP 的问题

我已经下载了 JBoss EAP 7 并正在 Netbeans 8 上配置它我已经到达向导实例属性其中要求从选择框中选择域当我打开选择框时它是空的没有什么可以选择的因此完成按钮也处于非活动状态这使得无法完成配置我通过
具有 java XSLT 扩展的数组

我正在尝试使用 java 在 XSLT 扩展中使用数组我收到以下错误 Caused by java lang ClassCastException org apache xpath objects XObject cannot be ca
很好地处理数据库约束错误

再一次它应该很简单我的任务是在我们的应用程序的域对象中放置一个具有唯一约束的特定字段这本身并不是一个很大的挑战我刚刚做了以下事情 public class Location more fields Column unique tru
在游戏视图下添加 admob

我一直试图将 admob 放在我的游戏视图下这是我的代码 public class HoodStarGame extends AndroidApplication Override public void onCreate Bundle
测试弱引用

在 Java 中测试弱引用的正确方法是什么我最初的想法是执行以下操作 public class WeakReferenceTest public class Target private String value public Targe
游戏内的java.awt.Robot？

我正在尝试使用下面的代码来模拟击键当我打开记事本时它工作正常但当我打开我想使用它的游戏时它没有执行任何操作所以按键似乎不起作用我尝试模拟鼠标移动和点击这些动作确实有效有谁知道如何解决这个问题我发现这个问题如何在游戏中使用
将 Azure AD 高级自定义角色与 Spring Security 结合使用以进行基于角色的访问

我创建了一个演示 Spring Boot 应用程序我想在其中使用 AD 身份验证和授权并使用 AD 和 Spring Security 查看 Azure 文档我执行了以下操作 package com myapp contactdb c
spring中如何使用jackson代替JdkSerializationRedisSerializer

我在我的一个 Java 应用程序中使用 Redis 并且正在序列化要存储在 Redis 中的对象列表但是我注意到使用 RedisTemplate 会使用 JdkSerializationRedisSerializer 相反我想使用 J
Eclipse 中 Spring MVC 模型对象的 (jsp /jstl) 视图中的代码辅助

在 Spring MVC 中当将对象放置在视图模型中时如下所示 public String getUser Model model fetch user model addAttribute user user return viewN
FileOutputStream.close() 中的设备 ioctl 不合适

我有一些代码可以使用以下命令将一些首选项保存到文件中FileOutputStream 这是我已经写了一千遍的标准代码 FileOutputStream out new FileOutputStream file try BufferedOu
如何修复：“无法解析类型 java.lang.CharSequence。它是从所需的 .class 文件间接引用的”消息？ [复制]

这个问题在这里已经有答案了我正在尝试使用这个字符串 amountStr amountStr replace replace replace 但我收到一条错误消息我知道我收到的错误消息是因为我刚刚发布的字符串已过时所以我想知道该字符串的

随机推荐

如何在 Android 中设置持久/定期计划？

如何在每个指定时间例如每天凌晨 5 点执行一个操作可能是一个 Intent 它必须在设备重新启动后保留类似于 cron 的工作原理我不确定是否可以使用AlarmManager为此我可以吗如果您希望它在设备重新启动后保留则必须
OmniAuth Railscast 教程中的 DangerousAttributeError：创建由 ActiveRecord 定义

我看过ActiveRecord 危险属性错误以及 SO 上的其他类似线程但它们没有解决相同的问题我正在关注omniauth教程 http railscasts com episodes 235 omniauth part 1 view
C++ 使用 Boost.asio 和 Beast 库在正文中发送数据

我必须使用 C 库将数据发送到我们公司的 REST Web 服务我从 Boost 开始 Beast并给出示例hereUbuntu 16 04 环境中的 Code Blocks 下该文档对我解决以下问题没有帮助我的代码或多或少与示例相同
Pandas 数据框总行数

我有一个数据框类似于 foo bar qux 0 a 1 3 14 1 b 3 2 72 2 c 2 1 62 3 d 9 1 41 4 e 3 0 58 我想在数据框的末尾添加一个总计行 foo bar qux 0 a 1 3 14
如何在 EF Core 中显示底层 SQL 查询？

本次结束后 3 点 15 分 NET Core 2 0 发布视频中 Diego Vega 展示了 Entity Framework Core 2 0 中新功能的演示其中显示了底层 SQL 的转储在控制台应用程序中我在 Stack Ov
使用Matlab检测十字中心点

你好我有一张如上图所示的图片我可以使用Matlab检测十字的中心点并输出结果吗谢谢干得好我假设您有图像工具箱因为如果没有那么您可能不应该尝试做这类事情然而我相信所有这些功能都可以通过卷积来实现我对上面显示的图像进行了此处
执行 LeScan 时“蓝牙共享已停止工作”

我面前有一堆不同的 Android 手机它们都运行 4 3 4 4 它们似乎都遇到了蓝牙方面的一些错误我正在运行的应用程序只是使用此回调扫描周围的其他蓝牙设备 http developer android com reference a
使用 pandas read_csv 和 nrows 读取约 13000 行 CSV 文件的部分内容

我正在尝试将 CSV 文件的片段读入 pandas DataFrame 当我将 nrows 设置为超过某个点时我遇到了麻烦我的 CSV 文件被分成具有不同标题数据类型的不同段因此我浏览了该文件并找到了不同段的行号并保存了行号当我
如何加密 ASP.NET 网站中的查询字符串参数？ [复制]

这个问题在这里已经有答案了在我的一个 ASP Net 网站中我必须向用户提供一个链接其中所有查询字符串参数都应加密我的想法是使用命令 aspnet regiis 用于加密web configdata 将输出作为查询字符串传递到已发布
可以从（完整）git-svn 克隆重新创建 svn 存储库吗？

如标题所示有没有办法使用 git svn 从完整克隆重建 svn 存储库包含从 r1 开始的每个提交 Edit 我可能应该补充一点我正在寻找一种实用的方法来做到这一点近乎完美的副本是可以的只要它仍然像原始 svn 存储库一样可用
xls 文档打开后 Apache POI 设置选定的单元格

我们有下一种情况我们的系统有 xls 格式的数据导出这是一个包含许多行和列的巨大文件用户下载并打开文档后他会看到文档滚动到最后一列和最后一个电子表格选项卡这非常烦人最好将焦点设置在第一个选项卡和第一个单元格上我做了简单的测试代
通过 Parallel.ForEach 使用多线程依赖

我使用 Simple Injector 作为我的 IoC 容器 SimpleInjector 使用这种简单的技术可以处理每个线程和每个 Web 请求的混合生活方式 container RegisterPerWebRequest
Laravel 5.2 登录会话不持久

我一直在使用 Laravel 5 2 实现一个简单的身份验证系统Sentinel Route login success Sentinel authenticate array email gt email password gt pass
如何加速 .NET winforms 渲染

我有一系列表格并在它们之间导航每个表单都有一组控件我从 SQLite 数据库加载属性这是一个很长大约 1 秒的操作不会给用户最好的感觉因为表单是逐渐绘制的我不太介意延迟但我希望在加载所有数据时绘制表单我想避免新线程因为
Oracle SQL如何编写一条sql语句来验证用户是否在我的网络中（即朋友或朋友的朋友）

我有这个问题给定一个users由社交网络中用户的用户名组成的表friends包含用户名和用户朋友名的表如下所示 username friendname John Thomas Chris James 我正在尝试编写一条 SQL 语句如
firebase 重定向到 URL 的云函数

我正在尝试为我的移动应用程序创建下载端点该应用程序可在应用程序商店和游戏商店中使用我想要一个可供用户在 iOS 设备或 Android 设备上下载应用程序的 URL 我试图找出是否可以为此目的为 firebase 创建一个云函数我正在
Rollup 是否可以保留文件和文件夹结构？

我正在使用 ES6 导入并使用 Rollup 对其进行转译输出是单个捆绑文件 Rollup 可以配置为生成文件到文件的转译结果吗这是我正在使用的当前配置它显然会输出一个文件 gulp task rollup function cons
Rails 4 授权 gem [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我正在寻找 Rails 4 的授权 gem 以前我用康康舞但现在看起来已经过时了我在这里找到了 the rolehttps github com
如何选择字符串多行？

我在尝试着Select String在多行文本上 Example This is line1
解析非常大的 XML 文件并编组为 Java 对象

我有以下问题我有非常大的 XML 文件例如 300 Megs 我需要解析它们以便将它们的一些值添加到数据库中这些文件的结构也非常复杂我想使用 Stax Parser 因为它提供了一次仅拉解析从而处理 XML 文件的一部分的良好可能

解析非常大的 XML 文件并编组为 Java 对象

解析非常大的 XML 文件并编组为 Java 对象 的相关文章

随机推荐

热门标签

解析非常大的 XML 文件并编组为 Java 对象的相关文章