为什么Lucene在索引大文件时会导致OOM？

2023-11-21

我正在使用 Lucene 2.4.0 和 JVM (JDK 1.6.0_07)。我不断收到OutOfMemoryError: Java heap space，当尝试索引大型文本文件时。

示例 1：对 5 MB 文本文件建立索引会导致内存不足，最大容量为 64 MB。堆大小。所以我增加了最大值。堆大小为 512 MB。这适用于 5 MB 文本文件，但 Lucene 仍然使用 84 MB 堆空间来执行此操作。为什么这么多？

班上FreqProxTermsWriterPerField根据 JConsole 和 Eclipse Ganymede 的 TPTP 内存分析插件，Ganymede 似乎是迄今为止最大的内存消耗者。

示例 2：对 62 MB 文本文件建立索引会导致内存不足，最大容量为 512 MB。堆大小。增加最大值将堆大小设置为 1024 MB 可以，但 Lucene 在执行此操作时使用 826 MB 的堆空间。似乎仍然使用了太多的内存来执行此操作。我确信较大的文件会导致错误，因为它看起来是相关的。

我使用的是具有 2 GB RAM 的 Windows XP SP2 平台。那么索引大文件的最佳实践是什么？这是我正在使用的代码片段：

// Index the content of a text file.
private Boolean saveTXTFile(File textFile, Document textDocument) throws MyException {           

        try {             

              Boolean isFile = textFile.isFile();
              Boolean hasTextExtension = textFile.getName().endsWith(".txt");

              if (isFile && hasTextExtension) {

                    System.out.println("File " + textFile.getCanonicalPath() + " is being indexed");
                    Reader textFileReader = new FileReader(textFile);
                    if (textDocument == null)
                          textDocument = new Document();
                    textDocument.add(new Field("content", textFileReader));
                    indexWriter.addDocument(textDocument);   // BREAKS HERE!!!!
              }                    
        } catch (FileNotFoundException fnfe) {
              System.out.println(fnfe.getMessage());
              return false;
        } catch (CorruptIndexException cie) {
              throw new MyException("The index has become corrupt.");
        } catch (IOException ioe) {
              System.out.println(ioe.getMessage());
              return false;
        }                    
        return true;
  }

作为评论回应Gandalf

我可以看到您将 setMergeFactor 设置为 1000

API 说

设置合并因子

公共无效setMergeFactor（int 合并因子）

确定频率段索引合并为添加文档()。使用较小的值，索引时使用更少的 RAM，和对未优化索引的搜索是速度较快，但索引速度较慢。值越大，使用的 RAM 就越多索引期间，并且在搜索时未优化的索引速度较慢，索引速度更快。因此更大的值 (> 10) 最适合批量索引创建和较小的值 (

此方法是一种方便的方法，当您增加 mergeFactor 时它会使用 RAM

我建议将其设置为 15 左右。（在试验和错误的基础上）补充setRAMBufferSizeMB，也调用Commit(). then 优化（）进而close()Indexwriter 对象。（可能创建一个 JavaBean 并将所有这些方法放在一个方法中）在关闭索引时调用此方法。

发布您的结果，反馈=]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么Lucene在索引大文件时会导致OOM？的相关文章

如何在批处理文件中解析带有特殊分隔符的文件？

我想使用批处理来解析一个如下所示的文件 a string containing various characters and spaces 1 b string containing various characters and space
Nginx Node.js 快速下载大文件止于 1.08GB

我有这个由 Nginx 代理的 Node js 应用程序在生产环境中路线是这样的 exports download function req res var id req params id if id id latest res do
如何仅选择数组中的第一列并对其求和？

这是我的代码 import numpy as np contrainte1 1080 0 65 minutes tous les jours contrainte2 720 0 55 minutes du lundi au vendredi
Google App Engine Java：如何删除未使用的索引？

如果我发现有关删除未使用的索引的信息例如上传和管理Python应用程序删除未使用的索引 http code google com appengine docs python tools uploadinganapp html Delet
如何突出显示2个html文件之间的差异

我的网络应用程序有职位描述某些用户可以修改这些职位描述每次修改都会产生新版本的职位描述职位描述的内容由用户使用tinymce 编辑器直接在textarea 中以html 形式进行编辑我希望能够向用户展示内容从一个版本到另一个版本所做
匹配拉丁脚本中包含少于 10 个单词的两个字符串的最佳算法是什么

我正在比较歌曲标题使用拉丁字母尽管并不总是我的目标是一种算法如果两个歌曲标题看起来相同则给出高分如果它们没有任何共同点则给出很低的分数现在我已经必须使用 Lucene 和 RAMDirectory 编写代码 Java 来编写
在 MATLAB 中重命名文件

我正在尝试以编程方式重命名工作目录中的文件a temp txt to b hello txt 您建议如何这样做 MATLAB中有一个简单的文件重命名函数吗我认为您正在寻找 MOVEFILE
mysql：非常简单的 SELECT id ORDER BY LIMIT 不会按预期使用 INDEX （？！）

我有一个包含大约 300 万条记录的简单表我创建了必要的索引我还强制索引为 PRIMARY 但仍然不起作用它搜索几乎所有 300 万行而不是使用索引执行这个 record id是INT自动递增 EXPLAIN SELECT reco
在 python 错误中，translate() 只接受一个参数（给定 2 个参数）

import os import re def rename files get the files from dir file list os listdir r C OOP prank print file list saved pat
从多个进程附加到单个文件的“线程安全”？

假设我有 X 个进程打开文件 Y 进行追加每个进程一次只写入一行带有 n 真正的日志条目文件 Y 中的每一行是否保证不会错误地交错更新本地附加文件系统问题取决于正在进行什么类型的写入如果您使用带缓冲的标准 I O 这通常是大多
python - 使用“with”语句后的变量范围[重复]

这个问题在这里已经有答案了我在 stackoverflow 上没有找到这个问题的答案所以我认为询问它可能会有所帮助并将其放在这里我在打开文件后声明一个新字典方法如下 with open some file txt r as f d
在 Android 上使用 FileOutputStream 创建的文件在哪里？

我在代码中创建了一个文件如下所示 FileOutputStream fOut openFileOutput samplefile txt MODE WORLD READABLE OutputStreamWriter osw new Out
如何压缩和解压文件？

如何压缩和解压 DDMS 中已有的文件 data data mypackage files 我需要一个简单的例子我已经搜索过与 zip 和 unzip 相关的内容但是没有一个例子可供我参考谁能举个例子提前谢谢查看 zip 功能的
在Python中将数据结构保存到文件的最简单方法？

假设我有这样的东西 d abc 1 2 3 qwerty 4 5 6 最简单的方法是什么以编程方式将其放入一个我可以稍后从 python 加载的文件中我可以以某种方式将其保存为 python 源吗从 python 脚本中而不是手动然
如何避免 pandas 在保存的 csv 中创建索引

我试图在对文件进行一些编辑后将 csv 保存到文件夹中每次我使用pd to csv C Path of file csv csv 文件有一个单独的索引列我想避免将索引打印到 csv 我试过 pd read csv C Path to f
Java IO 文件前缀字符串太短 - 但事实并非如此

尝试从一个目录创建简单的 tar gz 文件有我的代码 File destinationFile new File var www swOfflineFeeds Companies 2 File sourceFile new File v
C# 写入文件的性能

我的情况概述我的任务是从文件中读取字符串并将它们重新格式化为更有用的格式重新格式化输入后我必须将其写入输出文件这是必须完成的操作的示例文件行示例 ANO 2010 CPF 17834368168 YEARS 2010 2009
是否可以使用 Java 在文件上设置自定义元数据？

是否可以在 File 实例上获取和设置自定义元数据我想将通过系统处理的文件用作某种非常简单的数据库其中每个文件都应包含其他自定义元数据例如发件人的电子邮件一些时间戳等它是针对内部系统的因此安全性不是问题在 java 7 中你可
打开/尝试读取文件[重复]

这个问题在这里已经有答案了我尝试简单地读取文本文件的内容并将其存储到数组中但是 ins open file txt r array for line in ins array append line ins close 它给了我一个打
编辑文件名在 JComboBox 中的显示方式，同时保持对文件的访问

我对 Java 很陌生对堆栈溢出也很陌生我正在尝试利用 JMF API 创建一个用 Java 编码的简单媒体播放器到目前为止我已经能够设置一个简单的队列播放列表来使用JComboBox called playListHolder

随机推荐

C# 将 GMT 日期字符串解析为 DateTime

我在用着http www eyecon ro bootstrap datepicker 插件选择日期选择日期后我得到例如Fri Nov 01 2013 00 00 00 GMT 0100 1 如果我使用 format 设置插件为什么我会
覆盖 AngularJS URL 验证器

AngularJS 接受这个作为有效的 URL var URL REGEXP ftp http https w 0 1 w S 0 9 w Django 接受这一点 regex re compile r http ftp s http or
Objective-C 中的字符串常量是如何存储/检索的？

有人可以解释编译器在何处以及如何存储字符串常量以及运行时如何访问它们吗首先是强制性的你不应该关心编译器如何做到这一点任何基于编译器如何执行此操作的行为都是对无法保证的事物的危险依赖并且可能会根据编译器的优化方式而改变不要基于此编写
jQuery 未按正确顺序执行？

我最近开始使用 jQuery 今天注意到它对我的行为有一个奇怪的问题据我了解 JavaScript 是单线程的因此它的所有操作都应该以 FIFO 为基础运行然而对我来说情况似乎并非如此请考虑以下事项设置如下 HTML 3 div
IntelliJ 中关于 Groovy 类的“类已存在”错误

在 IntelliJ 2016 2 及之前版本中我们将 Groovy 类标记为红色并显示错误类已存在我认为我们可以排除存根生成的原因因为它已被停用可能是我们的星座引起的我们已将编译的 groovy 和 java 类包含在注册
为什么 Spring AOP 不在运行时编织外部 jar？

我有一个基于 Spring 3 构建的 java 应用程序该项目有另一个 jar 作为依赖项该依赖项包含一个 org aspectj lang annotation Aspect类可以说 com aspectprovider aspe
SonarQube 无法启动 MariaDB 10

我在 CentOS 7 中使用 yum 安装了 MariaDB SonarQube 抛出此异常 org sonar api utils MessageException Unsupported mysql version 5 5 Minim
正则表达式字边界和特殊字符

我有一个正则表达式来转义搜索字符串中的所有特殊字符这很好用但是我似乎无法让它与单词边界一起工作例如用干草堆 add or add 和针正则表达式 gi匹配然而正则表达式 b gi没有关于如何实现这项工作有什么想法吗 Using
无法建立 SSL 连接，如何修复我的 SSL 证书？

我试图wget到我自己的盒子它不能是 wget 中的内部地址另一位开发人员是这么说的当我得到时我得到这个 wget http example com 2013 03 01 15 03 30 http example com Reso
Java中的正则表达式用于验证用户名

我正在尝试使用 Java 中的用户名链规则如下长度 gt 3 有效字符 a z A Z 0 9 点破折号和下划线有人可以帮我解决正则表达式吗尝试这个正则表达式 a zA Z0 9 3
使用 MVVM 上下文菜单项命令绑定 WPF

我知道这个问题已经在许多网站和 StackOverFlow 中以不同的方式被问过很多次但我找到的所有答案都没有帮助我准确地说我无法理解它们并在我的应用程序中实现所以我想从我的应用程序中添加一些代码以便你们可以更好地帮助我问题陈述
python 中 Burrows-Wheeler 的性能问题

我试图实施布罗斯惠勒在Python中进行转换这是在线课程的作业之一但我希望我已经做了一些工作才有资格寻求帮助该算法的工作原理如下获取一个以特殊字符在我的例子中为结尾的字符串并从该字符串创建所有循环字符串按字母顺序对所有这些
为什么inline-block会导致这个div有高度呢？

jsFiddle Demo 我似乎无法弄清楚为什么使用display inline block会导致这个 div 当包含元素被隐藏时元素以某种方式获得高度这不会发生在display block html div style displa
在 hadoop 中并行运行作业

我是 hadoop 新手我已经设置了一个 2 节点集群如何在 hadoop 中并行运行 2 个作业当我提交作业时它们按照 FIFO 顺序一项一项地运行我必须并行运行这些作业如何实现这一目标谢谢 MRK Hadoop 可以配置多
为什么 WaitForMultipleObjects 在使用多个线程句柄时会失败？

在下面的测试程序中每个测试线程将其句柄添加到全局TThreadList当它开始执行时并在执行即将结束时从同一列表中删除其句柄此外出于测试目的每个线程确保在主线程锁定列表之前添加其句柄以复制其句柄并开始等待它们完成这些线程还确保
使用 find 和 sed 将文件名添加到文件开头

使用以下内容我将文件名添加到每行的前面并将输出发送到单个文件 ls while read file do sed e s file g file gt out done 我想执行同样的操作sed替换但使用find and exec or
Xcode 4.2 iOS 5：来自 UITableView 的多个 Segues

我现在开始使用适用于 iOS5 的 Xcode 4 2 有一些更改我现在遇到一个问题我无法找到解决方法我正在使用 UITablwView 做一个示例该视图以编程方式填充了 2 个部分第 1 部分仅包含 1 行第 2 部分包含 3
访问Linux /dev/USB作为标准文件与USB设备通信

我正在研究在 Linux 中与 USB 设备通信的方法并且不想编写 Linux 内核驱动程序我知道 libusb 存在并且是一个可以工作的用户空间库但是我们的嵌入式设备不支持 usbfs 并且更改内核以添加支持确实很痛苦所以我的问题
iOS13 模拟器上的 UIDocumentBrowserViewController 错误“无法为 url 创建 urlWrapper”

我有一个非常奇怪的问题UIDocumentBrowserViewController在 iOS 13 上测试时 importHandler newDocumentURL move 似乎没有任何原因崩溃 DocumentManager Can
为什么Lucene在索引大文件时会导致OOM？

我正在使用 Lucene 2 4 0 和 JVM JDK 1 6 0 07 我不断收到OutOfMemoryError Java heap space 当尝试索引大型文本文件时示例 1 对 5 MB 文本文件建立索引会导致内存不足最大容

为什么Lucene在索引大文件时会导致OOM？

为什么Lucene在索引大文件时会导致OOM？ 的相关文章

随机推荐

热门标签

为什么Lucene在索引大文件时会导致OOM？的相关文章