Java 中排序（内存映射？）文件中的二分搜索

2024-05-04

我正在努力将 Perl 程序移植到 Java，并一边学习 Java。原始程序的核心组成部分是Perl模块 http://search.cpan.org/~jfreeman/File-SortedSeek-0.015/lib/File/SortedSeek.pm使用二分搜索在 +500 GB 排序文本文件中进行字符串前缀查找（本质上，“查找”到文件中间的字节偏移量，回溯到最近的换行符，将行前缀与搜索字符串进行比较，“查找”到该字节偏移量的一半/两倍，重复直到找到......）

我已经尝试了几种数据库解决方案，但发现对于这种大小的数据集，在纯粹的查找速度上没有什么比这更好的了。您知道现有的 Java 库可以实现此类功能吗？如果做不到这一点，你能给我指出一些随机访问读取文本文件的惯用示例代码吗？

或者，我不熟悉新的（？）Java I/O 库，但是可以选择内存映射 500 GB 文本文件（我在一台有空闲内存的 64 位机器上）并执行二进制操作搜索内存映射字节数组？我非常有兴趣听到您分享有关此问题和类似问题的任何经验。

I am a bigJava 的粉丝MappedByteBuffers http://download.oracle.com/javase/1.5.0/docs/api/index.html?java/nio/MappedByteBuffer.html对于这样的情况。它的速度非常快。下面是我为您整理的一个片段，它将缓冲区映射到文件，查找中间，然后向后搜索到换行符。这应该足以让你继续下去吧？

我在自己的应用程序中有类似的代码（查找、读取、重复直到完成），并进行了基准测试java.io流反对MappedByteBuffer在生产环境中并将结果发布在我的博客上（Geekomatic 帖子标记为“java.nio” http://geekomatic.ch/tags/java.nio/）包含原始数据、图表等。

两秒总结？My MappedByteBuffer基于的实施速度大约提高了 275%。 YMMV.

要处理大于 ~2GB 的文件，这是一个问题，因为转换和.position(int pos)，我精心设计了由一系列支持的分页算法MappedByteBuffers。您需要在 64 位系统上工作才能处理大于 2-4GB 的文件，因为 MBB 使用操作系统的虚拟内存系统来发挥其魔力。

public class StusMagicLargeFileReader  {
    private static final long PAGE_SIZE = Integer.MAX_VALUE;
    private List<MappedByteBuffer> buffers = new ArrayList<MappedByteBuffer>();
    private final byte raw[] = new byte[1];

    public static void main(String[] args) throws IOException {
        File file = new File("/Users/stu/test.txt");
        FileChannel fc = (new FileInputStream(file)).getChannel(); 
        StusMagicLargeFileReader buffer = new StusMagicLargeFileReader(fc);
        long position = file.length() / 2;
        String candidate = buffer.getString(position--);
        while (position >=0 && !candidate.equals('\n')) 
            candidate = buffer.getString(position--);
        //have newline position or start of file...do other stuff    
    }
    StusMagicLargeFileReader(FileChannel channel) throws IOException {
        long start = 0, length = 0;
        for (long index = 0; start + length < channel.size(); index++) {
            if ((channel.size() / PAGE_SIZE) == index)
                length = (channel.size() - index *  PAGE_SIZE) ;
            else
                length = PAGE_SIZE;
            start = index * PAGE_SIZE;
            buffers.add(index, channel.map(READ_ONLY, start, length));
        }    
    }
    public String getString(long bytePosition) {
        int page  = (int) (bytePosition / PAGE_SIZE);
        int index = (int) (bytePosition % PAGE_SIZE);
        raw[0] = buffers.get(page).get(index);
        return new String(raw);
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java 中排序（内存映射？）文件中的二分搜索的相关文章

我在socket上设置了超时，发现这个值不能大于21

我在socket上设置了超时该值小于21秒才有效 21秒后发现超时还是21秒 public static void main String args SimpleDateFormat sdf new SimpleDateFormat yy
Java - 如何将特殊字符放入字符串中

Java 似乎有很好的字符串处理能力尽管如此我还是遇到了最简单的问题我需要动态字符串它们在运行时更改因此字符串类型不是一个好的选择因为它们是不可变的所以我使用字符数组设置起来有点痛苦但至少它们是可以修改的我想创建一个字符
在Java中使用命令行编译多个包

您好我一直在使用 IDE 但现在我需要从命令行运行和编译问题是我有多个软件包我试图找到答案但没有任何效果所以我有 src Support java files Me java files Wrapers java files 你知
使用 HttpUrlConnection Android 将 base64 编码的图像发送到服务器

我正在尝试使用 HttpUrlConnection 将 base64 编码的图像发送到服务器我遇到的问题是大多数图像均已成功发送但有些图像会生成 FileNotFound 异常我的图像编码代码可以在下面找到 public static
MongoTemplate upsert - 从 pojo 进行更新的简单方法（哪个用户已编辑）？

这是一个简单的 pojo public class Description private String code private String name private String norwegian private String en
防止 Spring Boot 注册 Spring Security 过滤器之一

我想禁用安全链中的 Spring Security 过滤器之一我已经看到了防止 Spring Boot 注册 servlet 过滤器 https stackoverflow com questions 28421966 prevent s
解决 Java Checkstyle 错误：名称 'logger' 必须匹配模式 '^[A-Z][A-Z0-9]*(_[A-Z0-9]+)*$'

使用 Eclipse Checkstyle 插件我看到以下错误名称 logger 必须匹配模式 A Z A Z0 9 A Z0 9 我通过更改解决了此错误 private static final Logger logger Logger
使用 ChannelExec 的命令未执行 - Jsch

我正在使用 Jsch 在服务器中创建一个文件并执行一些命令对于文件创建它工作正常但是对于命令执行则不然它保持状态 1 仍在处理它并永远保持该状态这种情况发生在 shell 执行或我尝试成为 root 时请按照以下方法操作 p
Java 正则表达式 - 字母数字，最多一个连字符，句点或下划线，七个字符长

我是 Java 正则表达式工具的新手尽管它们潜力巨大但我很难完成这项任务我想编写一个正则表达式来验证遵循以下语法的输入字符串小写字母和数字的任意组合仅一个下划线一个破折号或一个句号无其他特殊字符最小长度为 5 我想出了以下解
RMI 中的引用传递问题？ [复制]

这个问题在这里已经有答案了有人可以告诉我我错在哪里为什么这个 RMI 聊天应用程序不起作用目标是通过远程对象或序列化对象实现客户端服务器和逻辑之间的解耦 import javax swing import java awt even
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
JFace ColumnWeigthData 导致父级增长

我有一个 Eclipse RCP 应用程序并且想要在TableViewer using ColumnWeigthData as ColumnLayoutData 问题是父表单 ScrolledForm在示例代码中每当我布局表格时都会增加
从 @JsonProperty 值获取枚举常量

我有一个标有 JsonProperty 的枚举用于使用 Jackson 进行 JSON 序列化反序列化并且希望获取给定字符串 JsonProperty 的枚举值 public enum TimeBucket JsonProperty
Intellij 中的 Google OR-Tools：UnsatisfiedLinkError

我正在建立一个应该使用 Google OR Tools 的 java 框架下面的代码编译成功但在运行时抛出异常 Exception in thread main java lang UnsatisfiedLinkError com go
如何找到被点击的JLabel并从中显示ImageIcon？

这是我的代码我想知道哪个l单击然后在新框架中显示该 ImageIcon e getSource 不起作用 final JFrame shirts new JFrame T shirts JPanel panel new JPanel n
创建正则表达式匹配数组

在Java中我试图将所有正则表达式匹配返回到一个数组但似乎您只能检查模式是否匹配某些内容布尔值如何使用正则表达式匹配来形成与给定字符串中的正则表达式匹配的所有字符串的数组 4城堡的回答 https stackoverflow com
如何在Java媒体框架中学习.wav持续时间？

我正在尝试使用 java 媒体框架将 mov 文件与 wav 文件合并因此我需要知道它们的持续时间我怎样才能做到这一点任何想法将不胜感激您可以使用以下方式了解声音文件的持续时间即 VitalyVal 的第二种方式 import
Android Gradle 同步失败：无法解析配置“：classpath”的所有工件

错误如下 Caused by org gradle api internal artifacts ivyservice DefaultLenientConfiguration ArtifactResolveException Could n
无法使用 wget 在 CentOS 机器上安装 oracle jdk

我想在CentOS上安装oracle java jdk 8 我无法安装 java jdk 因为当我尝试使用命令安装 java jdk 时 root ADARSH PROD1 wget no cookies no check certific
为什么应该首选 Java 类的接口？

PMD https pmd github io 将举报以下违规行为 ArrayList list new ArrayList 违规行为是避免使用 ArrayList 等实现类型而是使用接口以下行将纠正违规行为 List list ne

随机推荐

SSMS 对象资源管理器 - 连接到 Azure DB 时选择丢失的前 N 行

我刚刚将 SSMS 升级到 2008 R2 我缺少从表中选择前 1000 行的选项如下所示我的看起来像这样我知道如何更改显示的行数但根本不存在这些选项几年前我看到有人为此提交了一个错误但没有解决方法我不知道该怎么办有任何想法
有关gunDB 作为 Cordova 项目的独立数据库的具体问题

我刚刚发现了gunDB 这个概念似乎非常有趣我想在开始进一步评估它之前了解更多信息如果我想构建一个像教程一样的聊天应用程序但实现聊天rooms 有没有一种方法可以让客户端只订阅某些聊天室而避免传输其他所有聊天室的内容如果不是所有
当我只想更改一个列属性时，是否必须在 SQL 语句中包含所有列属性？

我有一个 MySQL 数据库我想通过向所有列添加注释来进行注释从我读到的MySQL 文档 http dev mysql com doc refman 5 5 en alter table html 在更改其中任何一个时必须包括数据类型
git 奇怪的彩色终端响应[重复]

这个问题在这里已经有答案了最近我被下面的彩色终端响应吓死了它是由 git push 命令触发的 Does anybody have a clue where this colored response comes from 只是猜测但
在移动浏览器中隐藏导航栏

我正在使用 Twitter Bootstrap 制作一个移动响应网站当在移动设备上查看网站时我想完全隐藏顶部导航栏有人知道如何做到这一点吗最简单的方法是使用响应式实用程序类 hidden phone and hidden table
ADMA0176E PrivilegedActionException：{0} 的应用程序安装失败，出现 PrivilegedActionException

当尝试将项目添加到我的 WebSphere 时我收到以下错误 ADMA0176E 0 的应用程序安装失败出现 PrivilegedActionException Ear 文件路径是 1 知道我能做什么吗根据谷歌搜索这可能是一些权限问
如何按高度对 DIV 进行排序？

我有三个divs 我想按高度从最大到最小对它们进行排序 div smallest div div largest div div middle div 任何想法这很简单使用 sort http www wrichards com blo
处理 DocumentDB 中每秒请求单位 (RU/s) 的峰值

使用 DocumentDB 最困难的事情之一是计算出每天以及在使用高峰期间运行应用程序所需的每秒请求单位数 RU s 当你犯这个错误时 DocumentDB客户端将抛出异常这是一个糟糕的使用模型如果我的应用程序在一天中的特定时间会使用更
是否可以在多按钮（代号一）上制作圆形图像（通过蒙版）

我有一个InfiniteScrollAdapter我在其中使用Multibutton显示包含照片及其描述的列表它效果很好但我需要使照片变圆这就是为什么我受到启发官方指南 https www codenameone com manual
换肤时访问 hostComponent 的自定义属性 - Flex 4.5、SDK 4.5

使用 SDK 4 1 我能够从自定义皮肤访问自定义按钮组件的自定义属性我当前正在工作的项目需要 SDK 4 5 但我无法访问这些属性这是一个例子自定义按钮组件
Density2d 使用另一个变量进行填充（类似于 geom_tile）？

我正在尝试为我的最终项目绘制地图并且正在尝试使用 BLock 绘制美国的犯罪热图对于每个街区我都有纬度经度和犯罪率预测它遵循以下结构 Lat Lon Prediction 76 0 40 0 125 76 120 40 5 145
如何在使用 Json4s 序列化期间重命名字段？

如何轻松重命名 json4s 中的字段名称从他们的文档中我尝试了以下代码片段但它似乎没有重命名serial字段到id case class Person serial Int firstName String val rename F
将 XML 转换为 JSON 时保留 json:Array 属性

我有一段 XML 看起来像
WebAPI 2.2 上的 Elmah.axd - 未找到 HTTP 资源

我试图在我的浏览器中访问 elmah axd 但它返回 message No HTTP resource was found that matches the request URI http services domain com elm
解析日期字符串

我在 post 变量中有这个字符串 03 21 2011 我需要通过php解析它并将其转换成这种格式 2011 03 21 我正在使用 php 我需要这种格式以便我可以运行此查询 SELECT prospect as Prospect c
Git 合并如何处理同时提交？

给定一个具有两个分支的存储库每个分支都有独立的提交 Branch Commits final e g i master a b c d f h 上图中的字母很重要即 master 和 final 同时正在开发中并且必须保留两个分支中的
使用 IIS Express 托管网站（临时）

我有一个网站 MVC3 其开发托管在 IIS Express 中我遇到了 Cassini Devserver 的错误不得不升级现在我想知道是否可以让本地网络上的其他计算机在路由器后面看到托管在我的计算机上的站点例如如果我写h
使用 Microsoft Graph API 检索 Azure AD 应用程序的用户详细信息和角色

我正在尝试使用 Microsoft Graph API 获取 Azure AD 中特定企业应用程序的用户详细信息我能够使用以下命令成功检索应用程序的用户 https graph microsoft com v1 0 servicePrin
http-equiv Content-Security-Policy 在浏览器中有效，但在 Android 设备上无效 - IONIC

我正在开发一个带有 ionic 的应用程序刚刚插入了这个 Content Security Policy 元标记我在浏览器
Java 中排序（内存映射？）文件中的二分搜索

我正在努力将 Perl 程序移植到 Java 并一边学习 Java 原始程序的核心组成部分是Perl模块 http search cpan org jfreeman File SortedSeek 0 015 lib File Sorted

Java 中排序（内存映射？）文件中的二分搜索

Java 中排序（内存映射？）文件中的二分搜索 的相关文章

随机推荐

热门标签

Java 中排序（内存映射？）文件中的二分搜索的相关文章