Perl 中大型哈希表的快速加载

2024-04-19

我有大约 30 个文本文件，其结构如下

wordleft1|wordright1
wordleft2|wordright2
wordleft3|wordright3
...

文件总大小约1GB，包含约3200万行单词组合。

我尝试了几种方法来尽可能快地加载它们并将组合存储在哈希中

$hash{$wordleft} = $wordright

逐个文件打开并逐行读取大约需要 42 秒。然后我使用可存储模块存储哈希值

store \%hash, $filename

再次加载数据

$hashref = retrieve $filename

将时间缩短至约 28 秒。我使用快速 SSD 驱动器和快速 CPU，并有足够的 RAM 来保存所有数据（大约需要 7 GB）。

我正在寻找一种更快的方法来将此数据加载到 RAM 中（由于某些原因我无法将其保留在那里）。

您可以尝试使用 Dan Bernstein 的 CDB 文件格式并使用绑定哈希，这将需要最少的代码更改。您可能需要安装CDB_File http://search.cpan.org/~toddr/CDB_File-0.98/CDB_File.pm。在我的笔记本电脑上，cdb 文件打开速度非常快，每秒可以执行大约 200-250k 次查找。以下是创建/使用/基准测试 cdb 的示例脚本：

测试_cdb.pl

#!/usr/bin/env perl

use warnings;
use strict;

use Benchmark qw(:all) ;
use CDB_File 'create';
use Time::HiRes qw( gettimeofday tv_interval );

scalar @ARGV or die "usage: $0 number_of_keys seconds_to_benchmark\n";
my ($size)    = $ARGV[0] || 1000;
my ($seconds) = $ARGV[1] || 10;

my $t0;
tic();

# Create CDB
my ($file, %data);

%data = map { $_ => 'something' } (1..$size);
print "Created $size element hash in memory\n";
toc();

$file = 'data.cdb';
create %data, $file, "$file.$$";
my $bytes = -s $file;
print "Created data.cdb [ $size keys and values, $bytes bytes]\n";
toc();

# Read from CDB
my $c = tie my %h, 'CDB_File', 'data.cdb' or die "tie failed: $!\n";
print "Opened data.cdb as a tied hash.\n";
toc();

timethese( -1 * $seconds, {
          'Pick Random Key'    => sub { int rand $size },
          'Fetch Random Value' => sub { $h{ int rand $size }; },
});

tic();
print "Fetching Every Value\n";
for (0..$size) {
    no warnings; # Useless use of hash element
    $h{ $_ };
}
toc();

sub tic {
    $t0 = [gettimeofday];    
}

sub toc {
    my $t1 = [gettimeofday];
    my $elapsed = tv_interval ( $t0, $t1);
    $t0 = $t1;
    print "==> took $elapsed seconds\n";
}

输出（100万个按键，测试超过10秒）

./test_cdb.pl 1000000 10

Created 1000000 element hash in memory
==> took 2.882813 seconds
Created data.cdb [ 1000000 keys and values, 38890944 bytes]
==> took 2.333624 seconds
Opened data.cdb as a tied hash.
==> took 0.00015 seconds
Benchmark: running Fetch Random Value, Pick Random Key for at least 10 CPU seconds...
Fetch Random Value: 10 wallclock secs (10.46 usr +  0.01 sys = 10.47 CPU) @ 236984.72/s (n=2481230)
Pick Random Key:  9 wallclock secs (10.11 usr +  0.02 sys = 10.13 CPU) @ 3117208.98/s (n=31577327)
Fetching Every Value
==> took 3.514183 seconds

输出（1000万个按键，测试超过10秒）

./test_cdb.pl 10000000 10

Created 10000000 element hash in memory
==> took 44.72331 seconds
Created data.cdb [ 10000000 keys and values, 398890945 bytes] 
==> took 25.729652 seconds
Opened data.cdb as a tied hash.
==> took 0.000222 seconds
Benchmark: running Fetch Random Value, Pick Random Key for at least 10 CPU seconds...
Fetch Random Value: 14 wallclock secs ( 9.65 usr +  0.35 sys = 10.00 CPU) @ 209811.20/s (n=2098112)
Pick Random Key: 12 wallclock secs (10.40 usr +  0.02 sys = 10.42 CPU) @ 2865335.22/s (n=29856793)
Fetching Every Value
==> took 38.274356 seconds

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

performance

perl

Hash

Perl 中大型哈希表的快速加载的相关文章

真实文件对象比 StringIO 和 cStringIO 慢？

StringIO其代码中有以下注释 Notes Using a real file is often faster but less convenient There s also a much faster implementation
为什么我不应该使用 UNIVERSAL::isa？

根据这个 http perldoc perl org UNIVERSAL html http perldoc perl org UNIVERSAL html 我不应该使用 UNIVERSAL isa 而应该使用 obj gt isa 或 C
如何添加到 Ruby 中的现有哈希

关于添加一个key gt value与 Ruby 中现有的填充哈希配对我正在学习 Apress 的 Beginning Ruby 并且刚刚完成了哈希章节我试图找到最简单的方法来使用哈希实现与数组相同的结果 x 1 2 3 4 x lt
性能 - String.charAt(0) 与 /^.{1}/

从概念上讲哪个应该更快 String charAt 0 or 1 regex String charAt 0 必须处理和应用正则表达式速度测试资源 Paul S https stackoverflow com users 1615483
如何从 Hudson CI API 获得更好的性能？

我正在尝试为自己编写一个与 Hudson 构建服务器集成的小工具我目前遇到的障碍是性能我想做一件简单的事情比如列出所有作业和上次成功构建的时间 hudson API 提供了此信息但我要么必须查询所有内容depth 2或者单独查询每个
样式组件如何影响性能？

使用样式组件是否比样式表更会降低 Web 应用程序的速度如果我关心性能并且没有任何依赖于 props 的样式我是否应该放弃样式组件并使用样式表当您有很多小组件时同时使用样式化组件渲染性能开销可能会很有意义绝对值得测试以删除小元素
如何在没有 __hash__ 的情况下删除对象列表中的重复项

我有一个自定义对象列表我想从中删除重复项通常您可以通过定义两者来做到这一点 eq and hash 为你的对象然后采取set的对象列表我已经定义了 eq 但我想不出一个好的实现方法 hash 这样它对于相等的对象返回相同的值更具
如何比较两个文件中的多列并在找到匹配时从另一列检索相应的值

我有两个文件 File1 txt 和 File2 txt 我需要将 File1 中的三列 1 2 和 3 分别与 File2 的 4 5 和 6 进行比较如果找到匹配项我想从 File2 的第 2 列中检索相应的值并将其粘贴到输出中 T
非阻塞方法中的饥饿

一段时间以来我一直在阅读有关非阻塞方法的内容这是一段所谓的无锁计数器的代码 public class CasCounter private SimulatedCAS value public int getValue return va
如何在 Perl 中使用 use strict 一次一行处理多行字符串？

我正在尝试找出 PBP 批准的正确方法来一次一行处理多行字符串许多 Perl 编码人员建议将多行字符串视为文件句柄除非您在脚本中使用 use strict 否则它可以正常工作然后您会收到编译器发出的警告提示在使用严格引用时无法使用
从视频创建缩略图 - 提高速度性能 - AVAsset - iPhone [重复]

这个问题在这里已经有答案了我正在使用基于以下线程中的代码的代码来生成视频缩略图从 iPhone SDK 中的视频 URL 或数据获取缩略图 https stackoverflow com questions 1347562 gettin
迭代哈希数组

我编写了下面的例程迭代哈希值 0 7 并打印出每个哈希值中特定键的值我需要获取每个哈希中 b4 的值我想取消 0 7 当存在不同数量的哈希值时使用更智能的东西例如有时只有 2 个也可能有 160 个 my out decode
双线性序列给出奇数结果

我试图让我的表现技能不存在达到标准但在将公式写入代码时遇到了问题这是我试图将其引用为转换为代码的公式考虑一个序列 u 其中 u 定义如下号码u 0 1是第一个u 对于每个x in u then y 2 x 1 and z 3
Perl Tk 模块有哪些缺点？

与在 Perl 中创建 GUI 的其他解决方案相比 Tk 模块有哪些缺点我最近浏览了 Perl 的各种 gui 模块这是我的总结免责声明最终我发现现有模块都不能满足我的需求所以我开始编写自己的 gui 工具包 Tk 工作起来很不错
如何有效地从 DB2 表中删除所有行

我有一个大约有 50 万行的表我想删除所有行如果我做简单的delete from tbl 事务日志已满我不关心这种情况下的事务无论如何我都不想回滚我可以删除许多事务中的行但是有更好的方法吗如何有效地从 DB2 中的表中删除所有
对于双核手机，availableProcessors() 返回 1

我最近购买了一部 Moto Atrix 2 手机当我尝试查看手机中的处理器规格时 Runtime getRuntime availableProcessors 返回 1 proc cpuinfo 也仅包含有关处理器 0 的信息出于好奇
Perl 和 Unix 如何以相同的顺序对 Unicode 字符串进行排序？

我正在尝试获取 Perl 和 GNU Linuxsort 1 程序就如何对 Unicode 字符串进行排序达成一致我在跑sort with LANG en US UTF 8 在Perl程序中我尝试了以下方法 use Unicode Col
如何确保我的代码永远不会直接退出？

eval require file subsequent code goes here If file包含一个exit语句后面的代码就没有机会运行如何解决以便后续代码始终有机会运行eval已经完成了中止是不可能的exit call f
在 nHibernate 关系中使用实体的 Lite 版本？

在某些情况下出于性能原因创建一个实体的轻量级版本指向同一个表但映射的列较少这是一个好主意吗例如如果我有一个包含 50 列的联系人表并且在一些相关实体中我可能对 FirstName 和 LastName 属性感兴趣那么创建
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例

随机推荐

无法使用 cors 从 Angular 2 获取所有响应标头

我有一个 Angular 2 2 1 2 客户端 ASP NET Core 作为启用 CORS 的后端普通 API GET POST DELETE 工作正常我的问题是当我尝试从响应中检索标头时特别Content Disposition
如何让我的网站网址在社交应用程序（Discord、Twitter 等）中生成漂亮的嵌入式药丸？

我发现当我将某些网站的 URL 放入 Discord 或 Twitter 中时应用程序会直接在流中显示该网站的漂亮嵌入式药丸例如这是 Discord 中 github url 的嵌入式 Pill 推特上的相同网址我怎样才能让我的网
我可以在 Flask 模板中嵌套变量吗？ [复制]

这个问题在这里已经有答案了大家好我在 Flask 中遇到了一个问题 mysql中有一个名为category的表我查询了所有这些表然后将它们传递给a html 如下所示 return render template admin ind
使用 Symfony 的 EventDispatcher 组件的正确方法是什么？

我想通过使某些类可观察来促进 PHP 代码中的松散耦合交响乐的事件分发器组件 https github com symfony EventDispatcher看起来很有希望 SPL 也是如此Spl观察者 http php net splo
CodeIgniter MSSQL 连接

我正在开发一个 Web 项目该项目将部署在运行 IIS 7 5 和 PHP 5 3 8 的 64 位 Windows 2008 Server 计算机上系统上的数据库是Microsoft SQL Server 2008 R2 我正在 Co
单击网格视图时如何将数组列表（位置）发送到另一个活动

在这种方法中我收到ArrayList OkHttpHandler handler new OkHttpHandler MainActivity this new OkHttpHandler MyInterface Override publ
编译 com.android.support:support-v4:24.0.0 时出现 android 错误

目前我的安卓compileSdkVersion设置为 24 并且在我的依赖项中我已包含compile com android support support v4 24 0 0 但是当我尝试构建时出现以下错误 java lang I
setcookie() 和 session_set_cookie_params() 函数之间的区别

我试图理解 PHP 函数 setcookie 和 session set cookie params 之间的区别看起来两个函数都在执行相同类型的任务但 setcookie 可用于创建具有名称和值的 cookie 我试图理解 PHP 手册
如何创建 tox.ini 变量

有没有办法在 tox ini 中设置任意变量一个示例是可以多种方式使用的项目名称对于相当复杂的 tox ini 我发现自己复制并粘贴到了我只需要在顶部设置一个变量的地方作为参考 tox ini 示例 tox envlist clean
配置中的 devServer 代理抛出 404

我有这个src vue config js module exports devServer proxy api target http localhost 8081 changeOrigin true 我正在调用 api axios ge
Moshi/Kotlin - 如何将 NULL JSON 字符串序列化为空字符串？

我正在尝试编写一个空安全字符串适配器来序列化此 JSON nullString null 进入这个 Model nullString 这样我希望是字符串的任何带有 null 值的 JSON 都将被替换为假设存在这样的数据类 data cl
）' aria-label='反序列化派生类时出现 XmlSerializer 异常（未预期出现）'> 反序列化派生类时出现 XmlSerializer 异常（未预期出现）

我正在尝试使用 XmlSerializer 序列化和反序列化类的层次结构序列化工作正常但是当我尝试反序列化时出现以下异常 System InvalidOperationException XML 文档 2 2 中存在错误 gt Sys
如何在 Chrome 开发工具中获取 CSS 更改的摘要？

有没有办法获取您在 Chrome 开发工具中应用的自定义 CSS 更改的列表当您在 Chrome 开发工具中使用 CSS 来使网页看起来正确时轻松跟踪您所做的更改会派上用场我了解工作区但用例是一个 Angular 5 应用程序其中
在未排序的数组中查找 2 个等于给定总和的数字

我们需要在数组中找到总和等于给定值的数字对 A 6 4 5 7 9 1 2 总和 10 那么这些对是 6 4 9 1 我对此有两个解决方案 O nlogn 解决方案使用 2 个迭代器开始和结束进行排序校验和 O n 解决方案对数组
androidcamera2中的曝光补偿方法

我是安卓新手在相机中我用过params getMinExposureCompensation以获得最小亮度如何在 Camera2 中做到这一点任何例子将不胜感激 Thanks 可用的曝光补偿范围由CameraCharacterist
如何在 PropertyGrid 上自定义类别排序？

如何自定义分类中的类别排序PropertyGrid 如果我设置以下任一 propertyGrid PropertySort PropertySort Categorized propertyGrid PropertySort Propert
Graphql查询错误！变量已声明但从未使用

我正在尝试根据搜索关键字获取 Shopify 产品我通过在查询中传递硬编码值来测试此查询它工作正常但我需要传递变量值因此在这种情况下它会给出错误 Graphql 查询错误 search 关键字已声明但未使用这是我根据以下内容搜索产
从上一个任务获取更改/失败的主机列表 |安西布尔

All 示例如果我有 20 个主机用于剧本并使用 Serial 10 运行它们则以下 shell 命令一次在 10 个主机上运行完成后将调用处理程序任务其中创建 dict dict 的任务不会提供字典输出因此第二个任务失败的主
如何更改 OpenGL 中的旋转中心

我有一个 3D 模型 OpenGL ES 1 1 iPhone SDK v3 0 这有点复杂即数千个顶点和面并且我想围绕模型中心或附近的 Y 轴旋转该模型问题是 glRotate 围绕位于附近的点旋转我的模型其底边之一的中心不靠近
Perl 中大型哈希表的快速加载

我有大约 30 个文本文件其结构如下 wordleft1 wordright1 wordleft2 wordright2 wordleft3 wordright3 文件总大小约1GB 包含约3200万行单词组合我尝试了几种方法来尽可能快

Perl 中大型哈希表的快速加载

Perl 中大型哈希表的快速加载 的相关文章

随机推荐

热门标签

Perl 中大型哈希表的快速加载的相关文章