如何将哈希函数输出映射到布隆过滤器索引？

2024-02-28

任何人都可以帮助我提供有关哈希函数输出如何映射到布隆过滤器索引的概述吗？这是关于布隆过滤器 http://en.wikipedia.org/wiki/Bloom_filter.

关于哈希函数输出如何映射到布隆过滤器索引的概述

对于每个k在使用哈希函数时，它们映射到布隆过滤器中的一个位，就像哈希映射到哈希表中的哈希桶一样。因此，很常见的是，您可能会说生成 32 位整数的哈希函数，然后使用模数%运算符获取位索引0 << i < n where n是布隆过滤器中的位数。

为了使这一点更加具体，假设哈希函数生成从 0 到 2^32-1 的数字，并且布隆过滤器中有 1000 位：

int bit_index = hash_function(input_value) % 1000;

这里需要注意的是，2^32-1 远大于 1000。假设散列函数生成的数字相当均匀分布，但仅在 0 到 1023 之间（包含 0 和 1023），那么在模数运算之后，bit_index 的可能性会增加两倍与 24..999 相比，在 0..23 范围内（因为例如输入 2 和 1002 都会产生后模值 2，但只有输入 25 才会产生输出 25）。因此，如果您有一个生成 32 位的哈希函数，您可能需要使用大小为 2 的幂位数的布隆过滤器，然后切出哈希值的各个部分以像独立哈希函数一样使用- 所有内容都在您链接的维基百科文章中进行了解释。但这需要一个高质量的哈希函数，因为哈希函数中的任何“聚类”缺陷都将毫无保留地传递到输出；拥有素数位数是减轻这种糟糕的散列的一种方法。尽管如此，使用良好的散列函数，二的幂也可以轻松地使用按位与运算提取位索引，并且如果需要的话还可以使用位移位，这可以比整数模更快，尽管散列函数可能会使这种考虑相形见绌。整体性能概况。

编辑 - 处理评论...

假设您的 MD5 函数返回unsigned char* "p" to MD5_DIGEST_LENGTH字节数据，我建议你尝试：

BOOST_STATIC_ASSERT(MD5_DIGEST_LENGTH >= sizeof(int));
int bit_index = *reinterpret_cast<unsigned int*>(p) % num_of_bloom_filter_bits;

那实际上是一个特别糟糕的主意- 抱歉 - 我稍后会解释这两个原因。首先，回答你关于它的作用的问题：BOOST_STATIC_ASSERT()旨在如果传递的表达式计算结果为给您一个编译错误false。在这里，它基本上是记录需求的一种方式MD5_DIGEST_LENGTH- MD5 哈希文本表示的字符大小 - 至少与您的系统使用的字节数一样长int整数类型。（该大小可能是 4 个字节，但也可能是 8 个字节。）该要求旨在确保reinterpret_cast下一行是安全的。它的作用是从 MD5 哈希文本表示开头的字节中读取一个值，就好像这些字节包含一个int。那么，说出你的int size is4，MD5哈希值是“0cc175b9c0f1b6a831c399e269772661”，如您的评论中所示：前4个字节包含“0cc1”。该文本的 ASCII 代码为十进制 48、99、99、49。当它们被读入int，根据 CPU 的字节顺序，该值可能会有所不同，但基本上您会得到其中一个数字乘以 256^3 加上另一个数字乘以 256^2 加上第三次乘以 256 加上最终数字。

我说这是一个特别糟糕的主意的原因是：

MD5 字符串中的每个字符要么是数字（ASCII 代码 48-57），要么是从“a”到“f”（97-102）的字母。这 16 个值只是一个字节可以具有的变化的十六分之一，而int你生成的值占用 32 位，你实际上只能得到 2^16 个不同的值。
在某些计算机上，ints 必须在 2、4、8 等的倍数的内存地址处对齐。reinterpret_cast- 如果文本碰巧从不兼容的地址开始，可能会导致您的计算机崩溃。注意：Intel 和 AMD 没有此类对齐要求，尽管它们对正确对齐的数据进行操作可能会更快。

所以，另一个建议：

// create a buffer of the right size to hold a valid unsigned long in hex representation...
char data[sizeof(unsigned long) * 2 + 1];

// copy as much of the md5 text as will fit into the buffer, NUL terminating it...
sprintf(data, "%.*s", sizeof data - 1, md5);

// convert to an unsigned long...
m = strtoul(data, /*endptr*/ NULL, /*base*/ 16);

在这里，如果 md5 表示比数据缓冲区短，则只会安全地复制它的初始部分，因此不需要 BOOST_STATIC_ASSERT。

使用非加密哈希函数要容易得多，因为它们通常只会返回一个数字，而不是该数字的可读文本缓冲区表示形式，因此您可以避免所有这些废话。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将哈希函数输出映射到布隆过滤器索引？的相关文章

如何在 .NET Framework 2.0 中模拟“Func<(Of <(TResult>)>) 委托”？

我尝试使用这个类代码项目文章 http www codeproject com KB threads AsyncVar aspx在 VB NET 和 NET Framework 2 0 中除了这一行之外所有内容似乎都可以编译Privat
计算 Richtextbox 中所有单词的最有效方法是什么？

我正在编写一个文本编辑器需要提供实时字数统计现在我正在使用这个扩展方法 public static int WordCount this string s s s TrimEnd if String IsNullOrEmpty s re
C中的malloc内存分配方案

我在 C 中尝试使用 malloc 发现 malloc 在分配了一些内存后浪费了一些空间下面是我用来测试 malloc 的一段代码 include
在 C 中匹配二进制模式

我目前正在开发一个 C 程序需要解析一些定制的数据结构幸运的是我知道它们是如何构造的但是我不确定如何在 C 中实现我的解析器每个结构的长度都是 32 位并且每个结构都可以通过其二进制签名来识别举个例子有两个我感兴趣的特定结构
使用接口有什么好处？

使用接口有什么用我听说它用来代替多重继承并且还可以用它来完成数据隐藏还有其他优点吗哪些地方使用了接口程序员如何识别需要该接口有什么区别explicit interface implementation and implicit
如何使用 LINQ2SQL 连接两个不同上下文的表？

我的应用程序中有 2 个数据上下文不同的数据库并且需要能够通过上下文 B 中的表的右连接来查询上下文 A 中的表我该如何在 LINQ2SQL 中执行此操作 Why 我们正在使用 SaaS 产品来跟踪我们的时间项目等并希望向该产品发
qdbusxml2cpp 未知类型

在使用 qdbusxml2cpp 程序将以下 xml 转换为 Qt 类时我收到此错误 qdbusxml2cpp c ObjectManager a ObjectManager ObjectManager cpp xml object ma
是否有实用的理由使用“if (0 == p)”而不是“if (!p)”？

我倾向于使用逻辑非运算符来编写 if 语句 if p some code 我周围的一些人倾向于使用显式比较因此代码如下所示 if FOO p some code 其中 FOO 是其中之一false FALSE 0 0 0 NULL etc
标准化 UTF-8 到底是什么？

The 重症监护室项目 http userguide icu project org transforms normalization 现在也有一个PHP库 http us php net manual en class normalize
我可以使用 moq Mock 来模拟类而不是接口吗？

正在经历https github com Moq moq4 wiki Quickstart https github com Moq moq4 wiki Quickstart 我看到它 Mock 一个接口我的遗留代码中有一个没有接口的类
如何在 32 位或 64 位配置中以编程方式运行任何 CPU .NET 可执行文件？

我有一个可在 32 位和 64 位处理器上运行的 C 应用程序我试图枚举给定系统上所有进程的模块当尝试从 64 位应用程序枚举 32 位进程模块时这会出现问题 Windows 或 NET 禁止它我认为如果我可以从应用程序内部重新启动
Azure 辅助角色“请求输入之一超出范围”的内部异常。

我在辅助角色中调用 CloudTableClient CreateTableIfNotExist 方法但收到一个异常其中包含请求输入之一超出范围的内部异常我做了一些研究发现这是由于将表命名为非法表名引起的但是我尝试为我的表命
如何禁用 fread() 中的缓冲？

我正在使用 fread 和 fwrite 读取和写入套接字我相信这些函数用于缓冲输入和输出有什么方法可以在仍然使用这些功能的同时禁用缓冲吗 Edit 我正在构建一个远程桌面应用程序远程客户端似乎落后于服务器我不知道可能是什么原因
使用 %d 打印 unsigned long long

为什么我打印以下内容时得到 1 unsigned long long int largestIntegerInC 18446744073709551615LL printf largestIntegerInC d n largestInte
按 Esc 按键关闭 Ajax Modal 弹出窗口

我已经使用 Ajax 显示了一个面板弹出窗口我要做的是当用户按 Esc 键时关闭该窗口这可能吗如果有人知道这一点或以前做过这一点请帮助我 Thanks 通过以下链接您可以通过按退出按钮轻松关闭窗口 http www codepro
不同类型指针之间的减法[重复]

这个问题在这里已经有答案了我试图找到两个变量之间的内存距离具体来说我需要找到 char 数组和 int 之间的距离 char data 5 int a 0 printf p n p n data 5 a long int distan
方法优化 - C#

我开发了一种方法允许我通过参数传入表字符串列数组字符串和值数组对象然后使用这些参数创建参数化查询虽然它工作得很好但代码的长度以及多个 for 循环散发出一种代码味道特别是我觉得我用来在列和值之间插入逗号的方法可以用不同的
无法接收 UDP Windows RT

我正在为 Windows 8 RT 编写一个 Windows Store Metro Modern RT 应用程序需要在端口 49030 上接收 UDP 数据包但我似乎无法接收任何数据包我已按照使用教程进行操作DatagramSock
WebSocket安全连接自签名证书

目标是一个与用户电脑上安装的 C 应用程序交换信息的 Web 应用程序客户端应用程序是 websocket 服务器浏览器是 websocket 客户端最后用户浏览器中的 websocket 客户端通过 Angular 持久创建并且
当我使用 OpenSSL1.1.0g 根据固定的 p 和 g 值创建 Diffie Hellman 密钥协议密钥时，应该执行哪些检查？

您好我尝试通过这段代码使用修复 p 和 g 参数来制作 Diffie Hellman Keysanswer https stackoverflow com a 54538811 4706711 include

随机推荐

如何在 python-docx 中应用粗体和斜体？

我正在努力编一本字典我正在使用 python docx 将其放入 MS Word 中我可以轻松地将其设置为粗体或斜体但似乎无法弄清楚如何同时做到这两点基础知识如下 import docx word Dictionary doc do
如何更改 R Studio 中的 pandoc 选项

在 R Studio 中安装 rmarkdown 包您可以使用 Rmd 文件创建 docx 文档然后按Knit Word button 那么调用的命令是 C Program Files RStudio bin pandoc pandoc
将按钮组件添加到消息中 (discord.py)

看到后我想知道this https discord com developers docs interactions message components 消息组件 discord 的 API 参考是否有任何方法可以使用 python 实现
python中的B（十亿）而不是G（千兆）plotly customdata [SI前缀d3]

我已经经历过this https community plotly com t custom si unit prefixes 29739 this https stackoverflow com questions 40774677 d3
不区分大小写的Python字符串split()方法

我有2根弦 a abc feat def b abc Feat def 我想检索单词之前的字符串feat or Feat 这就是我正在做的事情 a split feat 1 0 rstrip 这返回abc 但是如何使用分割分隔符执行不区分大
Android 项目的 Gradle assembleDebug 失败并出现 aapt 错误

我正在尝试为 Android 库项目建立 gradle 构建但目前构建在 processDebugRes 期间失败并出现 aapt 错误 packageDebugAidl UP TO DATE packageDebugRes UP TO
'ControllerBase.File(byte[], string)' 是一种方法，在给定上下文 (CS0119) 中无效 - 在方法中

我正在尝试创建一个应用程序用户可以在其中上传文本文件并获取更改后的文本我使用 React 作为 FE 使用 ASP NET Core 作为 BE 使用 Azure 存储作为数据库存储这就是我的 HomeController 的样子
Intellij IDEA 的 Android sdk

我正在尝试设置 IntelliJ IDEA 来开发 android 应用程序但我遇到了 android sdk 的问题据我所知需要单独下载sdk 但我找到的只是 Android 命令行工具这显然不是我需要的所以我的问题是如何获取
Google API 为 Android 抛出 no-crunch 错误

我刚刚在 eclipse 中安装了 android 2 1 SDK 并创建了一个针对 Google API 7 的项目 Eclipse 在项目图标上显示错误并且调试窗口显示此错误 ERROR Unknown command crunch
如何替换 xarray 变量中的值？

我有一个 xarray 数据集ds
Windows 和 Block 上的 PHP

我的开发电脑安装了 Windows 我经历过奇怪的 php 行为
禁用/删除 TextInputLayout XML 中的浮动标签提示文本

这可能看起来违反直觉但有没有办法禁用或删除浮动标签提示TextInputLayout 我想使用的原因TextInputLayout而不仅仅是一个EditText用于计数器TextInputLayout提供这是我到目前为止所拥有的
获取：SyntaxError：缺少 ) 参数列表后，但无法找出 gulpfile.js 出了什么问题

您好我在使用以下 gulp 文件启动 gulp default 时遇到错误我无法弄清楚该文件出了什么问题 var gulp require gulp var sass require gulp sass var sourcemaps r
如何让 virtualenv 与 Fish shell 一起工作？

我正在尝试让 virtualenv 与 Fish shell 一起使用我安装了 virtualenv 它可以与 bash 和 zsh 配合使用但是运行以下命令会返回fish Unknown command source source
静态媒体图像不显示在 Django 中

我正在开发一个在线书店应用程序我有一个书籍详细信息页面在表格中显示书籍信息包括书籍封面图像我遇到一个问题当我运行服务器时图像显示正确但是团队成员从 Github 拉取我的代码后无法显示图像所有书籍模板 extends book
私有接口方法的方法引用

考虑以下代码 public class A public static void main String args Runnable test1 I new I test compiles OK Runnable test2 new I t
如何使用 JAX-RS 转发请求？

我想将 REST 请求转发到另一台服务器我将 JAX RS 与 Jersey 和 Tomcat 一起使用我尝试设置See Other响应并添加Location头球但它不是真正的前锋如果我使用 request getRequestDi
准确设置winsock选择超时

我试图在指定的时间段后让我的接受呼叫超时并且我尝试遵循此处的建议 Winsock 接受超时 https stackoverflow com questions 9683358 winsock accept timeout 在这种情况下当
从另一个 ViewController Swift 4.2 重新加载 tableView

当我尝试从另一个 VC 调用方法时reloadData 然后应用程序崩溃Fatal error Unexpectedly found nil while unwrapping an Optional value由于 tableview ni
如何将哈希函数输出映射到布隆过滤器索引？

任何人都可以帮助我提供有关哈希函数输出如何映射到布隆过滤器索引的概述吗这是关于布隆过滤器 http en wikipedia org wiki Bloom filter 关于哈希函数输出如何映射到布隆过滤器索引的概述对于每个k在使用哈希

如何将哈希函数输出映射到布隆过滤器索引？

如何将哈希函数输出映射到布隆过滤器索引？ 的相关文章

随机推荐

热门标签

如何将哈希函数输出映射到布隆过滤器索引？的相关文章