在具有 500e6 行的 hdf5 pytable 中查找重复项

2023-11-27

Problem

我有一个大型（> 500e6 行）数据集，已放入 pytables 数据库中。

假设第一列是 ID，第二列是每个 ID 的计数器。每个 ID 计数器组合必须是唯一的。我在尝试查找的 500e6 行中有一个非唯一行。

作为初学者，我做了这样的事情：

index1 = db.cols.id.create_index()
index2 = db.cols.counts.create_index()
for row in db:
    query = '(id == %d) & (counts == %d)' % (row['id'],  row['counts'])
    result = th.readWhere(query)
    if len(result) > 1:
        print row

我承认这是一种蛮力方法。有什么改进建议吗？

update

当前暴力破解运行时间为 8421 分钟。

solution感谢大家的意见和建议。我使用以下方法设法将运行时间降低到 2364.7 秒：

ex = tb.Expr('(x * 65536) + y', uservars = {"x":th.cols.id, "y":th.cols.counts})
ex = tb.Expr(expr)
ex.setOutput(th.cols.hash)
ex.eval()
indexrows = th.cols.hash.create_csindex(filters=filters)

ref = None
dups = []
for row in th.itersorted(sortby=th.cols.hash):
  if row['hash'] == ref:
    dups.append(row['hash'] )
  ref = row['hash']

print("ids: ", np.right_shift(np.array(dups, dtype=np.int64), 16))
print("counts: ", np.array(dups, dtype=np.int64) & 65536-1)

我可以生成完美的哈希值，因为我的最大值小于 2^16。我有效地将两列打包成 32 位 int。

一旦生成了 csindex，迭代排序值并对重复项进行邻居测试就相当简单了。

这种方法可能可以稍微调整一下，但我正在测试一些可能提供更自然的解决方案的替代方案。

我想到了两种明显的技术：散列和排序。

A) 定义一个哈希函数，将 ID 和 Counter 组合成一个紧凑的值。

B) 计算每个哈希码出现的频率

C）从您的数据中选择所有具有哈希冲突的数据（这应该是一个“小得多”的数据集）

D) 对该数据集进行排序以查找重复项。

A) 中的哈希函数需要选择适合主存的大小，同时提供足够的选择性。为此，可以使用两个大小为 2^30 左右的位集。您可以承受 5-10% 的冲突，这仍然会减少数据集大小，足以允许随后在内存中进行快速排序。

这本质上是一个布隆过滤器。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

HDF5

pytables

在具有 500e6 行的 hdf5 pytable 中查找重复项的相关文章

用于将 cython 中的许多 C++ 类包装到单个共享对象的项目结构

我在文档邮件列表和这个问题在这里 https stackoverflow com questions 10300660 cython and distutils 但我想得到一个更直接的答案来解决我的具体情况我正在通过尝试一点一点地包装我
Python 中的 Lanczos 插值与 2D 图像

我尝试重新缩放 2D 图像灰度图像大小为 256x256 所需输出为 224x224 像素值范围从 0 到 1300 我尝试了两种使用 Lanczos 插值来重新调整它们的方法首先使用PIL图像 import numpy as np
如何在flask中使用g.user全局

据我了解 Flask 中的 g 变量它应该为我提供一个全局位置来存储数据例如登录后保存当前用户它是否正确我希望我的导航在登录后在整个网站上显示我的用户名我的观点包含 from Flask import g among other
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
测试 python Counter 是否包含在另一个 Counter 中

如何测试是否是pythonCounter https docs python org 2 library collections html collections Counter is 包含在另一个中使用以下定义柜台a包含在计数器中b当且
Python 函数可以从作用域之外赋予新属性吗？

我不知道你可以这样做 def tom print tom s locals locals def dick z print z name z name z guest Harry print z guest z guest print di
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

如何在Android中的EditText上设置自定义字体？

我正在尝试在EditText 与我目前正在做的事情相比有人有更好的方法吗 Typeface myFont Typeface createFromAsset getAssets fonts myfont ttf edittext setTy
FSharp 构建在 MSBuild 中失败，但在 Visual Studio 中工作正常

我的解决方案中有许多项目其中还有一个 F 项目在 Visual Studio 中一切都构建得很好但是当我尝试在 TeamCity 服务器未安装 VS 上使用 MSBuild 构建它时它会抛出以下构建错误 C TeamCity bu
__callStatic()、call_user_func_array()、引用和 PHP 5.3.1

我一直在阅读有关 SO 和其他地方的内容但我似乎找不到任何结论性的东西是否有任何方法可以有效地通过此调用堆栈携带引用从而实现如下示例中所述的所需功能虽然这个例子并没有试图解决它但它确实说明了问题 class TestClass s
使用滚动中位数过滤 Pandas 数据框中的异常值

我正在尝试从带有日期的 GPS 高程位移散点图中过滤掉一些异常值我尝试使用 df rolling 计算每个窗口的中值和标准差然后如果它大于 3 个标准差则删除该点但是我无法找到一种方法来循环该列并比较滚动计算的中值这是我到目前为止
如何用sed插入包含斜杠的字符串？ [复制]

这个问题在这里已经有答案了我有一个 Visual Studio 项目是本地开发的代码文件必须部署到远程服务器唯一的问题是它们包含的 URL 这些 URL 是硬编码的该项目包含 URL 例如 page one 为了使链接在服务器上有
H2 DB - 列必须位于分组依据列表中

我正在使用 H2 DB 访问静态数据库我有一张桌子看起来像 COUNTRY STATE CITY LAT LNG COUNTRYID STATEID CITYID Germany Berlin 1 23 1 23 1 1 0 Germa
Laravel 以良好的方式从控制器定义默认布局

我用谷歌搜索了两个小时但没有找到答案也许你能帮忙当我定义在我的控制器 class MyController extends Base Controller public layout layouts default public fu
Spark-submit/spark-shell>yarn-client和yarn-cluster模式的区别

我正在使用 YARN 运行 Spark 从链接 http spark apache org docs latest running on yarn html 我找到了不同纱线模式的解释即 masterSpark 可以运行的选项有两种部署
我可以在运行时修改Java方法的字节码吗？

我正在编写另一个大型java程序的插件我想在运行时修改java程序的某些java方法的一些字节码以便能够拦截方法调用即向方法中注入一些hook代码有什么办法可以达到这个目的吗 PS 我检查了以下方法 1 更改java程序的类加载器
Pandas 从列中可用的列表数据中扩展行

我在 pandas 中有一个像这样的数据框 column1 column2 a b c 1 d e f 2 g h i 3 预期输出 column1 column2 a 1 b 1 c 1 d 2 e 2 f 2 g 3 h 3 i 3 如
具有自动生成功能的 .NET ORM 解决方案：Subsonic、Castle AR，...？

我曾经使用自定义数据映射库目前我正在尝试切换到更广泛的 ORM 解决方案经过一些实验我将我的要求细化为以下几点能够从数据库模式生成可用的类 SQL Server 支持就足够了支持ActiveRecord模式以编程方式配置通过代
为 GGPlot2 直方图中高于 X 值的任何内容创建一个 bin

Using ggplot2 我想创建一个直方图其中 X 以上的任何内容都被分组到最终的 bin 中例如如果我的大部分分布在 100 到 200 之间并且我想按 10 进行分类那么我希望将 200 以上的任何内容分类到 200 中
以编程方式用数组填充数组

这是创建名为的数组的数组的代码sims通过 for 循环并使用str1 到目前为止我需要定义sims手动长度等于长度str1 like let sims 四个数组等于四个字str1 如何以编程方式用数组填充模拟人生 var str1 do
Sqlite3 - 如何从 csv 导入 NULL 值

我已将 mysql 表转储为 CSV 在此 CSV 文件中 NULL 值写为 N现在我想将此数据导入到 sqlite 数据库中但我无法告诉 sqlite N是空值它将其视为字符串并且该列值存储为 N 而不是 NULL 谁能指导一下如何
如何使用动态键循环 PHP 对象[重复]

这个问题在这里已经有答案了我尝试使用 PHP 解析 JSON 文件但我现在被困住了这是我的 JSON 文件的内容 John status Wait Jennifer status Active James status Active
匿名类型

我有一个Dictionary TKey TValue like Dictionary
如何检测用户鼠标移动的距离？

我正在尝试检测鼠标移动的距离以像素为单位我目前正在使用 document mousemove function event var startingTop 10 startingLeft 22 math Math abs startin
我的虚拟主机上的 Apache 500 内部服务器错误 [已关闭]

Closed 这个问题需要细节或清晰度目前不接受答案我的 Web 应用程序项目位于 media disk1 Projects 中的文件夹中我想使用 Apache 虚拟主机为他们提供服务http lab 这就是我设置虚拟主机的方式 1
java 字符串排列组合查找

我正在写一个Android单词应用程序我的代码包含一个方法该方法可以查找字符串和最小长度为 3 的 7 个字母字符串的子字符串的所有组合然后将所有可用组合与字典中的每个单词进行比较以找到所有有效单词我正在使用递归方法这是代码 G
在具有 500e6 行的 hdf5 pytable 中查找重复项

Problem 我有一个大型 gt 500e6 行数据集已放入 pytables 数据库中假设第一列是 ID 第二列是每个 ID 的计数器每个 ID 计数器组合必须是唯一的我在尝试查找的 500e6 行中有一个非唯一行作为初学者

在具有 500e6 行的 hdf5 pytable 中查找重复项

在具有 500e6 行的 hdf5 pytable 中查找重复项 的相关文章

随机推荐

热门标签

在具有 500e6 行的 hdf5 pytable 中查找重复项的相关文章