使用什么算法来删除重复项？

2023-12-27

假设我们有一些文件，例如名为“A.txt”。我们知道有are一些重复的元素。 “A.txt”是very大，比内存大十倍以上，大概50GB左右。有时，B 的大小大约等于 A 的大小，有时则为many比 A 的尺寸小几倍。让它具有这样的结构：

a 1
b 2
c 445
a 1

我们需要获取文件“B.txt”，该文件不会有此类重复项。举个例子，应该是这样的：

a 1
b 2
c 445

我想到了复制A并执行B的算法，然后取出B中的第一个字符串，并互相查找，如果找到相同的，则删除重复项。然后取第二根弦，依此类推。

但我认为是way太慢了。我可以用什么？

A is not数据库！请不要使用 SQL。

抱歉，没说，排序就可以了。

虽然可以排序，但是如果不能排序怎么办？

一种解决方案是对文件进行排序，然后一次将一行复制到新文件中，过滤掉连续的重复项。

那么问题就变成了：如何对太大而无法放入内存的文件进行排序？

Here's Unix 排序是如何进行的 http://vkundeti.blogspot.com/2008/03/tech-algorithmic-details-of-unix-sort.html.

也可以看看这个问题 https://stackoverflow.com/q/930044/21727.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Algorithm

duplicates

使用什么算法来删除重复项？的相关文章

神经网络的层和神经元

我想更多地了解神经网络我正在开发一个 C 程序来制作神经网络但我坚持使用反向传播算法很抱歉没有提供一些工作代码我知道有很多库可以用多种语言创建神经网络但我更喜欢自己制作一个关键是我不知道要实现特定目标例如模式识别或函数近似或其
查找文本中所有关键字的有效算法

我有很多字符串其中包含许多不同拼写的文本我通过搜索关键字来标记这些字符串如果找到关键字我将使用该关键字的关联文本假设搜索字符串可以包含文本 schw schwa 和施瓦茨我有三个关键字全部解析为文本 schwarz 现在我正
素数生成器算法

我一直在尝试解决素数生成算法的SPOJ问题这是问题彼得想为他的密码系统生成一些素数帮助他你的任务是生成两个给定之间的所有素数数字 Input 输入以单行中测试用例的数量 t 开始 t Output 对于每个测试用例打印所有素数
关于Marching Cubes算法的澄清

关于Marching Cubes 我对其算法和实现有一些疑问我已经阅读了 Marching Cubes 的 Paul Bourke 优秀文章以及网站上可用的源代码但是我在理解以及如何以自己的方式实现算法方面仍然遇到了一些问题问题如下
检查有效的 IMEI

有人知道如何检查有效的 IMEI 吗我找到了一个可以检查此页面的功能 http www dotnetfunda com articles article597 imeivalidator in vbnet aspx http www do
定点数学比浮点运算快吗？

多年前即 20 世纪 90 年代初期我构建了图形软件包该软件包基于定点算术和预先计算的 cos sin 表格以及使用牛顿近似方法进行 sqrt 和对数近似的缩放方程来优化计算这些先进技术似乎已经成为图形和内置数学处理器的一部分大约
使用唯一索引删除重复项

我在两个表字段 A B C D 之间插入相信我已经在 A B C D 上创建了唯一索引以防止重复然而我以某种方式简单地对这些做了一个正常的索引因此插入了重复项这是2000万条记录的表如果我将现有索引从普通索引更改为唯一索引或者只
Python Pandas：沿一列比较两个数据帧，并返回另一个数据帧中两个数据帧的行内容

我正在处理两个 csv 文件并作为数据框 df1 和 df2 导入 df1 有 50000 行 df2 有 150000 行我想将 df2 的时间与 df1 求时间差并返回所有列的值对应相似的行保存在df3中时间同步例如 35
是否有一种算法可以在线性时间内计算数组反转？

我知道有多少倒转 en wikipedia org wiki Inversion 28discrete mathematics 29 in an n 元素数组可以在 O n log n 操作使用增强型归并排序 http www geeksf
如何求两个地点的经纬度距离？

我有一组位置的纬度和经度怎么找distance从集合中的一个位置到另一个位置有公式吗半正矢公式假定地球是球形的然而地球的形状更为复杂扁球体模型会给出更好的结果如果需要这样的精度你应该更好地使用文森特逆公式 See http
当给定块大小时反转单链表

有一个单连接链表并给出了块大小例如如果我的链表是1 gt 2 gt 3 gt 4 gt 5 gt 6 gt 7 gt 8 NULL我的块大小是4然后反转第一个4元素然后是第二个 4 个元素问题的输出应该是4 gt 3 gt 2 g
这个函数（for循环）空间复杂度是O(1)还是O(n)？

public void check 10 for string i list Integer a hashtable get i if a gt 10 hashtable remove i 这是 O 1 还是 O n 我猜测 O n 但不是
为什么这个算法的Big-O复杂度是O(n^2)？

我知道这个算法的大O复杂度是O n 2 但我不明白为什么 int sum 0 int i 1 j n n while i lt j sum 即使我们设定了j n n一开始我们在每次迭代期间递增 i 并递减 j 因此最终的迭代次数不应该比n
求先递增后递减列表的最大值和最小值

我尝试用谷歌搜索这个问题但没有取得太大成功我确信这个问题或类似问题有一个技术名称但我似乎找不到答案给定一个列表L整数即严格递增然后严格递减找到该列表的最大值和最小值例如 L可能 1 2 3 4 5 4 3 2 or 2 4
使用什么算法来确定使系统达到“零”状态所需的最小操作数？

这是一种更通用的问题不是特定于语言的有关要使用的想法和算法的更多信息系统如下它登记朋友群体之间的小额贷款 Alice and Bill要去吃午饭比尔的卡坏了所以爱丽丝支付了他的餐费 10 美元第二天Bill and Charl
在一个区域中拟合二维多边形的算法？

这有标准吗算法名称说我有 10 个不同大小的多边形我有一个特定大小的区域我想知道如何填充该区域中的最多多边形以及它们是如何拟合的笔记多边形可以根据限制集进行旋转一个可能的名称是包装问题 http en wikipedia
对 Java 中 *any* 类的所有实例进行全排序

我不确定以下代码是否能确保 Comparator 的 Javadoc 中给出的所有条件 class TotalOrder
添加边后更新最大流量

考虑我们有一个网络流量并使用 Edmond Karp 算法我们已经拥有网络上的最大流量现在如果我们向网络添加任意边具有一定容量更新最大流量的最佳方法是什么我正在考虑更新关于新边缘的残差网络并再次寻找增强路径直到找到新的最大
寻找公共子集的算法

I have N number of sets Si of Numbers each of a different size Let m1 m2 mn be the sizes of respective sets mi Si and M
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该

随机推荐

从 Pub/Sub 流式传输到 BigQuery

我正在尝试使用 python 数据流将一些数据从 google PubSub 流式传输到 BigQuery 中出于测试目的我改编了以下代码https github com GoogleCloudPlatform DataflowSDK
如何通过 cURL 调用使用 HTTP 请求发送标头？

我希望将标头发送到 Linux 机器上的 Apache 服务器如何通过 cURL 调用实现此目的 man curl https curl haxx se docs manpage html H header
jQuery 1.7.1 - 文本输入的“值”未在 Firebug Inspect 元素中更新，但在屏幕上

使用 jQuery 1 7 1 我注意到value当我在 Firebug 的检查元素工具中查看文本输入字段的属性属性时它不会更新但会在屏幕上即实际可见的文本框中更新例如当使用以下内容更改文本的值时内联使用 jQuery fu
dlopen("xxxx") 失败：dlopen 失败：未找到库“xxxx”

package com test nativeapp import android support v7 app ActionBarActivity import android os Bundle import android view
如何使 jQuery.parseXML 在 node.js 中工作

我正在尝试在 node js 中使用 jQuery parseXml 我收到此错误 Error Invalid XML
使用js正则表达式隐藏除最后4个之外的所有“数字”

我正在努力寻找正确的正则表达式来替换我的电话号码字符串目标是掩盖所有numbers除了最后 4 个 I have d d 4 g 但它不适用于其他符号例如 and 例如 1234567890 replace d d 4 g gt 789
对嵌套结构中的所有值进行索引

我有一个嵌套结构其中包含值并定义为 mystruct level1 a 1 mystruct level1 b 2 mystruct level2 a 8 mystruct level2 b 9 我想对level1和level2中的元素进
C# - 本地化 - 在 wpf 应用程序中更改语言

我正在制作一些 wpf 应用程序我需要更改语言的选项我的解决方案中有一个名为 Resorces 的文件夹其中存储了所有 resx 文件实际上是 language resx 和 language en EN resx 我的 XAML
在 pandas 中创建新列的高效击键方式

有没有更有效的方法在 pandas 数据框中创建多个新列df初始化为零 for col in add cols df loc col 0 UPDATE using jeff的方法 https stackoverflow com a 4178
除 SIGKILL 之外的信号不会终止 Windows 上的进程

我正在通过 Go 启动一个简单的 Java 应用程序目的是证明 Go 可以发送 SIGQUIT 或 SIGTERM 等信号并且 Java 可以捕获该信号并进行适当处理即正常关闭当我在命令行上运行 Java 程序并向其发送 CTRL
TortoiseGit 覆盖图标为红色，但所有文件均已提交

我提交了所有文件 TortoiseGit 中的提交列表为空但某些文件夹是红色的我从任务管理器中杀死了 TgitCache exe 但什么也没发生我重命名了我的文件夹通过在文件夹名称末尾添加数字并恢复为主名称但问题仍然存在最后
停止在 kestrel 上运行的 dotnet core 网站

部署现有 net core 网站的新版本时我首先要如何safely停止旧的正在运行的 Kestrel 应用程序这是我想编写的示例伪部署脚本 dotnet stop mysite mysite dll lt this line here
如何使用 Google 表格中的数据将数组插入到 Google 文档中？

我正在尝试从 Google 工作表中提取一系列名称并将其放入 Google 文档中在电子表格中姓氏 lastNames 位于名字 firstNames 之前并且两者都在单独的列中我试图将名字和姓氏一起放入我的文档中并且名字在前我
如何禁用 WPF ListView 的 XAML 中的某些项目

好吧抱歉这个问题太宽泛但让我们看看你们的建议我有一个由 XML 文件加载的 WPF ListView 使用 XAML 代码如下我有第二个 XML 文件其中包含与 ListView 中的内容相匹配的项目然而如果有not第二个文件
Python 线程 - 如何在单独的线程中重复执行函数？

我有这个代码 import threading def printit print Hello World threading Timer 1 0 printit start threading Timer 1 0 printit star
Rust 中的字符串与选项匹配

我试图将输入与可能的类型相匹配然后将该字符串值转换为数字我有这样的事情 fn letter to num nameNum str gt Option
React DnD useDrop 调用方法时未使用当前状态

我正在尝试创建一个具有拖放项目功能的待办事项应用程序我在用着反应免打扰到目前为止一切正常但是当一个新项目添加到列表中时我意识到useDrop 中的 drop 方法中调用的函数将仅使用页面首次加载时的状态没有其他组件存在此问题当我尝
如何检测应用程序中的表单是否被破坏？

我们的应用程序中有许多表单我需要一个全局事件处理程序来检测其中一个表单何时被销毁然后采取一些操作 p s 我想避免向每个表单添加代码这些代码需要在主表单即将销毁时向主表单发送消息大多数表单也是在运行时动态创建和销毁的我正在考虑也许
如何在没有主机文件的情况下运行 Ansible

如何在没有主机文件的情况下运行 Ansible 就像 ansible Some Options IP a uptime 你可以这样做 ansible all i
使用什么算法来删除重复项？

假设我们有一些文件例如名为 A txt 我们知道有are一些重复的元素 A txt 是very大比内存大十倍以上大概50GB左右有时 B 的大小大约等于 A 的大小有时则为many比 A 的尺寸小几倍让它具有这样的结构 a 1

使用什么算法来删除重复项？

使用什么算法来删除重复项？ 的相关文章

随机推荐

热门标签

使用什么算法来删除重复项？的相关文章