检测数据何时发生变化

2024-02-14

好吧，故事是这样的：

-- 我有很多特定格式的文件（相当大，大约 25GB），需要导入到数据存储中

-- 这些文件不断更新数据，有时是新的，有时是相同的数据

-- 我正在尝试找出一种算法来检测文件中特定行是否发生更改，以便最大限度地减少更新数据库所花费的时间

-- 目前的工作方式是，我每次都会删除数据库中的所有数据，然后重新导入它，但这将不再起作用，因为我需要一个项目更改时的时间戳。

-- 文件包含字符串和数字（标题、订单、价格等）

我能想到的唯一解决方案是：

-- 计算数据库中每一行的哈希值，将其与文件中的行的哈希值进行比较，如果不同则更新数据库

-- 保留文件的 2 个副本，以前的文件和当前的文件，并对其进行比较（这可能比更新数据库更快），并基于这些副本更新数据库。

由于数据量非常大，我现在没有选择。从长远来看，我将删除这些文件，并将数据直接推入数据库，但问题仍然存在。

任何建议将被认真考虑。

所理解的问题定义.

假设您的文件包含

ID,Name,Age
1,Jim,20
2,Tim,30
3,Kim,40

正如您所说，可以添加/更新行，因此文件变为

ID,Name,Age
1,Jim,20    -- to be discarded 
2,Tim,35    -- to be updated
3,Kim,40    -- to be discarded 
4,Zim,30    --  to be inserted

现在的需求是通过在两个sql查询或包含两个sql语句的1个批量查询中仅插入/更新以上2条记录来更新数据库。

我正在做以下假设 here

您无法修改现有的文件创建过程。
您正在使用一些批处理[从文件读取-在内存中处理-在数据库中写入] 上传数据库中的数据。

将记录 [Name,Age] 的哈希值与 ID 存储在内存映射中，其中 ID 是键，值是哈希 [如果需要可扩展性，请使用 hazelcast ]。

您的批处理框架加载数据[再次假设将一行文件视为一条记录]，需要根据内存中映射中的 ID 检查计算的哈希值。第一次创建也可以使用批处理框架来读取文件。

 If (ID present)
--- compare hash 
---found same then discard it
—found different create an update sql 
In case ID not present in in-memory hash,create an insert sql and insert the hashvalue

您可能会使用 spring-batch 和 hazelcast 进行并行处理、块处理和内存中数据分区。

http://www.hazelcast.com/ http://www.hazelcast.com/

http://static.springframework.org/spring-batch/ http://static.springframework.org/spring-batch/

希望这可以帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

database

Algorithm

scalability

检测数据何时发生变化的相关文章

如何在 C# 中以编程方式创建柔和的颜色？

根据所需的颜色数量均匀分布地生成它们如果指定的计数为 8 则看起来像这样 List
坐标算法 - 绕中心旋转

通过查看这张图片我想您会很好地理解我的问题图片已删除网址不再有效现在返回广告所以基本上我想要一个函数它接受一个对象作为参数并根据我之前添加的对象数量为该对象提供正确的坐标假设我将所有这些对象添加到一个数组中 objectAr
如何在C中实现带连分数的自然对数？

这里我有一个小问题根据这个公式创建一些东西这就是我所拥有的但它不起作用弗兰基我真的不明白它应该如何工作我尝试用一些错误的指令对其进行编码 N 是迭代次数和分数部分我认为它会以某种方式导致递归但不知道如何谢谢你的帮助 do
这个函数（for循环）空间复杂度是O(1)还是O(n)？

public void check 10 for string i list Integer a hashtable get i if a gt 10 hashtable remove i 这是 O 1 还是 O n 我猜测 O n 但不是
如何在列上创建外键，该列的每条记录都可能引用多个表之一中的列？

我正在创建一个社交网络它有新闻照片等多个实体可以有评论由于所有评论都具有相同的列并且行为方式相同唯一的区别是它们的类型新闻照片或将来添加的其他内容我决定为所有评论创建一个表其中的列名为type 它工作得很好直到我决定将外
总和不小于 key 的数组的最小子集

给定一个数组假设为非负整数我们需要找到最小长度子集使得元素之和不小于 K K 是作为输入提供的另一个整数是否有可能找到时间复杂度为 O n n 的大 oh 的解决方案我目前的想法是这样的我们可以在 O n log n 中对数组进
将第三个表链接到多对多关联中的桥接表

设计这个数据库的正确方法是什么这是我设置表格的方式我在名为教师的表和名为仪器的表之间存在多对多关系然后我有一个连接两者的桥接表我想将另一个表与 BRIDGE 表关联起来意思是乐器老师的组合该表有 3 行指定老师可以教
c# GDI边缘空白检测算法

我正在寻找解决方案检测边缘空白c 位图来自 c 托管 GDI 库图像将是透明的 or white 大多数 400x 图片的尺寸为 8000x8000px 边缘周围有大约 2000px 的空白找出边缘的最有效方法是什么 x y 高度和宽
优化计算中使用的 # 个线程的算法

我正在执行一个操作我们将其称为CalculateSomeData CalculateSomeData 在连续的代中运行编号为 1 x 整个运行中的代数由CalculateSomeData 的输入参数固定并且是先验已知的完成一次生
颜色逻辑算法

我们正在构建一个体育应用程序并希望将团队颜色融入到应用程序的各个部分现在每个团队都可以使用几种不同的颜色来表示我想做的是执行检查以验证两个团队颜色是否在彼此一定的范围内这样我就不会显示两个相似的颜色因此如果团队 1 的主要团队
关于AWS RDS多可用区的两个问题

据我所知当从单可用区升级到多可用区 rds 时会发生 breef i o freeze 这到底是什么意思呢当升级到多可用区部署时例如从小到大生产数据库是否会受到影响是否能够使用备份数据库然后进行故障转移您的问题的答案已写下来
在一个区域中拟合二维多边形的算法？

这有标准吗算法名称说我有 10 个不同大小的多边形我有一个特定大小的区域我想知道如何填充该区域中的最多多边形以及它们是如何拟合的笔记多边形可以根据限制集进行旋转一个可能的名称是包装问题 http en wikipedia
连接红黑树

OCaml 标准库有一个很棒的Set使用非常有效的分而治之算法来计算的实现union两套我相信它会从一组中获取整个子树而不仅仅是单个元素并将它们插入到另一组中并在必要时重新平衡我想知道这是否需要 OCaml 使用的 AVL 树中保
覆盖二维平面上给定点的最小圆

问题覆盖 2D 平面上给定 N 个点的圆的最小可能直径是多少解决这个问题最有效的算法是什么它是如何工作的这是最小圆问题 http en wikipedia org wiki Smallest circle problem 请参阅参考
在触发期间更新 oracle 中的同一行？

简短的问题因为我不知道如何搜索这个我可以重新更新同一行吗例如我有一个存储付款小计的字段并且考虑到我的业务限制我可以更新该值我可以仅用触发器更新同一行的总计吗预先谢谢您顺便说一句我正在使用 Oracle 和 PL SQ
有没有多核利用NoSQL系统？

我从昨天开始就开始使用 MongoDB 并且非常喜欢它我正在尝试导入大量数据 20 亿行并为其建立索引但它似乎没有使用我的系统拥有的 8 个核心并且导入以正常速率 60000 条记录秒进行我只能想象索引这个集合中的两列可能需要
如何停止在 mongodb 集合中插入重复文档

让我们有一个MongoDB包含三个文档的集合 db collection find id user A title Physics Bank Bank A id user A title Chemistry Bank Bank B id u
串行类型的外键 - 确保始终手动填充

我有两个表国家和地区 CREATE TABLE Countries id SERIAL name VARCHAR 40 NOT NULL PRIMARY KEY id CREATE TABLE Regions id SERIAL coun
PostgreSQL 中“-”处或附近的语法错误

我正在尝试运行查询来更新用户密码 alter user dell sys with password Pass 133 但因为它给了我这样的错误 ERROR syntax error at or near LINE 1 alter use
在 Hibernate 中创建 UPDATE RETURNING 查询

在 Oracle 中我们可以创建一个更新查询该查询将使用 RETURNING 子句返回更新的记录 Hibernate中有类似的功能吗除了数据库生成的值之外 Hibernate 显然不需要返回更新的实例因为对象传递给Session s

随机推荐

运行hadoop时出错

haduser user laptop usr local hadoop bin hadoop dfs copyFromLocal tmp input user haduser input 11 12 14 14 21 00 INFO ip
中断并行流执行

考虑这段代码 Thread thread new Thread gt tasks parallelStream forEach Runnable run 任务是应并行执行的 Runnable 列表当我们启动这个线程并开始执行时根据一些计
Twitter Bootstrap 默认值的 Flash 消息的自定义类和格式

我正在将 twitter bootstrap css 集成到我的应用程序中进展顺利但我不知道如何为我的 Flash 消息自定义 CSS 和包装器我希望我的 Flash 消息能够使用默认的 Bootstrap 类进行格式化 div cl
在 Swift 中将 JSON 转换为 NSData，以及将 NSData 转换为 JSON

我在转换时遇到问题JSON元素进入NSData 和NSData变量返回到JSON在斯威夫特首先我想提取encryptedData以下 JSON 数据的元素 transactionID 12345 encryptedData 67 51
如何在laravel eloquent中从多个表中检索数据

Model relation language php public function attributeDetail return this gt hasMany AttributeDetail class language id att
LINQ-to-SQL 中的多个 where 子句和 && 运算符有什么区别？

看来我可以写一个where x a 1 x b 1 as where x a 1 where x b 1 据我了解后者变成 Where x gt x a 1 Where x gt x b 1 但这如何转化为 DB 呢哪个在优化方面会更好
如何通过Gitlab CI成功安装fbprophet？

我正在尝试使用 Gitlab CI 将我的代码使用 fbprophet 部署为 EC2 实例 my requirements txt file i https pypi org simple cmdstanpy 0 4 convertda
架构arm64的未定义符号

每次从 CocoaPods 导入文件时我都会收到 Apple Mach O 链接器错误 Undefined symbols for architecture arm64 OBJC CLASS FBSession referenced fr
如何更改 Material UI 自动完成字体大小？

我正在尝试将自定义 css 应用到 Material UI Autocomplete 组件具体来说我想更改输入字段的字体大小这是我现在所拥有的
在 Macos High Sierra 上创建并绑定套接字

我在 Hight Sierra 应用程序中创建套接字时遇到严重且奇怪的问题如果我创建命令行工具一切都好我创建套接字绑定套接字但是如果我尝试创建 Cocoa 应用程序我无法绑定我的套接字如果我在Cocoa App中使用CFSoc
C++ 风格：Stroustrup 指针星号的放置

有谁知道为什么Stroustrup的风格是指针的放置如下具体来说 Stroustrup 就此事提供了哪些指导 int p vs int p 因为声明多个变量需要每个变量名称旁边加星号这会导致 int p x vs int p x 在 K
增加字符串值

如何增加字符串值例如 string RECONCILIATION COUNT if thing happens RECONCILIATION COUNT 这通常不起作用因为不可能以与 int 值相同的方式递增字符串变量 RECONCIL
棋盘游戏胜局 - 搜索算法

我正在寻找可能有效的算法来检测在 19x19 棋盘上玩的五子棋五连棋游戏中的获胜情况当其中一名玩家设法连续获得五颗且不超过五颗石子水平对角线或垂直时就会出现获胜情况我可以轻松访问以下数据两个玩家之前的动作石头存储
如何在选择查询（MySQL）中仅消除连续重复项而不是所有重复项？

我有一个这样的表 01 Jul 17 100 02 Jul 17 100 03 Jul 17 300 04 Jul 17 300 05 Jul 17 500 06 Jul 17 500 07 Jul 17 300 08 Jul 17 400
如何检测隐藏字段篡改？

在我的网络应用程序的一种形式上我有一个隐藏字段出于安全原因我需要保护它免遭篡改我正在尝试提出一个解决方案通过该解决方案我可以检测隐藏字段的值是否已更改并做出适当的反应即使用通用的出现问题请重试错误消息该解决方案应该足
对成员 'tableView(_:numberOfRowsInSection:)' 的引用不明确为什么会出现此错误？

这是我的代码其中出现错误错误出现在第 3 行 if let indexpath override func prepare for segue UIStoryboardSegue sender Any if segue identifi
像一维一样循环二维子图

我正在尝试使用子图绘制许多数据并且没有遇到麻烦但我想知道是否有一种方便的方法可以做到这一点下面是示例代码 import numpy as np import math import matplotlib pyplot as plt q
spectj可以向java.lang.String添加方法吗

我读过aspectj的一些文章我知道它可以增强类这很有吸引力我有一个非常愚蠢的问题我找不到明确的答案 spectj可以向java lang String添加方法吗或者类似的问题如果我无法获取某些类的源代码我可以通过aspect
Kubernetes 集群中的 DisallowedHost Django 部署：无效的 HTTP_HOST 标头

我在 Azure Kubernetes 集群中为前端服务部署了 Django 并进行了一些基本配置但请注意同样的问题也适用于我本地的 Minikube 集群我从远程容器注册表中获取 Django 前端容器映像并公开port 8010
检测数据何时发生变化

好吧故事是这样的我有很多特定格式的文件相当大大约 25GB 需要导入到数据存储中这些文件不断更新数据有时是新的有时是相同的数据我正在尝试找出一种算法来检测文件中特定行是否发生更改以便最大限度地减少更新数据库所花费的时间目

检测数据何时发生变化

检测数据何时发生变化 的相关文章

随机推荐

热门标签

检测数据何时发生变化的相关文章