git 的耐心差异算法的实现是否正确？

2023-11-23

Stackoverflow 上的这个问题似乎是应用耐心差异算法的良好候选者。然而，在测试我的潜在答案时，我发现git diff --patience没有达到我的预期（并且在这种情况下，与默认的 diff 算法没有什么不同）：

$ cat a
/**
 * Function foo description.
 */
function foo() {}

/**
 * Function bar description.
 */
function bar() {}

$ cat b
/**
 * Function bar description.
 */
function bar() {}

$ git diff --no-index --patience a b
diff --git a/a b/b
index 3064e15..a93bad0 100644
--- a/a
+++ b/b
@@ -1,9 +1,4 @@
 /**
- * Function foo description.
- */
-function foo() {}
-
-/**
  * Function bar description.
  */
 function bar() {}

我希望差异是：

diff --git a/a b/b
index 3064e15..a93bad0 100644
--- a/a
+++ b/b
@@ -1,8 +1,3 @@
-/**
- * Function foo description.
- */
-function foo() {}
-
 /**
  * Function bar description.
  */

根据我的理解，在这种情况下，独特的共同点是提到的两行bar，这些行周围最长的公共上下文应该是函数bar()连同它的文档块，这意味着差异应该归结为已删除的函数foo()连同它自己的文档块和下面的空行。

暂时没有其他人解决这个问题，所以我会尝试一下。不过，这纯粹是高级理论，因为我还没有阅读有关原始耐心算法的论文。

LCS（最长公共子序列）算法旨在减少寻找最小编辑距离解决方案所花费的时间。标准（动态规划）解决方案是 O(MN) where M是原始字符串中的符号数，N是目标字符串中的符号数。在我们的例子中，“符号”是行，“字符串”是行的集合，而不是带有字符的字符串（其中符号是，例如 ASCII 代码）。我们只需填写一个M x N“编辑成本”矩阵；完成后，我们通过向后追踪结果矩阵的最小路径来生成实际的编辑。看https://jlordiales.me/2014/03/01/dynamic-programming-edit-distance/举个例子。（通过谷歌搜索找到的网页：这与我无关，除了现在高速扫描它以确保其正确性之外。它似乎是正确的。:-)）

实际上，对于大文件来说，计算这个矩阵是相当昂贵的，因为M and N是源代码行数（通常大约相等）：约 4k 行文件会在矩阵中产生约 16M 条目，必须将其完全填充，然后才能追踪最小路径。而且，比较“符号”不再像比较字符那么简单，因为每个“符号”都是完整的一行。（通常的技巧是在矩阵生成期间对每一行进行散列并比较散列，然后在回溯期间重新检查，如果散列误导了我们，则将“保持不变符号”替换为“删除原始符号并插入新符号”。即使这样也可以正常工作在存在哈希冲突的情况下：我们可能会得到一个稍微次优的编辑序列，但实际上永远不会awful.)

LCS 通过观察保留长公共子序列（“保留所有这些行”）几乎总是会带来巨大胜利来修改矩阵计算。找到一些好的LCS-es后，我们将问题分解为“编辑非公共前缀，保留公共序列，并编辑非公共后缀”：现在我们计算two动态规划矩阵，但对于较小的问题，所以速度更快。（当然，我们可以在前缀和后缀上递归。如果我们有一个约 4k 行的文件，我们发现中间附近有约 2k 条完全未更改的公共行，在顶部留下约 0.5k 行，在底部的 ~1.5k 处，我们可以在 ~0.5k“顶部有差异”行中检查长公共子序列，然后在 ~1.5k“底部有差异”行中再次检查。）

LCS 表现不佳，因此当“公共子序列”是像这样的琐碎行时，会导致可怕的差异 }，有很多匹配项，但并不真正相关。这耐心差异简单地变体discards这些线来自初始 LCS 计算，因此它们不是“公共子序列”的一部分。这使得剩余的矩阵larger，这就是为什么你必须要有耐心。 :-)

结果是，耐心 diff 在这里没有帮助，因为我们的问题与公共子序列无关。事实上，即使我们完全放弃 LCS 并只做一个大矩阵，我们仍然会得到不理想的结果。我们的问题是删除的成本：

- * Function foo description.
- */
-function foo() {}
-
-/**

（并且不插入任何内容）是same作为删除的成本：

-/**
- * Function foo description.
- */
-function foo() {}
-

任何一种的成本都只是“删除 5 个符号”。即使我们对每个符号进行加权——使非空行的删除比空行“更昂贵”——成本仍然是相同的：我们正在删除same最后五行。

相反，我们需要的是某种基于“视觉聚类”来对线条进行加权的方法：短线在边缘删除短线比删除便宜在中间。 Git 2.9 中添加的压缩启发式尝试在事后执行此操作。显然，它至少有一点缺陷（只有空行才算，而且它们必须实际存在，而不仅仅是到达边缘时暗示）。在矩阵填充期间进行加权可能会更好（假设在进行 LCS 消除后剩下的内容实际上是在经历完整的动态规划矩阵）。不过，这并不简单。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

git

gitdiff

git 的耐心差异算法的实现是否正确？的相关文章

“git rm --cached”、“git Restore --staged”和“git reset”之间有什么区别

我遇到了以下三种方法来取消暂存由命令 git add 暂存的文件 git rm cached
git 命令显示所有（轻量级）标签创建日期

是否有一个衬垫可以向我显示所有 git 轻量级标签的创建日期就像是 git show tags format date 我在这个发现link http osdir com ml git 2009 05 msg01404 html适合我需求
Git守护进程克隆错误

All 我正在按照以下指示进行操作this SO https stackoverflow com a 377293 724357答案快速提供回购当我跑步时git clone git ipAddr git project我得到这个输出 r
使用 TortoiseGit 创建 git 克隆时出现 SSL 证书问题

我想在 TortoiseGit 的帮助下克隆 git 存储库但出现错误错误 SSL 证书有问题请验证 CA 证书是否正常细节错误 14090086 SSL 例程 SSL3 GET SERVER CERTIFICATE 访问时证书验
为什么在 Eclipse 中对 Egit 管理的项目禁用合并工具？

根据Egit 用户指南 http wiki eclipse org EGit User Guide Using Merge Tool 要使用合并工具应右键单击存在合并冲突的资源然后选择Team gt 合并工具但是当我执行此操作时合
在 GitHub 上执行拉取请求时避免不需要的合并提交和其他提交

我在 Github 上分叉了一个项目令远程上游为upstream我的远程存储库是origin 我当地的master分支设置为跟踪远程master分支然后我在本地添加了一些东西master 时不时与上游汇合直到今天我想发出pull re
Git 中的“分支提示”是什么？

我正在学习 Git 并阅读专业 Git 书籍 https git scm com book en v2 书中和 Stack Overflow 上有时会使用术语分支提示但我找不到它的含义分支提示是分支上的最后一次提交或最近一次提交基本
EGit（Eclipse git 插件）可以使用 SSH 密钥代替用户名和密码吗？

我需要提交的 git 中央存储库是使用 SSH 密钥配置的我的用户名是jmglov 但是当我执行 git 操作时例如git clone 我使用这个配置 jmglov kitiara cat git config remote origi
hg 或 git 中的两个完整目录/项目之间存在差异？

我继承了一个最初存储在 CVS 中的项目以及所有修订我做了相当多的编辑并且我试图比较我在原始目录中所做的所有更改关于添加的新文件与旧文件 hg git 是否有某种实用程序可以让我进行树差异或类似性质的操作也就是说新添加的文件删除
返回到存储库中的特定修订后提交并推送更改？

我们需要及时返回到某个特定的提交一些意外的改变是为了掌握尝试恢复它挖得太深所以 master 的状态很糟糕现在我们希望master回到66ada4cc61d62afc 根据git 恢复到某个提交 https stackoverflo
如何使用 vim 作为“git show”编辑器？

全部如所述如何使用 vim 作为 git log 编辑器 https stackoverflow com questions 16666009 how do i use vim as git log editor不适用于 git show
gitlab 请求将分支 A 合并到开发中（落后 3 次提交）我应该担心吗？

在 gitlab 中创建合并请求时我经常收到一条消息请求将分支 A 合并到开发中 x 提交落后 gitlab想告诉我什么我应该担心还是需要修复某些东西什么一段时间后合并请求在项目中打开时由于其他人合并了自己的更改您尝试合并到的
如何解决 VS Code 中变基拉取的合并冲突？

当我做一个git pull rebase 并且我的提交中存在合并冲突我得到冲突差异视图解决所有冲突并暂存文件然后呢我可以打开终端并运行git rebase continue但是 VS Code 中不应该有一个按钮来完成变基吗只需使
致命：不是 git 存储库（或任何父目录）：.git [重复]

这个问题在这里已经有答案了当我尝试推送 github com 上的现有存储库时当我输入命令时网站提示我将其输入终端我收到了以下致命错误消息 Not a git repository or any of the parent dire
按时间顺序将多个文件夹提交到 git 中

我有数百个网站备份每个文件夹一个我想将它们放入 git 存储库中每个备份作为一个版本这些变化主要涉及图像文件和每天 2 个数据库备份大小约为 25 GB 并且不断增加有没有办法告诉 git 获取其中一个文件夹并将其提交到存储库中
在centos上设置jenkins：ssh密钥和git的问题

经历了很多问题但似乎没有什么能解决我的问题或者更准确地说我不确定我是否正确地完成了整个事情所以这里是已安装centos 6 3操作系统然后我按照以下指南安装詹金斯 https wiki jenkins ci org displa
我在哪里？ *（无分支）

我已经熟悉了创建合并和删除分支我想知道我在哪里这样我就不会将工作提交到错误的分支我用git branch a看看我有哪些分支我认为星号显示我当前所在的分支当我得到以下信息时这意味着什么 no branch master or
Git post-receive - 如何检查推送的分支是否与主分支合并

在我们的团队中我们通常将所有任务推送到单独的分支中然后发布经理审查这些分支并将它们合并到主分支中有时团队成员忘记将他们的分支与主分支合并在推送之前所以我想做的是在用户推送后输出一条消息请与主分支合并我想我需要检查一些内容
在 Azure DevOps 中为 Wix MSI 文件生成 GUID

我正在为 Web 服务器应用程序和 Sitecore 前端应用程序设置 Wix 安装程序我的问题并非特定于 Web 服务器或 Sitecore 我的问题是 Wix 以及如何使用它进行持续交付 1 Wix 需要每个文件和产品本身的 GUID
您的分支比“origin/master”领先 3 个提交

我在运行时收到以下信息git status Your branch is ahead of origin master by 3 commits 我读过其他一些帖子解决这个问题的方法是运行git pull rebase但是 rebase

随机推荐

yum---没有名为 yum 的模块

when I use yum in the shell the error message is no module named yum so I edit the usr bin yum change the first line to
如何按时间顺序对数组进行排序？

我有一个非关联数组其中传入的数据未排序我从外部系统接收数据无法强制它按排序顺序进入数组有什么方法可以对值进行排序吗我试过这个 wedTrackTimes array 9 30 AM 10 30 AM 8 15 AM 9 15 AM
Maven 堆空间

当我跑步时mvn clean install对于我在 linux RHEL 6 上的构建我收到以下错误 java lang outOfMemoryError heap space 我已经阅读了互联网上的所有文章在我的机器上我没有一个名
ItemContainerGenerator.ContainerFromItem() 返回 null？

我有一些奇怪的行为我似乎无法解决当我迭代 ListBox ItemsSource 属性中的项目时我似乎无法获取容器我期望看到返回一个 ListBoxItem 但我只得到 null 有任何想法吗这是我正在使用的代码 this lst
servlet 上下文到 tomcat 7 root

将 servlet 上下文放置到的最佳方法是什么tomcat 7根我努力了这篇文章在这里但对我不起作用我在用着Apache Tomcat 7 0 42 P S 我不想将项目名称重命名为ROOT war Update 我已经放置了cont
在严格模式下使用 this.inherited(arguments) 时出现 DOJO 错误

我正在为 Dijit 自定义小部件声明一个基本类 When in strict mode 常规this inherited arguments 正在被调用我收到此错误未捕获的类型错误调用者被调用者和参数属性可能不能在严格模
Internet Explorer 返回错误的字符串长度[重复]

这个问题在这里已经有答案了我在 IE 中调用 JavaScript 时遇到了一个可能的错误 length如果当字符串派生自时函数返回一个偏移 1 的值 toLocaleString var d new Date var locale
Swing/Java：如何正确使用 getText 和 setText 字符串

我正在尝试输入nameField出现在一个Label called label1之后Button called button1被点击现在它说 txt 我明白为什么但我不知道如何使用该字符串谁能解释我做错了什么以及如何正确使用这个字符串
每次在 VS2012 中打开解决方案时，都会重置 IIS Express applicationhost.config 安全性

我有一个在 VS2012 中开发的 MVC4 应用程序它使用表单身份验证 authentication mode Forms forms loginUrl Account Login timeout 2880 authentication
如何在spark 2.4.1中将jdbc/partitionColumn类型设置为Date

我正在尝试使用spark sql 2 4 1 版本从oracle 检索数据我尝试将 JdbcOptions 设置如下 option lowerBound 31 MAR 02 option upperBound 01 MAY 19 opti
Swift 2.0 肥皂请求与 Alamofire 发送 xml 参数

我想向此 Web 服务示例发出请求 http www holidaywebservice com HolidayService v2 HolidayService2 asmx wsdl 我需要发送一个参数 countryCode 我不知道如
使用 spring 控制器和不同的类在 jsp 中渲染数据

我想渲染数据 this is how my jsp page table look like 我如何实现这一目标请帮我这给我带来了很多困惑要定义多少个类以及哪些字段 thanks 您的数据很可能来自数据库这是一种List返回了 ja
VSCode Marketplace 扩展：ZIP 损坏：未找到中央目录记录签名末尾

我正在尝试安装从 Marketplace 下载的 VSIX 包wget在安装了 VSCode 服务器的 Linux VM 上但出现以下错误 wget nv https marketplace visualstudio com apis p
Re.sub 不适合我

我想得到re sub例如替换用值指定的模式 for lines in f pattern 2 key 0 2 re search pattern lines 这将返回找到模式的行例如这是测试返回之一这是一个测试我遇到的问题是当我执
使用 PHP 检查远程文件是否为格式良好的 XML

我有一个 PHP 驱动的网站其中包含 XML 库存提要该提要由 ASP 远程提供即 XML 提要 url 的顺序为 http remote com client asp 由于提要经常不可用我的意思是网站返回 ASP 错误我想在包含
memcpy 与 C 中的赋值——应该是 memmove？

正如指出的这个问题的答案编译器在本例中是 gcc 4 1 2 是的它很旧不我无法更改它可以在它认为合适的地方用 memcpy 替换结构体赋值我正在 valgrind 下运行一些代码并收到有关 memcpy 源目标重叠的警告
在Java中，为什么超类方法不能从子类实例访问受保护或私有方法/变量？

让我们从另一种行为开始即使您将方法变量声明为私有同一类的另一个实例也可以访问它没关系我可以忍受我将这些称为类私有而不是实例私有现在问题部分例如在运行时我希望能够检查所有字符串变量thisclass 不为 null 如果为
junit 3 中的类拆解？

我们有很多使用 JUnit 编写的集成测试3 尽管我们现在运行它们4 4 其中一些需要在类中的所有测试完成后运行的tearDown 方法以释放一些公共资源我发现这可以在 junit 4 中使用 AfterClass org junit
在 SQL 中将列转换为行[重复]

这个问题在这里已经有答案了我需要编写一个查询该查询获取行并将其转换为列这是我的表 Count fname lname id 1 abc def 20 2 pqr 20 3 abc xyz 20 4 xyz xyz 20 1 abc d
git 的耐心差异算法的实现是否正确？

Stackoverflow 上的这个问题似乎是应用耐心差异算法的良好候选者然而在测试我的潜在答案时我发现git diff patience没有达到我的预期并且在这种情况下与默认的 diff 算法没有什么不同 cat a Funct

git 的耐心差异算法的实现是否正确？

git 的耐心差异算法的实现是否正确？ 的相关文章

随机推荐

热门标签

git 的耐心差异算法的实现是否正确？的相关文章