优化编辑距离算法

2023-12-11

我有一个存储过程，它使用编辑距离来确定最接近用户键入内容的结果。唯一真正影响速度的是在选择距离最小的记录之前计算所有记录的 Levenshtein 距离的函数（我通过将 0 代替对 Levenshtein 函数的调用来验证这一点）。该表有 150 万条记录，因此即使是最轻微的调整也可能会缩短几秒钟。现在整个过程持续了10多分钟。这是我正在使用的方法：

ALTER function dbo.Levenshtein
( 
    @Source nvarchar(200), 
    @Target nvarchar(200) 
) 
RETURNS int
AS
BEGIN
DECLARE @Source_len int, @Target_len int, @i int, @j int, @Source_char nchar, @Dist int, @Dist_temp int, @Distv0 varbinary(8000), @Distv1 varbinary(8000)

SELECT @Source_len = LEN(@Source), @Target_len = LEN(@Target), @Distv1 = 0x0000, @j = 1, @i = 1, @Dist = 0

WHILE @j <= @Target_len
BEGIN
    SELECT @Distv1 = @Distv1 + CAST(@j AS binary(2)), @j = @j + 1
END

WHILE @i <= @Source_len
BEGIN
    SELECT @Source_char = SUBSTRING(@Source, @i, 1), @Dist = @i, @Distv0 = CAST(@i AS binary(2)), @j = 1

WHILE @j <= @Target_len
BEGIN
    SET @Dist = @Dist + 1
    SET @Dist_temp = CAST(SUBSTRING(@Distv1, @j+@j-1, 2) AS int) +
                  CASE WHEN @Source_char = SUBSTRING(@Target, @j, 1) THEN 0 ELSE 1 END

    IF @Dist > @Dist_temp
    BEGIN
        SET @Dist = @Dist_temp
    END

    SET @Dist_temp = CAST(SUBSTRING(@Distv1, @j+@j+1, 2) AS int)+1

    IF @Dist > @Dist_temp SET @Dist = @Dist_temp
    BEGIN
        SELECT @Distv0 = @Distv0 + CAST(@Dist AS binary(2)), @j = @j + 1
    END
END

SELECT @Distv1 = @Distv0, @i = @i + 1
END

RETURN @Dist
END

我应该从这里去哪里？

我过去这样做的方法是将“数据库”（实际上是用于拼写纠正器的单词词典）存储为特里树。

然后我使用分支定界例程来查找最近的匹配条目。对于小距离，所花费的时间与距离呈指数关系。对于长距离，它与字典的大小成线性关系，就像您现在看到的那样。

分支定界基本上是 trie 的深度优先树遍历，但有错误预算。在每个节点，您跟踪当前的编辑距离，如果超出预算，则修剪树的该分支。

首先，您以零预算进行步行。这只会找到完全匹配的结果。如果你没有找到匹配的，那么你就以 1 的预算走过去。这将在距离 1 处找到匹配项。如果找不到任何匹配项，则以预算 2 进行匹配，依此类推。这听起来效率很低，但由于每次步行比前一次花费的时间要多得多，因此时间主要由您最后一次步行决定。

添加：代码概要（请原谅我的 C）：

// dumb version of trie node, indexed by letter. You can improve.
typedef struct tnodeTag {
  tnodeTag* p[128];
} tnode;

tnode* top; // the top of the trie

void walk(tnode* p, char* s, int budget){
  int i;
  if (*s == 0){
    if (p == NULL){
      // print the current trie path
    }
  }
  else if (budget >= 0){
    // try deleting this letter
    walk(p, s+1, budget-1);
    // try swapping two adjacent letters
    if (s[1]){
      swap(s[0], s[1]);
      walk(p, s, budget-1);
      swap(s[0], s[1]);
    }
    if (p){
      for (i = 0; i < 128; i++){
        // try exact match
        if (i == *s) walk(p->p[i], s+1, budget);
        // try replacing this character
        if (i != *s) walk(p->p[i], s+1, budget-1);
        // try inserting this letter
        walk(p->p[i], s, budget-1);
      }
    }
  }
}

基本上，您可以通过跳过字母并在同一节点搜索来模拟删除该字母。您可以通过降序排列 trie 而不前进 s 来模拟插入字母。您可以通过表现得好像字母匹配来模拟替换字母，即使事实并非如此。当你掌握了它的窍门后，你可以添加其他可能的不匹配，例如用 O 替换 0，用 L 或 I 替换 1 - 像这样的愚蠢的东西。

您可能想要添加一个字符数组参数来表示您在 trie 中找到的当前单词。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

优化编辑距离算法的相关文章

php 日期函数和 Carbon 哪个更快？

Carbon 是 DateTime 的简单 PHP API 扩展我想知道我们可以通过 Composer 安装 Carbon 来使用日期时间函数 php 日期时间函数和 Carbon 哪个更快我对您的评论做了一些测试比较了 DateTi
HTML5 - Canvas - 大图像优化

我需要建立一个HTML5 canvas其中包含非常大的图像可能高达 10 15MB 我的第一个想法是将图像分成几个块这些块将在画布上水平移动时加载对这个想法有什么想法吗这是一件好事吗也许我错过了一些已经实现的优化功能你说得对这
Java 反射性能

使用反射创建对象而不是调用类构造函数是否会导致任何显着的性能差异是的一点没错通过反射查找类是按幅度更贵 Quoting Java关于反射的文档 http java sun com docs books tutorial refle
如何加速我的 Perl 程序？

这确实是两个问题但它们非常相似为了简单起见我想我应该把它们放在一起 Firstly 给定一个已建立的 Perl 项目除了简单的代码优化之外还有哪些不错的方法可以加速它 Secondly 用Perl从头开始编写程序时有哪些好的方法
为什么我应该使用内联代码？ [复制]

这个问题在这里已经有答案了我是一名 C C 开发人员这里有几个始终困扰我的问题常规代码和内联代码之间有很大区别吗主要区别是什么内联代码只是宏的一种形式吗选择内联代码时必须进行什么样的权衡 Thanks 表现正如之前的答案
优化 tribool 数组的空间

让我从一些背景开始通过 tribool 我理解一个可以保存以下值之一的变量 true false or null 有问题复制整数数组与布尔指针数组 https stackoverflow com questions 4350041 cop
L-BFGS 是否有 tf.keras.optimizers 实现？

有人有 L BFGS 算法的 Tensorflow 2 tf keras 子类吗如果想使用 L BFGS 目前有两个官方选项 TF概率 SciPy 优化这两个选项使用起来相当麻烦尤其是在使用自定义模型时因此我计划实现 tf k
R 中的约束优化

我正在尝试使用http rss acs unt edu Rdoc library stats html constrOptim html http rss acs unt edu Rdoc library stats html constr
有没有办法让这个哈希查找更快？

我需要非常快速处理有限范围的字符串计算它们的值输入文件的形式为 January 7 March 22 September 87 March 36 等等因为线宽相同所以我可以简单地读取一行fread相当快而且我已经开发了一个完美
可以通过Data.Function.fix来表达变形吗？

我有这个可爱的fixana这里的函数执行速度比她的姐妹快 5 倍左右ana 我有一个criterion报告支持我这一点 ana alg Fix fmap ana alg alg fixana alg fix f gt Fix fmap f
在调用函数两次和将返回值存储在变量中之间选择哪一个？

我有以下场景并且我多次遇到类似的场景以下两个选项中哪一个更可取选项 1 String result getDetails null getDetails 选项2 String returnValue getDetails String
完全禁用 NVCC 优化

我正在尝试测量 GPU 上的峰值单精度触发器为此我正在修改 PTX 文件以在寄存器上执行连续的 MAD 指令不幸的是编译器正在删除所有代码因为它实际上没有做任何有用的事情因为我没有执行任何数据的加载存储是否有编译器标志或编译指
使用 Numba 加速矢量距离计算

以下是我为 3 D 环形几何中的距离平方计算编写的一些函数用于该 3 D 空间中的粒子集合 import itertools import time import numpy as np import scipy import num
GCC：分段错误和调试程序仅在优化时崩溃

这是线程的后续内容 C 分段错误也许 GDB 在骗我 https stackoverflow com questions 22828609 c segmentation fault and maybe gdb is lying to me
C for 循环索引：新 CPU 中的前向索引更快吗？

在我订阅的邮件列表上两位知识渊博的 IMO 程序员正在讨论一些优化的代码并说了以下内容在 5 8 年前发布的 CPU 上向后迭代 for 循环稍微快一些 e g for int i x 1 i gt 0 i 因为比较i归零比将其与其
有效积累稀疏 scipy 矩阵的集合

我有一个 O N NxN 的集合scipy sparse csr matrix 每个稀疏矩阵都有 N 个元素集我想将所有这些矩阵加在一起以获得一个常规的 NxN numpy 数组 N 约为 1000 矩阵内非零元素的排列使得所得总和肯定不
gcc 没有小字符串优化吗？

Most std string实现包括 GCC 使用小字符串优化例如有一个answer https stackoverflow com a 21710033 2640636讨论这个今天我决定检查我编译的代码中的字符串在什么时候被移
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
调度算法，找到设定长度的所有非重叠区间

我需要为我的管理应用程序实现一种算法该算法将告诉我何时可以将任务分配给哪个用户我实现了一个蛮力解决方案它似乎有效但我想知道是否有更有效的方法来做到这一点为了简单起见我重写了算法以对数字列表进行操作而不是数据库查询等下面我将尝
Java 中查看 ArrayList 是否包含对象的最有效方法

我有一个 Java 对象的 ArrayList 这些对象有四个字段我用其中两个字段来将对象视为与另一个对象相等我正在寻找最有效的方法给定这两个字段以查看数组是否包含该对象问题在于这些类是基于 XSD 对象生成的因此我无法修改类本

随机推荐

在VBA中处理大数

如何在VBA中处理10E22这样的非常大的数字 dim a b c as double a 1234567890123456789012 c a bit b a c 1 bit 我得到 b 0 按照建议我改变dim a as double
这是 JSON.NET 或实体框架中的错误，还是我在尝试使用 JSON.NET 序列化异常列表时做错了什么？

尝试序列化一组错误时出现此错误 ISerialized 类型 System Data Entity Infrastruct DbUpdateConcurrencyException 没有有效的构造函数要正确实现 ISerialized 应
调用 getBluetoothService() 时没有使用 BluetoothManagerCallback

我是安卓开发新手我正在编写一个应用程序它从笔记本电脑的蓝牙终端接收字符串打开连接时执行以下行时我收到错误连接被拒绝 socket connect 我尝试检查 connect 方法中发生了什么在这里我发现 Android Stu
替换为 preg_replace 中的动态变量

我陷入了这个问题即我有一个像这样的数组 array name gt John email gt email protected 和这样的字符串样本 string Hi name your email is email 问题很明显将名称
无法使用接口默认方法

我已经安装了新版本的 Visual Studio 并将项目设置为 C 8 当我尝试使用如下所示的新界面功能时它说我无法在界面中实现这似乎不知何故我无法使用新功能谁能解释一下为什么它仍然没有包含在 2019 年预览中吗 interfa
使用 htaccess 将所有内容重定向到 index.php

我正在编写一个简单的基于 PHP 的 MVC 框架我希望这个框架能够安装在任何目录中我的 PHP 脚本获取请求 uri 并将其分成多个段它使段 1 成为控制器使段 2 成为动作当我这样做时一切都很好 http www exampl
使用dom java解析xml

我有以下 xml
如何从 wpf 中的方法调用返回格式化文本

我正在开发一个插件界面我希望有一种方法可以返回格式化文本以便 WPF 控件可以只显示插件结果返回该文本的最佳方式是什么这样我只需要将插件结果分配给 WPF 文本控件可能是 RichTextBox 或类似的东西我想支持粗体下划线
UIEdgeInsets 在 UIGraphicsBeginImageContextWithOptions 内的 CGContextDrawImage 上被忽略

当绘制到屏幕外缓冲区时我很难让图像插图正常工作在 UIImage 上使用 ressizedImageWithCapInsets 直接 setImage 到按钮中对我来说效果很好 UIImage base UIImage imageNam
如何启用模式验证以便 JAXB 拒绝空元素？

我遇到了一个棘手的 JAXB 解析问题我正在使用 JAXB RI 2 x 我已经使用 unmarshaller setSchema schema 启用了架构验证但是如果 XML 包含空元素 JAXB 不会抛出任何验证错误所以客户很乐
使用 pandas 的 if 语句会抛出“ValueError：系列的真值不明确”

我想查看我的数据框中是否存在某一列的特定字符串如果存在则触发 API 到目前为止的代码 if new df col1 str contains string True POST REQUEST elif new df col2 str c
不同级别的缓存是否运行在同一频域？

较大的高速缓存通常具有较长的位线或字线因此很可能具有较高的访问延迟和周期时间那么 L2 缓存是否与 L1 缓存在同一域中工作 L3 缓存切片怎么样因为它们现在是非包容性的并且在所有核心之间共享相关问题有一个内核中的所有功能单元
如何将这些坐标转换为谷歌地图可读坐标？

我需要将坐标转换为以下形式 N42 53 9 W072 16 2 变成像下面这样的东西 90 7311 0 346944 一个 php 函数将不胜感激或者只是一个公式也足够了我找到了一个在线JS计算器 and a PHP解决方案
Oracle SQL - 根据外键查询 2 个表

我有 2 个表我想进行一个查询并根据它们的外键对它们进行分组这是一个例子部门 DEPART ID PK DEPART NAME 1 Accounting 2 IT 雇员 EMP ID PK NAME SURNAME DEPART ID
在Android Studio上使用ARM64-v8a的汇编语言

我正在使用 Android studio 构建一个 Android 应用程序ARM64 v8a它可以要求装配功能在网上查了很多资料还是无法解决这个问题 My CMakeList txt如下 cmake minimum required
CIAreaHistogram 给我的除了最后一个元素之外全是 0？

我想计算 NSImage 的直方图所以我转向CIFilter自然有一个名为的过滤器CIAreaHistogram做我想做的事这是我的代码 NSBitmapImageRep rep image bitmapImageRepresenta
为什么是“&&”而不是“&”？

Why is 优于 and 优于我问了一个从事编程多年的人他的解释是例如在if bool1 bool2 bool3 DoSomething bool1必须是真实的才能进行测试bool2在继续之前这必须是正确的bool3等等如果我使
使用MySQL，如何在另一个表中不存在该值的情况下插入到表中？

我有一个 MySQL 数据库我想将一些值插入到一个表中假设我插入的特定值与另一表中的值不匹配这是一个简化示例结构 Table invites id int auto increment index name varchar mess
为什么可以定义一个名为var或dynamic的类？

今天我注意到我们可以定义一个名为var or dynamic 首先我认为这是不可能的因为这些是特殊关键字不能用作Class name 但后来我尝试了我很惊讶当我定义两个类时这是一个奇怪的情况 class var class dy
优化编辑距离算法

我有一个存储过程它使用编辑距离来确定最接近用户键入内容的结果唯一真正影响速度的是在选择距离最小的记录之前计算所有记录的 Levenshtein 距离的函数我通过将 0 代替对 Levenshtein 函数的调用来验证这一点该表有 1

优化编辑距离算法

优化编辑距离算法 的相关文章

随机推荐

热门标签

优化编辑距离算法的相关文章