python 计量_详解Python 字符串相似性的几种度量方法

2023-05-16

字符串的相似性比较应用场合很多，像拼写纠错、文本去重、上下文相似性等。

评价字符串相似度最常见的办法就是：把一个字符串通过插入、删除或替换这样的编辑操作，变成另外一个字符串，所需要的最少编辑次数，这种就是编辑距离（edit distance）度量方法，也称为Levenshtein距离。海明距离是编辑距离的一种特殊情况，只计算等长情况下替换操作的编辑次数，只能应用于两个等长字符串间的距离度量。

其他常用的度量方法还有 Jaccard distance、J-W距离（Jaro–Winkler distance）、余弦相似性（cosine similarity）、欧氏距离（Euclidean distance）等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安装 Levenshtein

# -*- coding: utf-8 -*-

import difflib

# import jieba

import Levenshtein

str1 = "我的骨骼雪白也长不出青稞"

str2 = "雪的日子我只想到雪中去si"

# 1. difflib

seq = difflib.SequenceMatcher(None, str1,str2)

ratio = seq.ratio()

print 'difflib similarity1: ', ratio

# difflib 去掉列表中不需要比较的字符

seq = difflib.SequenceMatcher(lambda x: x in ' 我的雪', str1,str2)

ratio = seq.ratio()

print 'difflib similarity2: ', ratio

# 2. hamming距离，str1和str2长度必须一致，描述两个等长字串之间对应位置上不同字符的个数

# sim = Levenshtein.hamming(str1, str2)

# print 'hamming similarity: ', sim

# 3. 编辑距离，描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换

sim = Levenshtein.distance(str1, str2)

print 'Levenshtein similarity: ', sim

# 4.计算莱文斯坦比

sim = Levenshtein.ratio(str1, str2)

print 'Levenshtein.ratio similarity: ', sim

# 5.计算jaro距离

sim = Levenshtein.jaro(str1, str2 )

print 'Levenshtein.jaro similarity: ', sim

# 6. Jaro–Winkler距离

sim = Levenshtein.jaro_winkler(str1 , str2 )

print 'Levenshtein.jaro_winkler similarity: ', sim

输出：

difflib similarity1: 0.246575342466

difflib similarity2: 0.0821917808219

Levenshtein similarity: 33

Levenshtein.ratio similarity: 0.27397260274

Levenshtein.jaro similarity: 0.490208958959

Levenshtein.jaro_winkler similarity: 0.490208958959

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 计量_详解Python 字符串相似性的几种度量方法的相关文章

centos make 升级_Centos7 cmake 版本升级（由 v2.8.12.2 升级至 v3.16.6）

Centos7 cmake 版本升级由 v2 8 12 2 升级至 v3 16 6 在centos7 yum源中和系统自带的cmake版本为2 8 12 2 xff1b 在编译某些文件的时候会提醒cmake版本过低 xff0c 本文旨在解
mysql自连接做类别树,VF笔记

1 栈实际也是线性表 xff0c 只不过是一种特殊的线性表栈是只能在表的一端进行插入和删除运算的线性表 xff0c 通常称插入删除的这一端为栈顶 xff0c 另一端为栈底队列是只允许在一端删除 xff0c 在另一端插入的顺序表 xf
qdbus模块_PyQt 学习笔记4——库结构

代码结构 PyQt安装完后Python Lib site packages PyQt5 有相关的pyd文件 xff0c 这个是编译后的python库文件 xff0c 相当于DLL或者是SO库文件 xff0c 代码编辑器无法直接预览 xff0
you-get下载b站选集_Flash选集：炫酷效果和实用的ActionScript-第5章：声音效果

you get下载b站选集 Sadly sound within Flash projects is often included as an afterthought if it s included at all Hurried las
debian重启ssh服务_3 个 Linux 上的 SSH 图形界面工具 | Linux 中国

了解一下这三个用于 Linux 上的 SSH 图形界面工具 Jack Wallen 在你担任 Linux 管理员的职业生涯中 xff0c 你会使用 Secure Shell SSH 远程连接到 Linux 服务器或桌面可能你曾经在某些情况
樱花代码html_程序媛的专属樱花来啦

Turtle简介 Turtle库是Python语言中一个很流行的绘制图像的函数库 xff0c 想象一个小乌龟 xff0c 在一个横轴为x 纵轴为y的坐标系原点 xff0c 0 0 位置开始 xff0c 它根据一组函数指令的控制 xff0c
灰色关联度分析excel步骤_灰色关联度分析（Grey Relation Analysis，GRA）原理详解

释名灰色关联度分析 xff08 Grey Relation Analysis xff0c GRA xff09 xff0c 是一种多因素统计分析的方法简单来讲 xff0c 就是在一个灰色系统中 xff0c 我们想要了解其中某个我们所关注的
7岁儿童智力检测题_经典8岁儿童智商测试题（答案）

以下是一例国内更有权力的IQ测试请在30分钟的时间完成 30个问题如下是一例国内较权势巨子的IQ测试题 xff0c 请在30分钟内完成 30题一选出不同类的一项 xff1a A 蛇 B 大树 C 山君二在以下分数中 xff0c
5w2h原则指的是什么_小白也能学会的5W2H工作法

5W2H即what why who when where how how much many xff0c 翻译成中文也就是 xff1a 做什么 xff0c 为什么做 xff0c 谁去做 xff0c 何时做 xff0c 何地做 xff0c 怎
计算机查找功能的使用,详解电脑搜索快捷键是什么?

办公软件Office使用经常要替换或更改文档上面的字眼 xff0c 那么如何快速查找文档上面的相关的全部关键词呢 xff1f 其实Office软件提供内置的搜索查找功能 xff0c 能够快速定位关键词位置以及个数 xff0c 甚至快速替换等
神舟电脑显示rpc服务器不可以,NuttX 介绍

16z amber arduino due avr32dev1 c5471evm cloudctrl compal e86 compal e88 compal e99 demo9s12ne64 ea3131 ea3152 eagle100
win10服务器权限修改时间,win10系统没有权限修改系统时间的解决方法

很多小伙伴都遇到过win10系统没有权限修改系统时间的困惑吧 xff0c 一些朋友看过网上零散的win10系统没有权限修改系统时间的处理方法 xff0c 并没有完完全全明白win10系统没有权限修改系统时间是如何解决的 xff0c 今天小编
服务器维护课题综述,服务器管理与配置结课报告综述.docx

天津电子信息职业技术学院服务器部署与管理结课报告课题名称 Windows2008和Linux Redhat 5操作系统下的服务器功能部署姓名许光宗学号 01 班级网络S14 2班专业计算机网络技术所在系网
ubuntu http错误_Windows安装WSL--Ubuntu

TOC 第一步 xff1a 安装wsl 第二步 xff1a 安装wsl terminal 第三步 xff1a 更新root用户的密码第四步 xff1a 更换软件源 apt源和pip源第五步 xff1a 安装zsh 第六步 xff1a 安
vc++如何使用大数组_C ++程序在2D数组中查找最大和第二大数

vc 43 43 如何使用大数组 Here is the C 43 43 program to find largest and second largest number in a 2d array or matrix 这是C 43 43
micro usb接口正负极_关于手机MicroUSB接口数据线，这里有最详细解说

众所周知 xff0c 现在手机数据线的接口主要有三种 xff1a 即Micro USB接口 USB Type C接口以及iOS系统手机的Lightning接口在安卓旗舰手机上 xff0c USB Type C接口已逐渐取代MicroUSB
kisboot.sys无法启动系统_电脑系统无法启动，引导损坏，如何解决

电脑系统无法启动 xff0c 引导损坏怎么回事 xff1f 面对电脑黑屏的状况 xff0c 通过手机翻译黑屏上面的英文提示 34 系统引导损坏 34 的意思 xff0c 如何解决呢 xff1f 下面让小白系统教你面对黑屏如何解决电脑系统无法
python 取数组最后一个_在Python中获取列表的最后一个元素

在Python中你如何得到列表的最后一个元素为了得到最后一个元素不用修改列表假设你知道该列表有最后一个元素即它是非空的传递 1给下标符号 gt gt gt a list zero one two three gt gt gt a
linux history文件位置,备份Linux终端历史记录及恢复历史备份的方法

Linux终端具有历史记录功能 xff0c 使用此功能 xff0c 你输入的每个命令操作都将备份以供日后使用 xff0c 由于所有终端命令都保存在历史记录中 xff0c 因此必须对其进行备份以便妥善保管在本文中 xff0c 我们将向你展示
tcp服务器如何做网络断开修改,TCP服务器模式SOCKET循环周期断开部分 - 如何使用网络单片机W7100A实现TCP通信？...

1 6断开 DISCONNECT 关闭SOCKET的方法通常有两种 xff1a 第一种方法是通过DISCONNECT n 函数 DISCONNECT n 函数不能用来直接关闭SOCKET 它先向对端发送断开连接请求 FIN数据包 xff0c

随机推荐

服务器芯片功耗,Intel推18核心服务器U：功耗实在夸张

从Intel的一份技术文档里 xff0c 我们发现了四款新的服务器处理器 xff0c 包括Broadwell家族的单路型Xeon E3 1270 v4 xff0c Haswell家族的顶级Xeon E7 4805 8892 8895 v3
手机投屏电视显示服务器连接失败,投屏失败怎么办？两种投屏到电视的方法教学...

我们在使用手机投屏功能时总会遇到各种问题 xff0c 比如说 xff1a 找不到设备投屏失败等 xff0c 遇到这种情况怎么办 xff1f 小编为大家提供两种方式手机投屏电视主要有无线和有线两种方式 xff0c 先来说说无线方式 xf
wxpython控件如何调整大小_wxPython中Frame框架点击最大化后为何里面的内容和控件不能自动跟着拉伸变大？...

coding 61 utf 8importsqlite3 as liteimportwx os sys stringimportwx lib buttonsimportwx lib buttons as buttonsimportosfro
安装linux系统步骤_图解Debian10Linux系统的安装步骤

Debian 作为最早最老牌的 Linux 发行版之一 xff0c 它在创建之初便紧密遵循 GNU 规范并坚守 Unix 和开源自由软件的精神最大优点是极其稳定快速 xff0c 同时拥有强大的 APT 包管理机制和丰富的软件源 xff0c
android加载efi分区,玩转Android-x86（安装启动、个性定制、高级运用）-8.5更新2楼分区挂载代码支持多硬盘...

玩转Android x86 安装启动个性定制高级运用安装篇本文并不是一篇高大上的教程 xff0c 只是本人多年来的玩机经验总结 xff0c 以及在不同系统不同机型遇到的问题解决备忘录 xff0c 本着团结互助分享的精神 x
android 设备序列号_如何查找您的Android设备的序列号

android 设备序列号 Your device s serial number is a unique code that the manufacturer gives the phone No two serial numbers a
yolov5论文_进击的后浪yolov5深度可视化解析

AI编辑 xff1a 深度眸 0 摘要论文 xff1a 暂无 github https github com ultralytics yolov5 我注释版本 https github com hhaAndroid yolov5 comm
找不到ffmpeg.dll无法继续执行代码怎么办_重构的艺术：五个小妙招助你写出好代码！...

全文共 8912字 xff0c 预计学习时长 14分钟作者lloorraa xff0c 来源need pix 糟糕的代码可以运作 xff0c 但早晚会让我们付出代价你有没有遇到过这样的问题 xff1a 几周后 xff0c 你无法理解自己
excel表格行列显示十字定位_EXCEL中如何设置点击任意一个单元格出现一个十字架标明行和列...

在Excel中为了增强活动单元格的对比性有时候我们常常需要修改其背景颜色字体字号等用来区分和其它单元格的对比本教程让我们一起来学习如何让Excel活动单元格所在行和列都着上背景颜色首先看下图上图中即C3单元格被鼠标选
幅值与峰峰值的计算_正弦波的幅度指的是峰值还是峰峰值

指的是峰值正弦曲线y 61 Asin x 43 43 k xff0c 定义为函数y 61 Asin x 43 43 k在直角坐标系上的图象 xff0c 其中sin为正弦符号 xff0c x是直角坐标系x轴上的数值 xff0c y是在同一直
matlab打开mat文件,MAT文件打开方法汇总及其他操作

MAT文件是MATLAB使用的一种特有的二进制数据文件 MAT文件可以包含一个或者多个MATLAB 变量 MATLAB通常采用MAT文件把工作空间的变量存储在磁盘里 xff0c 在MAT文件中不仅保存各变量数据本身 xff0c 而且同时保
服务器修改ip无法连接数据库,服务器如何设置ip连接数据库

服务器如何设置ip连接数据库内容精选换一换云搜索服务 Cloud Search Service 为用户提供结构化非结构化文本的多条件检索统计报表 xff0c 本章节介绍如何通过CDM将数据从Oracle迁移到云搜索服务中 xff
苹果7 plus手机显示无服务器,天了噜！iPhone 7 Plus 居然有这些功能！非买不可！...

原标题 xff1a 天了噜 xff01 iPhone 7 Plus 居然有这些功能 xff01 非买不可 xff01 玩才是正经事儿关注我才是硬道理每天哭着喊着要小7的宝宝们 xff0c 小编刚刚得到的消息 xff0c 看完你们可能想
io密集服务器cpu性能,IO密集型和CPU密集型线程数的计算

CPU密集型每一个CPU核心都参与计算 xff0c 将CPU的性能充分利用起来 xff0c 这样才算是没有浪费服务器配置 xff0c 如果在非常好的服务器配置上还运行着单线程程序那将是多么重大的浪费对于计算密集型的应用 xff0c 完全
linux 4g 切换有线网,4G和有线网络的自动切换

最近项目有个需求 xff0c 把移动服务器设备 Ubuntu14 04 安装4G模块 xff0c 但如果连接有线时 xff0c 可以自动切换到有线 xff0c 以降低移动流量带来的费用以下是我实现的方法经过一番痛苦的摸索 1 脚本 op
飞象求职学python_用Python制作markdown编辑器

还记得在上篇提到的rest framework xff0c 文档中提到了markdown也是可选应用那么这篇我们就来尝试使用markdown来制作一个在线的可以预览的editor 安装 Python Markdown pip instal
sql日期格式转换函数_SQL转换日期

sql日期格式转换函数介绍 Introduction A common task for newbies is to learn how to do a SQL convert date and work to convert them
windows 远程连接debian_用Windows的远程桌面连接访问Debian和Ubuntu图形界面

Linux 的服务器我一般是不安装图形界面的 xff0c 但是有的客户需要使用 VPS 的图形界面 xff0c 又觉得 Windows 的 VPS 性价比不高 xff0c 所以我就尝试了在 Windows 上远程访问 Debian 和 U
ca证书 linux 导入_CA搭建与证书申请

一 xff1a 创建私有CA openssl的配置文件 xff1a etc pki tls openssl cnf 根据此配置文件创建CA dir xff1a CA相关文件存放路径 etc pki CA certs 证书存放目录 etc p
python 计量_详解Python 字符串相似性的几种度量方法

字符串的相似性比较应用场合很多 xff0c 像拼写纠错文本去重上下文相似性等评价字符串相似度最常见的办法就是 xff1a 把一个字符串通过插入删除或替换这样的编辑操作 xff0c 变成另外一个字符串 xff0c 所需要的最少编辑次数

python 计量_详解Python 字符串相似性的几种度量方法

python 计量_详解Python 字符串相似性的几种度量方法 的相关文章

随机推荐

热门标签

python 计量_详解Python 字符串相似性的几种度量方法的相关文章