简单的相似度计算

2023-11-16

相似度就是比较两个事物的相似性。一般通过计算事物的特征之间的距离,如果距离小,那么相似度大;如果距离大,那么相似度小。

欧氏距离

计算两个点的空间距离,距离越小,越相似。
在这里插入图片描述
二维平面:
在这里插入图片描述
三维平面:
在这里插入图片描述
n维向量:在这里插入图片描述
例:
a(1,1,2,0,1,1,0,0,0);
b(1,1,1,0,1,1,1,0,0);
c(0,0,0,1,0,0,1,1,1);

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

余弦相似度

1.也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。
在这里插入图片描述
2.两个向量a,b的夹角很小可以说a向量和b向量有很高的的相似性.
在这里插入图片描述
3.两个向量a,b的夹角很大可以说a向量和b向量有很低的的相似性,或者说a和b向量代表的文本基本不相似。
在这里插入图片描述
4.三角形中边a和b的夹角 的余弦计算公式为:
在这里插入图片描述
5.公式:
在这里插入图片描述
6.在向量表示的三角形中,假设a向量是(x1, y1),b向量是(x2, y2),那么可以将余弦定理改写成下面的形式,向量a和向量b的夹角 的余弦计算:
在这里插入图片描述
在这里插入图片描述
7.如果向量a和b不是二维而是n维,上述余弦的计算法仍然正确。假定a和b是两个n维向量,则a与b的夹角 的余弦等于:
在这里插入图片描述
例:
a(1,1,2,0,1,1,0,0,0,);
b(1,1,1,0,1,1,1,0,0);
c(0,0,0,1,0,0,1,1,1);

在这里插入图片描述
在这里插入图片描述

pearson相似度

皮尔森相关系数是用于衡量任意两个变量间线性相关程度的统计量,系数值的绝对值越大相关性越强,值域范围为[-1,1]。
在这里插入图片描述
皮尔逊相关度评价算法首先会找出两位评论者都曾评论过的物品,然后计算两者的评分总和与平方和,并求得评分的乘积之和。
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

例:

在这里插入图片描述
计算每一行的平均值。
在这里插入图片描述
每一行的评分减去各自的平均值
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Jaccard相似度

杰卡德系数是衡量两个集合间相似性的常用公式。在推荐系统中,杰卡德相似系数可以度量两个购买若干商品的用户之间的相似性。J值越大,说明相似度越高。其公式如下:
在这里插入图片描述
与Jaccard相似度相反的概念,用两个集合中不同元素的比例来衡量两个集合的区分度。公式为:
在这里插入图片描述
例:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

缺点:
Jaccard系数主要用于布尔值度量的个体间的相似度,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。只适用于二元属性数据的集合。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

简单的相似度计算 的相关文章

随机推荐

  • 人机交互-7-交互需求定义

    1 背景 无论取代或更新已有系统 还是开发新产品 需求的建立都是非常重要的 需求获取是项目设计的第一个阶段 确定和记录现有的工作流程 收集 将信息组织起来 整体上涵盖工作的各个方面 描述 产品是不同的 对需求提出了特殊的要求 用户是不同的
  • Spring中@Controller 和 @RestController 的作用与区别

    一 Controller 和 RestController都是Spring XXX类是否可以接收HTTP请求 二 Controller 和 RestController的不同点 当用 Controller时在方法上必须添加注解 Respon
  • 使用SVN钩子强制提交日志和限制提交文件类型

    作者 朱金灿 来源 http blog csdn net clever101 Subversion本身有很好的扩展性 用户可以通过钩子实现一些自定义的功能 所谓钩子实际上是一种事件机制 当系统执行到某个特殊事件时 会触发我们预定义的动作 这
  • python--判断闰年

    year int input 输入一个年份 if year 4 0 if year 100 0 if year 400 0 print 0 是闰年 format year else print 0 不是闰年 format year else
  • PyTorch训练简单的全连接神经网络:手写数字识别

    文章目录 pytorch 神经网络训练demo 输出结果 来源 pytorch 神经网络训练demo 数据集 MNIST 该数据集的内容是手写数字识别 其分为两部分 分别含有60000张训练图片和10000张测试图片 神经网络 全连接网络
  • App Transport Security has blocked a cleartext HTTP 报错解决办法

    Xcode 7 创建新项目用到 UIWebView 发送请求时 报下面的错 App Transport Security has blocked a cleartext HTTP http resource load since it is
  • Java制造业MES系统源码-免费领取

    Java制造业MES系统源码 免费领取 一 技术架构 开发环境 idea MySQL git redis 软件架构 Spring Boot Mybatis MybatisPlus SpringDataJpa Redis WkHtmlToPd
  • Spring源码分析(十一)依赖注入源码解析4:DefaultListableBeanFactory#findAutowireCandidates 根据类型查找所有候选Bean

    根据类型查找所有候选Bean org springframework beans factory support DefaultListableBeanFactory findAutowireCandidates protected Map
  • linux 如何rsync实现增量同步文件到多台机器?

    背景 我需要经常把160机器上的文件 同步到171 111 105等 为什么选择rsync 它可以实现增量同步 这也是没选scp的原因 所以 我选择rsync来实现 解决方案步骤如下 1 安装 sudo apt get install rs
  • Mac M1 安装 Ruby

    在M1芯片的Macbook安装Ruby会遇到很多问题 比如 用ruby install会失败 rbenv install 2 7 2也会失败 我结合网上的一些方法把成功的流程梳理一下 供参考 第一步 安装gpg brew install g
  • 网络证书有含金量吗?(转)

    网络证书有含金量吗 转 more 老板 含金量 市场需求 个人能力 说到证书的含金量 微软某培训经理曾经在网上有一个非常精辟的论述 如果两个人都是清华大学计算机系本科毕业的 两个人毕业时工资会一样么 如果发展三年以后 我想工资会相差很大 但
  • Java 终止线程的几种方式

    一 正常运行结束 所谓正常运行结束 就是程序正常运行结束 线程自动结束 public class ThreadTest extends Thread public void run do something 二 使用退出标志退出线程 一般r
  • JVM篇-堆空间(Heap)

    堆的核心概述 一个JVM实例只存在一个堆内存 堆也是Java内存管理的核心区域 Java堆区在JVM启动的时候既被创建 其空间到校也就确定了 是JVM管理的最大一块内存空间 堆内存可以调节 Java虚拟机规范 规范 对可以处于物理上不连续的
  • 关于SaaS平台中应对多租户模式的设计

    这几年 在公司尝试转型做产品 所以引入了很多的产品的理念 不管是对产品的定义 还是针对产品的管理 以及摸索产品的落地等等 我之前更多的是接触的ToB端 所以想必也猜到了是一个SaaS模式的产品 其实 现在回想并总结 之前所做的产品并不理想
  • Windows应急响应 - 敏感目录文件痕迹排查,最近打开的文件 Recent,临时目录Temp,预读取文件Prefetch,程序执行情况Amcache.hve,Windows文件访问时间不更新原理

    作者简介 CSDN top100 阿里云博客专家 华为云享专家 网络安全领域优质创作者 推荐专栏 对网络安全感兴趣的小伙伴可以关注专栏 网络安全入门到精通 敏感文件痕迹排查 一 根据时间查找 Forfiles 1 访问时间不更新问题 二 最
  • 电源管理芯片8个引脚说明

    1 脚 COMP 为误差放大器补偿脚 该脚与误差放大器反相输入端 VFB 之间应接入RC补偿网络 以改善误差放大器的性能 2 脚 VFB 为误差放大器的反相输入端 反馈电压接入该脚 与误差放大器同相输入端的基准电压比较 以便设定误差电压 3
  • 实现增删改查

    实现增删改查 1 UserMapper接口 要在UserMapper xml配置中的namespace中绑定这个接口 在mybatis config xml中绑定UserMapper xml这个配置文件
  • 阿里把中台变薄,背后逻辑是什么?

    颠覆式创新怎么做 中台适合做组合式创新 不适合做颠覆式创新 那么颠覆式创新如何做呢 各家巨头做法不太一样 腾讯使用 赛马机制 马化腾没有想到 10年前的那场 赛马 最后跑出来的是一个叫张小龙的人和他所带领的 微信 团队 而他们此前 从来没做
  • 关于接口自动化,你不能不知道的高级技巧——接口自动化神器apin进阶操作

    一 变量提取和引用 变量提取和引用主要是为了解决接口之间的参数依赖问题 使用场景 接口 A 的参数中需要使用接口 B 返回的某个数据 那么就要在请求 B 接口之后 提取数据保存 给请求 A 接口时使用 1 变量提取 在用例集或用例数据中 通
  • 简单的相似度计算

    相似度就是比较两个事物的相似性 一般通过计算事物的特征之间的距离 如果距离小 那么相似度大 如果距离大 那么相似度小 欧氏距离 计算两个点的空间距离 距离越小 越相似 二维平面 三维平面 n维向量 例 a 1 1 2 0 1 1 0 0 0