词句相似度计算——余弦相似度

2023-10-28

余弦相似度,是一种通过判断两个向量的夹角来判断其相似性的数学方法。

举个栗子:

A:中国工商银行北京分部北京支行

B:中国招商银行广西分部桂林支行

我们用“余弦相似度”的办法来判断这两个句子的相似性

1、分词!

第一步要做的肯定是分词,把一个句子分成一组一组的散词,分词一般我们会用现成的语料库,比如结巴分词是吧,传说中的最好用的中文分词模块包。如果不是专业性特别强的方向,足矣,如果是专项的,比如医学、金融学、药学等专业相关,那肯定得自己构建一套自己的分词系统,不过这些网上也是一堆一堆的。怎么分词,待会咱们代码见!

2、词转向量

假设我们已经分好了词:

A:中国、工商银行、北京、分部、北京、支行

B:中国、招商银行、广西、分部、桂林、支行

这样我们就有了一个局部语料库,bags=['中国', '工商银行', '招商银行', '北京', '广西','支行','桂林', '分部'],这是个有序集合(最好是有序)

                     ['中国', '工商银行', '招商银行', '北京', '广西','支行','桂林', '分部']

对于A而言,                     

向量为:      [1               1                  0                2           0       1         0  

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

词句相似度计算——余弦相似度 的相关文章

随机推荐

  • php 反序列化总结

    果然不记笔记过一段时间就有一些东西忘了 这里给大家一个参考 如果有什么不对 希望各位师傅可以提出来 目录 基本 序列化 serialize函数 json encode函数 反序列化 unserialize函数 json decode函数 魔
  • vue3 页面导出为pdf

    下载插件 jspdf 2 5 1 html2canvas 1 3 3 import as html2canvas from html2canvas import as jspdf from jspdf function downloadpd
  • Moonbeam生态跨链互操作项目汇总

    立秋已过 今年的夏天已经接近尾声 即将迎来凉爽的秋天 Moonbeam生态一同以往持续成长 在8月也举办了不少活动 完成集成合作以及协议更新 让我们一同快速了解Moonbeam生态项目近期发生的大小事件吧 Moonwell Moonwell
  • 穷举篇(三)之经典穷举案例

    四 针对有验证码后台穷举 网站后台或者有登录的地方都可能存在验证码验证 验证码的作用 不少网站为了防止用户利用机器人自动注册 登录 灌水 都会采用验证 码技术 所谓的验证码 就是将一串随机产生的数字和符号 生成一幅图片 在图像上加上干扰像素
  • pip的基本命令和使用

    作者介绍 作者 小刘在C站 每天分享课堂笔记 一起努力 共赴美好人生 夕阳下 是最美的绽放 目录 一 pip介绍 二 pypi仓库 三 pip安装与使用 1 pip命令在哪里输入 2 pip的使用 3 pip的安装库的基本命令 4 pip库
  • [gulimall]订单及库存

    1 提交订单 查询商品信息 查询收货地址 查询库存信息 计算价格 2 下订单 1 验证令牌防止重复提交 获取当前用户登录的信息 通过lua脚本验证令牌和删除令牌 2 验证价格 从数据库查询最新的商品价格 和订单的金额对比 如果不一致则返回错
  • iOS Epub阅读器改造记录

    六个月前在这个YHEpubDemo阅读器的基础上做了一些优化 这里做一下记录 1 首行缩进修复 由于分页的存在 新的一页的首行可能是新的一行 则应该缩进 也可能是前面一页段落的延续 这时候不应该缩进 YHEpubDemo基于XDSReade
  • 基于java的https双向认证,android上亦可用

    https my oschina net jjface blog 339144 摘要 概述 客户端 浏览器或者使用http协议和服务器通信的程序 如 客户端通过浏览器访问某一网站时 如果该网站为HTTPS网站 浏览器会自动检测系统中是否存在
  • 跟着React官网学习(一):小游戏

    目标简述 简单了解React Props传值 组件之间的交互 开发者工具 使用vscode开发 搭建环境创建项目 1 安装node js和npm 2 使用create react app创建项目并运行 1 在dos命令窗口 指定文件目录 输
  • 【UI自动化】selenium中三种等待方式

    Selenium 等待方式 Selenium 等待方式 示例 time sleep seconds 固定等待 智能隐性的等待implicitly wait 回应超时等待 智能显性等待WebDriverWait expected condit
  • JPA之JPA中的联合主键

    如果要搭建JPA开发环境 请从JPA第一篇博客看起 下面以坐飞机为例 讲解联合主键的使用 基本思想是一条航线由两个端点组成 1 组合主键类 package compositepk import java io Serializable im
  • Python共生矩阵对比奇异值分解 (SVD)和词嵌入

    词嵌入 词嵌入是转换成数字的文本 同一文本可能有不同的数字表示 许多机器学习算法和几乎所有深度学习架构都无法处理原始形式的字符串或纯文本 它们需要数字作为输入来执行任何类型的工作 从广义上讲是分类 回归等 不同类型的词嵌入可以大致分为两类
  • ubuntu下Android Studio安装教程

    1 首先是jdk和Androidstudio的安装包 http www oracle com technetwork java javase downloads jdk8 downloads 2133151 html下载JDK jdk安装步
  • jenkins部署vue项目详细步骤

    第一步 创建项目 新建Item 输入名字 选择项目类型 第二步 配置基本信息 输入对项目的简单描述 第三步 选择源码管理 我这里用的是码云 注 如果Credentials部分没有连接git的账号密码 需要去配置 第四步 配置构建触发器 我这
  • 基于RFID定位技术的室内定位原理--RFID室内定位--新导智能

    通讯网络的蜂窝定位技能除外 常见的室内无线定位技能还有 Wi Fi 蓝牙 红外线 超宽带 RFID ZigBee和超声波等 但是在这里我们就不一一列举了 我们只探讨应用最为广泛的RFID室内定位 RFID定位原理 射频辨认 RFID 技能是
  • JavaScript入门基础(二)

    目录 1 JavaScript概述 2 HTML世界 3 JavaScript基本语法 4 JavaScript语句 5 JavaScript内置对象 6 Document对象 7 window和frame 8 表单对象 9 了解其他常用对
  • K8S报错error validating data: ValidationError(Deployment.spec): missing required field selector

    报错如下 这是我在执行 deployment控制器的Pod副本时出现的报错 报错意思 部署验证错误 在deploymentspec模块中必须指定 selector参数 原YAML文件 在 Deployment spec 模块中 只指定了 r
  • 什么是主数据管理?企业主数据管理方法论

    什么是主数据管理 主数据又被称为黄金数据 其价值高也非常重要 对企业来说 主数据的重要性如何强调都不为过 主数据治理是企业数据治理中最为重要的一环 主数据管理的内容包括 主数据管理标准 主数据应用标准 和 主数据集成服务标准 三大类 主数据
  • easyAR使用

    1 helloAR试运行 参考视频 https www bilibili com video av6497575 from search seid 266540759772649759 1 easyAR官网下载SDK for unity3D
  • 词句相似度计算——余弦相似度

    余弦相似度 是一种通过判断两个向量的夹角来判断其相似性的数学方法 举个栗子 A 中国工商银行北京分部北京支行 B 中国招商银行广西分部桂林支行 我们用 余弦相似度 的办法来判断这两个句子的相似性 1 分词 第一步要做的肯定是分词 把一个句子