Elasticsearch之相关性评分

2023-11-05

一、概念:

     1、相关性:

       确切地说,应该加限定词,应该称作,已匹配到的内容的相关性。通俗地讲,就是已匹配到的内容跟要搜索的词(或句子)像不像。其中,已匹配到的内容,是指那些匹配了部分的搜索词的内容,或者完全和搜索词一模一样,这样就算匹配。而这个“像不像”,有一模一样,9分像,3分像的区别,而这个到底有多像,就是相关性。相关性评分是一个用数字量化的值,值越高,表示相关性越强,和要搜索的内容越接近。

二、计算:

       Elasticsearch 的相关性评分用一个正浮点数字段 _score 来表示。_score 的评分越高,相关性越高。查询语句会为每个文档生成一个 _score 字段用以表示相关性,默认按降序排序。ES早期版本使用的算法是:检索词频率/反向文档频率(即:TF/IDF算法),ES5.0以后使用的算法变成了BM25算法,是TF与IDF的乘积。根据不同的查询条件以及查询条件不同的组合方式,每个查询条件经过BM25算法得到的值会再经过不同的运算最终得到 _score相关性评分。其中:

       TF:Term Frequency,TF = (freq * (k1 + 1)) / (freq + k1 * (1 - b + b * fieldLength / avgFieldLength)),其中:

              freq: 某个词元在已匹配的某个文档的某个字段上出现的次数;

              k1:系统常量,取值范围为0~3之间,理想范围是0.5~2.0。用来控制匹配到的词元数对TF的影响程度。k1值小,匹配到词元数对TF的影响也就小,ES中默认为1.2;

              b:系统常量,取值范围为0~1之间,理想范围是0.3~0.9。用来控制字段长度fieldLength对score的影响程度。b=0时fieldLength对score无影响,b=1时fieldLength对score达到最大影响。ES 中默认为0.75;

              fieldLength:已匹配的某个文档的某个字段上的词元总数;

              avgFieldLength:已匹配的某个文档所在分片上的所有已匹配的文档的某字段上的平均词元数;

       IDF:IDF = log(1 + (docCount - docFreq + 0.5) / (docFreq + 0.5)),其中:

               docCount:已匹配的某个文档所在分片上的所有文档总数;

               docFreq:已匹配的某个文档所在分片上的已匹配的文档总数;

三、常用API:

       1、  查看相关性得分的计算明细:

GET http://$user:$passwd@$host:$port/$index/$type/_search
{
    "explain": true,
    "query":{
        查询条件
    }
}

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Elasticsearch之相关性评分 的相关文章

随机推荐

  • 【Firefly入门教程】firefly、MySQL和Memcached共同使用

    coding utf8 firefly MySQL和Memcached共同使用 from firefly dbentrust dbpool import dbpool from firefly dbentrust memclient imp
  • 1116:打印零与奇偶数

    题目描述 假设有这么一个类 class ZeroEvenOdd public ZeroEvenOdd int n 构造函数 public void zero printNumber 仅打印出 0 public void even print
  • 什么是文件服务器

    文件服务器是一种器件 它的功能就是向服务器提供文件 在计算机局域网中 以文件数据共享为目标 需要将供多台计算机共享的文件存放于一台计算机中 这台计算机就被称为文件服务器 文件服务器具有分时系统管理的全部功能 能够对全网统一管理 能够提供网络
  • 自己如何重装系统_重装系统方法汇总

    系统崩溃或者蓝屏后 只能重装系统才能解决问题 电脑安装系统方法很多 除费时麻烦现在很少应用的完全安装方法外 常用克隆安装 其方法又分为 硬盘安装 适用于进行过系统备份的熟练用户 U盘安装 适用于有一定电脑操作能力的基础用户 和光盘安装 适用
  • HuggingFace学习3:加载预训练模型完成机器翻译(中译英)任务

    加载模型页面为 https huggingface co liam168 trans opus mt zh en 文章目录 整理文件 跑通程序 测试预训练模型 拆解Pipeline 逐步进行翻译任务 整理文件 首先下载模型所需的全部文件 h
  • 手动搭建python环境

    手动安装python3 9 1 wget https www python org ftp python 3 9 1 Python 3 9 1 tgz tar xf Python 3 9 1 tgz cd Python 3 9 1 sudo
  • 试题 算法提高 拦截导弹

    资源限制 内存限制 256 0MB C C 时间限制 1 0s Java时间限制 3 0s Python时间限制 5 0s 问题描述 某国为了防御敌国的导弹袭击 发展出一种导弹拦截系统 但是这种导弹拦截系统有一个缺陷 虽然它的第一发炮弹能够
  • Docker入门之安装Tomcat

    目录 1 Docker 中安装 Tomcat 1 1 查看 Docker Hub 上的 Tomcat 镜像 1 2 从 Docker Hub 上拉取 Tomcat 镜像 1 3 查看本地镜像列表中拉取的 Tomcat 镜像 2 创建容器并运
  • EM算法及其改进算法

    EM算法及其改进算法 搬运 EM算法笔记一 讲了基础的EM算法 EM算法笔记二 讲述了EM的改进算法 讲得很清晰 EM算法笔记三 不同应用场景的阐述
  • JavaScript实现跳跃游戏的贪婪方法的算法

    JavaScript实现跳跃游戏的贪婪方法的算法 跳跃游戏是一种常见的游戏类型 其中玩家需要控制角色进行跳跃操作以避开障碍物并达到目标 在这篇文章中 我们将使用JavaScript实现跳跃游戏的贪婪算法 该算法能够根据当前情况做出最优的跳跃
  • SpringFramework核心技术一(IOC:使用ICO容器)

    使用容器 这ApplicationContext是高级工厂的接口 能够维护不同bean及其依赖项的注册表 使用该方法T getBean String name Class requiredType 可以检索bean的实例 一 在Applic
  • 稀疏贝叶斯学习【Sparse bayesian learning】

    参考文献 An Empirical Bayesian Strategy for Solving the Simultaneous Sparse Approximation Problem 传统图像恢复 例如用Gaussian 噪声模型 TV
  • 基于ROS环境的相机标定教程

    一 参考资料 ROS学习 利用电脑相机标定 二 安装usb cam驱动包 usb cam ROS Wiki GitHub ros drivers usb cam A ROS Driver for V4L USB Cameras usb ca
  • 五、Android开发基础知识

    android系统一共分为四层 application java应用程序 Framework java框架或系统服务 Library 本地框架或本地服务又称为Native Android Runtime java运行环境 Linux Ker
  • app逆向篇之常用命令及刷机

    前言 之前刷机的时候记录的 刚好今天发一下 这篇仅用来记录学习及实践过程中的一些知识点 如有错误或不足之处 望大佬们不吝指教 ADB命令 1 连接设备 adb tcpip 5555 指定连接端口 adb connect 192 168 12
  • Eclipse下载与安装

    一 下载Eclipse 1 下载链接 https www eclipse org downloads 2 点击Download Packages 不要点击Download 64 bit 因为我没点这个 所以不知道 点击进去之后会有很多版本的
  • 基于深度学习的IQA论文整理

    文章目录 经典的CORNIA 经典的BRISQUE 用CNN进行质量评价的典型文章 最近的一些新颖的方法 经典的CORNIA Unsupervised Feature Learning Framework for No reference
  • 微软 Windows Server 2016 简体中文 MSDN 官方原版 ISO 镜像下载

    Windows Server 2016 它可以理解为服务器版的 Windows 10 宣告整个核心架构定型稳定 Windows Server 2016 是微软推出的第六个 Windows server 版本 也是 Windows 10 的服
  • 完美解决微信小程序使用复选框van-checkbox无法选中

    由于小程序使用了vant ui框架 导致checkbox点击无法选中问题
  • Elasticsearch之相关性评分

    一 概念 1 相关性 确切地说 应该加限定词 应该称作 已匹配到的内容的相关性 通俗地讲 就是已匹配到的内容跟要搜索的词 或句子 像不像 其中 已匹配到的内容 是指那些匹配了部分的搜索词的内容 或者完全和搜索词一模一样 这样就算匹配 而这个