ES如何提高召回率之【词干提取】

2023-12-05

想要提高召回率就需要尽可能匹配相关的文档，其中一个办法就是在索引阶段对词语分析（分词器）的时候提取词干，搜索的时候也取词干。

不取词干

es默认使用的是 标准的分词器 ，是不会取词干的。
但是标准分词器是包含小写转换分词过滤器的，也是可以 提高召回率 的。

{
    "analyzer": "standard",
    "text": "I liked apple"
}

{
    "tokens": [
        {
            "token": "i",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<ALPHANUM>",
            "position": 0
        },
        {
            "token": "liked",
            "start_offset": 2,
            "end_offset": 7,
            "type": "<ALPHANUM>",
            "position": 1
        },
        {
            "token": "apple",
            "start_offset": 8,
            "end_offset": 13,
            "type": "<ALPHANUM>",
            "position": 2
        }
    ]
}

【liked】被分词器切割出来了

那我们使用【liked】进行搜索是能搜索出来的，但是如果我们使用【like】是无法搜索出来的。

那为了提高召回率，我们需要对【liked】二次提取，提取出词干【like】，那么搜索的时候，无论是使用like、liked、liking都能搜索出来了

取词干

使用能取词干的分词器，比如english

{
    "analyzer": "english",
    "text": "I liked apple"
}

{
    "tokens": [
        {
            "token": "i",
            "start_offset": 0,
            "end_offset": 1,
            "type": "<ALPHANUM>",
            "position": 0
        },
        {
            "token": "like",
            "start_offset": 2,
            "end_offset": 7,
            "type": "<ALPHANUM>",
            "position": 1
        },
        {
            "token": "appl",
            "start_offset": 8,
            "end_offset": 13,
            "type": "<ALPHANUM>",
            "position": 2
        }
    ]
}

【liked】提取出来的词干是【like】

取词干带来的准确率问题

问题描述

如果用户就是想根据时态（过去式、过去分词）搜索，返回的数据会和用户预料的一样么？
比如：现在有两条数据

{"id":1,"content":"I like apple"}
{"id":2,"content":"I liked apple"}

现在搜索词是【liked】，那么两条数据都会被搜出来，并且评分一样，如下：

{
    "query":{
        "match":{
            "content":"i liked it"
        }
    }
}

{
    "took": 1,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 2,
            "relation": "eq"
        },
        "max_score": 0.18232156,
        "hits": [
            {
                "_index": "dong_analyzer_test",
                "_type": "_doc",
                "_id": "1",
                "_score": 0.18232156,
                "_source": {
                    "id": 1,
                    "content": "I like apple"
                }
            },
            {
                "_index": "dong_analyzer_test",
                "_type": "_doc",
                "_id": "2",
                "_score": 0.18232156,
                "_source": {
                    "id": 2,
                    "content": "I liked apple"
                }
            }
        ]
    }
}

可以发现文档2排在了第二位，如果数量多一点，可能页面第一页都看不到他，但实际上他应该排在第一位

解决办法

再加一个字段

{
  "properties": {
      "content": {
        "type": "text",
        "analyzer": "english",
        "fields": {
          "std": {
            "type": "text",
            "analyzer": "standard"
          }
        }
      }
    }
}

content：使用了提取词干的分词器
content.std：不使用标准分词器

注意：如果是新增字段，需要重新导入一遍数据。

搜索的时候进行多字段搜索

{
   "query": {
        "multi_match": {
            "query":  "I liked it",
            "type":   "most_fields", 
            "fields": [ "content", "content.std" ]
        }
    }
}

most_fields：是将两个字段查询的评分加起来

{
    "took": 1,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 2,
            "relation": "eq"
        },
        "max_score": 1.2401118,
        "hits": [
            {
                "_index": "dong_analyzer_test",
                "_type": "_doc",
                "_id": "2",
                "_score": 1.2401118,
                "_source": {
                    "id": 2,
                    "content": "I liked apple"
                }
            },
            {
                "_index": "dong_analyzer_test",
                "_type": "_doc",
                "_id": "1",
                "_score": 0.5469647,
                "_source": {
                    "id": 1,
                    "content": "I like apple"
                }
            }
        ]
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

数据库

ES如何提高召回率之【词干提取】的相关文章

如何修改 Elasticsearch 文档的 _source 字段

问题有没有办法从文档的 source 中清除 html html 的剥离可以是周期性的触发的或者理想情况下是在索引时即时进行的我将数据输入到elasticsearch中并针对分析器进行索引该分析器在索引之前剥离不需要的htmls
如何将停用词添加到 ElasticSearch 中的默认列表

我想在默认值中添加更多单词 english 停止例如 inc incorporated ltd 和 limited 我怎样才能实现这一目标我当前创建索引的代码如下谢谢 PUT my index settings analysis fi
Elasticquent(ElasticSearch) Laravel 限制

您好我尝试使用 elasticSearch 查询获取所有结果但如果 limit 值为 null 则仅返回 10 个结果 videos Video searchByQuery match gt field gt request gt fi
如何查询elasticsearch大于和小于？

我想获取 1000 到 2000 之间的值我尝试了以下查询 query bool filter range price gte 1000 price lte 2000 但这并没有给出令
Elasticsearch：将新元素附加到对象的嵌套数组

我正在尝试将新项目添加到特定文档中的嵌套对象数组中我已经搜索过似乎部分文档的更新不支持我需要的内容它用新元素替换了整个数组所以我进行了脚本化更新它通过 REST API 按预期工作 PUT transactions mapping
如何使用 Jest 从 ElasticSearch 获取索引列表

我正在尝试使用 Jest 检索索引列表但我只得到 Stats statistics new Stats Builder build result client execute statistics 如何从结果中检索索引列表除了统计之外
ElasticSearch：设置 search_analyzer 时必须设置字段分析器

我读过有关 ES 的早期版本 type mapper parsing exception reason analyzer on field email must be set when search analyzer is set 这是当我
字段中的点不用于分解分析器的单词

我有以下索引文档映射简化 documents mappings document properties filename type string fields lower case sort type string
弹性搜索不提供页面大小较大的数据

获取数据大小约20 000 问题在 python 中使用以下命令搜索 Elasticsearch 索引数据但没有得到任何结果 from pyelasticsearch import ElasticSearch es repo Elas
为什么这个 ElasticSearch 扫描和滚动不断返回相同的滚动 id？

所以首先我运行以下命令 curl s XGET http localhost 9200 my index search scroll 1m search type scan size 10 这会返回一个滚动 ID 然后我在第一个滚动请求中使
Airflow log_id 格式错误

我正在使用 Airflow v2 2 3 和apache airflow providers elasticsearch 2 1 0 在 Kubernetes 中运行我们的日志会自动发送到 Elasticsearch v7 6 2 我在
在elasticsearch中映射一本书，具有多个级别，嵌套关系与父子关系

当为可以搜索多本书的索引创建映射时最好使用如下所示的嵌套映射还是使用带有亲子关系 https www elastic co guide en elasticsearch guide current parent child html b
Elasticsearch，如何使 NEST 地图响应类

首先我使用的是NEST 5 5 0 我对远程 elasticsearch index 的使用如下 var node new Uri http distribution virk dk cvr permanent var settings
ElasticSearch：Jest、Rest、TransportClient、NodeClient

我已经浏览了官方文档https www elastic co blog found interface elasticsearch picking client https www elastic co blog found interfa
Elasticsearch 查询时间增加会产生顺序不足的结果

给定搜索关键字的 ES 搜索结果one two three申请后好像出错了boost每个关键字的功能请帮助我修改我的错误查询以实现下面我所描述的预期结果我在ES1 7 4与卢塞恩4 10 4 提升标准 three 被认为是最重要
在 Elasticsearch 中将字符串的默认映射更改为“未分析”

在我的系统中数据的插入始终是通过 Logstash 通过 csv 文件完成的我从不预先定义映射但每当我输入一个字符串时它总是被认为是analyzed 结果像这样的条目hello I am Sinha被分成hello I am Sin
在 Elasticsearch Nest 查询中加载特定字段

该文档似乎表明我可以返回字段的子集而不是整个文档这是我的代码 var result client Search
如何更新与elasticsearch中的查询匹配的多个文档

我的文档最初只包含 url 已分析和 respsize 未分析字段我想更新与 url 匹配的文档并添加新字段类别我是说首先doc1 url http stackoverflow com users 4005632 mehmet
Elastic Search 6 嵌套查询聚合

我是弹性搜索查询和聚合的新手我有一个带有以下映射的嵌套文档 PUT company mappings data properties deptId type keyword deptName type keyword employee t
如何使用Spring Boot设置ElasticSearch的数据目录

我的问题类似于 1 https stackoverflow com questions 25687545 control elasticsearch configuration in spring data setup我有一个 Spring

随机推荐

办公软件推荐！掌握PDF软件的PDF批量转图片功能，成为PDF编辑器大师

在日新月异的数字化时代高效精准的文件处理能力成为众多企业和个人的必备技能首助编辑高手软件作为一款全面便捷的办公软件其PDF转图片功能受到了广泛好评今天我们就来详细解析这款软件在实现PDF转图片时的操作步骤它拥有一系列强大的
批量改文件名（夹）的重命名工具支持复制与导出文件名，使用办公软件提高文件管理效率

在日常工作和生活中我们经常需要批量修改文件或文件夹的名称例如将一组图片按照特定规则重命名或者对文件夹进行统一的命名然而手动逐一修改不仅效率低下还容易出错此时一款方便易用的文件批量改名软件就变得至关重要今天我们将为您介绍
西服学术辉少许《乡村振兴战略下传统村落文化旅游设计》许少辉六四开

西服学术辉少许乡村振兴战略下传统村落文化旅游设计许少辉六四开西服学术辉少许乡村振兴战略下传统村落文化旅游设计许少辉六四开
Leetcode1094. 拼车

Every day a Leetcode 题目来源 1094 拼车解法1 差分数组对于本题设 a i 表示车行驶到位置 i 时车上的人数我们需要判断是否所有 a i 都不超过 capacity trips i 相当于把 a 中下标从
人民光明未来《乡村振兴战略下传统村落文化旅游设计》社科评价辉少许

人民光明未来乡村振兴战略下传统村落文化旅游设计社科评价辉少许人民光明未来乡村振兴战略下传统村落文化旅游设计社科评价辉少许
MySQL基础教程：安装和配置MySQL

1 背景介绍 MySQL是一个开源的关系型数据库管理系统由瑞典MySQL AB公司开发目前被Sun Microsystems公司收购并成为其子公司 MySQL是最受欢迎的关系型数据库管理系统之一由于其高性能稳定易于使用和免费的特点
selenium中元素定位正确但是操作失败，6种解决办法全搞定

selenium中元素定位正确但是操作失败的原因无外乎以下4种 0 1 页面没加载好解决方法添加等待方法如 time sleep 0 2 页面提交需要等待给数据后台解决方法添加等待方法如 time sleep 0 3 浏览器
2023年AI领域行业洞察，看这30个统计数据就够了！

PrimiHub 一款由密码学专家团队打造的开源隐私计算平台专注于分享数据安全密码学联邦学习同态加密等隐私计算领域的技术和内容随着AIGC的爆火企业越来越多地开始采用生成式人工智能自然语言处理 NLP 和神经网络来扩展功能增
C#学习 - 事件续

事件声明完整声明 using System namespace ConsoleApp1 internal class Program static void Main string args Customer customer new C
mybatis-plus自动生成模板

1 依赖pom
python+django在线考试系统vue_7k6gs

考虑到实际生活中在学生在线考试管理方面的需要以及对该系统认真的分析将系统按权限进行划分管理员登入使用本系统涉到的功能主要有首页个人中心用户管理课程信息管理试卷管理试题管理考试管理等功能管理员用例如图3 1所示图3 1 管
工作几年了，你真的懂 Redis 嘛？

大家好我是伍六七一个专注于输出 AI 编程内容的在职大厂资深程序员全国最大 AI 付费社群破局初创合伙人关注我一起破除 35 诅咒 Redis 基本上是大部分技术公司都会使用的缓存框架但是我发现很多程序员其实并不懂 Redis 今
深入理解 Go 语言中的接口（interface）

一 GoLang 接口的定义 1 GoLang 中的接口在 Go 语言中接口 interface 是一种类型一种抽象的类型接口 interface 定义了一个对象的行为规范只定义规范不实现由具体的对象来实现规范的细节实现接口的条
视音频数据处理入门：AAC音频码流解析

vs调试内存 FF F9满足代码中的if判断条件上图代码的目的是获取adts帧的长度如上述评论 aac frame length占用13个bit 覆盖了buffer 3 buffer 4 buffer 5 下图为查找资料所得用ue查看
西服学术64开《乡村振兴战略下传统村落文化旅游设计》TOP名校友会X推

西服学术64开乡村振兴战略下传统村落文化旅游设计 TOP名校友会X推西服学术64开乡村振兴战略下传统村落文化旅游设计 TOP名校友会X推
测试用例：微信发红包测试用例（最新版）

测试核心重点功能界面安全性易用性兼容性性能一功能测试 1 一对一红包一对一发出去的红包自己不能领取一对一红包金额最多200 2 群发红包 1 拼手气红包 1 是否可以正常选择拼手气红包 2 红包个数只能是数字且
Synchronized关键字的底层原理

Synchronized实现 Synchronized创建的时候一个互斥的对象锁每次只有一个线程可以获取该锁其底层主要是基于 Monitor 实现的在对象的对象头中存储了MarkWord存储的就是Monitor的地址对象的内存结构
这个Java面试加分项，太牛了！！

如今在java界 Spring可以说是大行其道很多大厂选择Spring全家桶作为基础开发框架无数的研发人员把Spring看作是最好的java项目现在的java开发方面 Spring的重要性和影响力是有目共睹的市场需求摆在这里大厂
转转前端周刊第九十一期

转转前端周刊本刊意在将整理业界精华文章给大家期望大家一起打开视野如果你有发现一些精华文章想和更多人分享可以点击我们的公众号名称将文章链接和你的解读文案发给我们我们会对内容进行筛选和审核保留你的推荐人署名分享给更多的人 1 爱
ES如何提高召回率之【词干提取】

想要提高召回率就需要尽可能匹配相关的文档其中一个办法就是在索引阶段对词语分析分词器的时候提取词干搜索的时候也取词干不取词干 es默认使用的是标准的分词器是不会取词干的但是标准分词器是包含小写转换分词过滤器的也是可以提高召