如何在elasticsearch中配置synonym_path

2024-04-19

我对 elasticsearch 很陌生，我想使用同义词，我在配置文件中添加了这些行：

index :
    analysis :
        analyzer : 
            synonym :
                type : custom
                tokenizer : whitespace
                filter : [synonym]
        filter :
            synonym :
                type : synonym
                synonyms_path: synonyms.txt

然后我创建了一个索引测试：

"mappings" : {
  "test" : {
     "properties" : {
        "text_1" : {
           "type" : "string",
           "analyzer" : "synonym"
        },
        "text_2" : {
           "search_analyzer" : "standard",
           "index_analyzer" : "synonym",
           "type" : "string"
        },
        "text_3" : {
           "type" : "string",
           "analyzer" : "synonym"
        }
     }
  }

}

并使用此数据插入类型测试：

{
"text_3" : "foo dog cat",
"text_2" : "foo dog cat",
"text_1" : "foo dog cat"
}

synonym.txt 包含“foo,bar,baz”，当我搜索 foo 时，它返回我所期望的内容，但是当我搜索 baz 或 bar 时，它返回零结果：

{
"query":{
"query_string":{
    "query" : "bar",
    "fields" : [ "text_1"],
    "use_dis_max" : true,
    "boost" : 1.0
}}}

result:

{
"took":1,
"timed_out":false,
"_shards":{
"total":5,
"successful":5,
"failed":0
},
"hits":{
"total":0,
"max_score":null,
"hits":[
]
}
}

我不知道你的问题是否是因为你定义了“bar”的同义词不好。正如您所说，您是个新手，我将举一个与您类似的有效示例。我想展示elasticsearch 如何在搜索时和索引时处理同义词。希望能帮助到你。

首先创建同义词文件：

foo => foo bar, baz

现在，我使用您尝试测试的特定设置创建索引：

curl -XPUT 'http://localhost:9200/test/' -d '{
  "settings": {
    "index": {
      "analysis": {
        "analyzer": {
          "synonym": {
            "tokenizer": "whitespace",
            "filter": ["synonym"]
          }
        },
        "filter" : {
          "synonym" : {
              "type" : "synonym",
              "synonyms_path" : "synonyms.txt"
          }
        }
      }
    }
  },
  "mappings": {

    "test" : {
      "properties" : {
        "text_1" : {
           "type" : "string",
           "analyzer" : "synonym"
        },
        "text_2" : {
           "search_analyzer" : "standard",
           "index_analyzer" : "standard",
           "type" : "string"
        },
        "text_3" : {
           "type" : "string",
           "search_analyzer" : "synonym",
           "index_analyzer" : "standard"
        }
      }
    }
  }
}'

请注意，synonyms.txt 必须与配置文件位于同一目录中，因为该路径是相对于配置目录的。

现在索引一个文档：

curl -XPUT 'http://localhost:9200/test/test/1' -d '{
  "text_3": "baz dog cat",
  "text_2": "foo dog cat",
  "text_1": "foo dog cat"
}'

现在的搜索

在字段 text_1 中搜索

curl -XGET 'http://localhost:9200/test/_search?q=text_1:baz'
{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.15342641,
    "hits": [
      {
        "_index": "test",
        "_type": "test",
        "_id": "1",
        "_score": 0.15342641,
        "_source": {
          "text_3": "baz dog cat",
          "text_2": "foo dog cat",
          "text_1": "foo dog cat"
        }
      }
    ]
  }
}

您获得该文档是因为 baz 是 foo 的同义词，并且在索引时 foo 用其同义词进行了扩展

在字段 text_2 中搜索

curl -XGET 'http://localhost:9200/test/_search?q=text_2:baz'

result:

{
  "took": 2,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 0,
    "max_score": null,
    "hits": []
  }
}

我没有得到点击，因为我在索引时没有扩展同义词（标准分析器）。而且，由于我正在搜索 baz 而 baz 不在文本中，所以我没有得到任何结果。

在字段 text_3 中搜索

curl -XGET 'http://localhost:9200/test/_search?q=text_3:foo'
{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 1,
    "max_score": 0.15342641,
    "hits": [
      {
        "_index": "test",
        "_type": "test",
        "_id": "1",
        "_score": 0.15342641,
        "_source": {
          "text_3": "baz dog cat",
          "text_2": "foo dog cat",
          "text_1": "foo dog cat"
        }
      }
    ]
  }
}

注：text_3是“baz狗猫”

text_3 是没有扩展同义词的索引。当我搜索 foo 时，它的同义词之一是“baz”，我得到了结果。

如果你想调试你可以使用_analyze端点例如：

curl -XGET 'http://localhost:9200/test/_analyze?text=foo&analyzer=synonym&pretty=true'

result:

{
  "tokens": [
    {
      "token": "foo",
      "start_offset": 0,
      "end_offset": 3,
      "type": "SYNONYM",
      "position": 1
    },
    {
      "token": "baz",
      "start_offset": 0,
      "end_offset": 3,
      "type": "SYNONYM",
      "position": 1
    },
    {
      "token": "bar",
      "start_offset": 0,
      "end_offset": 3,
      "type": "SYNONYM",
      "position": 2
    }
  ]
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Search

elasticsearch

searchengine

如何在elasticsearch中配置synonym_path 的相关文章

ElasticSearch：从 Painless 脚本中的嵌套字段计算 arcDistance

我需要计算 Painless 脚本内的弧距但在这种情况下还没有找到访问 geo API 的方法即第一点作为参数传递给脚本这意味着我只获得原始值第二点是从嵌套文档中读取的这意味着我无法使用doc myGeoField value
根据对象变量搜索对象列表

我有一个对象列表这些对象具有三个变量 ID 名称和值这个列表中可能有很多对象我需要根据ID或Name找到一个对象并更改值例子 class objec public string Name public int UID public
在嵌套热门点击聚合中包含父 _source 字段

我正在尝试聚合一个字段并使用top hits但我想在响应中包含未包含在嵌套属性映射中的其他字段目前如果我指定 source include 我只能获取当前嵌套属性中的字段这是我的映射 my cart mappings propertie
MySQL - 通过部分单词匹配和相关性评分进行高效搜索（全文）

如何进行 MySQL 搜索既匹配部分单词又提供准确的相关性排序 SELECT name MATCH name AGAINST math IN BOOLEAN MODE AS relevance FROM subjects WHERE M
使 IPTC 数据可搜索

我对 IPTC 元数据有疑问是否可以通过 IPTC 元数据关键字搜索不在数据库中的图像并显示它们我将如何执行此操作我只需要一个基本的想法我知道 PHP 有 iptcparse 函数我已经编写了一个函数来获取画廊文件夹和所有子目
为什么这个 ElasticSearch 扫描和滚动不断返回相同的滚动 id？

所以首先我运行以下命令 curl s XGET http localhost 9200 my index search scroll 1m search type scan size 10 这会返回一个滚动 ID 然后我在第一个滚动请求中使
Elasticsearch 中的组合非嵌套和嵌套查询

我想使用 ES 进行书籍搜索所以我决定将作者姓名和标题作为嵌套文档放入索引中如下所示 curl XPUT localhost 9200 library search books 1 d author one books title
将时间戳转换为日期时间以在 Elasticsearch 聚合中使用

我有 SendGrid 事件数据的索引 source externalId 9283cc1d b003 xxxx a5af 84fcf31c4181 email email protected cdn cgi l email protect
Twitter Bootstrap 行过滤器/搜索框

我无法找到有关如何为 Twitter Bootstrap 创建简单搜索查询或行过滤器的教程我已经尝试了很多我不确定是否我做错了什么或者插件与 Bootstrap 不兼容如果可以的话请帮忙我试过了 document ready fun
Elasticsearch 与 Cassandra 对比 Elasticsearch 与 Cassandra

我正在学习 NoSQL 并正在寻找满足客户要求之一的不同选项在提出这个问题之前我已经查阅了各种资源一个对NoSQL知之甚少的人我需要以更快的速度存储数据并读取数据完全故障安全且易于扩展能够搜索数据进行分析我最终得到了一个简短的清
Elasticsearch 如何使用通配符进行 OR 查询

我很难尝试使用 elasticsearch 构建查询我想查询类似的内容 WHERE field 1 is match string OR field 2 is wildcard match string OR field 3 is fuz
添加任何自定义实体后 jHipster Elasticsearch 问题

org springframework beans factory UnsatisfiedDependencyException Error creating bean with name countryServiceImpl define
如何管理 Elasticsearch 中的架构/映射迁移/演变？

Flyway https flywaydb org是 RDBMS 领域中非常方便的模式迁移演化工具我正在为 ES 寻找类似的东西尽管 ES 与 RDBMS 不同而且我明白像 Flyway 这样的工具的全部要点基本上是在多种环境例如
如何找到修改文件的最新 git 提交？

我想找到修改源文件的最新提交我可以用git blame查看每一行提交的所有日期但很难准确地看出哪一次提交是最后一次接触文件如何找到触及 git 存储库中给定文件的最后一次提交 git log https git scm com doc
如何使用docker将metricbeat连接到elasticsearch和kibana

我已经使用 docker compose 设置了 elasticsearch 和 kibana elasticsearch部署在 localhost 9200当 kibana 部署在localhost 5601 当尝试使用 docker r
Elasticsearch，如何使 NEST 地图响应类

首先我使用的是NEST 5 5 0 我对远程 elasticsearch index 的使用如下 var node new Uri http distribution virk dk cvr permanent var settings
SQL 中的最佳 LIKE 搜索

我有一个零件数据库我将不断查询该数据库以获取报价系统零件数据库有超过 1 400 000 条记录用户将开始输入零件号他们希望系统能够在仅几个字符后找到这些零件号因此我需要能够进行通配符搜索例如 SELECT NeededFiel
在 Elasticsearch 中将字符串的默认映射更改为“未分析”

在我的系统中数据的插入始终是通过 Logstash 通过 csv 文件完成的我从不预先定义映射但每当我输入一个字符串时它总是被认为是analyzed 结果像这样的条目hello I am Sinha被分成hello I am Sin
Elasticsearch 聚合过滤器

因为我在谷歌上找不到任何东西是否可以在elasticsearch中过滤聚合我正在考虑这样的事情获取 SOME object X gt 100 的所有对象提前致谢编辑样本数据我有以下文档结构 docKey 1 value 2 d
包含 Elasticsearch 中的查询或部分匹配

我正在寻找一个 amend 这个词它可能在数据中以 amending amendment 甚至 amend 的形式出现搜索此类单词的最佳方法是什么我知道通配符可以实现这一点但由于我的代码的其他部分我被限制不使用它有哪些不同的方式

随机推荐

为什么 JavaScript 中的数字是不可变的？

我在这里阅读了问题和答案 javascript 数字不可变 https stackoverflow com questions 8248568 javascript numbers immutable 但我还不清楚为什么数字原始类型是
如何处理重复事件中的 DST 和 TZ？

dateutil rrule 是否支持夏令时和夏令时需要类似于 iCalendar RRULE 的东西如果不是如何解决这个问题安排重复事件和 DST 偏移量更改 Imports gt gt gt from django utils
编组无法从 Go 访问的 C 对象

有一些 C 对象例如联合体包含位域的结构体以及其对齐方式与 Go 的 ABI 不同的结构体无法从 Go 访问其中一些结构无法更改为可从 Go 代码访问因为它们是现有库的 API 的一部分因此要将这些对象编组到 Go 结构中我
测试自定义 AuthorizationAttribute 时抛出 NullReferenceException

我看了一下如何进行单元测试来测试检查请求标头的方法 https stackoverflow com questions 9263457 how do i make a unit test to test a method that che
Docker 卷挂载不存在

我在 OS X 上运行 Docker 1 11 并试图找出本地卷的写入位置我通过运行创建了一个 Docker 卷docker volume create name mysql 然后我跑了docker volume inspect mysq
Facebook 政策：我的应用程序可以自动将故事发布到我的 Facebook 流吗？

根据Facebook 平台政策 http developers facebook com policy 您不得预先填写 user message 通过a发送的参数或内容扩展权限例如状态更新或注释除非用户之前生成的内容工作流程这
仅使用 VBA 宏将可见行的值从一个工作簿复制到新工作簿中

我有一些宏可以将工作表 2 从现有工作簿复制到新工作簿此代码按其应有的方式工作只是存在不应在新工作簿上显示的隐藏行这是我编写的代码用于复制工作表并仅粘贴其值 Dim Output As Workbook Dim FileName A
PostgreSQL regexp_replace 与匹配的表达式

我正在使用 PostgreSQLregexp replace函数来转义字符串中的方括号括号和反斜杠以便我可以将该字符串用作正则表达式模式本身在使用该字符串之前还对该字符串进行了其他操作但它们超出了本问题的范围想法是替换 with
如何强制消费者读取kafka中的特定分区

我有一个应用程序用于从 1 个 Kafka 生产者生成的 URL 流中下载特定的 Web 内容我创建了一个有 5 个分区的主题有 5 个 kafka 消费者但网页下载的超时时间为 60 秒当下载其中一个 URL 时服务器会假设消
插入图片到Excel VBA，方法图片失败

尝试制作一个在 Excel 中逐步插入 3 个图像的宏一张工作表图片包含 A 列第 1 3 行中图像的 URL 另一个工作表输出应该水平输出图像 Sub testinsertpix Dim i As Integer Dim lin
CSS 在标签字段中居中对齐

我正在尝试显示类似这样的内容 Please treat the blue line and black line as the border 其中图像描述文字应该是水平的位于剩余空间的中心但是我不知道应该应用什么CSS 这是我的小提琴 h
仅使用 RSA 和 AES 构建 openssl

我正在一个项目中使用 libcrypto a OpenSSL 默认情况下所有算法都在 libcrypto a 下可用对于该项目我只需要 RSA AES 和 SHA 如何仅使用这些算法构建 libcrypto a 如果您通过运行以下命令
OnTouch 和 OnClick 冲突：指定为非 null 的参数为 null：方法 kotlin.jvm.internal.Intrinsics.checkNotNullParameter，参数 e1

我有一个 Recyclerview 允许用户通过向上滑动来更改比例我为此使用gestureDetector 和 onFling 这工作正常但是用户应该能够单击 recyclerView 的项目我通过创建一个界面来做到这一点Recycl
为什么 Visual Studio 2019 16.9.5 中的 .NET Core 3.1 和 .NET 5 的脚手架标识失败？

我正在尝试在新项目中生成身份帐户登录和帐户注册页面我尝试过 NET Core 3 1 和 NET 5 在这两种情况下即使它是一个新项目我也会收到以下错误消息正如您所知这是一条非常有用的错误消息有谁知道 NET Core 3
nullptr 引用在 C++ 中是未定义的行为吗？ [复制]

这个问题在这里已经有答案了下面的代码愚弄了nullptr指针和参考 include
如何创建电子邮件发送服务？

我已经考虑这个想法有一段时间了想了解一下您的想法我想创建一个 NET 服务来发送和跟踪电子邮件我的粗略想法在各种应用程序中序列化 NET 电子邮件 System Net Mail MailMessage 对象的实例并将它们放入数据
从 Metro Style App c# 加载 C 库 (gsdll32.dll)

我想使用 Metro Style App c 中的 gsdll32 dll 我加载dll如下 DllImport gsdll32 dll EntryPoint gsapi delete instance private static ext
如何用序列图来展示一个类与另一个类之间的关系，以该类的实例的实例作为输入？

我将使用之前的相同示例question https stackoverflow com questions 66934927 how to represent the relationship between an instance of
如何使图像视图的选择器仅更改背景而不更改图像源？

我有一个 ImageView 同时设置了图像 src 和背景颜色该图像位于 gridview 项目布局的布局中我想创建一个 xml 选择器当选择该项目时图像背景会改变但图像 src 不会改变类似于带有文本图标的android主菜
如何在elasticsearch中配置synonym_path

我对 elasticsearch 很陌生我想使用同义词我在配置文件中添加了这些行 index analysis analyzer synonym type custom tokenizer whitespace filter synon

如何在elasticsearch中配置synonym_path

如何在elasticsearch中配置synonym_path 的相关文章

随机推荐

热门标签