ElasticSearch：我们可以在索引期间同时应用 n-gram 和语言分析器吗

2023-12-09

非常感谢@Random，我已将映射修改如下。为了进行测试，我使用“电影”作为索引类型。注意：我还添加了 search_analyzer。如果没有这个，我就无法得到正确的结果。但是我对使用 search_analyzer 有以下疑问。

1] 我们可以在语言分析器中使用自定义 search_analyzer 吗？
2] 我得到的所有结果是由于我使用的 n-gram 分析器而不是由于英语分析器吗？

{
    "settings": {
        "analysis": {
            "analyzer": {
                "english_ngram": {
                    "type": "custom",
                    "filter": [
                        "english_possessive_stemmer",
                        "lowercase",
                        "english_stop",
                        "english_stemmer",
                        "ngram_filter"
                    ],
                    "tokenizer": "whitespace"
                },
                "search_analyzer":{
                    "type": "custom",
                    "tokenizer": "whitespace",
                    "filter": "lowercase"
                }
            },
            "filter": {
                "english_stop": {
                    "type": "stop"
                },
                "english_stemmer": {
                    "type": "stemmer",
                    "language": "english"
                },
                "english_possessive_stemmer": {
                    "type": "stemmer",
                    "language": "possessive_english"
                },
                "ngram_filter": {
                    "type": "ngram",
                    "min_gram": 1,
                    "max_gram": 25
                }
            }
        }
    },
      "mappings": {
    "movie": {
      "properties": {
        "title": {
          "type": "string",
          "fields": {
            "en": {
              "type":     "string",
              "analyzer": "english_ngram",
              "search_analyzer": "search_analyzer"
            }
          }
        }
      }
    }
  }
}

Update :

使用搜索分析器也不能始终如一地工作。需要更多帮助。用我的发现更新问题。

我按照建议使用了以下映射（注意：此映射不使用搜索分析器），为简单起见，我们仅考虑英语分析器。

{
    "settings": {
        "analysis": {
            "analyzer": {
                "english_ngram": {
                    "type": "custom",
                    "filter": [
                        "english_possessive_stemmer",
                        "lowercase",
                        "english_stop",
                        "english_stemmer",
                        "ngram_filter"
                    ],
                    "tokenizer": "standard"
                }
            },
            "filter": {
                "english_stop": {
                    "type": "stop"
                },
                "english_stemmer": {
                    "type": "stemmer",
                    "language": "english"
                },
                "english_possessive_stemmer": {
                    "type": "stemmer",
                    "language": "possessive_english"
                },
                "ngram_filter": {
                    "type": "edge_ngram",
                    "min_gram": 1,
                    "max_gram": 25
                }
            }
        }
    }
}

创建的索引：

PUT http://localhost:9200/movies/movie/1

{"title":"$peci@l movie"}

尝试了以下查询：

GET http://localhost:9200/movies/movie/_search

    {
        "query": {
            "multi_match": {
                "query": "$peci mov",
                "fields": ["title"],
                "operator": "and"
            }
            }
        }
    }

我没有得到任何结果，我做错了什么吗？我正在尝试获得以下结果：

1] Special characters
2] Partial matches
3] Space separated partial and full words

再次感谢！

您可以基于语言分析器创建自定义分析器。唯一的区别是您添加了您的ngram_filter令牌过滤器到链的末尾。在这种情况下，您首先获得语言词干标记（默认链），最终转换为边缘 ngram（您的过滤器）。您可以在这里找到语言分析器的实现https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html#english-analyzer为了覆盖它们。以下是英语语言更改的示例：

{
    "settings": {
        "analysis": {
            "analyzer": {
                "english_ngram": {
                    "type": "custom",
                    "filter": [
                        "english_possessive_stemmer",
                        "lowercase",
                        "english_stop",
                        "english_stemmer",
                        "ngram_filter"
                    ],
                    "tokenizer": "standard"
                }
            },
            "filter": {
                "english_stop": {
                    "type": "stop"
                },
                "english_stemmer": {
                    "type": "stemmer",
                    "language": "english"
                },
                "english_possessive_stemmer": {
                    "type": "stemmer",
                    "language": "possessive_english"
                },
                "ngram_filter": {
                    "type": "edge_ngram",
                    "min_gram": 1,
                    "max_gram": 25
                }
            }
        }
    }
}

UPDATE

要支持特殊字符，您可以尝试使用whitespace分词器代替standard。在这种情况下，这些字符将成为您的令牌的一部分：

{
    "settings": {
        "analysis": {
            "analyzer": {
                "english_ngram": {
                    "type": "custom",
                    "filter": [
                        "english_possessive_stemmer",
                        "lowercase",
                        "english_stop",
                        "english_stemmer",
                        "ngram_filter"
                    ],
                    "tokenizer": "whitespace"
                }
            },
            "filter": {
                "english_stop": {
                    "type": "stop"
                },
                "english_stemmer": {
                    "type": "stemmer",
                    "language": "english"
                },
                "english_possessive_stemmer": {
                    "type": "stemmer",
                    "language": "possessive_english"
                },
                "ngram_filter": {
                    "type": "edge_ngram",
                    "min_gram": 1,
                    "max_gram": 25
                }
            }
        }
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

springdataelasticsearch

ElasticSearch：我们可以在索引期间同时应用 n-gram 和语言分析器吗的相关文章

我可以在 ids 过滤器或一般查询子句中指定的值数量的最大限制？

在elasticsearch中指定可以执行匹配的值数量的最大限制是多少我在某处读到它是 1024 但也是可配置的真的吗它如何影响性能 curl XPOST localhost 9200 my index search pretty d
用于全文搜索和 2 亿多条记录的数据库

我即将创建一个包含至少 2 亿个条目的庞大数据库数据库需要可使用全文进行搜索并且速度应该很快我的数据库从许多不同的数据源获取数据我需要定期导入新的或更新的数据将我的所有数据存储在像 mysql 这样的关系数据库中然后创建一个 n
如何将停用词添加到 ElasticSearch 中的默认列表

我想在默认值中添加更多单词 english 停止例如 inc incorporated ltd 和 limited 我怎样才能实现这一目标我当前创建索引的代码如下谢谢 PUT my index settings analysis fi
Elasticsearch 错误：cluster_block_exception [FORBIDDEN/12/index 只读/允许删除 (api)]，超出洪水阶段磁盘水位线

当尝试正常将文档发布到 Elasticsearch 时我收到此错误 cluster block exception FORBIDDEN 12 index read only allow delete api 我还在 Elasticsear
Elasticsearch NodeBuilder 与 TransportClient

对于其他 Elasticsearch 开发人员来说这可能是一个非常简单而且愚蠢的问题这两者之间有什么区别我正在从 Java Web 应用程序连接到远程 Elasticsearch 服务器到目前为止我一直在使用 Transport
Elasticsearch 5.1 完成建议中的输出字段有什么好的替代方案吗？

在 ES 5 1 中索引数据时遇到的第一个错误是包含输出字段的完成建议映射 message MapperParsingException failed to parse nested IllegalArgumentException unk
Elasticsearch GET API 获取分片大小

在 Elasticsearch 2 3 3 中有没有办法使用返回 JSON 的 GET API 获取分片大小目前我找到了以下几种获取shard size的方法这两种方法都存在问题 recovery gt 使用 JSON 进行响应并提供
Elasticsearch 文档的最大大小是多少？

我读到有关 Lucene 仅限于 2Gb 文档的注释对于可在 Elasticsearch 中建立索引的文档大小是否有其他限制 Lucene 内部使用字节缓冲区该缓冲区使用 32 位整数进行寻址根据定义这限制了文档的大小所以理论上2
如何使用 Jest 从 ElasticSearch 获取索引列表

我正在尝试使用 Jest 检索索引列表但我只得到 Stats statistics new Stats Builder build result client execute statistics 如何从结果中检索索引列表除了统计之外
查询格式错误，查询名称后没有 start_object

我正在针对 AWS Elasticsearch 5 1 运行此查询并收到格式错误的查询错误这是请求的正文我基本上只是检查该字段在时间范围内是否存在 query bool filter bool must range timestamp
连接到 Elasticsearch Heroku 数据库

我已经在 Heroku 上使用 Bonsai elasticsearch 插件设置了一个入门帐户我正在尝试通过 Java 应用程序连接到它但似乎无法通过 Transport Client 或 Elasticsearch 文档页面上解释的
如何使用 Fluent 为 Elasticsearch 添加时间戳和密钥

我已经配置了 fluidd 和 elasticsearch 它们都工作正常我正在跟踪一个文件然后读取其数据并将其发布到elasticsearch 下面是json数据 time 2018 05 14T11 37 30 339593 Dat
添加任何自定义实体后 jHipster Elasticsearch 问题

org springframework beans factory UnsatisfiedDependencyException Error creating bean with name countryServiceImpl define
如何在 Kibana 中过滤小于参数的计数器？

我有一个类似的问题如何过滤字段greater比 Kibana 上的计数器 https github com elastic kibana issues 9684 https github com elastic kibana issues
按嵌套文档之一中的值对文档进行排序

我在根据所选嵌套文档中的值对文档进行排序时遇到问题我正在使用这样的设置 curl XPUT http 127 0 0 1 9200 test d index number of shards 1 number of replicas 1
Logback 与 Elasticsearch 直接集成

我有带有 slf4j logback 的 Spring Boot 应用程序并寻找集中式日志记录解决方案现在我发现我不需要使用日志收集器比如logstash filebeat rsyslog 有直接收集器Ingest Node在 Ela
Elasticsearch 将字符串与模糊字段相匹配

我正在尝试将字符串与字段匹配并且只想应用模糊性例如对于这些文档 title replace oilfilter title replace motoroil 以下查询应仅匹配第一个文档 Replace oilfilter Replac
ElasticSearch 匹配多个前缀术语

我试图为 ElasticSearch 提供一个包含多个术语的查询然后给出匹配的文档其中指定的术语位于目标字段中的任何位置这些术语可以是完整的单词或单词前缀示例文档 msg 你好我是一条短信示例查询字符串你好消息你好和消息
语法错误：elasticdump 中的exports.runInThisContext (vm.js:53:16) 处出现意外标记 {

我试图使用elasticdump 将elasticsearch 数据从一台服务器移动到另一台服务器当我给予 elasticdump input http 192 168 0 122 9200 my index output http lo
如何将不带空格的单词与带空格的 ElasticSearch 数据进行匹配

在我的elasticsearch中我有数据 New York 我想查询并匹配 NewYork 请注意查询字符串中没有空格我怎样才能实现这个目标有什么分析仪可以在这里提供帮助吗我认为你可以申请木瓦令牌过滤器 https www ela

随机推荐

如何在 C++ 中读取 FORTRAN 格式的数字

我有一个包含几行数字的文件如下所示 1 000000 5 2 436700 0 2 530000 2 2 436700 0 5 000000 2 2 436700 0 1 000000 1 2 436700 0 1 000000 2 2
NSOutputStream 刷新

我正在开发 iPhone 应用程序并想使用 CFStreamCreatePairWithSocketToHost NULL url port serverReadStream serverWriteStream 然后使用 serverWri
MySQLNonTransientConnectionException：无法创建与数据库服务器的连接

我正在处理使用 JDBC 连接到 Amazon RDS 上的 MySQL 数据库的一个奇怪问题我有两部不同的 Android 手机在同一网络上运行相同的代码一个连接没有任何问题另一个给了我以下例外 com mysql jdbc exc
C# / Java | AES256加密/解密

我想加密通过 Java C 套接字 Java 服务器 C 客户端发送的所有数据我想使用 AES256 但我无法让 Java 和 C 生成相同的加密代码任何人都可以给我两个示例 1 个 Java 示例和 1 个 C 示例它们会生成相同
如何使用 PHP 使用 google API 获取用户“contactid”

我正在尝试使用 google API 3 0 获取用户联系人以及所有用户详细信息我能够获得包含用户详细信息的 JSON 响应 url https www google com m8 feeds contacts default full
使用 JavaScript 从数组中删除对象

如何从数组中删除对象我希望删除包含名称的对象Kristian from someArray 例如 someArray name Kristian lines 2 5 10 name John lines 1 19 26 96 我想实现 s
切换内部片段

我用 NavigationView 创建了一个 Activity 用切换按钮打开 public class MainActivity extends AppCompatActivity implements NavigationView O
ImportError: libcublas.so.9.0: 无法打开共享对象文件: 在 Ubuntu 16.04.03 上安装张量流时没有这样的文件或目录

我正在尝试安装带有 cuda 和 gpu 支持的tensorflow 当我尝试导入它时出现以下错误 Traceback most recent call last File
更改默认短信应用意图在 Android 10 上不起作用

您好我正在努力将我的应用程序兼容性更新为 android 10 和 11 之前我将我的应用程序设置为默认短信应用程序并从我的应用程序接收和发送新短信更改默认短信应用程序的意图在 android 10 以下工作正常但它不是显示更改 An
java中的最小值不起作用

我需要帮助因为我的脑细胞无法发现这个程序出了什么问题这是代码 import java util public class student public static void main String args Scanner sc ne
正则表达式对非捕获组的帮助

肯定是重复的但我找不到它我正在使用一个组来匹配重复的子字符串然而我不希望这群人被抓获这似乎是一个矛盾明确地说假设我想找到跟随全大写子集字符串的 3 个精确副本的任何字符为了 s hjgABABABfgfBBdqCCCugDD
递归清空多个文件的命令

我想递归地清除给定目录的许多日志文件的内容而不删除每个文件用一个简单的命令就可以实现吗我知道我能做到 gt logs logfile log一份一份的但是该文件夹中有很多日志这并不简单顺便说一句我正在使用 macOS Sier
super() 在构造函数中意味着什么？ [复制]

这个问题在这里已经有答案了代码是做什么的 super 在构造函数内部做什么例如这是我的类的构造函数 public abstract class Rectangle extends AbstractShape private doubl
在Python中查找函数的参数

我希望能够询问班级的 init 方法的参数是什么简单的方法如下 cls init func code co varnames code co argcount 但是如果类有任何装饰器那么这将不起作用它将给出装饰器返回的函数的参数列表
检查 xslt 中的条件

下面是输入 XML 小大对于较大的输入 XML 以及输出 xml 表示抱歉
访问 Ansible playbook 中的清单主机变量

在 Ansible 2 1 中我有一个角色被需要访问主机文件变量的剧本调用关于如何访问它有什么想法吗我正在尝试访问ansible ssh host in the test1以下清单的部分host file test1 test 1 a
全栈 NestJS 应用程序中的 OAuth2 流程

另一个 OAuth2 问题在其他地方没有完全涵盖我使用 NestJS 后端 React 前端 Passport 和我自己的数据库进行身份验证尝试添加一个 OAuth2 身份提供商 Google 我将 NestJS 应用程序配置为 OAu
Grails：更改 hibernate 方言时 SQL 语法错误

我正在将 Grails 与 mySQL 数据库一起使用并且尝试更改数据库引擎据我研究这可以最好地做到 dialect org hibernate dialect MyDialect 在 DataSource groovy 配置中但是
在 Regex/Javascript 中将一个字符交换为另一个字符

我想做类似的事情 var a This is an A B pattern ABABA a replace A B a replace B A 并让它返回 gt 这是 B A 模式 BABAB 代替 gt 这是一个 A A 模式 AAAAA
ElasticSearch：我们可以在索引期间同时应用 n-gram 和语言分析器吗

非常感谢 Random 我已将映射修改如下为了进行测试我使用电影作为索引类型注意我还添加了 search analyzer 如果没有这个我就无法得到正确的结果但是我对使用 search analyzer 有以下疑问 1 我们

ElasticSearch：我们可以在索引期间同时应用 n-gram 和语言分析器吗

ElasticSearch：我们可以在索引期间同时应用 n-gram 和语言分析器吗 的相关文章

随机推荐

热门标签

ElasticSearch：我们可以在索引期间同时应用 n-gram 和语言分析器吗的相关文章