Elasticsearch 6.2 中的精确匹配、不区分大小写的匹配，无需标准化

2024-02-15

我查看了我能找到的关于执行完全匹配、不区分大小写的查询的每一篇文章和帖子，但在实现后，它们并没有执行我正在寻找的内容。

在将此问题标记为重复之前，请阅读整篇文章。

给定一个用户名，我想查询我的 Elasticsearch 数据库以仅返回与用户名完全匹配的文档，但也不区分大小写。

我尝试指定一个lowercase分析仪为我的username财产和使用match查询来实现此行为。虽然这解决了不区分大小写的匹配问题，但它无法精确匹配。

我研究过使用lowercase标准化器，但这会使我的所有用户名在索引之前变为小写，因此当我聚合用户名时，它们将以小写形式返回，这不是我想要的。我需要保留用户名中每个字母的原始大小写。

我想要的是以下行为：

插入用户

POST {elastic}/users/_doc
{
    "email": "[email protected] /cdn-cgi/l/email-protection",
    "username": "UsErNaMe",
    "password": "1234567"
}

该文档将存储在名为的索引中users就是这样。

通过用户名获取用户

GET {frontend}/user/UsErNaMe

应该返回

{
    "email": "[email protected] /cdn-cgi/l/email-protection",
    "username": "UsErNaMe",
    "password": "1234567"
}

and

GET {frontend}/user/username

应该返回

{
    "email": "[email protected] /cdn-cgi/l/email-protection",
    "username": "UsErNaMe",
    "password": "1234567"
}

and

GET {frontend}/user/USERNAME

应该返回

{
    "email": "[email protected] /cdn-cgi/l/email-protection",
    "username": "UsErNaMe",
    "password": "1234567"
}

and

GET {frontend}/user/UsErNaMe $RaNdoM LeTteRs

should NOT返回任何东西。

谢谢。

为了实现不区分大小写的精确匹配，您需要定义自己的分析器。分析器需要执行两个操作：

小写输入值。（不区分大小写）
小写操作后对输入进行任何修改都不会。（用于精确搜索）

上述两项可以通过以下方式实现：

use lowercase定义自定义分析器时进行过滤。
set the tokenizer to keyword，这将确保在应用小写过滤器后生成输入值的单个标记。

现在，此自定义分析器可以应用于需要不区分大小写的精确搜索的文本字段。

因此，要创建索引，您可以使用以下命令：

PUT test
{
  "settings": {
    "analysis": {
      "analyzer": {
        "case_insensitive_analyzer": {
          "type": "custom",
          "filter": [
            "lowercase"
          ],
          "tokenizer": "keyword"
        }
      }
    }
  },
  "mappings": {
    "_doc": {
      "properties": {
        "email": {
          "type": "text",
          "fields": {
            "keyword": {
              "type": "keyword"
            }
          }
        },
        "username": {
          "type": "text",
          "analyzer": "case_insensitive_analyzer"
        },
        "password": {
          "type": "keyword"
        }
      }
    }
  }
}

在上面的case_insensitive_analyzer是所需的分析器，正如您所看到的，它应用于username field.

因此，当您按如下方式索引文档时：

PUT test/_doc/1
{
  "email": "[email protected] /cdn-cgi/l/email-protection",
  "username": "UsErNaMe",
  "password": "1234567"
}

对于现场username输入是UsErNaMe。分析器首先应用lowercase对输入进行过滤UsErNaMe得出的值username。现在就这个值username它适用keywordtokenizer 不执行任何操作，只是将应用过滤器后获得的值输出为单个标记，即username.

现在您可以使用如下匹配查询来搜索用户名字段：

GET test/_doc/_search
{
  "query": {
    "match": {
      "username": "USERNAME"
    }
  }
}

使用上面的内容会给你想要的输出。代替USERNAME在上面的查询中username or UsErNaMe or USERname全部都将与文档匹配。这样做的原因是，如果没有明确指定分析器，则在搜索时，elasticsearch 将使用索引时应用于字段的分析器。在上述情况下，当搜索字段时username, case_insensitive_analyzer将应用于输入值，即USERNAME这将导致令牌username因此才有了这场比赛。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)