自定义分析器，它会破坏特殊字符和小写/大写的标记

2024-01-03

我正在尝试编写一个自定义分析器，它会破坏特殊字符上的标记，并在索引之前将其转换为大写，如果我也使用小写字母进行搜索，我应该能够获得结果。

例如，如果我给出 data@source - 它应该用空格替换 @ - 它应该用空格替换任何特殊字符，并给我像数据源一样的结果。

这是我尝试实施的方法。

PUT sound
{
  "settings": {
    "analysis": {
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "standard",
          "char_filter": [
            "my_char_filter"
          ],
          "filter": [
            "uppercase"
            ]
        }
      },
      "char_filter": {
        "my_char_filter": {
          "type": "pattern_replace",
          "pattern": "(\\d+)-(?=\\d)",
          "replacement": "$1 "
        }
      }
    }
  }
}


POST sound/_analyze
{
  "analyzer": "my_analyzer",
  "text": "data-source&abc"
}

它很好地分割了令牌，比如 -

{
   "tokens": [
      {
         "token": "DATA",
         "start_offset": 0,
         "end_offset": 4,
         "type": "<ALPHANUM>",
         "position": 0
      },
      {
         "token": "SOURCE",
         "start_offset": 5,
         "end_offset": 11,
         "type": "<ALPHANUM>",
         "position": 1
      },
      {
         "token": "ABC",
         "start_offset": 12,
         "end_offset": 15,
         "type": "<ALPHANUM>",
         "position": 2
      }
   ]
}

但是，如果我在其中使用小写甚至大写进行搜索，则它不起作用......例如：

GET sound/_search?text="data"

GET sound/_search?text="data"

GET /sound/_search
{
  "query": {
    "match": {
      "text": "data"
    }
  }
}

如果我像上面的查询一样搜索，它不会给我结果。

您只需要使用一些稍微不同的语法来进行搜索：

GET sound/_search?q=data

GET sound/_search?q=data

POST sound/_search
{
  "query": {
    "match": {
      "NAME_OF_YOUR_FIELD": "data"
    }
  }
}

NAME_OF_YOUR_FIELD需要是您存储数据的字段的名称。更多信息此处匹配查询 https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-match-query.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

elasticsearchplugin

analyzer

自定义分析器，它会破坏特殊字符和小写/大写的标记的相关文章

Elasticsearch 可搜索合成字段

假设源文档 JSON 中存在几个名为的字段 a and b 属于类型long 我想构建一个综合字段例如c 通过用下划线连接前面字段的值和将其索引为keyword 也就是说我正在研究一个可以通过如下虚构的部分映射来支持的功能 a typ
Elasticsearch 中的别名数量（全局和/或每个索引）是否有限制？

我开始为我的项目研究elasticsearch 具体来说是1 5版本我正在考虑使用别名将客户端应用程序从复杂的索引设置中抽象出来我最终可能会得到 20 到 50 个索引每个索引有 10 到 30 个别名这将达到 1500 个别名我
如何修改 Elasticsearch 文档的 _source 字段

问题有没有办法从文档的 source 中清除 html html 的剥离可以是周期性的触发的或者理想情况下是在索引时即时进行的我将数据输入到elasticsearch中并针对分析器进行索引该分析器在索引之前剥离不需要的htmls
无法连接到docker中的elasticsearch容器

我正在尝试使用 docker 的官方 elasticsearch 镜像我遵循了本指南 https www elastic co guide en elasticsearch reference current docker html但是当
Elasticsearch GET API 获取分片大小

在 Elasticsearch 2 3 3 中有没有办法使用返回 JSON 的 GET API 获取分片大小目前我找到了以下几种获取shard size的方法这两种方法都存在问题 recovery gt 使用 JSON 进行响应并提供
如何查询elasticsearch大于和小于？

我想获取 1000 到 2000 之间的值我尝试了以下查询 query bool filter range price gte 1000 price lte 2000 但这并没有给出令
如何在 ElasticSearch 中获取带有计数的百分位数

我们正在尝试生成百分位数弹性搜索 https www elastic co products elasticsearch using 百分位数聚合 https www elastic co guide en elasticsearch re
Spring Data elasticsearch @Query 注解嵌套对象

我有两节课 Document public class PracticeQuestion private int userId private List
Airflow log_id 格式错误

我正在使用 Airflow v2 2 3 和apache airflow providers elasticsearch 2 1 0 在 Kubernetes 中运行我们的日志会自动发送到 Elasticsearch v7 6 2 我在
将时间戳转换为日期时间以在 Elasticsearch 聚合中使用

我有 SendGrid 事件数据的索引 source externalId 9283cc1d b003 xxxx a5af 84fcf31c4181 email email protected cdn cgi l email protect
如何管理 Elasticsearch 中的架构/映射迁移/演变？

Flyway https flywaydb org是 RDBMS 领域中非常方便的模式迁移演化工具我正在为 ES 寻找类似的东西尽管 ES 与 RDBMS 不同而且我明白像 Flyway 这样的工具的全部要点基本上是在多种环境例如
术语聚合仅考虑聚合的前缀

在我的弹性搜索文档中我有用户和他在组织中的位置的某种表示例如 CEO的位置是1 CEO直属的为1 1 1 2 1 3等 1 1 以下的将是 1 1 1 1 1 2 1 2 3 等我有一个聚合我想按 VP 聚合所以我希望每个人都低于
Elasticsearch，如何使 NEST 地图响应类

首先我使用的是NEST 5 5 0 我对远程 elasticsearch index 的使用如下 var node new Uri http distribution virk dk cvr permanent var settings
ElasticSearch：Jest、Rest、TransportClient、NodeClient

我已经浏览了官方文档https www elastic co blog found interface elasticsearch picking client https www elastic co blog found interfa
按嵌套文档之一中的值对文档进行排序

我在根据所选嵌套文档中的值对文档进行排序时遇到问题我正在使用这样的设置 curl XPUT http 127 0 0 1 9200 test d index number of shards 1 number of replicas 1
ElasticSearch 匹配多个前缀术语

我试图为 ElasticSearch 提供一个包含多个术语的查询然后给出匹配的文档其中指定的术语位于目标字段中的任何位置这些术语可以是完整的单词或单词前缀示例文档 msg 你好我是一条短信示例查询字符串你好消息你好和消息
在 Elasticsearch Nest 查询中加载特定字段

该文档似乎表明我可以返回字段的子集而不是整个文档这是我的代码 var result client Search
如何将不带空格的单词与带空格的 ElasticSearch 数据进行匹配

在我的elasticsearch中我有数据 New York 我想查询并匹配 NewYork 请注意查询字符串中没有空格我怎样才能实现这个目标有什么分析仪可以在这里提供帮助吗我认为你可以申请木瓦令牌过滤器 https www ela
按存储桶键值过滤 Elasticsearch 聚合

我有一个 Elasticsearch 文档索引其中有一个包含 URL 列表的字段正如预期的那样对该字段进行聚合可以计算出唯一 URL 的数量 GET models search query match all size 0 aggs
如何更新与elasticsearch中的查询匹配的多个文档

我的文档最初只包含 url 已分析和 respsize 未分析字段我想更新与 url 匹配的文档并添加新字段类别我是说首先doc1 url http stackoverflow com users 4005632 mehmet

随机推荐

C 通用数组实现

我正在尝试在 C 中实现通用数组列表但是当数据类型是 int 以外的任何类型时列表将不会包含正确的数据例如像 123 1234 作为双精度数当将双精度数传递到列表中时它将变成 000 0000 一当数据类型为int时它将有
python中如何输入输入的数字

我想内联输入 1 input number 5 2 1 5 3 4 2 python中如何接收输入数量的输入我已经尝试过这样的 num int input inputs num mlist for i in range num n int
如何将 Hive 与 Power BI 连接

我无法将 Hive 视为 power BI 中列出的数据源有没有办法将Hive数据库与power bi桌面连接还有有什么限制吗应在系统中安装并配置 Hive ODBC 驱动程序以便与 Power BI 连接成功配置 ODBC 驱动
AngularJS 事件未从 $rootScope 触发

我遇到了 rootScope broadcast 事件未被触发的问题 App run function rootScope var text Not So Static Now rootScope broadcast event stati
在 Android 中使用经过训练的 Scikit-learn svm 分类器 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在开发一个 Android 应用程序它使用手机中的传感器数据对活动进行分类与任何 Java 机器学习库相比我也更喜欢 sci
C#中有“记录”吗？

我希望将一些客户数据存储在内存中我认为最好的方法是使用记录数组我不确定这是否是 C 中的名称但基本上我可以调用Customer i Name并将客户姓名作为字符串返回在图灵中它是这样完成的 type customers recor
将成绩单 .srt 文件解析为可读文本

我有一个视频脚本 SRT 文件其中包含传统 SRT 格式的线条这是一个例子 1 00 00 00 710 gt 00 00 03 220 Lorem ipsum dolor sit amet consectetur adipisicin
java.lang.AbstractMethodError：当我尝试使用 nexmo(vonage) API 发起出站语音呼叫时出现此异常

我的 pom xml 用于所有相关的依赖项没有其他依赖项在内部使用以下依赖项
TypeScript 中除了函数之外还有其他类型吗？

我想表达的是参数应该是一个对象或者简单的值类型数字布尔值字符串等而不是函数如果我使用Object 编译器让我分配一个函数 var test Object gt a 如果我使用any 当然也是同样的结果在这种情况下有什么类型或技
从 2 个不同的表以用户或管理员身份登录

好吧我想以用户和管理员身份登录我的用户表称为 sollicitant 我的管理员是 bedrijf 这是荷兰语哈哈抱歉我现在的代码仅适用于 1 个表但我如何才能有一个在两个表中查找以登录的 sql 查询
Stripe 计量计费我应该使用什么？

我对文档有点困惑 In order for Stripe to compute the number of units consumed during the billing cycle you must report the custom
在神经网络反向传播算法中循环训练数据

在一个训练周期中我使用训练数据样本多少次假设我有 60 个训练数据我遍历第一行并进行前向传递并使用后向传递的结果调整权重使用 sigmoidal 函数如下 Forward pass Si sum of Wi Uj Ui f Si 1
如何在 Android 中播放音频文件？

我有代码可以玩 ogg音频文件我从互联网上下载的我没有错误所以我可以运行它但应用程序崩溃了 package play my sound import android app Activity import android media
Py2App找不到标准模块

我使用 py2app 创建了一个应用程序它工作正常但如果我压缩解压缩它新解压缩的版本将无法访问标准 python 模块如 Traceback 或 os zip 的联机帮助页声称它保留了资源分支并且我已经看到其他以这种方式打包的应
按钮点击不触发它的方法VB.NET

您好我的按钮有问题当我单击它时按钮不会触发该方法 Private Sub button1 Click sender As System Object e As System EventArgs Initialize the captu
PHP 独特的嵌套数组数组函数

有没有办法使用 Array unique 函数来处理嵌套数组如下所示我想删除日期重复项并将两个日期作为数组取出 Array 0 gt Array value gt 1311044688 name gt 19th Jul 2011 1 g
我可以阻止 std::sort 复制传递的比较对象吗

我们使用比较器对象对向量进行排序 std vector
jQuery：绑定命名空间事件

如果事件是命名空间是否可以侦听一个基本事件的所有事件 Example elmt bind change function event console log event elmt trigger change namespace1 elm
Opencv：使用 FAST 关键点和 Brief 特征训练 SVM

我想训练一个用于对象检测的支持向量机此时我有一个 python 脚本可以检测 FAST 关键点并提取该位置的 Brief 特征现在我不知道如何使用这些描述符来训练 SVM 请你告诉我如何使用描述符来训练SVM 据我所知这些描述符应
自定义分析器，它会破坏特殊字符和小写/大写的标记

我正在尝试编写一个自定义分析器它会破坏特殊字符上的标记并在索引之前将其转换为大写如果我也使用小写字母进行搜索我应该能够获得结果例如如果我给出 data source 它应该用空格替换它应该用空格替换任何特殊字符并给我像数据源

自定义分析器，它会破坏特殊字符和小写/大写的标记

自定义分析器，它会破坏特殊字符和小写/大写的标记 的相关文章

随机推荐

热门标签

自定义分析器，它会破坏特殊字符和小写/大写的标记的相关文章