Elasticsearch：带有停用词消除功能的带状疱疹

2024-05-26

我正在尝试实现一个 Elasticsearch 映射来优化大量文本中的短语搜索。根据中的建议本文 http://www.elasticsearch.org/blog/searching-with-shingles/，我使用 shingle 过滤器为每个短语构建多个一元组。

两个问题：

在提到的文章中，停用词被过滤，并且 shingles 通过插入“_”标记来处理丢失的空格。这些标记应该从引擎索引的一元图中消除。这种消除的目的是能够响应包含各种“无用”单词的短语查询。标准解决方案（如本文中提到的）不再可能，因为 Lucene 正在弃用此类行为所需的某些功能 (enable_position_increments)。我该如何解决此类问题？
考虑到标点符号的消除，我经常看到由这个覆盖这两个短语的叠瓦过程产生的一元组。从搜索的角度来看，任何包含两个单独短语的单词的结果都是不正确的。如何避免（或减轻）此类问题？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Lucene

elasticsearch

fulltextsearch

Elasticsearch：带有停用词消除功能的带状疱疹的相关文章

在 Elasticsearch php API 中使用多种类型或索引

我想使用查询多种类型和索引Elasticsearch PHP API 但我不知道怎么办我应该将类型和索引的数组传递给 params params index index array of indices params type types
有没有推荐的与 Lucene 或 Solr 一起使用的爬虫工具？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Spring Data elasticsearch @Query 注解嵌套对象

我有两节课 Document public class PracticeQuestion private int userId private List
Elasticsearch如何支持涉及多个文档的事务

我使用elasticsearch和非规范化数据比如 PUT my index user 1 name John Smith email email protected cdn cgi l email protection dob 1970
MySQL - 通过部分单词匹配和相关性评分进行高效搜索（全文）

如何进行 MySQL 搜索既匹配部分单词又提供准确的相关性排序 SELECT name MATCH name AGAINST math IN BOOLEAN MODE AS relevance FROM subjects WHERE M
lucene 3.5中分组和facet有什么区别

我在lucene 3 5 contrib文件夹中发现了两个插件一个是分组另一个是facet 在我的选择中它们都用于将我的文档分为不同的类别为什么 lucene 现在有两个插件呢它们是两个不同的 lucene 特性 Grouping
为什么这个 ElasticSearch 扫描和滚动不断返回相同的滚动 id？

所以首先我运行以下命令 curl s XGET http localhost 9200 my index search scroll 1m search type scan size 10 这会返回一个滚动 ID 然后我在第一个滚动请求中使
将表从 postgres 数据库同步/导入到 elasticsearch 的正确方法是什么？

我想将 postgres 数据库中的一些表导入到 Elastic search 中并使这些表与 elastic search 中的数据保持同步我看过 udemy 上的课程还与一位对此问题有丰富经验的同事进行了交谈以了解最好的方法是什
`docker-compose up` 与使用环境变量的 `docker compose up`

我正在尝试使用 Docker Compose 将三节点 Elasticsearch 集群部署到 Azure 容器实例我松松地跟随这个例子 https www elastic co guide en elasticsearch refere
PDO 和 MySQL 全文搜索

我正在将所有站点代码从使用 mysql 函数转换为 PDO 关于 PDO 的 PHP 文档对于我的需求来说并不清楚它为您提供了可以使用的功能但没有详细解释它们在不同场景下的情况基本上我有一个 mysql 全文搜索 sql SELEC
Spring MVC 中的 Elasticsearch 集成？

有谁知道如何集成spring mvc和elasticsearch吗我想实现一个像一般网站谷歌雅虎搜索引擎一样的网页有教程或者示例代码吗查看 Spring Data Elasticsearchproject https githu
MongoDB 全文搜索分数“分数是什么意思？”

我正在为我的学校开发一个 MongoDB 项目我有一个句子集合我进行正常的文本搜索以查找集合中最相似的句子这是基于评分的我运行这个查询 db sentences find text search any text score met
添加任何自定义实体后 jHipster Elasticsearch 问题

org springframework beans factory UnsatisfiedDependencyException Error creating bean with name countryServiceImpl define
将 MongoDb 同步到 ElasticSearch

我正在寻找一种将 MongoDB 中的集合与 Elastic Search ES 同步的方法目标是以 MongoDB 作为主要数据源并使用 MongoDB 作为全文搜索引擎我的项目的业务逻辑是用python写的网上有多种方法可供选择
Elasticsearch，如何使 NEST 地图响应类

首先我使用的是NEST 5 5 0 我对远程 elasticsearch index 的使用如下 var node new Uri http distribution virk dk cvr permanent var settings
ElasticSearch：Jest、Rest、TransportClient、NodeClient

我已经浏览了官方文档https www elastic co blog found interface elasticsearch picking client https www elastic co blog found interfa
查找文本中所有关键字的有效算法

我有很多字符串其中包含许多不同拼写的文本我通过搜索关键字来标记这些字符串如果找到关键字我将使用该关键字的关联文本假设搜索字符串可以包含文本 schw schwa 和施瓦茨我有三个关键字全部解析为文本 schwarz 现在我正
语法错误：elasticdump 中的exports.runInThisContext (vm.js:53:16) 处出现意外标记 {

我试图使用elasticdump 将elasticsearch 数据从一台服务器移动到另一台服务器当我给予 elasticdump input http 192 168 0 122 9200 my index output http lo
Lucene 搜索错误堆栈

我在尝试使用 Lucene 进行搜索时看到以下错误版本1 4 3 关于为什么我会看到这个以及如何解决它有什么想法吗 Caused by java io IOException read past EOF at org apache luc
非生产模式下的 Elasticsearch docker 容器可消除 vm.max_map_count=262144 要求

如何配置 elasticsearch docker 容器 elasticsearch 7 5 0 以使用更少的资源并在非生产模式下运行我想在 Jenkins 和我的桌面上运行容器并且满足以下要求这个弹性文档 https www elas

随机推荐

Java泛型类型要么扩展要么是父类

我正在寻找一些如下所示的代码 public class Parent
我在 Android studio 中遇到错误

在此输入图像描述 https i stack imgur com bvqID png我是安卓新手我刚刚在 android studio 中创建了一个项目并且在它的中遇到了问题manifest xml 错误是在 android icon
Android - 检测电容式触摸屏上的触摸压力？

我听说过 MotionEvent e float press e getPressure 但这只会在没有触摸时返回 0 当我的手指触摸屏幕时返回 1 是否可以找到手指在触摸电容屏上施加的压力值或者我的预感是否正确即这只适用于电阻屏幕 M
使用 vue-cli 服务时如何禁用 linting？

我正在使用以下命令使用 vue cli 运行我的项目 vue cli service 服务 open 如何禁用所有 linting 目前每次保存时都会重新进行 linting 并且更改代码需要很长时间我已经把 lintOnSave fal
ImageMagick 没有解码委托

我正在尝试使用 imagemagick 转换图像但收到此错误转换此图像格式 i imgur com nTheJ jpg 没有解码委托 error constitute c ReadImage 532 我正在这样做 convert ht
对列表中的相邻元素进行分组

假设我想编写一个函数来执行此操作输入 1 1 3 3 4 2 2 5 6 6 输出 1 1 3 3 4 2 2 5 6 6 它将相同的相邻元素分组这个方法的名称应该是什么此操作有标准名称吗 In 1 1 3 3 4 2 2 5 6 6
Swift 3：将数据转换为字符串返回 nil 值

将数据转换为字符串会返回 nil 值 Code thus unwraps the image if let image image print Saving image data don t unwrap here if let data
当表有聚集索引时，数据是如何存储的

我发现了无数的帖子开头都是这样的很多时候我遇到人们说聚集索引根据聚集索引键对表内的数据进行物理排序这不是真的然后这些帖子继续描述它是如何通过链表或其他方式实际存储的例如这个post http sqlwithmanoj wordp
Java 区域设置区分大小写

我有以下代码来显示当前区域设置 System out println Locale getDefault System out println new Locale en US 上面给出的输出如下 en US en us 如何构造一个 Lo
使用非负约束进行优化

考虑以下功能 import numpy as np import scipy optimize as opt import math Periodic indexation def pl list i return list i len l
React + Redux 和 REST API？

我在 Node 中构建了一个简单的 CRUD 应用程序并已在 Express 中完成了其余 API 的创建我现在正在寻求添加前端功能并希望使用 React Redux 作为学习练习然而似乎所有围绕此的教程都直接使用 Redux 访
UnicodeDecodeError：“charmap”编解码器|安装 pip python-stdnum==1.8 时出错

我对编程还很陌生所以请耐心等待当我为正在使用的模块安装一些必需的软件包时我无法安装python stdnum 1 8 我收到以下错误消息 File C Users 59996 AppData Local Programs Python
如何获取 Jenkins 的 API 令牌

我正在尝试使用詹金斯REST https en wikipedia org wiki Representational state transferAPI 说明中说我需要 API 密钥我浏览了所有配置页面才找到它如何获取 Jenkins
如何分发我的应用程序的多个版本？

我想分发我的应用程序的两个版本稳定分支以及当前的开发主干使用试飞 http testflightapp com 而且如果可能的话我只想邀请测试人员一次我可以在一个 TestFlight 团队中拥有一个应用程序的两个版本吗或者也许
为 Nimbus 外观设计简单的单元渲染器

我有一个简单的单元格渲染器它由一些组成JLabels 渲染器本身扩展JPanel 并且我正在尝试让它在 Nimbus 的外观和感觉中合理地渲染基本上发生的事情是在lighter行正如 Nimbus 所具有的交替行着色我的特定单元格渲
基于动态资源的样式

看来这样的事情是不允许的有什么解决办法吗
在单独的终端屏幕上显示 git diff 和 git log 输出

设置新的开发环境后我遇到了一个奇怪的 git 行为我不记得过去见过我习惯于git diff and git log在终端中创建一个新屏幕并在其中显示其输出什么less默认情况下我用它作为我的寻呼机然后我可以退出并返回到之前的终端
Fortran的性能

Fortran 的表现计算机语言基准游戏 http shootout alioth debian org 出奇的糟糕今天的结果显示 Fortran 在两项四核测试中分别排名第 14 和第 11 在单核测试中排名第 7 和第 10 现在我
管道 - 将多个来源/生产者合并为一个

我正在使用读取文件sourceFile 但我还需要在处理操作中引入随机性我认为最好的方法是拥有一个这样的制片人 Producer m StdGen ByteString 其中 StdGen 用于生成随机数我打算让生产者执行 source
Elasticsearch：带有停用词消除功能的带状疱疹

我正在尝试实现一个 Elasticsearch 映射来优化大量文本中的短语搜索根据中的建议本文 http www elasticsearch org blog searching with shingles 我使用 shingle 过滤器

Elasticsearch：带有停用词消除功能的带状疱疹

Elasticsearch：带有停用词消除功能的带状疱疹 的相关文章

随机推荐

热门标签

Elasticsearch：带有停用词消除功能的带状疱疹的相关文章