如何优化elasticsearch percolator索引内存性能

2024-01-06

使用elasticsearch percolator索引时有没有办法提高内存性能？

我为我的渗滤器创建了一个单独的索引。我有大约 1 000 000 个用户创建的已保存搜索（用于电子邮件警报）。创建此渗透器索引后，我的堆使用率飙升至 100%，并且服务器对任何查询都没有响应。我的资源有限，无法简单地投入更多内存来解决问题。唯一的解决方案是删除包含我保存的搜索的索引。

据我所知，渗滤器索引永久驻留在内存中。这完全有必要吗？有没有办法限制这种行为但仍然保留功能？有没有办法优化我的数据/查询/索引结构来避免这种行为，同时仍然达到预期的结果？

从 ElasticSearch 的角度来看，这个问题没有解决方案，也不可能有解决方案。我直接与 ElasticSearch 人员交谈，他们的答案是：“投入更多硬件”。

然而，我找到了一种方法来解决这个问题，减少我对该功能的使用。当我分析保存的搜索数据时，我发现我的搜索包含大约 100 000 个唯一关键字搜索以及创建超过 1 000 000 个保存搜索的各种过滤器排列。

如果我看一下过滤器，它们是这样的：

地点 - 300+
工业 - 50+
etc...

给出解空间：

100 000 * >300 * >50 * ... ~= > 1 500 000 000

但是，如果我要分解搜索并在渗滤器索引中单独索引关键字搜索和过滤器，我最终的搜索量要少得多：

100 000 + >300 + >50 + ... ~= > 100 350

这些搜索本身比原始搜索更小、更简单。

现在，我创建第二个（非渗透器）索引，列出所有 1 000 000 个已保存的搜索，并包括来自渗滤器指数。

然后我过滤文档，然后执行第二个查询，根据关键字过滤搜索并过滤过滤器结果。我什至能够保留相关性分数，因为这纯粹是从关键字搜索返回的。

这种方法将显着减少我的渗透器索引内存占用，同时达到相同的目的。

我想邀请对此方法的反馈（我还没有尝试过，但我会随时通知您）。

同样，如果我的方法成功，您认为值得提出功能请求吗？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

elasticsearchpercolate

如何优化elasticsearch percolator索引内存性能的相关文章

Elasticsearch 日期范围交集

我在弹性搜索中存储类似以下信息的信息 timeslot start at 2013 02 01 timeslot end at 2013 02 03 鉴于我有另一个日期范围例如从用户输入给出我想搜索相交的时间范围与此类似确定两个日
Elasticsearch 中的别名数量（全局和/或每个索引）是否有限制？

我开始为我的项目研究elasticsearch 具体来说是1 5版本我正在考虑使用别名将客户端应用程序从复杂的索引设置中抽象出来我最终可能会得到 20 到 50 个索引每个索引有 10 到 30 个别名这将达到 1500 个别名我
Elasticsearch：将新元素附加到对象的嵌套数组

我正在尝试将新项目添加到特定文档中的嵌套对象数组中我已经搜索过似乎部分文档的更新不支持我需要的内容它用新元素替换了整个数组所以我进行了脚本化更新它通过 REST API 按预期工作 PUT transactions mapping
如何在 ElasticSearch 中获取带有计数的百分位数

我们正在尝试生成百分位数弹性搜索 https www elastic co products elasticsearch using 百分位数聚合 https www elastic co guide en elasticsearch re
ElasticSearch：从 Painless 脚本中的嵌套字段计算 arcDistance

我需要计算 Painless 脚本内的弧距但在这种情况下还没有找到访问 geo API 的方法即第一点作为参数传递给脚本这意味着我只获得原始值第二点是从嵌套文档中读取的这意味着我无法使用doc myGeoField value
ElasticSearch：设置 search_analyzer 时必须设置字段分析器

我读过有关 ES 的早期版本 type mapper parsing exception reason analyzer on field email must be set when search analyzer is set 这是当我
在嵌套热门点击聚合中包含父 _source 字段

我正在尝试聚合一个字段并使用top hits但我想在响应中包含未包含在嵌套属性映射中的其他字段目前如果我指定 source include 我只能获取当前嵌套属性中的字段这是我的映射 my cart mappings propertie
Spring Data elasticsearch @Query 注解嵌套对象

我有两节课 Document public class PracticeQuestion private int userId private List
ElasticSearch：如何使用月份和日期范围过滤器查询日期字段

目前我已经知道如何从时间戳日期字段过滤日期范围这很简单 range date gte 2015 11 01 lte 2015 11 30 但是当您对基于月份的范围感兴趣时如何过滤日期gte 02 22 and lte 03 21
查询格式错误，查询名称后没有 start_object

我正在针对 AWS Elasticsearch 5 1 运行此查询并收到格式错误的查询错误这是请求的正文我基本上只是检查该字段在时间范围内是否存在 query bool filter bool must range timestamp
如何使用 Fluent 为 Elasticsearch 添加时间戳和密钥

我已经配置了 fluidd 和 elasticsearch 它们都工作正常我正在跟踪一个文件然后读取其数据并将其发布到elasticsearch 下面是json数据 time 2018 05 14T11 37 30 339593 Dat
Elasticsearch 如何使用通配符进行 OR 查询

我很难尝试使用 elasticsearch 构建查询我想查询类似的内容 WHERE field 1 is match string OR field 2 is wildcard match string OR field 3 is fuz
如何使用 Elastica Search 和 Symfony2 执行嵌套查询

我有一个食谱实体其中有一些标签多对多映射我想按标签搜索食谱这是我的食谱实体 ORM Entity ORM Table name recipes ORM HasLifecycleCallbacks ExclusionPolicy al
Elasticsearch，如何使 NEST 地图响应类

首先我使用的是NEST 5 5 0 我对远程 elasticsearch index 的使用如下 var node new Uri http distribution virk dk cvr permanent var settings
Elasticsearch 将字符串与模糊字段相匹配

我正在尝试将字符串与字段匹配并且只想应用模糊性例如对于这些文档 title replace oilfilter title replace motoroil 以下查询应仅匹配第一个文档 Replace oilfilter Replac
如何在 DSL 中的术语查询内添加建议

我的文档如下 id 1 name sachin messi description email protected cdn cgi l email protection type football var sports id 2 name
在 Elasticsearch Nest 查询中加载特定字段

该文档似乎表明我可以返回字段的子集而不是整个文档这是我的代码 var result client Search
Elasticsearch 聚合过滤器

因为我在谷歌上找不到任何东西是否可以在elasticsearch中过滤聚合我正在考虑这样的事情获取 SOME object X gt 100 的所有对象提前致谢编辑样本数据我有以下文档结构 docKey 1 value 2 d
静态加密数据时 ElasticSearch 的工作原理

我的数据存在于 DynamoDB 中为了启用全文搜索我使用 Lambda 函数将其转发到 ES 索引但如果可能的话我希望在不影响搜索效率的情况下对数据进行加密但我不确定我的搜索在这里如何进行我找不到任何文档文章来说明当数据静态
包含 Elasticsearch 中的查询或部分匹配

我正在寻找一个 amend 这个词它可能在数据中以 amending amendment 甚至 amend 的形式出现搜索此类单词的最佳方法是什么我知道通配符可以实现这一点但由于我的代码的其他部分我被限制不使用它有哪些不同的方式

随机推荐

RabbitMQ - 通道关闭：连接错误（SpringXD 重复关闭rabbitmq 连接。）

我度过了一个糟糕的夜晚试图弄清楚 RabbitMQ 和 SpringXD 到底发生了什么不幸的是没有成功问题 SpringXD反复关闭RabbitMQ连接或报告与通道缓存大小相关的警告 SpringXD 日志的片段在流初始化自动
猫鼬自定义模式类型

我从 mongoose 文档中了解到可以创建自定义模式类型并将其添加到已有的模式类型中正如所建议的我尝试研究猫鼬长的例子 https github com aeckmann mongoose long https github com
退格键在 Eclipse Mars 中恢复

我在 Eclipse Mars 4 5 0 中的退格键的作用类似于删除键它删除右侧字符而不是左侧字符这真的很令人困惑也许我不小心使用了快捷键我尝试重新启动 Eclipse 但没有成功我还尝试将键绑定首选项切换为 Emacs 方案
检查页面是父页面还是子页面？

是否可以检查页面是父页面还是子页面我的页面设置如下家长子页1 子页2 etc 如果它是父页面我想显示某个菜单如果它在子页面上我想显示不同的菜单我知道我可以做类似下面的事情但我想让它更加动态而不包含特定的页面 ID 您可以测
“kotlin-noarg”插件在 Realm 中不起作用

kotlin allopen 插件可以工作但 kotlin noarg 插件不起作用我能怎么做下面是代码构建 gradle buildscript ext kotlin version 1 1 3 2 repositories go
cin 首次使用函数后不允许输入

对于 C 或任何类型的编程来说都是全新的我正在尝试进行简单的输入输出但是在回答第一个问题后我没有机会输入第二个输入我尝试过在网上查找内容但考虑到这是一个非常简单的代码据说哈哈没有人遇到过同样的问题这让我来到这里 inclu
生产中的高超音速休眠？

开发商高超音速 http hsqldb org 承诺提高绩效但我担心使用 hsqlDB 的管理和其他方面会出现问题有人在生产中使用这个吗这是个好主意吗许多公司 http hsqldb org web hsqlUsing html在生
如何评估 WHERE 子句中的输入

我正在我的一个变量中输入一个输入基本上我想做一些类似的事情 SELECT FROM PEOPLE WHERE IF INPUT 1 ITEMID 16 OR ITEMID 13 ELSE IF INPUT 2 ITEMID 11 OR I
Java SFTP (apache vfs2) - 密码带有@

我正在尝试使用 org apache commons vfs2 通过 SFTP 下载文件问题是密码包含字符因此这会导致 URI 被错误解析 org apache commons vfs2 FileSystemException Ex
有没有办法只限制mysql中的较低范围？

我想获取查询中除第一行之外的所有行我怎样才能做到这一点您可以使用大量行偏移量为1 LIMIT 1 18446744073709551615
为什么 JSON 列不能是唯一键？

我有一个表里面有一个名为ColumnName该列的数据类型是JSON 我正在努力让它成为unique key 但这是不可能的我收到了这条消息 3152 JSON 列 columnName 不能在键规范中使用我想了解为什么我不能将该列设
在 SQL Server 中从 base64 字符串转换为 varbinary(max)

我的表中以二进制形式存储了 PDF 文档存储 PDF 字节的列是 typevarbinary max 我想要updateSQL Studio 中包含更新文档的一条记录我尝试完成此操作的方式如下所示 UPDATE table SET fi
Azure 搜索是否支持拼写错误和同义词？

我见过讨论这两个主题的线程 Azure 搜索是否处理同义词 https stackoverflow com questions 31180405 does azure search handle synonyms 搜索 API 中的模糊搜索
没有简单组件的提供者

直到 5 分钟前它才工作这毫无意义这是组件 import Component OnInit from angular core import Osobaa from osobaa import Osoba from osoba impo
RUBYLIB 环境路径

所以目前我已将以下内容包含在我的 bashrc 文件中 export RUBYLIB home git project app helpers 我正在尝试使用具有以下规范的规范来运行 rspec require output helper
在Python中读取csv文件时列出索引超出范围错误

我有这段代码我正在读取 csv 文件使用NamedTemporaryFile更改 csv 文件的内容 def update localcsv ping Yes No filename file1 csv tempfile NamedTe
发布 TypeScript 包时如何处理可选的对等依赖项？

将 TypeScript 包发布到 npm 并提供接受来自一个对等依赖项或另一个对等依赖项的输入的函数时如何定义可选的对等依赖项 import ExternalFoo from foo import ExternalBar from ba
如何重写此 MySQL 查询，使其不会引发此错误：您无法在 FROM 子句中指定目标表“crawlLog”进行更新？

我正在尝试从公司表中获取 id 但该 id 尚未出现在crawlLog 表中然后我需要将该companyId 插入crawlLog 表中我需要在一次调用中执行此操作以便并行爬网程序在其他爬网程序选择了某个 url 但尚未将其插入爬网日
如何在小窗口中打开“zxing条码”扫描屏？

zxing Barcode 扫描仪在我的应用程序中成功运行 https github com journeyapps zxing android embedded https github com journeyapps zxing and
如何优化elasticsearch percolator索引内存性能

使用elasticsearch percolator索引时有没有办法提高内存性能我为我的渗滤器创建了一个单独的索引我有大约 1 000 000 个用户创建的已保存搜索用于电子邮件警报创建此渗透器索引后我的堆使用率飙升至 100 并

如何优化elasticsearch percolator索引内存性能

如何优化elasticsearch percolator索引内存性能 的相关文章

随机推荐

热门标签

如何优化elasticsearch percolator索引内存性能的相关文章