Logstash doc_as_upsert Elasticsearch 中的交叉索引以消除重复

2024-03-17

我有一个logstash 配置，它在输出块中使用以下内容来尝试减少重复。

output {
        if [type] == "usage" {
                elasticsearch {
                        hosts => ["elastic4:9204"]
                        index => "usage-%{+YYYY-MM-dd-HH}"
                        document_id => "%{[@metadata][fingerprint]}"
                        action => "update"
                        doc_as_upsert => true
                }

        }
}

指纹是根据两个唯一字段的 SHA1 哈希计算得出的。

当logstash在同一索引中看到相同的文档时，这是有效的，但由于生成输入数据的命令没有可靠的不同文档出现的速率，logstash有时会在不同的带日期标记的索引中插入重复的文档。

例如，logstash 运行获取输入的命令通常会返回最近两个小时的数据。但是，由于我无法明确判断文档何时出现/消失，因此我每十五分钟调整一次命令。

当重复发生在同一小时内时，这很好。但是，当小时或日期时间戳翻转并且文档仍然出现时，elastic/logstash 认为它是一个新文档。

有没有办法让 upsert 工作交叉索引？这些都是相同类型的文档，它们将简单地应用于与“usage-*”匹配的每个索引

新索引是一个全新的键空间，没有办法告诉 ES 不要在两个不同的索引中为具有相同 ID 的两个文档建立索引。

但是，您可以通过添加一个来防止这种情况发生elasticsearch filter https://www.elastic.co/guide/en/logstash/current/plugins-filters-elasticsearch.html到您的管道，它将在所有索引中查找文档，如果找到一个，它可能会删除该事件。

像这样的事情会做（注意usages将是跨越所有的别名usage-*指数）：

filter {
    elasticsearch {
        hosts => ["elastic4:9204"]
        index => "usages"
        query => "_id:%{[@metadata][fingerprint]}"
        fields => {"_id" => "other_id"}
    }
    # if the document was found, drop this one
    if [other_id] {
        drop {}
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

Logstash

ElasticStack

Logstash doc_as_upsert Elasticsearch 中的交叉索引以消除重复的相关文章

在 ElasticSearch 中，我应该对单独但相关的实体使用多个索引吗？

添加索引的开销有详细记录但我无法找到有关何时针对要建立索引的各种文档类型使用多个索引的良好信息这是一个说明问题的通用示例假设我们有以下实体产品名称产品 ID 产品类别 ID 商店列表产品类别名称 ProductCategor
脚本参数不支持 ElasticSearch v7.3 更新脚本中的 START_ARRAY 类型的值

我正在尝试更新索引文档但通过 Postman 更新 API 脚本时出现以下错误 error root cause type x content parse exception reason 5 15 script params doesn
我的石墨中的 Logstash 指标在哪里？

这可能是一个菜鸟问题但我很难找到答案所以我希望你们能在这里帮助我我有一个running logstash实例将日志从一台服务器传送到另一台运行 Graphite 的服务器这是我的输出配置 output stdout codec gt
如何替换 Logstash 中字段中的字符串

我的 Windows 事件日志中有一个 IP 地址字段其中 IP 地址前面包含类似 fffff 的字符我无法更改此处的源因此我必须在 Logstash 中修复此问题我一定很不擅长谷歌搜索但我真的找不到一种简单的方法来从logsta
NEST 搜索整个文档 C# Elasticsearch

我想使用 Nest 在 Elasticsearch 中查询超过一百万个文档我的代码 var response client Search
如何将停用词添加到 ElasticSearch 中的默认列表

我想在默认值中添加更多单词 english 停止例如 inc incorporated ltd 和 limited 我怎样才能实现这一目标我当前创建索引的代码如下谢谢 PUT my index settings analysis fi
使用 python 聚合 elasticsearch-dsl 中的字段

有人可以告诉我如何编写 Python 语句来聚合求和和计数有关我的文档的内容吗 SCRIPT from datetime import datetime from elasticsearch dsl import DocType Str
在elasticsearch中存储聊天消息的最佳方式

我们目前正在实施一项即时通讯系统在我们的平台上我们需要为我们的用户提供聊天记录并能够显示用户最近进行的 5 次对话像 Facebook 上的预览一样事实上我们必须考虑如何才能存储所有这些数据我们正在使用弹性搜索我们认为这可能是存储
ElasticSearch：从 Painless 脚本中的嵌套字段计算 arcDistance

我需要计算 Painless 脚本内的弧距但在这种情况下还没有找到访问 geo API 的方法即第一点作为参数传递给脚本这意味着我只获得原始值第二点是从嵌套文档中读取的这意味着我无法使用doc myGeoField value
Elasticsearch，获取节点锁失败，是以下位置可写

Elasticsearch 不会开始使用 bin elasticsearch 它引发以下异常 ElasticsearchIllegalStateException Failed to obtain node lock is the foll
如何使用 Jest 从 ElasticSearch 获取索引列表

我正在尝试使用 Jest 检索索引列表但我只得到 Stats statistics new Stats Builder build result client execute statistics 如何从结果中检索索引列表除了统计之外
弹性搜索不提供页面大小较大的数据

获取数据大小约20 000 问题在 python 中使用以下命令搜索 Elasticsearch 索引数据但没有得到任何结果 from pyelasticsearch import ElasticSearch es repo Elas
将表从 postgres 数据库同步/导入到 elasticsearch 的正确方法是什么？

我想将 postgres 数据库中的一些表导入到 Elastic search 中并使这些表与 elastic search 中的数据保持同步我看过 udemy 上的课程还与一位对此问题有丰富经验的同事进行了交谈以了解最好的方法是什
使用 Elastic4s 进行动态 ElasticSearch 映射

我有一个文档要在elasticSearch上建立索引该文档包含一些我事先无法知道的动态键例如以下示例中的西班牙语或法语 contents title spanish Hola amigos french Bonjour les a
如何使用docker将metricbeat连接到elasticsearch和kibana

我已经使用 docker compose 设置了 elasticsearch 和 kibana elasticsearch部署在 localhost 9200当 kibana 部署在localhost 5601 当尝试使用 docker r
如何使用 Elastica Search 和 Symfony2 执行嵌套查询

我有一个食谱实体其中有一些标签多对多映射我想按标签搜索食谱这是我的食谱实体 ORM Entity ORM Table name recipes ORM HasLifecycleCallbacks ExclusionPolicy al
Logback 与 Elasticsearch 直接集成

我有带有 slf4j logback 的 Spring Boot 应用程序并寻找集中式日志记录解决方案现在我发现我不需要使用日志收集器比如logstash filebeat rsyslog 有直接收集器Ingest Node在 Ela
超出elasticsearch中字段的最大长度 - kibana中的错误

发现 prod logs 索引的 CSnZmwB xkQcDCOrP1V 文档的 message 字段的长度已超过 1000000 允许分析突出显示的最大值可以通过更改 index highlight max analyzed offse
需要仅返回 Elasticsearch 中具有完整父主体的匹配嵌套对象

我在我的项目中使用 Elastic search 1 7 版本我有一个名为colleges在该索引下有一个嵌套索引名称courses像这样 name College Name university University Name city
按存储桶键值过滤 Elasticsearch 聚合

我有一个 Elasticsearch 文档索引其中有一个包含 URL 列表的字段正如预期的那样对该字段进行聚合可以计算出唯一 URL 的数量 GET models search query match all size 0 aggs

随机推荐

这里使用尾递归有什么好处？

我一直在阅读描述如何通过使用尾递归版本来降低快速排序的空间复杂度的文章但我无法理解这是怎么回事以下是两个版本 QUICKSORT A p r q PARTITION A p r QUICKSORT A p q 1 QUICKSORT A
我可以在 CREATE 或 SET 上参数化标签和属性吗？（休息和事务）

我有一个疑问 1 CREATE a 1 s props b 2 s props2 b 3 s relProps gt a 2 MATCH a 1 s value value 2 s gt b WHERE b 3 s SET b props
Android NDK：警告：此项目中没有要构建的模块

我是 NDK 开发的新手当我尝试从 cygwin 终端调用 ndk 构建工具时我目前面临一个问题 Android NDK WARNING There are no modules to build in this project 我在
将 QQmlListProperty 作为参数从 QML 传递到 C++

我有一个 QML ProviderItem 它的对象属性返回 QObject 派生对象的列表我想将此列表传递给另一个 QML ConsumerItem 作为其函数 ConsumerAll 的属性问题是我总是得到空的 QQmlListPr
在 Ajax POST 和 JSON 中发送特殊字符

SOLVED 正如 James M Lay 所解释的我应该将我的内容类型从application x www form urlencoded to application json 它暗示了一个错误因为似乎只有 UrlEnconded
如何通过https使用wsdl2java生成客户端代码？

我正在使用 Tomcat 6 和 CXF 3 来实现一些 Web 服务我需要在本地服务器上使用 wsdl2java 命令生成客户端代码它适用于http协议 wsdl2java frontend jaxws21 p com activen
MVC后退按钮问题

我有一个在单击后退按钮时需要执行的操作方法我之前通过在操作方法 Response Cache SetCacheability HttpCacheability NoCache 中禁用缓存来完成此操作这对于不同的操作方法不起作用出于某种
JSP/Servlet如何识别HTTP请求是否来自ajax请求

我正在为我的 Web 应用程序使用 JQuery Ajax 和 History js 我是否可以识别请求是来自 AJAX 请求还是来自普通请求我的目标是这样的
在 NestJS 中使用 mongoose 并利用我已经定义的模式来执行种子 mongoDB 的正确方法是什么

我们将 NestJS 与 mongoose 一起使用并希望为 mongoDB 提供种子想知道什么是播种数据库的正确方法并使用已定义的数据库模式来确保播种的数据有效并得到正确维护在模块级别就在模块定义之前进行播种感觉很糟糕最终导
如何将 Android 图库中的 fling 限制为每次 fling 仅包含一个项目？

我有一个包含几张全屏图像的画廊我想将快速手势限制为一次仅前进一张图像如 HTC Gallery 应用程序实现这一目标的正确最简单的方法是什么只需覆盖图库小部件的onFling 方法并且不调用超类onFling method 这将使
在 R 中使用 python 虚拟环境

我正在使用 rPython 包在 R 中调用 python 但我无法使 R 引用我的 python 虚拟环境在R中我尝试过使用 system home username Documents myenv env bin activate
iOS：音频单元、OpenAL 与 Core Audio

有人可以向我解释一下 OpenAL 如何适应 iPhone 上的声音模式吗似乎有不同级别的 API 用于处理声音更高层次的内容很容易理解但我的理解越往下越模糊有核心音频音频单元 OpenAL 这些之间有什么联系呢 openAL 是
代码中使用连接是什么

目的是什么using connection 在代码中请解释一下 static void HasRows SqlConnection connection using connection what is this line SqlComm
（如何）是否可以绑定/重新绑定一个方法以与不同签名的委托一起使用？

我是一名 C 开发人员在 C 中使用过信号和插槽对我来说这似乎类似于 C 中的委托我发现自己在寻找 bind 提供的功能时不知所措感觉我一定错过了一些东西我觉得像下面这样的东西在 c 中是可能的在带有委托的 c 中也应该是可能
如何保持DataFrame中键值的顺序与JSON相同？

JSON 数据示例 name dev salary 100 occupation engg address noida name karthik salary 200 occupation engg address blore Spark
检查路径是否是 Python 2.7 中的套接字

Python 2 7 中确定路径是否是套接字的最佳方法是什么 os path http docs python org 2 library os path html has is 函数为目录 http docs python org 2 l
在 Red Hat 上安装 RabbitMQ - 错误的 Erlang 版本

我正在尝试按照以下说明在 Red Hat Enterprise Linux 7 64 位工作站版本的评估虚拟机上安装 RabbitMQhttps www rabbitmq com install rpm html https www ra
以 Primefaces gmap 中当前位置为中心

是否可以使用 Primefaces 的 gmap 将 google 地图以客户端当前位置为中心我使用 JSF JPA 和 primefaces 开发公共卫生信息系统现场人员需要使用具有GPS功能的移动设备记录位置以便将数据记录到数据库
hg 相当于 git 笔记

Mercurial 中是否有一个类似于 git Notes 的命令据我所知情况并非如此我认为 Hg 还没有一种特殊的对象可以与提交消息关联引入于2007年7月 http kerneltrap org mailarchive git
Logstash doc_as_upsert Elasticsearch 中的交叉索引以消除重复

我有一个logstash 配置它在输出块中使用以下内容来尝试减少重复 output if type usage elasticsearch hosts gt elastic4 9204 index gt usage YYYY MM dd

Logstash doc_as_upsert Elasticsearch 中的交叉索引以消除重复

Logstash doc_as_upsert Elasticsearch 中的交叉索引以消除重复 的相关文章

随机推荐

热门标签

Logstash doc_as_upsert Elasticsearch 中的交叉索引以消除重复的相关文章