随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

2024-05-02

我遇到了使用 .NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移、索引数量和文档数量恒定而降低的情况。

我们正在奔跑ElasticSearch Version: 0.19.11, JVM: 23.5-b02在具有 Ubuntu Server 12.04.1 LTS 64 位和 Sun Java 7 的 m1.large Amazon 实例上。除了 Ubuntu 安装附带的内容之外，该实例上没有运行任何其他内容。

Amazon M1 大型实例: from http://aws.amazon.com/ec2/instance-types/ http://aws.amazon.com/ec2/instance-types/

7.5 GiB memory
4 EC2 Compute Units (2 virtual cores with 2 EC2 Compute Units each)
850 GB instance storage
64-bit platform
I/O Performance: High
EBS-Optimized Available: 500 Mbps
API name: m1.large

ES_MAX_MEM 设置为 4g，ES_MIN_MEM 设置为 2g

每天晚上，我们在 .NET 应用程序中使用 NEST 索引/重新索引约 15000 个文档。在任何给定时间，只有一个索引包含

第一次安装服务器时，前几天索引和搜索速度很快，然后索引开始变得越来越慢。批量索引一次索引 100 个文档，一段时间后，批量操作最多需要 15 秒才能完成。之后我们开始看到很多以下异常并且索引逐渐停止。

System.Net.WebException: The request was aborted: The request was canceled.
   at System.Net.HttpWebRequest.EndGetResponse(IAsyncResult asyncResult)
   at System.Threading.Tasks.TaskFactory`1.FromAsyncCoreLogic(IAsyncResult iar, Func`2 endFunction, Action`1 endAction, Task`1 promise, Boolean requiresSynchronization) :

构建索引实现如下所示

private ElasticClient GetElasticClient()
{
    var setting = new ConnectionSettings(ConfigurationManager.AppSettings["elasticSearchHost"], 9200);
    setting.SetDefaultIndex("products");
    var elastic = new ElasticClient(setting);
    return elastic;
}

private void DisableRefreshInterval()
{
    var elasticClient = GetElasticClient();
    var s = elasticClient.GetIndexSettings("products");
    var settings = s != null && s.Settings != null ? s.Settings : new IndexSettings();
    settings["refresh_interval"] = "-1";
    var result = elasticClient.UpdateSettings(settings);
    if (!result.OK)
        _logger.Warn("unable to set refresh_interval to -1, {0}", result.ConnectionStatus == null || result.ConnectionStatus.Error == null ? "" : result.ConnectionStatus.Error.ExceptionMessage);
}

private void EnableRefreshInterval()
{
    var elasticClient = GetElasticClient();
    var s = elasticClient.GetIndexSettings("products");
    var settings = s != null && s.Settings != null ? s.Settings : new IndexSettings();
    settings["refresh_interval"] = "1s";
    var result = elasticClient.UpdateSettings(settings);
    if (!result.OK)
        _logger.Warn("unable to set refresh_interval to 1s, {0}", result.ConnectionStatus == null || result.ConnectionStatus.Error == null ? "" : result.ConnectionStatus.Error.ExceptionMessage);
}

public void Index(IEnumerable<Product> products)
{
    var enumerable = products as Product[] ?? products.ToArray();
    var elasticClient = GetElasticClient();
    try
    {
        DisableRefreshInterval();

        _logger.Info("Indexing {0} products", enumerable.Count());
        var status = elasticClient.IndexMany(enumerable as IEnumerable<Product>, "products");

        if (status.Items != null)
            _logger.Info("Done, Indexing {0} products, duration: {1}", status.Items.Count(), status.Took);

        if (status.ConnectionStatus.Error != null)
        {
            _logger.Error(status.ConnectionStatus.Error.OriginalException);
        }
    }
    catch(Exception ex)
    {
        _logger.Error(ex);
    }
    finally
    {
        EnableRefreshInterval();
    }
}

重新启动elasticsearch守护进程似乎没有任何区别，但删除索引并重新索引所有内容却会产生任何影响。但几天后我们就会遇到同样的索引速度慢的问题。

我刚刚删除了索引，并在每次批量索引操作后重新启用刷新间隔后添加了优化，希望这可以防止索引降级。

...
...
finally
{
    EnableRefreshInterval();
    elasticClient.Optimize("products");
}

我在这里做错了什么吗？

抱歉 - 刚刚开始写另一条很长的评论，我想我会把它全部放在答案中，以防它对其他人有利......

ES_HEAP_SIZE

我在这里注意到的第一件事是，您说您将 elasticsearch 的最大和最小堆值设置为不同的值。这些应该是相同的。在configuration/init.d脚本中应该有一个可以设置的EX_HEAP_SIZE。请务必仅设置此值（而不是最小值和最大值），因为它将把最小值和最大值设置为您想要的相同值。如果你不这样做，当你开始需要更多内存时，JVM 将阻止 java 进程 -看看这篇很棒的文章 https://github.com/blog/1397-recent-code-search-outages最近 github 发生了一次中断（引用如下）：

设置 ES_HEAP_SIZE 环境变量，以便 JVM 对最小和最大内存使用相同的值。将 JVM 配置为具有不同的最小值和最大值意味着每次 JVM 需要额外的内存（达到最大值）时，它都会阻止 Java 进程分配内存。与旧的 Java 版本相结合，这解释了当我们的节点向公共搜索开放时，当引入更高的负载和连续的内存分配时，我们的节点会表现出停顿。 Elasticsearch 团队建议设置为系统 RAM 的 50%。

还请查看这篇很棒的文章 http://asquera.de/opensource/2012/11/25/elasticsearch-pre-flight-checklist/从战壕中获取更多的 elasticsearch 配置。

锁定内存以停止交换

根据我的研究，我发现您还应该锁定 java 进程可用的内存量，以避免内存交换。我不是这个领域的专家，但我被告知这也会降低性能。您可以在elasticsearch.yml 配置文件中找到bootstrap.mlockall。

Upgrades

Elasticsearch 还是很新的。计划相当频繁地升级，因为您所在版本 (0.19.11) 和当前版本 (0.20.4) 之间引入的错误修复非常重要。请参阅ES site http://www.elasticsearch.org/download/了解详情。你使用的是 Java 7，这绝对是正确的选择，我开始使用 Java 6，很快意识到它还不够好，特别是对于批量插入。

Plugins

最后，对于遇到类似问题的任何其他人，请安装一个像样的插件，以概述您的节点和 JVM。我建议bigdesk https://github.com/lukas-vlcek/bigdesk- 运行bigdesk，然后使用一些批量插入来点击elasticsearch，并注意奇怪的堆内存模式、大量线程等，一切都在那里！

希望有人觉得这很有用！

干杯，詹姆士

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢的相关文章

为什么在第一次调用类方法之前不调用静态构造函数

根据乔恩斯基特的文章C 和 beforefieldinit http csharpindepth com Articles General Beforefieldinit aspx和讨论C 中何时调用静态构造函数 https stacko
基于 Microsoft Word 模板生成 PDF 文档 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要一个 Word 文档它是某种模板收集用户输入以填充该模板中的特定字段然后生成一个 PDF
从调试版本检测发布版本的最佳方法？。网

所以我有大约 10 个简短的 css 文件与 mvc 应用程序一起使用有像错误 css 登录 css ETC 只是一些非常短的 css 文件使更新和编辑变得容易至少对我来说我想要的是能够优化 if else 分支而不是将其合并到最
为什么在此单元测试中，BackgroundWorker 没有在正确的线程上调用 RunWorkerCompleted？

backgroundWorker 的全部目的是在执行耗时的任务后更新 UI 组件正如广告所宣传的那样在我的 WPF 应用程序中但是在我的测试中回调不会在调用线程上调用 Test public void TestCallbackIsInv
如果将其名称作为参数传递，如何在方法中打开表单

我正在尝试创建一个标准方法来根据传递给它的参数打开表单基本上要完成此任务 using Quotes newQte new Quotes newQte ShowDialog 通过替换 Quotes with a passed parame
.NET 是否有相当于 Python 中的 **kwargs 的功能？

我一直无法通过典型渠道找到这个问题的答案在Python中我可以有以下函数定义 def do the needful kwargs Kwargs is now a dictionary i e do the needful spam 42
BlockingCollection.Dispose 实际上做了什么？

BlockingCollection Dispose 实际上做了什么这允许正确处理内部等待句柄 BlockingCollection
SolrNet：尝试添加和提交时 SolrConnectionException (400) 错误请求

我已经到了 SolrNet 执行 Add 方法的地步但是当我尝试 Commit 时我收到了错误以下是我的 schema xml 模型调用它的代码以及我得到的错误更奇怪的是尽管出现错误但在我重新启动 Tomcat 后该模型仍会
寻找自定义 SynchronizationContext 的示例（单元测试所需）

我需要定制同步上下文 http msdn microsoft com en us library system threading synchronizationcontext aspx that 拥有一个运行 Posts 和 Sends
从 .resx 文件组获取所有可用区域性

我需要以编程方式列出 resx 文件组中的可用区域性但 ResourceManager 类似乎没有帮助我可能有 Labels resx Labels fr FR resx Labels ro RO resx 等等但是我如何在运行时找
Visual Studio 2013 中的内存分析

我想探索如何在我的应用程序中分配内存我有 C 控制台应用程序并使用 Visual Studio 2013 Professional I go to Analyze gt 性能和诊断并选择 NET内存分配结果我得到以下总结图表中每次CP
该变量未声明或从未分配警告

这是基类 public class BaseClass UserControl protected ListView list protected TreeView tree public BaseClass 儿童班 public part
如何使用 PetaPoco 库自动从数据库创建模型？

我的数据库中有一个表我想为其创建一个带有 getter 和 setter 的模型类对于我项目中的大部分任务我使用 PetaPoco 我手动创建了模型但很少有表有很多列有没有办法使用 PetaPoco 从数据库创建模型我强烈建议您
在 VB.NET 中 a = b = 5 - 不可能吗？

VB NET 中可以这样做吗a b 5 我知道也是比较运算符我的意思是做not结果例如如果 b 2 a false b 2 然而在下面的情况下该怎么做呢不方便在我的代码中引起了这个问题一些对象a b z由方法中的 ref 传递
基于 Web.Config 使用的 GAC 程序集版本

Good Day 我有一个在 GAC 中使用自定义程序集的项目为了能够使用它我在中添加了对我的项目的引用 C WINDOWS Microsoft NET assembly GAC MSIL JOHN CommonLib v4 0 1 0
VS2017在nuget包中将“Build Action”设置为“Content”

我创建我的nuget包在gitlab使用以下命令行 nuget pack Prop Configuration Release OutputDirectory nuget REPONAME APPNAME APPNAME csproj 如果
ELMAH 将其数据保存在哪里？

我刚刚安装了 ELMAH MVC 更多信息here http nuget org packages Elmah MVC 并且想知道其数据保存在哪里我读到您可以选择设置数据库进行存储但似乎默认安装使用内存中它是如何工作的如果我回收应
检查列表是否包含另一个列表。 C＃

编辑只是说 ContainsAllItem 中的注释解释得最好很抱歉问这个问题我知道以前有人问过这个问题但我只是不明白好的所以我想检查一个列表是否包含另一个列表中的所有项目WITHOUT重叠以及根据类字符串名称变量称为项目
WebClient读取错误页面的内容

我有一个加载页面内容的应用程序我使用 WebClient 类即使服务器返回 404 500 等错误我也需要检索内容我需要这样的东西 WebClient wc new WebClient string pageContent try
每次我执行 docker compose up 时，Docker 都会创建一个新卷

我有一个 docker compose 文件可以启动多个服务我刚刚收到一条错误消息指出我的磁盘空间不足因此我输入 docker system df 并看到我有 21 个卷如果我有 3 个 docker 容器每个容器都附加一个卷

随机推荐

数据表：根据值更改单元格颜色

我正在使用 DataTable 创建交互式表我有 9 列其中 5 列是值我想根据每个单元格的具体情况更改其背景颜色我开始尝试首先更改整个行的颜色因为这似乎是一个更容易的任务但我无法改变任何事情我的代码如下
为什么 ReadOnlySpan 不能用作泛型委托和泛型方法的类型参数？

我明白为什么ReadOnlySpan不能用作泛型类的类型参数 ReadOnlySpan仅是堆栈因此它不能用作字段类型字段成员像其容器对象一样存在于堆中但是返回值和参数始终只是堆栈所以为什么ReadOnlySpan不能用作泛型委托和泛
未处理的异常：SocketException：主机查找失败：（操作系统错误：没有与主机名关联的地址，errno = 7）

我们已经在 Playstore 中发布了一个发行版本并且运行得很好但现在突然间当我们尝试再次构建并运行代码时因为我们想要添加新功能它将不再与我们的后端通信所以我使用错误作为关键字在网络上进行搜索发现需要 INTERNET PE
使用“adb devices”命令无法找到 Android 设备

我正在开发Android申请于macOS我的应用程序在模拟器上运行良好我想在设备上运行它但是当我运行时adb devices我什么也没得到 localhost platform tools BF adb devices List of
在react-native中将本地图像uri作为props传递

我正在尝试将图像的 uri 作为 prop 传递以便我可以在 React Native 上多次重复使用它但是当前的解决方案提示我 require 应该使用字符串文字 const ImageButton source gt
Twitter APi“代码”：215，“消息”：“错误的身份验证数据

接收错误 code 215 message 错误的身份验证数据 in my page var dump page 我读到 Friends exist 不再适用于 1 1 版本因此我需要使用 Friends lookup 来比较一个 Twi
Azure Pipelines 状态徽章未显示在 Markdown 中

我已经为我的 github 存储库之一设置了 azure 管道除了构建状态徽章之外一切都工作正常它没有正确显示似乎无法加载图像目前正在显示 Edit markdown 文件中使用的代码由 azure devops 自动生成 Bui
Oracle BLOB 与 VARCHAR

我需要在表的一列中存储一个大 SQL 查询我想使用BLOB场地需要明确的是我想存储查询而不是其结果最好使用什么 BLOB or a VARCHAR 或者也许还有别的什么另一种选择是 CLOB 对于文本数据使用 CLOB 比使
git 存储库中的提交次数

我的一个为期 5 个月的项目即将结束作为毫无意义的统计数据的粉丝我想知道自存储库启动以来已经进行了多少次提交我怎样才能发现这一点 Notes 我知道没有one存储库我只对本地版本感兴趣这在颠覆中是微不足道的因为修订标识符似乎是
回发后我的 JavaScript 函数在 ASP.NET 中不起作用

我有共同的功能我把它折叠起来CommonFunctions js在脚本文件夹中我将它包含在我的主页上并在我的页面上使用它当我在页面上进行任何回发时我的功能不起作用 My CommonFunctions js function gf
使用 List.Sort(Comparison Comparison 在 C# 中对列表进行排序

我创建了一个类如下所示 public class StringMatch public int line num public int num of words 我创建了一个列表 List
共享 Google 地图或拍摄 Android 手机屏幕截图

我正在使用 android google map api v2 开发 android 应用程序到目前为止我已经取得了以下成绩打开谷歌地图显示用户的位置当他行走时他可以在地图上添加标记标记他经过的地方他可以删除标记或拖动它们我现
Kotlin：乐趣与 val

Kotlin 支持计算属性但我不确定何时使用它们假设我有一堂课 class Car val color String 并有这个返回的函数true如果汽车是白色的 fun isWhite car Car Boolean return car
各种 Android 设备的应用程序背景大小

我正在为所有 Android 设备的应用程序设计背景我在想图像的大小以像素为单位是多少从开发者网站我发现了以下等式 px dp dpi 160 那么 px 取决于两个变量首先 dp 我们有 xlarge screens are a
Ember-cli：导入毯子.js 导致测试运行程序挂起

我目前正在使用 ember cli 和 ember qUnit 进行测试我还想将代码覆盖率结果添加到测试输出中因此经过一些研究后 blanketjs 似乎是可行的方法我使用以下方法安装了毯子 npm 安装毯子并将毯子文件夹移至 em
我可以使用 Google Maps API v3 操作 KML 吗？

我正在 Google Maps API v3 中使用 KMLLayer 加载 KML 是否可以引用地图上的多边形并执行诸如更改颜色或透明度之类的操作不你不能那样做因为 kmllayer 中没有像对象一样的多边形来自谷歌文档 http
排除“解析错误，意外的‘>’”错误[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 我收到这个
SQS - 通过 ID 获取消息

我是否可以使用 Amazon PHP SDK 根据消息 ID 从 SQS 队列获取消息我是否必须获取队列中的所有消息然后在服务器上对其进行过滤我的服务器收到带有队列消息 ID 的 SNS 发起请求我必须从来自 SQS 的消息数组中过
Swift 5 / Xcode 11 更新后模拟器在动画块处冻结

我在 Xcode 11 中将项目更新为 Swift 5 现在程序在 iPhone 11 模拟器中的动画块处冻结当我在动画之后设置断点时它永远不会命中它重新启动 Xcode 和模拟器并没有解决问题如果我在设备上运行该程序它可以正常工
随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移索引数量和文档数量恒定而降低的情况我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具

随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢 的相关文章

随机推荐

热门标签

随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢的相关文章