如何为 B2B Web 应用程序设置 Lucene/Solr？

2024-01-07

Given:

每个客户（商业客户）1 个数据库
5000 名客户
客户端拥有 2 到 2000 个用户（平均约为 100 个用户/客户端）
每个数据库有 10 万到 1000 万条记录
用户需要经常搜索这些记录（这是导航数据的最佳方式）

可能相关的信息：

每周几个新客户（工作时间内的任何时间）
多个Web服务器和数据库服务器（用户可以通过任何Web服务器登录）
让我们保持对语言或 sql 品牌的不可知性，因为 Lucene（和 Solr）拥有广泛的支持

例如：

乔尔·斯波尔斯基在《播客 #11 https://blog.stackoverflow.com/2008/06/podcast-11/他的托管 Web 应用程序产品 FogBugz On-Demand 使用 Lucene。他拥有数千名按需客户。每个客户都有自己的数据库。

他们使用一个每个客户端的索引并将其存储在客户端的数据库中 http://fogbugz.stackexchange.com/questions/1866/where-is-the-fogbugz-search-index-stored/1878#1878。我不确定细节。我不确定这是否是 Lucene 的一个严肃的 mod。

问题：

您将如何设置 Lucene 搜索，以便每个客户端只能在其数据库内进行搜索？

您将如何设置索引？
您将索引存储在哪里？
您需要为所有搜索查询添加过滤器吗？
如果客户取消，您将如何删除他们的（部分）索引？（这可能是微不足道的——还不确定）

可能的解决方案：

为每个客户端（数据库）建立一个索引

优点：搜索速度更快（比单一索引方法）。索引与客户端数据的大小相关。
缺点：我不确定这意味着什么，也不知道这是否超出了 Lucene 的范围。

有一个带有database_name字段的巨大索引。始终包含database_name作为过滤器。

专业人士：不确定。也许有利于技术支持或计费部门搜索所有数据库以获取信息。
缺点：搜索速度较慢（比按客户端索引方法）。如果删除查询过滤器，则安全性存在缺陷。

最后一件事：
我也会接受使用的答案Solr http://lucene.apache.org/solr/（Lucene 的扩展）。也许它更适合这个问题。没有把握。

你从 FogBugz StackExchange 召唤了我。我叫 Jude，是 FogBugz 的现任搜索架构师。

以下是 FogBugz On Demand 搜索架构的设置方式的粗略概述[1]：

出于与数据可移植性、安全性等相关的原因，我们将所有按需数据库和索引分开。
虽然我们确实使用 Lucene（实际上是 Lucene.NET），但我们对其后端进行了相当大的修改，以便它可以将其索引完全存储在数据库中。此外，每个网络主机上都会维护一个本地缓存，以便尽可能避免不必要的数据库访问。
我们的过滤器几乎完全是数据库端的（因为它们由 FogBugz 搜索之外的各个方面使用），因此我们的搜索解析器将查询分为全文和非全文组件，执行查找并组合结果。这有点不幸，因为它使 Lucene 能够进行的许多有用的优化无效。

我们所做的事情有一些好处。管理帐户非常简单，因为客户数据及其索引存储在同一位置。不过，也存在一些负面影响，例如一组非常令人讨厌的边缘情况搜索，其性能低于我们的最低标准。回想起来，我们的搜索在当时很酷而且做得很好。然而，如果我再做一次，我会不鼓励这种做法.

简而言之，除非您的搜索领域非常特殊或者您愿意专门聘请开发人员进行极快的搜索，否则 ElasticSearch、Solr 或 Xapian 等优秀产品的性能可能会超过您。

如果我今天这样做，除非我的搜索域非常具体，否则我可能会使用ElasticSearch、Solr 或 Xapian对于我的数据库支持的全文搜索解决方案。至于哪一个，这取决于您的辅助需求（平台、查询类型、可扩展性、对一组怪癖相对于另一组怪癖的容忍度等）

关于一个大索引与许多（！）分散索引的主题：两者都可以工作。我认为这个决定实际上取决于您想要构建什么样的架构以及您需要什么样的性能。如果您认为 2 秒的搜索响应是合理的，那么您可以非常灵活，但是一旦您开始说超过 200 毫秒的任何内容都是不可接受的，您的选择很快就会开始消失。为所有客户维护一个大型搜索索引可能会带来更多好处高效的比处理大量小索引，它不一定更快（正如您所指出的）。我个人认为，在安全的环境中，保持客户数据分离的好处不容低估。当您的索引损坏时，它不会使所有搜索停止；而是会导致所有搜索停止。愚蠢的小错误不会暴露敏感数据；用户帐户保持模块化——更容易提取一组帐户并将它们放到新服务器上； ETC。

我不确定这是否回答了您的问题，但我希望我至少满足了您的好奇心:-)

[1]：2013 年，FogBugz 开始使用 ElasticSearch 增强其搜索和过滤功能。我们喜欢它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何为 B2B Web 应用程序设置 Lucene/Solr？的相关文章

比 BMH (Boyer–Moore–Horspool) 更快的算法

您会使用哪种算法来搜索短文本中的短子字符串简而言之我的意思是子字符串有 5 10 个字符字符串有 255 个字符我正在考虑根据输入数据长度选择算法哪种算法对于较长的输入更好 Try Turbo BM http www igm un
当我使用完成建议器时，如何获得没有重复的独特建议？

我在我的环境中使用弹性 5 1 1 我在字段名称上选择了完成建议器post hashtags带有一个字符串数组来提供建议我收到前缀 inv 的响应如下 Req POST hashtag search pretty filter path
SOLR - Boost 函数 (bf) 以增加日期最接近 NOW 的文档的分数

我有一个 solr 实例其中包含具有 startTime 字段的文档范围从上个月到一年后我想添加一个提升查询函数来提升 startTime 字段接近当前时间的文档的分数到目前为止我已经看到很多使用 rord 为较新的文档添加增强
Solr 突出显示是否还可以指示返回片段在原始字段内的位置或偏移量？

背景使用Solr 4 0 0 我已经对一组示例文档的文本建立了索引并启用了术语向量以便我可以使用快速向量突出显示
SpatialQuery 使用 Lucene 进行基于位置的搜索

我的 lucene 索引已索引纬度和经度字段如下所示 doc Add new Field latitude latitude ToString Field Store YES Field Index UN TOKENIZED doc Ad
Solr 增量导入不起作用

我使用的是solr 4 2 请注意完全导入有效但增量导入却无效增量导入不会给出任何错误但不会获取任何更改这是数据配置文件
如何统计lucene索引中每个文档的term数？

我想知道 lucene 索引中每个文档的术语数量我一直在 API 和互联网上搜索但没有结果你能帮助我吗 Lucene 的构建是为了回答相反的问题即哪些文档包含给定术语因此为了获取文档的术语数量您必须进行一些修改第一种方法是存
在 Solr 更新中指定多值术语频率？

我有一个包含多值字段的 Solr 模式我正在 Solr 外部解析文档并使用更新索引http wiki apache org solr UpdateJSON http wiki apache org solr UpdateJSON 也可以看
使用 FTS 进行搜索相对于在索引列上使用 LIKE 进行搜索的性能有何提升）？

质疑全文搜索sql server 2005 https stackoverflow com questions 3627583 full text search sql server 2005 3824263 3824263 与在索引列上
在休眠搜索中使用现有分析器AnalyzerDiscriminator

Entity Indexed AnalyzerDefs AnalyzerDef name en tokenizer TokenizerDef factory StandardTokenizerFactory class filters To
PDO 和 MySQL 全文搜索

我正在将所有站点代码从使用 mysql 函数转换为 PDO 关于 PDO 的 PHP 文档对于我的需求来说并不清楚它为您提供了可以使用的功能但没有详细解释它们在不同场景下的情况基本上我有一个 mysql 全文搜索 sql SELEC
Elasticsearch 与 Cassandra 对比 Elasticsearch 与 Cassandra

我正在学习 NoSQL 并正在寻找满足客户要求之一的不同选项在提出这个问题之前我已经查阅了各种资源一个对NoSQL知之甚少的人我需要以更快的速度存储数据并读取数据完全故障安全且易于扩展能够搜索数据进行分析我最终得到了一个简短的清
使用进度条时出错：Max 必须是正整数

每当我用 solr 重新索引 a 时都会收到以下错误 RAILS ENV development rake sunspot solr reindex Error using progress bar Max must be a posit
Elasticsearch 查询时间增加会产生顺序不足的结果

给定搜索关键字的 ES 搜索结果one two three申请后好像出错了boost每个关键字的功能请帮助我修改我的错误查询以实现下面我所描述的预期结果我在ES1 7 4与卢塞恩4 10 4 提升标准 three 被认为是最重要
Solr 自定义相似度

我想在我的 solr schema xml 中设置我自己的自定义相似度但我在理解此功能时遇到一些问题我想完全停用 solr 评分 tf idf coord 和 fieldNorm 我不知道从哪里开始我知道的事情我必须编写自己的 De
Solr 日期字段 tdate 与 date？

所以我有一个关于 Solr 字段日期类型的问题这个问题非常简单日期字段和 tdate 字段之间有什么区别模式 xml 声称为了更快的范围查询请考虑 tdate 类型和基于 Trie 的日期字段以实现更快的日期范围查询和日期
在 VS Code 文件搜索中，我可以展开（或折叠）所有结果吗？

在程序的搜索窗格中按 Enter 键后会列出所有文件其中一些文件会展开以显示文件中的结果而其他文件则会折叠我首先想知道是什么决定了任何给定文件的扩展其次我想知道如何一次性扩展所有文件这个问题似乎最接近我的问题但它是关于不
不指定字段名查询Solr

我是 Solr 的新手我一定错过了一些东西我在示例模式中还没有接触太多我导入了一些示例数据我也设置了LocalSolr 这似乎运作良好我的问题只是查询Solr一般来说我有一份文件其中name字段设置为tom 我一直在查看配置文
以文化中立的方式将字符串拆分为单词

我提出了下面的方法旨在将可变长度的文本拆分为单词数组以进行进一步的全文索引处理删除停止词然后进行词干分析结果似乎不错但我想听听关于这种实现对于不同语言的文本的可靠性的意见您会建议使用正则表达式来代替吗请注意我选择不使用 S
是否可以为单个节点添加多个位置并且 solr 可以显示搜索的所有位置？

场景假设您在多个位置有一个产品当您搜索该产品而不是位置时您应该看到所有位置在 Drupal 中您可以使用多值字段来表示位置但在 solr 中我不知道当使用 solr 对产品进行索引时您不应该仅发送一次例如 3 次并将

随机推荐

WooCommerce 3.0 结帐期间出现“不应直接访问属性”问题

我的日志显示了很多以下消息 order total 被错误调用不应直接访问订单属性此消息是在 3 0 版本中添加的它会为订单上的每个属性重复该消息这些消息的原因是什么我应该采取什么措施来纠正它们 WooCommerce 3 0 修
C++：新手初始化列表问题

这里是新手我正在查看公司代码看起来类 A 中没有成员变量但在 A 的构造函数中它初始化了对象 B 即使类 A 不包含任何 B 类型的成员变量或根本不包含任何成员变量我想我还不太明白甚至无法提出问题所以这是怎么回事我的直觉是
ASP.Net MVC - 捕获某些 URL 进行 301 重定向

我正在从旧的网站设计转向具有新 URL 的新设计以前的所有页面名称都是名为 PageXX html PageX html Index html 的静态文件其中 X 是数字我的网站现在是动态的但我想捕获这 3 个传入 url 然后尝试
Java - 如何根据元素的属性分隔列表

我有一个要对其执行操作的对象列表然而我首先需要将列表分成单独的列表以便具有相同parentID的所有项目都在同一个列表中然后分别对每个列表执行操作原因是该操作将对象的parentID作为范围根据此处的要求根据元素的给定属性分隔
文件上传以及 Jersey Restful Web 服务中的其他对象

我想通过上传图像和员工数据来在系统中创建员工信息我可以使用球衣通过不同的休息时间来做到这一点但我想在一次休息中实现这一目标我在下面提供了结构请帮助我在这方面该怎么做 POST Path upload2 Consumes MediaT
Firebase 无法将检索到的数据保存到 ArrayList

检索数据有效但我无法将检索到的数据保存到 ArrayList 中在 onDataChanged 方法之后 ArrayList profile 似乎有 2 个值但在 return 语句中它有 0 static List
MVC 网格的 Kendo UI 如何隐藏 ID 列

我想隐藏 Kendo 网格的 ID 列但仍然能够引用它来执行其他操作我尝试将 Width 设置为 0 但这只会使其变得非常宽 Html Kendo Grid Model Name LineItems Columns columns gt
使用 jQuery 的 AJAX 单选按钮

我需要帮助来提交带有单选按钮的 RSVP 如下所示 Attending
嵌套方法调用和委托有什么区别？

考虑以下第一种方法 public void f3 f2 f1 和这个第二种方法 class Sample public delegate void MyDelegate string s MyDelegate obj public Sa
如何在 JSON 中使用 read.schema 仅指定特定字段：SPARK Scala

我正在尝试以编程方式在看起来像 json 的 textFile 上强制执行 schema json 我尝试使用 jsonFile 但问题是从 json 文件列表创建数据帧 spark 必须对数据进行 1 次传递才能为数据帧创建模式因此它需
获取动态对象中方法调用的通用类型

我开始使用 Net 中的动态对象但我不知道如何做某事我有一个继承自 DynamicObject 的类并且我重写了 TryInvokeMember 方法 e g class MyCustomDynamicClass DynamicObj
Oracle ORA-00902 无效数据类型错误

我正在尝试创建两个表这引发了 ORA 00902 错误无法弄清楚这里出了什么问题 CREATE TABLE VEHICLE STORE MODEL NO VARCHAR2 12 NOT NULL DESCRIPTION VARCHAR2
错误：包 android.hardware.camera2 不存在 OpenCV

我正在尝试将 OpenCV 模块添加到项目中但无法解决一些 gradle 问题这是我的app gradle file apply plugin com android application android compileSdkVers
Twitter Bootstrap 手风琴和按钮下拉菜单溢出问题

我在网站的一部分中使用 Bootstrap 我将手风琴与下拉按钮混合在一起当按钮位于底部时问题就出现了下拉列表被隐藏因为 accordion body 溢出设置为隐藏您可以在这里查看 jsfiddle http jsfiddle
org.springframework.aop.AopInitationException：建议的空返回值与原始返回类型不匹配：公共抽象字符

我有一个用列 char 定义的表和我定义的存储库查询返回该列现在当db表中的数据为空时对于特定条件它给了我错误 org springframework aop AopInvocationException Null return v
空着身体奔跑，永远奔跑

我构建以下演示代码来测试 java util concurrent CompletableFuture runAsync 函数 import java util ArrayList import java util List public
raphael js，计算setViewBox宽度高度来修复窗口

我的 div 内容画布的第一宽度 1300 高度 500 然后我将 div 大小调整为 width 800 高度 500 我将画布大小调整为宽度 800 高度 500修复窗户但画布中的某些元素被隐藏因为我的画布宽度现在是 800px 所
如何在不部署父模块的情况下部署子模块？

我有一个带有父聚合器模块和 3 个子模块的项目我不知道这对我来说是一个错误还是 Maven 是如何工作的但我目前无法在不部署相应父模块的情况下部署我的子模块之一当我尝试在我的另一个项目中导入子模块时 Maven 会抛出一个错误指出它
如何使用 GCC/Clang 编译器了解/限制 C 程序中的静态堆栈大小？ [复制]

这个问题在这里已经有答案了我正在编写一个嵌入式程序该程序使用已知大小的静态有限堆栈区域换句话说我有 X 个字节的堆栈并且没有覆盖操作系统可以根据需要为我分配更多堆栈我想避免在运行时出现错误并在构建时捕获它们如果我错误地在某些
如何为 B2B Web 应用程序设置 Lucene/Solr？

Given 每个客户商业客户 1 个数据库 5000 名客户客户端拥有 2 到 2000 个用户平均约为 100 个用户客户端每个数据库有 10 万到 1000 万条记录用户需要经常搜索这些记录这是导航数据的最佳方式可能相关

如何为 B2B Web 应用程序设置 Lucene/Solr？

如何为 B2B Web 应用程序设置 Lucene/Solr？ 的相关文章

随机推荐

热门标签

如何为 B2B Web 应用程序设置 Lucene/Solr？的相关文章