减少 solr 结果输出中类似的顶部结果

2024-01-07

我在 solr 中进行了一次搜索，返回了大约 1500 个文档。这些文档基本上都是产品。例如，我的数据集中有一堆女鞋。我的数据集有各种各样的女鞋，但也有一些非常相似的结果，例如，11 号女式耐克运动鞋、10 号女式耐克运动鞋等......现在，当我搜索女鞋时，solr 评分导致其中一组非常相似的结果冒泡到顶部。例如，一个特定鞋款的所有颜色可能都会出现在顶部。它们绝对是不同的产品，但我更愿意获得更多种类的结果，而不仅仅是每种颜色的耐克训练鞋。

有没有人有什么建议？请注意，我不想消除所有单独颜色的产品。当有人搜索蓝色女式耐克运动鞋时，我希望他们将蓝色型号作为最佳结果。我使用 dismax 查询作为我的主要查询。我想做的基本上是提高某种“名称与其他结果相比的唯一性”因素。

您可以在颜色等字段上折叠：

http://wiki.apache.org/solr/FieldCollapsing http://wiki.apache.org/solr/FieldCollapsing

或者您可以在索引时使用近似重复检测：

http://wiki.apache.org/solr/Deduplication http://wiki.apache.org/solr/Deduplication

http://karussell.wordpress.com/2010/12/23/detect-stolen-and-duplicate-tweets-with-solr/ http://karussell.wordpress.com/2010/12/23/detect-stolen-and-duplicate-tweets-with-solr/

后一种算法是在 jetwick 中针对推文实现的，因此它应该适用于标题，但对于大文档来说性能不够（因此仅对“短”字符串进行抄袭检测）。对于长文本，您需要本地敏感哈希：

http://en.wikipedia.org/wiki/Locality_sensitive_hashing http://en.wikipedia.org/wiki/Locality_sensitive_hashing

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Solr

fieldcollapsing

减少 solr 结果输出中类似的顶部结果的相关文章

ckan本地安装，solr JSP支持未配置500错误

我正在尝试使用 Ubuntu 14 04 LTS 在本地计算机上安装 CKAN 我按照从找到的源安装的说明进行操作here http docs ckan org en latest maintaining installing instal
SLF4J 日志记录到文件 vs. DB vs. Solr

我需要一些关于 SLF4J 日志记录的建议目前我们正在为 Java Web 应用程序使用 SLF4J 日志记录 log4j 绑定该应用程序使用简单的 ConsoleAppender 我们的下一步是研究可以保存日志的地方我们的应用程序
我们可以同时使用拼音标记和同义词吗？

我正在尝试同时启用语音分析器和同义词这似乎不起作用它们一起使用有错吗在下面的实现中我希望使用同义词转换搜索查询然后使用语音分析器来检索结果但我的同义词在这里完全被忽略了如果我在创建索引时删除语音分析器那么同义词就可以正常工作
Solr：在带有空格的字符串上使用通配符

我的问题与这里讨论的问题基本相同带空格的 Solr 通配符查询 https stackoverflow com questions 10023133 solr wildcard query with whitespace 但这个问题没有得
如何根据特定字段对 solr 查询的前 100 个结果进行排序？

我想使用特定字段对 solr 的前 100 个文档进行排序但它对整个结果集进行排序然后显示结果以下是我的代码 query1 setQuery Natural Language query1 setStart 0 query1 setR
从 Solr Admin 删除 solr 文档

如何使用 SOLR Admin 删除 SOLR 索引中的所有文档我尝试使用该网址并且它有效但想知道是否可以使用管理员来完成相同的操作使用下面的查询之一DocumentSolr 管理 UI 选项卡 XML
在 MongoDB 和 Apache Solr 之间同步数据的简单方法

我最近开始使用 MongoDB 和 Apache Solr 我使用 MongoDB 作为数据存储并且希望 Apache Solr 为我的数据创建索引以实现应用程序中的搜索功能经过一些研究我发现基本上有两种方法可以在 MongoDB
Solr 不搜索整数？

我目前正在使用 Solr 为电子商务网站开发搜索引擎所以我在 schema xml 中得到这两个字段
SOLR - Boost 函数 (bf) 以增加日期最接近 NOW 的文档的分数

我有一个 solr 实例其中包含具有 startTime 字段的文档范围从上个月到一年后我想添加一个提升查询函数来提升 startTime 字段接近当前时间的文档的分数到目前为止我已经看到很多使用 rord 为较新的文档添加增强
加速 SOLR 搜索

使用 SOLR Apache Lucene 3 6 时 SOLR 搜索响应非常慢我正在尝试的一些性能增强技术是 SOLR 分页 mergeFactor 当前在 solrConfig xml 中设置为 10 SOLR 方面查询 solrco
lucene 如何与 Neo4j 配合使用

我是新来的Neo4j and Solr Lucene 我读到我们可以在 Neo4j 中使用 lucene 查询这是如何工作的 Neo4j中使用lucene查询有什么用我还需要一个建议我需要编写一个应用程序来搜索和分析数据 which
在云模式下设置 Apache Solr

我必须执行以下操作我必须在 2 个服务器节点上部署 Solr 在另一台服务器上部署 Zookeeper 将自定义配置上传到 Zookeeper 创建具有 2 个分片和 2 个副本的自定义集合 Solr 7 4 0 和 Zookeeper
使用 dismax 处理程序进行通配符搜索？

我已成功索引文件并且希望能够使用通配符进行搜索我目前正在使用 dismaxRequestHandler QueryType dismax 进行搜索以便我可以搜索查询的所有字段像 computer 这样的常规搜索会返回结果但 com
测量文档集之间的相似性

出于说明目的我们假设这是一个论坛服务我需要计算每个用户帖子之间的相似度结果如下 among posts by user A similarity 60 among posts by user B similarity 20 我正在处
不指定字段名查询Solr

我是 Solr 的新手我一定错过了一些东西我在示例模式中还没有接触太多我导入了一些示例数据我也设置了LocalSolr 这似乎运作良好我的问题只是查询Solr一般来说我有一份文件其中name字段设置为tom 我一直在查看配置文
solr 不标记受保护的单词

我在 Solr Lucene 3 x 中有一个文档其中有一个特殊的复制字段facet headline 以便有一个用于分面的未词干字段有时两个或以上的单词属于在一起这应该被处理算作一个单词例如 kim jong il 因此标题星
将 mongodb 与 solr 集成的动机是什么 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案 Mongodb 是一个 nosql 数据库除了全文搜索之外任何查询都可以在其上运行因为它会降低整体性能 Solr 是一个搜索引擎当我们将
如何过滤 Solr 中多值字段返回的值

我有一个文档其中包含一个名为 uuid 的字段该字段是一个列表多值每个文档最多可以有 100k 个值例如我想搜索与以 5ff6115e 开头的 uuid 匹配的文档我已经可以通过使用成功做到这一点q uuids 5ff6115
是否可以“合理”地设置 Solr 分数阈值，而与返回的结果无关？（即 Solr 评分是否以任何方式标准化）

我有一个包含许多条目的 Solr 索引并且在查询时返回一些子集每个条目都有一些分数显而易见一旦结果与分数一起返回我希望能够仅保留高于某个分数的结果即仅具有特定质量的结果当返回的子集可以是任何东西时是否可以这样做我问这个问
在生产环境中使用 Rails 设置 sunspot solr

我尝试了各种链接但我似乎找不到关于创建与生产中的 Rails 一起运行的 solr 实例的好资源我知道您必须为生产设置 solr 服务器我已经尝试使用 tomcat 设置 solr 但我似乎无法将其链接到 Rails 应用程序有什么

随机推荐

Collectionview PerformBatchUpdates 崩溃

我正在尝试使用 insertItemsAtIndexPaths 将新项目添加到我的集合视图中我的应用程序在执行 Batchupdate 时崩溃 void addItems NSArray newProducts 1 2 3 4 self
WPF 的 Windows Phone 7 枢轴控件？

是否有实施WP7 枢轴控制 https web archive org web 20150715170117 http blogs msdn com 80 b stephanc archive 2010 05 09 windows phon
git config --get-all 在哪里查看

我找不到任何文档准确描述正在检查的 git 配置文件git config get all command正在运行这是我为 core autocrlf 运行时的输出 git config get all core autocrlf fals
在 ActionBarSherlock 上显示自定义按钮以显示滑动菜单

我正在开发一个 Android 应用程序使用动作栏夏洛克 http actionbarsherlock com with 滑动菜单 https github com jfeinstein10 SlidingMenu 现在这就是我显示打开
numpy 中两个浮点数之间以对数间隔的数字

我正在尝试使用 python 获取两个浮点数之间对数间隔的 1000 个数字例如 0 674 到 100 0 之间这样做的目的是获得更多接近 0 674 的数字而不仅仅是接近 100 的几个大数字我尝试使用 numpy logspa
Python3'无法导入名称'cached_property'

我无法让它发挥作用我不断添加模块但每次都找不到新模块为什么这段代码在Python3 6中不起作用 Code from robobrowser import robobrowser from bs4 import BeautifulSo
区分 Javascript 中的触摸和交换事件

我有一个用于交换图像的图片库在画廊中我使用了 touchstart touchmove touchend 和 touchcancel 事件但现在我还需要处理触摸事件那么我应该在移动设备上分别区分触摸和交换事件吗我正在使用这个技巧
python `str()` 函数是否调用类的 `__str__()` 函数？

如果我定义一个有自己的类 str 函数是str a 相当于a str where a是我班级的一个实例吗我检查了蟒蛇文档 https docs python org 2 library functions html str 它没有明确说
在 Groovy 中使用字符串访问地图的地图元素

鉴于我有一张这样的地图 def myMap b c X 还有一根绳子 def key b c 我想查看使用密钥获取值 X 的选项我自己想出了两种方法来实现这一目标但我对这些解决方案不太满意 1 Eval me theMap myMap
加密：在javascript和python中模拟SSL

由于中国防火墙阻止了 google appengine 的 https 端口所以我想通过javascript和python模拟一个安全套接字层来保护我的用户信息不会被那些ISP和GFW捕获我的计划握手浏览器请求服务器服务器生成加密
jaxb 当 xsi:nil=true 如果任何子元素存在它仍然显示

我有以下 xml 输出当父元素具有属性 xsi nil true 即使子元素为 nillable true 时我们如何隐藏子元素 endDate XML输出
REST API 中错误 HTTP 方法的返回代码？

我们的API用户可以获得root发送文件收集清单 GET请求根 API 地址如果他发送POST 我们应该返回一些东西同样的问题也适用于其他资源路径例如发送PATCH在查询路径等上并非所有方法在某些路径上都有意义正如我从 HTTP
使用插值在模板中渲染 html 字符串？

使用角度 4 3 0 假设我有一个像这样的字符串它是组件的属性 p test 2 bla bla p p test1234 56 p p test test p 所以我按照文档进行操作 https angular io guide te
有没有办法知道哪个编译器生成了静态库？

第三方为我提供了一个静态库 a 用于在 Solaris 站上链接我尝试使用 sunpro 进行编译但在链接步骤失败我想这个问题来自我使用的编译器而不是 gcc 或者只是它的版本因为编译器提供的 std lib 可能会从库预期的版本
opencv多通道元素访问

我正在尝试学习如何使用 OpenCV 的新 C 界面如何访问多通道矩阵的元素例如 Mat myMat size 3 3 CV 32FC2 for int i 0 i lt 3 i for int j 0 j lt 3 j myMat a
如何计算两个日期之间的年龄/年数[重复]

这个问题在这里已经有答案了可能的重复如何在 T SQL 中用年月日计算年龄 https stackoverflow com questions 57599 how to calculate age in t sql with yea
如何在传单地图上添加搜索框

我想使用传单地图作为页面的背景并且这个页面有搜索功能但是这个搜索框并不是用来搜索这张地图的所以我的问题是如何在传单地图上添加搜索框您还有其他解决方案使用地图作为背景吗喜欢这个页面 http directory spatineo c
使用 doLast 的 Gradle 执行任务失败

仅当文件自上次构建以来已更新时我才尝试运行执行任务我最初的尝试是这样的 task generateLocalizedStrings type Exec ext srcFile file localization language fil
MVC 查看可为空的日期字段格式

我试图在视图中显示以下内容但出现问题 td item CreatedByDt ToString MM dd yyyy td 关于如何处理视图中可为空的日期字段的任何想法顺便说一句我正在使用 Razor 我收到以下错误方法 ToStr
减少 solr 结果输出中类似的顶部结果

我在 solr 中进行了一次搜索返回了大约 1500 个文档这些文档基本上都是产品例如我的数据集中有一堆女鞋我的数据集有各种各样的女鞋但也有一些非常相似的结果例如 11 号女式耐克运动鞋 10 号女式耐克运动鞋等现在当我搜

减少 solr 结果输出中类似的顶部结果

减少 solr 结果输出中类似的顶部结果 的相关文章

随机推荐

热门标签

减少 solr 结果输出中类似的顶部结果的相关文章