在 Solr 中实现术语关联挖掘的最简单方法是什么？

2024-05-15

关联挖矿似乎为检索提供了良好的结果相关术语在文本语料库中。有很多关于这个主题的著作，其中包括著名的LSA http://en.wikipedia.org/wiki/Latent_semantic_analysis方法。挖掘关联最直接的方法是构建共现矩阵docs X terms并查找在同一文档中最常出现的术语。在我之前的项目中，我通过 TermDocs 迭代直接在 Lucene 中实现了它（我通过调用IndexReader.termDocs(术语) http://lucene.apache.org/java/3_3_0/api/all/org/apache/lucene/index/IndexReader.html#termDocs%28org.apache.lucene.index.Term%29）。但我在 Solr 中看不到类似的东西。

So, my needs are:

要检索最相关的术语特定领域内。
要检索项，最接近指定项特定领域内。

I will 对答案进行评分通过以下方式：

理想情况下，我希望找到直接满足特定需求的Solr组件，即直接获取关联术语的组件。
如果这是不可能的，我正在寻找获取指定字段的共现矩阵信息的方法。
如果这也不是一个选项，我想知道最直接的方法 1) 获取所有术语 2) 获取这些术语出现的文档的 ID（数字）。

您可以将 Lucene（或 Solr）索引导出到Mahout http://mahout.apache.org/，然后使用潜在狄利克雷分配。如果 LDA 与 LSA 不够接近，无法满足您的需求，您可以从 Mahout 中获取相关矩阵，然后使用 Mahout 进行奇异值分解。

我不知道 Solr 有任何 LSA 组件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 Solr 中实现术语关联挖掘的最简单方法是什么？的相关文章

当我使用完成建议器时，如何获得没有重复的独特建议？

我在我的环境中使用弹性 5 1 1 我在字段名称上选择了完成建议器post hashtags带有一个字符串数组来提供建议我收到前缀 inv 的响应如下 Req POST hashtag search pretty filter path
NoSQL（MongoDB）与 Lucene（或 Solr）作为数据库[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案随着基于文档数据库的 NoSQL 运动的发展我最近关注了 MongoDB 我注意到如何将项目视为文档就像 Lucene 以及 Solr 用
Solr 突出显示是否还可以指示返回片段在原始字段内的位置或偏移量？

背景使用Solr 4 0 0 我已经对一组示例文档的文本建立了索引并启用了术语向量以便我可以使用快速向量突出显示
Solr 错误 - 流主体被禁用

我正在从浏览器 URL 中删除文档我正在使用 Solr 7 4 0 我正在使用此查询来删除文档 http localhost 8983 solr test update stream body
UML：一对多关系表示？

我是 UML 新手还不太理解其表示法这是我对图的理解 The system has many doctors Doctors can have many patients however patients can only have o
lucene 如何与 Neo4j 配合使用

我是新来的Neo4j and Solr Lucene 我读到我们可以在 Neo4j 中使用 lucene 查询这是如何工作的 Neo4j中使用lucene查询有什么用我还需要一个建议我需要编写一个应用程序来搜索和分析数据 which
在 Solr 更新中指定多值术语频率？

我有一个包含多值字段的 Solr 模式我正在 Solr 外部解析文档并使用更新索引http wiki apache org solr UpdateJSON http wiki apache org solr UpdateJSON 也可以看
有没有推荐的与 Lucene 或 Solr 一起使用的爬虫工具？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
lucene 3.5中分组和facet有什么区别

我在lucene 3 5 contrib文件夹中发现了两个插件一个是分组另一个是facet 在我的选择中它们都用于将我的文档分为不同的类别为什么 lucene 现在有两个插件呢它们是两个不同的 lucene 特性 Grouping
在 Ecom 应用程序中实施 SOLR 的最佳实践是什么？

我是 SOLR 的新用户我正在开发一个具有 SQL 数据库的电子商务 Web 应用程序我想在应用程序中为我的类别页面实现 SOLR 我们将在其中显示该类别的产品以及特定信息例如可用库存价格和更多详细信息此外我们希望根据库存情
Elasticsearch 与 Cassandra 对比 Elasticsearch 与 Cassandra

我正在学习 NoSQL 并正在寻找满足客户要求之一的不同选项在提出这个问题之前我已经查阅了各种资源一个对NoSQL知之甚少的人我需要以更快的速度存储数据并读取数据完全故障安全且易于扩展能够搜索数据进行分析我最终得到了一个简短的清
在 solr 的类路径中找不到资源“solrconfig.xml”

problem 我无法访问 solr 管理页面当我在本地系统上运行 url 时 response
solr JOIN 查询

我需要在 solr 索引上运行 JOIN 查询我有两个已索引的 xml person xml 和 subject xml Person
Django-Haystack 和 Solr 8.5.1

Django haystack 是否适用于最新的 Solr 更新 8 5 1 另外我如何设置我的 Django 博客项目 CentOS 8 Solr 8 7 Django Oscar 3 0 1 安装Java yum update yum
覆盖默认标识符生成策略对关联没有影响

交响乐 2 7 2 学说 ORM 2 4 7 MySQL 5 6 12 PHP 5 5 0 我有一个具有自定义 ID 生成器策略的实体它工作完美在某些情况下我必须使用手工制作的 ID 来覆盖此策略当主实体在没有关联的情况下被刷新
不指定字段名查询Solr

我是 Solr 的新手我一定错过了一些东西我在示例模式中还没有接触太多我导入了一些示例数据我也设置了LocalSolr 这似乎运作良好我的问题只是查询Solr一般来说我有一份文件其中name字段设置为tom 我一直在查看配置文
CakePHP 身份验证插件身份关联

我正在使用 CakePHP 3 8 并迁移到身份验证插件 https book cakephp org authentication 1 1 en index html https book cakephp org authenticati
Solr 索引在分隔符上分割字段

我正在尝试使用一些数据设置 Solr 索引但是我想将我的字段之一作为管道分隔发送并在 Solr 端拆分例如
如何过滤 Solr 中多值字段返回的值

我有一个文档其中包含一个名为 uuid 的字段该字段是一个列表多值每个文档最多可以有 100k 个值例如我想搜索与以 5ff6115e 开头的 uuid 匹配的文档我已经可以通过使用成功做到这一点q uuids 5ff6115
org.apache.solr.common.SolrException 流主体已禁用

我已经设置了 apache solr 7 1 并使用 postman 工具来查询它但是当我尝试使用邮递员删除索引数据时出现以下错误 Request GET http localhost 8983 solr solr sample3 up

随机推荐

在 Rails 的文本字段中显示链接

在我的 Rails 3 1 应用程序中我有一个用于评论的文本字段我希望能够允许人们包含可点击的链接而不仅仅是显示为纯文本的 url 以及让文本字段识别用户何时文本字段中的换行符用户无需添加 html 我怎样才能做到这一点如果用户将
包含目录中的所有文件？

如何实现以下代码想要实现的目标 include dir In Bash HEADER all headers h echo ifndef ALL HEADERS gt HEADER echo define ALL HEADERS gt gt
在 Toad 中调试 PLSQL

我一直在使用 PL SQL 为 Oracle db 创建包并且我正在尝试找到一种在不使用 put line 命令的情况下调试 PL SQL 包的好方法是否有人对如何成功调试Toad 或 SQLPlus 上的 PL SQL 包根据 TO
如何在向量中的所有点之间绘制线？

我有一个包含二维空间中一些点的向量我希望 MATLAB 用从每个点到每个其他点绘制的线来绘制这些点基本上我想要一个所有顶点都连接的图你能用情节来做到这一点吗如果可以怎么做一种解决方案是使用该函数为每个点组合创建一组索引MESH
如何使用 Excel Interop 获取筛选行的范围？

我正在为我的项目使用 Excel Interop 程序集如果我想使用自动过滤器那么可以使用 sheet UsedRange AutoFilter 1 SheetNames 1 Microsoft Office Interop Excel
在java中轮询Http服务器（重复发送http get请求）

当对其进行 REST 调用时我的 Web 服务器会发送一些信息我想不断轮询该服务器间隔5秒后重复发送HTTP GET请求以检查返回的信息是否有任何变化做到这一点最有效的方法是什么您能提供一些代码示例吗请注意我只想开发客户端代
如何使用 Dialogflow 回复用户的姓名？

我想知道如何回复用户的姓名例如 AppName 你好请问你的名字吗 User 我的名字是约翰 AppName 欢迎约翰来到 appname 我想在没有网络钩子或实现的情况下执行此操作我只想做对话流如果您想在其他意图中使用它并以此上下
按下按钮并在java中的新窗口中打开文件

我创建了一个 JFrame 并放置了一个文本字段和按钮在文本字段中我放置了从文本文件读取的名称我知道我想单击按钮并打开一个已知窗口我想在其中放置名称其他信息来自同一个文件这是我的代码这是我的主框架 package Fronten
jupyter 中的 r 图形 - 无法启动 png() 设备

我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
C# 中 LINQ 中的按多列分组

我有一个类如下 public class ActualClass public string BookName get set public string IssuerName get set public DateTime DateOfI
使用 Visual Studio 2013 构建 Qt 5.2.1 的静态版本

几天来我一直在尝试使用 Visual Studio 2013 构建 Qt 的静态版本我就是不明白我做错了什么 System Windows 7 64 位 Visual Studio 2013 仍安装 Visual Studio 2012
7 张牌扑克手牌评估器

有谁知道评估 7 张牌扑克牌的快速算法吗这比简单地暴力检查 7 张牌中每 21 个 5 张牌的组合更有效 Cheers Pete 我写了一篇JavaScript 核心评估方法仅使用位操作因此速度非常快考虑到这一点查看 21 种组合还
如何使用 JQuery DataTables 根据每个单元格中值的子字符串对列进行排序

假设我有一列包含格式为 P 的对象标识符例如 P12 3767 我使用的是 1 9 1 版本的 JQuery数据表插件 http datatables net用于排序和分页有没有办法可以忽略单元格值的前 4 个字符 P12 部分以便我
Apache 反向代理的基本身份验证问题

我想为在 Ubuntu 服务器 12 04 1 上运行的 Apache 反向代理站点添加基本身份验证网络应用程序是Jenkins http jenkins ci org运行在 Java EE 容器上我在中添加了以下配置httpd con
制作一个包含自定义对象列表的可分割类

我在使列表对象可解析时遇到错误我认为读取对象时发生错误这是我的代码 public class TestSample implements Parcelable int intValue String stirngValue privat
Akka-Streams 收集数据（Source -> Flow -> Flow (collect) -> Sink）

我对 Scala 和 Akka 完全陌生我有一个简单的 RunnableFlow Source gt Flow do some transformation gt Sink runForeach 现在我想要这样的东西 Source gt
在网络处理中使用自旋变体

我编写了一个与网络过滤器挂钩交互的内核模块网络过滤器挂钩在 Softirq 上下文中运行我正在访问全局数据结构哈希表来自软中断上下文以及进程上下文进程上下文访问是由于sysctl文件用于修改哈希表的内容我正在使用 spinloc
用于创建文件夹的应用程序脚本无法在共享驱动器中运行

谷歌应用程序脚本新手在这里我发现这段代码可以帮助使用 Google Sheet 中的输入在我的个人 Google Drive 中创建文件夹来源 Youtube 上的 Google Sheet Community 但是当我尝试在共享的
Golang GAE - 小胡子结构中的 intID

这是一个Example https www dropbox com sh ur2ws1jnik6euef PjVJSwDTUc Blog Golang zip该应用程序的关键代码在 golang code handler handler
在 Solr 中实现术语关联挖掘的最简单方法是什么？

关联挖矿似乎为检索提供了良好的结果相关术语在文本语料库中有很多关于这个主题的著作其中包括著名的LSA http en wikipedia org wiki Latent semantic analysis方法挖掘关联最直接的方法是构建

在 Solr 中实现术语关联挖掘的最简单方法是什么？

在 Solr 中实现术语关联挖掘的最简单方法是什么？ 的相关文章

随机推荐

热门标签

在 Solr 中实现术语关联挖掘的最简单方法是什么？的相关文章