Solr 中的词频

2023-11-23

我正在尝试使用 solr 获取单词的频率。当我给出这个查询时:

localSolr/solr/select?q=someQuery&rows=0&facet=true&facet.field=content&wt=xml

solr 给我类似的频率;

<lst name="facet_counts">
<lst name="facet_queries"/>
<lst name="facet_fields">
<lst name="content">
<int name="word1">24</int>
<int name="word2">12</int>
<int name="word3">8</int>

但当我数着单词的时候;我发现word2的实际计数是13。Solr将字段中相同的单词计数为1。

例如;

字段文本组成;word2 word5 word7 word9 word2。 Solr 不会返回 word2 的计数数字 2,而是返回 1。对于下面两个句子,它返回 1 作为 word2 的计数;

word2 word10 word11 word12
word2 word9 word7 word2 word23

所以频率返回错误。我已经检查了方面字段,但没有找到合适的参数。我该如何修复它以便计算句子中的相同单词?

编辑 : schema.xml 的相关部分:

<fieldType name="text_tr" class="solr.TextField" positionIncrementGap="100">
    <field name="content" type="text_tr" stored="true" indexed="true" multiValued="true"/>
    <copyField source="content" dest="text"/>
    <field name="text" type="text_tr" stored="false" indexed="true" multiValued="true"/>

如果您要分面的字段是多值的,则分面中的每个单词都会获得正确的计数

我忘了提一件事:术语向量分量会带你去你需要的地方

在查询中,tv.tf将为您提供每个术语的术语频率,同时tv.fl告诉 solr 应在哪些字段上计算频率

NB这会让你的索引时间比现在慢(又名:你必须尝试一下)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Solr 中的词频 的相关文章

  • 在生产环境中使用 Rails 设置 sunspot solr

    我尝试了各种链接 但我似乎找不到关于创建与生产中的 Rails 一起运行的 solr 实例的好资源 我知道您必须为生产设置 solr 服务器 我已经尝试使用 tomcat 设置 solr 但我似乎无法将其链接到 Rails 应用程序 有什么
  • 如何让 BlazeDS 忽略属性?

    我有一个 java 类 它有一个带有 getter 和 setter 的字段 以及第二对 getter 和 setter 它们以另一种方式访问 该字段 public class NullAbleId private static final
  • 序列的排列?

    我有具体数量的数字 现在我想以某种方式显示这个序列的所有可能的排列 例如 如果数字数量为3 我想显示 0 0 0 0 0 1 0 0 2 0 1 0 0 1 1 0 1 2 0 2 0 0 2 1 0 2 2 1 0 0 1 0 1 1 0
  • Spring应用中Eureka健康检查的问题

    我正在开发一个基于 Spring 的应用程序 其中包含多个微服务 我的一个微服务充当尤里卡服务器 到目前为止一切正常 在我所有其他微服务中 用 EnableEurekaClient 我想启用这样的健康检查 应用程序 yml eureka c
  • Junit:如何测试从属性文件读取属性的方法

    嗨 我有课ReadProperty其中有一个方法ReadPropertyFile返回类型的Myclass从属性文件读取参数值并返回Myclass目的 我需要帮助来测试ReadPropertyFile方法与JUnit 如果可能的话使用模拟文件
  • 如何通过 javaconfig 使用 SchedulerFactoryBean.schedulerContextAsMap

    我使用 Spring 4 0 并将项目从 xml 移至 java config 除了访问 Service scheduleService 带注释的类来自QuartzJobBean executeInternal 我必须让它工作的 xml 位
  • Java 枚举与创建位掩码和检查权限的混淆

    我想将此 c 权限模块移植到 java 但是当我无法将数值保存在数据库中然后将其转换为枚举表示形式时 我很困惑如何执行此操作 在 C 中 我创建一个如下所示的枚举 public enum ArticlePermission CanRead
  • 使用 LinkedList 实现下一个和上一个按钮

    这可能是一个愚蠢的问题 但我很难思考清楚 我编写了一个使用 LinkedList 来移动加载的 MIDI 乐器的方法 我想制作一个下一个和一个上一个按钮 以便每次单击该按钮时都会遍历 LinkedList 如果我硬编码itr next or
  • 为 java 游戏创建交互式 GUI

    大家好 我正在创建一个类似于 java 中的 farmville 的游戏 我只是想知道如何实现用户通常单击以与游戏客户端交互的交互式对象 按钮 我不想使用 swing 库 通用 Windows 看起来像对象 我想为我的按钮导入自定义图像 并
  • Java 集合的并集或交集

    建立并集或交集的最简单方法是什么Set在 Java 中 我见过这个简单问题的一些奇怪的解决方案 例如手动迭代这两个集合 最简单的单行解决方案是这样的 set1 addAll set2 Union set1 retainAll set2 In
  • 将流转换为 IntStream

    我有一种感觉 我在这里错过了一些东西 我发现自己做了以下事情 private static int getHighestValue Map
  • 在 junit 测试中获取 javax.lang.model.element.Element 类

    我想测试我的实用程序类 ElementUtils 但我不知道如何将类作为元素获取 在 AnnotationProcessors 中 我使用以下代码获取元素 Set
  • 像 Java 这样的静态类型语言中动态方法解析背后的原因是什么

    我对 Java 中引用变量的动态 静态类型和动态方法解析的概念有点困惑 考虑 public class Types Override public boolean equals Object obj System out println i
  • 在我的 Spring Boot 示例中无法打开版本 3 中的 Swagger UI

    我在 Spring Boot 示例中打开 swagger ui 时遇到问题 当我访问 localhost 8080 swagger ui 或 localhost 8080 root api name swagger ui 时出现这种错误 S
  • 获取文件的总大小(以字节为单位)[重复]

    这个问题在这里已经有答案了 可能的重复 java 高效获取文件大小 https stackoverflow com questions 116574 java get file size efficiently 我有一个名为 filenam
  • Cucumber 0.4.3 (cuke4duke) 与 java + maven gem 问题

    我最近开始为 Cucumber 安装一个示例项目 并尝试使用 maven java 运行它 我遵循了这个指南 http www goodercode com wp using cucumber tests with maven and ja
  • Android:无法使用 DbHelper 和 Contract 类将数据插入 SQLite

    public class Main2Activity extends AppCompatActivity private EditText editText1 editText2 editText3 editText4 private Bu
  • 我如何在java中读取二进制数据文件

    因此 我正在为学校做一个项目 我需要读取二进制数据文件并使用它来生成角色的统计数据 例如力量和智慧 它的设置是让前 8 位组成一个统计数据 我想知道执行此操作的实际语法是什么 是不是就像读文本文件一样 这样 File file new Fi
  • 使用反射覆盖最终静态字段是否有限制?

    在我的一些单元测试中 我在最终静态字段上的反射中遇到了奇怪的行为 下面是说明我的问题的示例 我有一个基本的 Singleton 类 其中包含一个 Integer public class BasicHolder private static
  • 如何防止在Spring Boot单元测试中执行import.sql

    我的类路径中有一个 import sql 文件 其中包含一些 INSERT 语句 当使用 profile devel 运行我的应用程序时 它的数据被加载到 postgres 数据库中 到目前为止一切正常 当使用测试配置文件执行测试时 imp

随机推荐

  • 使用 PowerShell v2 从大文本文件中获取行的子集

    我正在处理一个大文本文件 我的意思是超过 100 MB 大 我需要循环遍历特定数量的行 这是一种子集 所以我正在尝试使用这个 info Get Content Path TextFile Select Object Index from t
  • 哪些版本的 Android 支持哪些包签名算法?

    鉴于我想支持所有 Android 设备 例如 Froyo或者稍后 我可以使用的最安全的签名算法是什么 我不需要放置我的APK in 安卓市场 例如 我知道有些手机支持sha1withrsa但不是sha256withrsa Link 请参阅A
  • AngularJS 中的 ScrollTo 函数

    我正在尝试让快速导航正常工作 它漂浮在一边 当他们点击链接时 就会转到页面上的该 ID 我正在关注这个树屋指南 这就是我的滚动内容 quickNav a click function var quickNavId this attr hre
  • 找不到 CrystalImageHandler.aspx

    我在 MVC3 应用程序的普通 ASP NET aspx 页面上使用 Crystal 报表查看器 在控制器操作中 我只是重定向到 aspx 页面 报告显示正常 但问题在于动态图像 我找到了最简单的解决方案 将图像路径作为报告参数传递 并将该
  • 获取Spark RDD的一系列列

    现在我的 RDD 中有 300 多列 但我发现需要动态选择一系列列并将它们放入 LabledPoints 数据类型中 作为 Spark 的新手 我想知道是否有任何索引方式来选择 RDD 中的一系列列 就像是temp data data 10
  • 在 grails 中,如何获取所有当前会话的引用?

    我想列出 grails 管理控制器中的所有当前会话 获得参考的最简单方法是什么来自控制器的会话集合 这是一项功能 默认情况下禁用 但可以通过设置轻松启用grails plugins appinfo useContextListener tr
  • 简单的 goroutine 无法在 Windows 上运行

    我正在对 goroutine 进行一些测试 只是为了了解它们是如何工作的 但它们似乎根本没有运行 我做了一个非常简单的测试 package main import fmt func test fmt Println test func ma
  • 如何使用 firebase 并将读取和写入规则设置为 false

    我正在开发一个项目 并且遵循了一些教程来学习和构建该应用程序 但他们都将 Firebase 读写规则更改为 true 这是不安全的 例如他们改变了 rules read false write false to rules read tru
  • 如何使用PIL裁剪图像?

    我想通过从给定图像中删除前 30 行和后 30 行来裁剪图像 我已经搜索过但没有得到确切的解决方案 有人有一些建议吗 有一个crop method w h yourImage size yourImage crop 0 30 w h 30
  • 如何在Java中从客户端获取uuid或mac地址?

    我正在寻找一种基于 Java 的 Web 应用程序的解决方案来唯一标识客户端 服务器与客户端位于同一网络中 我认为使用 MAC 地址将是一个很好的解决方案 问题是我无法使用 cookie 因为它们可以在客户端删除 而且我无法使用 IP 因为
  • 如何针对不同屏幕动态设置textview的文本大小[重复]

    这个问题在这里已经有答案了 我正在创建一个文本视图并动态添加到布局中 我在用textView setTextSize 18 设置文本大小的方法 我在三星平板电脑上测试了它 发现字体大小对于这个屏幕来说太小 然后我将文本大小更改为25 但对于
  • 保存 ML 模型以供将来使用

    我正在将一些机器学习算法 如线性回归 逻辑回归和朴素贝叶斯 应用于一些数据 但我试图避免使用 RDD 并开始使用 DataFrame 因为RDD 速度较慢比 pyspark 下的数据帧 见图 1 我使用 DataFrames 的另一个原因是
  • [NSMutableArray objectAtIndex:]:索引 0 超出 AVURLAsset 中空数组的范围

    我尝试使用以下代码来合并音频 AVMutableComposition composition AVMutableComposition composition AVURLAsset videoAsset AVURLAsset alloc
  • spring data JPA如何决定调用entityManager.persist(…)或entityManager.merge(…)方法

    当entityManager persist 方法被调用时以及当entityManager merge 在spring data jpa中被调用时 根据文档 如果实体尚未持久化 Spring Data JPA将通过调用entityManag
  • 实体框架(首先是数据库)存储过程的返回结果不正确[重复]

    这个问题在这里已经有答案了 环境 视觉工作室 2017 SQL Server 2016 采用数据库优先方法的 EF v6 背景 存储过程位于EDMX中 如果没有发生任何事情 我的存储过程将返回值设置为 0 如果有任何影响 则将返回值设置为
  • 当使用“L'Ecuyer-CMRG”RNG 时,R 不会重置种子?

    我在 R 中做了一些并行模拟 我注意到种子 使用 L Ecuyer CMRG rng 时不会更改 我正在读书 Parallel R 一书 选项 mc set seed TRUE 应该给出 每次调用 mclapply 时 每个工作人员都会获得
  • 无法解码下载的字体

    这是我在 Chrome 中遇到的错误 不幸的是搜索它并没有给我太多结果 字体本身显示正确 但是我仍然收到此错误 警告 更具体地说 这是完整的警告 无法解码下载的字体 http localhost 8000 app fonts Lato 我的
  • Excel VBA 列出键绑定(OnKey ?)

    我正在使用大量 Excel vba 脚本 其中一些脚本绑定到 Ctrl 键组合 我知道如何在 Excel 的用户界面中一次设置一个 拉出 vba 脚本列表 Alt F8 选择一个脚本 然后单击 选项 然后您可以将脚本绑定 取消绑定到 Ctr
  • 如何在 MVC 5 中搭建视图模型

    我正在尝试开发一个简单的应用程序 我通过实体框架引入了三个 SQL 表 并自动创建了模型 我希望能够在 Visual Studio 中自动构建创建 详细信息 编辑等视图 当我从单个模型 例如单独的名称 搭建支架时 我可以自动执行此操作 但在
  • Solr 中的词频

    我正在尝试使用 solr 获取单词的频率 当我给出这个查询时 localSolr solr select q someQuery rows 0 facet true facet field content wt xml solr 给我类似的