Lucene实体提取

2023-12-20

给定实体术语的有限字典,我正在寻找一种使用 Lucene 进行智能标记的实体提取的方法。目前我已经能够将 Lucene 用于:
- 搜索具有一定模糊性的复杂短语
- 突出显示结果

但是,我不知道如何:
- 获取匹配短语的准确偏移量
-为每场比赛进行特定于实体的注释(不仅仅是每个点击的标签)

我尝试过使用explain()方法 - 但这只给出了查询中命中的术语 - 而不是原始文本中命中的偏移量。

有人遇到过类似的问题并愿意分享潜在的解决方案吗?

预先感谢您的帮助!


对于偏移量,请参阅这个问题:Lucene中如何获取term的偏移量? https://stackoverflow.com/questions/2930339/how-get-the-offset-of-term-in-lucene

我不太明白你的第二个问题。在我看来,您想从存储字段 http://lucene.apache.org/java/3_0_2/api/core/org/apache/lucene/document/Field.html尽管。要从存储字段获取数据:

TopDocs results = searcher.Search(query, filter, num);
foreach (ScoreDoc result in results.scoreDocs)
{
    Document resultDoc = searcher.Doc(result.doc);
    string valOfField = resultDoc.Get("My Field");
}
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Lucene实体提取 的相关文章

  • 如何查询SOLR中的空字段?

    我有一个很大的 solr 索引 我注意到一些字段没有正确更新 索引是动态的 这导致某些字段具有空的 id 字段 我已经尝试过这些查询 但它们不起作用 id id NULL id null id id id TO 有没有办法查询空字段 Tha
  • OpenNLP 训练中的“截止”和“迭代”是什么意思?

    是什么意思cut off and iteration用于 OpenNLP 培训 或者自然语言处理 我只需要对这些术语进行外行解释 据我认为 迭代是算法重复的次数 截止是一个值 如果文本的值高于某个特定类别的截止值 它将映射到该类别 我对吗
  • 如何在 Lucene 6 中对数字字段进行排序

    我想根据数字字段对搜索结果进行排序 在下面的示例代码中 我想根据 年龄 字段进行排序 我从使用以下答案开始 如何在 Lucene 6 中对 IntPont 或 LongPoint 字段进行排序 https stackoverflow com
  • 如何在 R 中查找 DTM 中的术语频率?

    我一直在使用 tm 包创建 DocumentTerm 矩阵 如下所示 library tm library RWeka library SnowballC src lt DataframeSource data frame data3 Jo
  • ElasticSearch 全文搜索

    我尝试在elasticsearch java api 中使用正则表达式运行全文搜索 我的过滤器是这样的 FilterBuilder qFilter FilterBuilders regexpFilter all text 但它只匹配一个单词
  • Elasticsearch 6.2 / Kibana查询:一字段必须存在,一字段不能存在

    我的愿望是搜索 field 存在且 fields b 不存在的文档 有没有办法使用 Kibana 中的 Lucene 查询语法 Kibana 的 发现 部分中的 搜索 字段 来执行此操作 我尝试过使用 缺失 字段 b没有成功 exists
  • 每个领域都有不同的分析仪

    如何为使用 Lucene 索引的文档中的每个字段启用不同的分析器 例子 RAMDirectory dir new RAMDirectory IndexWriter iw new IndexWriter dir new StandardAna
  • Lucene 上打开的文件太多错误

    我正在进行的项目是对一定数量的数据 长文本 建立索引 并将它们与每个时间间隔 大约 15 到 30 分钟 的单词列表进行比较 一段时间后 比如说第 35 轮 在开始索引第 36 轮的新数据集时 发生了此错误 ERROR 2011 06 01
  • Lucene 的 StopFilter 中使用的默认停用词列表是什么?

    Lucene 有一个默认的 stopfilter http lucene apache org core 4 0 0 analyzers common org apache lucene analysis core StopFilter h
  • Lucene 3 上的“令牌”列表

    我是 Lucene 的新手 我开始学习版本 3 分支 但有一件事我不明白 显然是因为我在该主题上没有经验 在 Lucene 2 9 中 如果我想要一个令牌列表 我会创建一个 Token 类的 ArrayList 例如 ArrayList 这
  • Solr 中的多值字段排序

    我有一个 Solr 索引 将每个产品的价格存储在多值字段中 我需要按价格对结果集进行排序 其中价格从低到高 从高到低 我尝试对价格进行排序 它显示错误您无法对 multivalued True 字段进行排序 下面是我的 solr XML
  • 对 solr 搜索结果进行排序。给出错误无法对多值字段进行排序:名称

    我对 Apache Solr 搜索比较陌生 我正在尝试对 Solr 查询中的结果集进行排序 查询 名称 abc AND 隐藏 false sort name desc 它显示错误 无法对多值字段进行排序 名称 Solr版本是 7 2 1 如
  • 了解elasticsearch如何在内部存储日期

    我想了解 ES 如何在其索引内部存储日期值 它会转换为 UTC 吗 我有一个日期类型的字段 t 这是映射 t type date 现在 当我向 ES 插入 添加文档时 它如何存储在索引中 t 1427700477165 从 Date now
  • apache solr:group by 产生的数据总和

    我们有一个要求 需要按特定字段对记录进行分组 并获取相应数字字段的总和 前任 select userid sum click count from user action group by userid 我们尝试使用 apache solr
  • 随着索引和文档数量恒定,elasticsearch 批量索引会随着时间的推移而变慢

    我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移 索引数量和文档数量恒定而降低的情况 我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
  • R tm 包创建 N 个最常见术语的矩阵

    我有一个termDocumentMatrix使用创建的tmR 中的包 我正在尝试创建一个包含 50 个最常出现的术语的矩阵 数据框 当我尝试转换为矩阵时 出现此错误 gt ap m lt as matrix mydata dtm Error
  • MultiFieldQueryParser 正在从首字母缩略词中删除点

    我再次发布这个问题 因为我的查询没有得到答复 我正在使用 Lucene 开发图书搜索 api 用户可以搜索标题或描述字段包含 C F A 的书籍 我正在使用 StandardAnalyzer 以及停用词列表 我使用 MultiFieldQu
  • Solr/Solrj 分页

    我正在创建的 Web 应用程序中使用 solr 和 solrj 来实现索引和搜索功能 我的请求处理程序在 solrconfig xml 中配置如下
  • 当我使用完成建议器时,如何获得没有重复的独特建议?

    我在我的环境中使用弹性 5 1 1 我在字段名称上选择了完成建议器post hashtags带有一个字符串数组来提供建议 我收到前缀 inv 的响应如下 Req POST hashtag search pretty filter path
  • 如何增强solr中的字段

    我已经事先确定了提升 我在 solr 索引中有一个名为boost1 该提升字段的值介于 1 到 10 之间 类似于 google PR 排名 这是应该应用于 solr 中运行的每个查询的提升 这是我的索引中的字段 Id Title Text

随机推荐

  • “如果不存在则创建表” - 如何检查架构?

    是否有 或多或少 标准方法不仅检查名为mytable存在 而且其架构是否与应有的相似 我正在尝试H2数据库 http www h2database com and CREATE TABLE IF NOT EXISTS mytable 语句显
  • 如何从字符串中获取字符数组?

    在 JavaScript 中如何将字符串转换为字符数组 我想得到一个像这样的字符串 Hello world 到数组 H e l l o w o r l d 注意 这不兼容 unicode I U split 结果在 4个字符数组 I u 这
  • 包含仅具有静态方法的类的模块

    我有一个包含许多类的 Python 模块 每个类代表一种特定的物理材料及其属性 例如密度 比热 有些属性只是float该类的成员 但许多取决于某些参数 例如温度 我通过实现这个 staticmethods 即所有的类看起来像 class C
  • 使用 Tkinter 命令“iconbitmap”设置窗口图标

    我有一个带有 Tkinter 窗口的程序 我想为该窗口设置一个图标 我使用这段代码 window iconbitmap os path dirname os path abspath file icon png 但抛出以下错误 Traceb
  • 一起使用 javascript 和 php 进行验证

    如何同时使用 php 和 javascript 从我自己的研究来看 这似乎是不可能的 我知道他们是不同的 他们每个人都有自己独特的事情 但假设您正在验证表单 您使用 javascript 验证表单 然后如果没有错误 则运行 php 插入一条
  • 为什么我的线程在 iOS 上启动几个线程后似乎失败了?

    我有这个代码 UITableViewCell tableView UITableView tableView cellForRowAtIndexPath NSIndexPath indexPath代表电话 dispatch async di
  • 如何在 Windows 中远程编辑文本

    注意 这个问题也发布在technet https social technet microsoft com Forums scriptcenter en US 99ac267f a235 4a67 b733 4a2581f6728e rem
  • adb shell 命令在 bash 脚本中不起作用

    我正在尝试编写一个 bash 脚本 运行时可以找到通过 USB 连接的设备的 IP 地址 执行此操作的 bash 脚本 usr bin bash ip adb shell sudo ip f inet addr show 然后我将在稍后的脚
  • 使用 Preact + Typescript 的类型安全事件处理程序

    我正在用 Preact 编写一个简单的组件 它使用onChange处理程序
  • 插入到已排序的数组中

    我想将一个元素插入到排序列表中顺序保持的正确位置 我为数组分配了 2 n 大小 并用 999 填充其余部分 因为它们当前未使用 ordered insert int number int array int size int i 0 int
  • 灵活数字格式

    我想将数字格式化为印度格式 例如 x 123456 应格式化为 1 23 456 我怎样才能在Flex中做到这一点 Thanks 使用数字格式化程序
  • 了解 HKSourceQuery 或一般来源的结果

    我刚刚做了一个 HKSourceQuery 并得到了一些结果 当我做一个println结果 我得到了这个
  • 在 Ruby 中解析非常大的 JSON 文件的正确方法是什么?

    我们如何在 Ruby 中解析 json 文件 require json JSON parse File read data json 如果文件非常大并且我们不想立即将其加载到内存中怎么办 那么我们该如何解析它呢 既然您说不想立即将其加载到内
  • 带智能感知的内置 C#/VB.Net 编辑器 - Roslyn、VSTA 还是其他?

    我需要在我的应用程序中提供脚本功能 允许客户使用我们的对象模型扩展其功能 我希望提供某种带有智能感知的集成 C VB Net 编辑器 但在查看 AvalonEdit 和 ScintillaNet 等产品后 它们似乎并没有提供真正的代码完成功
  • Node JS 覆盖标准模块

    朋友问了一个有趣的问题 我尝试了一些方法但无济于事 有没有办法覆盖 Node JS 模块 例如 我想重写 readFile 函数以使用 S3 存储桶而不是文件系统 IE var fs require fs fs readFile my te
  • 表单元格子视图迭代未找到 TextField

    我创建了一个表格 其中每个单元格都包含一个文本标签和一个文本字段 我正在添加文本字段 cell addSubview passwordField 从视觉角度来看 它们出现并且可以编辑 等等 当我尝试从文本字段检索输入的值时 就会出现问题 我
  • PHP 只允许在表单中选择一个单选按钮

    一个非常基本的问题 如何只允许选择单选按钮列表中的一个选项
  • 通用实体基类

    我刚刚读过一篇关于通用实体基类的文章 简单地说 如果我没有错的话 后面的主要思想是在一个接口中收集所有通用的 非实体特定的字段 而不是在主要实体中实现它 这将是一篇 TL DR 让我们看一些代码 这是基本实体接口及其对另一个接口的通用实现
  • 使用 JavaScript 和 JSON 在 Web 应用程序中进行本地化

    我正在尝试设置一个脚本来自动本地化 Web 应用程序 由于Web应用程序旨在使用HTML5的离线缓存功能 因此它需要能够离线工作 因此 在我看来 JavaScript 是最好的选择 我更喜欢将所有本地化的所有字符串放在一个 JSON 文件中
  • Lucene实体提取

    给定实体术语的有限字典 我正在寻找一种使用 Lucene 进行智能标记的实体提取的方法 目前我已经能够将 Lucene 用于 搜索具有一定模糊性的复杂短语 突出显示结果 但是 我不知道如何 获取匹配短语的准确偏移量 为每场比赛进行特定于实体