在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词

2024-03-24

在我正在构建的索引中，我有兴趣运行查询，然后（使用方面）返回该查询的带状疱疹。这是我在文本上使用的分析器：

{
  "settings": {
    "analysis": {
      "analyzer": {
        "shingleAnalyzer": {
          "tokenizer": "standard",
          "filter": [
            "standard",
            "lowercase",
            "custom_stop",
            "custom_shingle",
            "custom_stemmer"
          ]
        }
      },
      "filter": {
        "custom_stemmer" : {
            "type": "stemmer",
            "name": "english"
        },
        "custom_stop": {
            "type": "stop",
            "stopwords": "_english_"
        },
        "custom_shingle": {
            "type": "shingle",
            "min_shingle_size": "2",
            "max_shingle_size": "3"
        }
      }
    }
  }
}

主要问题是，对于 Lucene 4.4，停止过滤器不再支持enable_position_increments参数来消除包含停用词的木瓦。相反，我会得到像这样的结果。

“红色和黄色”

"terms": [
    {
        "term": "red",
        "count": 43
    },
    {
        "term": "red _",
        "count": 43
    },
    {
        "term": "red _ yellow",
        "count": 43
    },
    {
        "term": "_ yellow",
        "count": 42
    },
    {
        "term": "yellow",
        "count": 42
    }
]

自然，这极大地扭曲了退回的带状疱疹的数量。 Lucene 4.4 之后是否有一种方法可以在不对结果进行后处理的情况下管理此问题？

可能不是最好的解决方案，但最直率的方法是在分析器中添加另一个过滤器来删除“_”填充标记。在下面的示例中，我将其称为“kill_fillers”：

   "shingleAnalyzer": {
      "tokenizer": "standard",
      "filter": [
        "standard",
        "lowercase",
        "custom_stop",
        "custom_shingle",
        "custom_stemmer",
        "kill_fillers"
       ],
       ...

将“kill_fillers”过滤器添加到过滤器列表中：

"filters":{
...
  "kill_fillers": {
    "type": "pattern_replace",
    "pattern": ".*_.*",
    "replace": "",
  },
...
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

Lucene

stopwords

在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词的相关文章

SpatialQuery 使用 Lucene 进行基于位置的搜索

我的 lucene 索引已索引纬度和经度字段如下所示 doc Add new Field latitude latitude ToString Field Store YES Field Index UN TOKENIZED doc Ad
ElasticSearch 和 PHP 中的多个字段搜索

我正在使用最新版本弹性搜索 PHP https github com elasticsearch elasticsearch php以及最新版本的 MongoDB 和 ElasticSearch 我需要对可以包含一个或多个值的多个字段进行搜
Elasticsearch GET API 获取分片大小

在 Elasticsearch 2 3 3 中有没有办法使用返回 JSON 的 GET API 获取分片大小目前我找到了以下几种获取shard size的方法这两种方法都存在问题 recovery gt 使用 JSON 进行响应并提供
弹性搜索限制类型的结果

我有以下查询 queryDefinition query gt bool gt must gt query string gt default field gt all query gt term must no
lucene通配符查询带空格

我有 Lucene 索引其中包含城市名称考虑我想搜索新德里我有字符串 New Del 我想将其传递给 Lucene 搜索器并且我期望输出为 New Delhi 如果我生成类似 Name New Del 的查询它将为我提供所有带有
Solr协会

最近几天我们正在考虑使用 Solr 作为我们选择的搜索引擎我们需要的大多数功能都是开箱即用的或者可以轻松配置然而我们绝对需要的一项功能似乎在 Solr 中被很好地隐藏或缺失我将尝试用一个例子来解释我们有很多实际上是企业的文件
在 Elasticsearch php API 中使用多种类型或索引

我想使用查询多种类型和索引Elasticsearch PHP API 但我不知道怎么办我应该将类型和索引的数组传递给 params params index index array of indices params type types
`docker-compose up` 与使用环境变量的 `docker compose up`

我正在尝试使用 Docker Compose 将三节点 Elasticsearch 集群部署到 Azure 容器实例我松松地跟随这个例子 https www elastic co guide en elasticsearch refere
NLTK 可用的停用词语言

我想知道在哪里可以找到 NLTK 停用词支持的语言及其键的完整列表我找到一个列表https pypi org project stop words https pypi org project stop words 但它不包含每个国家
Elasticsearch 中的组合非嵌套和嵌套查询

我想使用 ES 进行书籍搜索所以我决定将作者姓名和标题作为嵌套文档放入索引中如下所示 curl XPUT localhost 9200 library search books 1 d author one books title
Elasticsearch 与 Cassandra 对比 Elasticsearch 与 Cassandra

我正在学习 NoSQL 并正在寻找满足客户要求之一的不同选项在提出这个问题之前我已经查阅了各种资源一个对NoSQL知之甚少的人我需要以更快的速度存储数据并读取数据完全故障安全且易于扩展能够搜索数据进行分析我最终得到了一个简短的清
在elasticsearch中映射一本书，具有多个级别，嵌套关系与父子关系

当为可以搜索多本书的索引创建映射时最好使用如下所示的嵌套映射还是使用带有亲子关系 https www elastic co guide en elasticsearch guide current parent child html b
如何在 Kibana 中过滤小于参数的计数器？

我有一个类似的问题如何过滤字段greater比 Kibana 上的计数器 https github com elastic kibana issues 9684 https github com elastic kibana issues
Elasticsearch，如何使 NEST 地图响应类

首先我使用的是NEST 5 5 0 我对远程 elasticsearch index 的使用如下 var node new Uri http distribution virk dk cvr permanent var settings
在elasticsearch中搜索字幕数据

有以下数据简单的srt 1 00 02 17 440 gt 00 02 20 375 Senator we re making our final 2 00 02 20 476 gt 00 02 22 501 approach into
java中使用多个分隔符分割字符串

我正在研究一种数据挖掘算法我需要使用多个单词来标记字符串我有一个单独的文件其中包含所有停用词我需要做的是通过任何作为分隔符的单词停用词来标记输入字符串例如如果文件包含停用词 a is and of that 输入字符串变为
如何在 DSL 中的术语查询内添加建议

我的文档如下 id 1 name sachin messi description email protected cdn cgi l email protection type football var sports id 2 name
包含 Elasticsearch 中的查询或部分匹配

我正在寻找一个 amend 这个词它可能在数据中以 amending amendment 甚至 amend 的形式出现搜索此类单词的最佳方法是什么我知道通配符可以实现这一点但由于我的代码的其他部分我被限制不使用它有哪些不同的方式
Lucene 搜索错误堆栈

我在尝试使用 Lucene 进行搜索时看到以下错误版本1 4 3 关于为什么我会看到这个以及如何解决它有什么想法吗 Caused by java io IOException read past EOF at org apache luc
嵌套类型的动态映射

我正在尝试为如下对象创建动态映射 product productId 99999 manufacturerId A0001 manufacturerCode A101LI name Test Product description Desc

随机推荐

具有多个主类的 Gradle 应用程序插件

我正在使用 gradle application 插件来启动我的应用程序这效果很好现在我想添加在同一项目中启动不同主类的选项我可以更改插件的配置以允许这样做吗 apply plugin application mainClassNam
当尝试设置从 MySQL 返回的布尔值时，Dapper 抛出无效的强制转换异常

我有这门课 public class User public int UserId get set public string UserName get set public bool IsValidated get set 我使用 dap
WooCommerce：当客户离开然后回来时如何保留结账信息？

有没有一种简单的方法或插件可以保留客户离开和回来后输入的结账信息这个插件 https ur wordpress org plugins woocommerce checkout manager 保留客户来回导航时的字段信息但是它最近有
如何在 Postgres 中运行通过 pgagent 创建的作业

使用 pgagent 创建了一个作业它已成功创建但无法检查其状态是否正在运行它都没有执行我在步骤中给出的指定代码使用的版本 x86 64 pc linux gnu 上的 PostgreSQL 9 6 2 由 gcc GCC 4 4
python在加载模块时捕获NameError

我试图捕获无法加载模块时发生的任何异常当前的结果是 except 块没有被执行 import sys def loadModule module try import module except print Cannot load s F
如何在DBeaver中使用sqlcmd GO批量分隔符？

我需要使用GO1 https learn microsoft com en us sql t sql language elements sql server utilities statements goDBeaver IDE 中的熟食器
获取属于任意类型的单元名称（TRttiType）

我需要获取任何单元的名称命名空间 TRttiType http docwiki embarcadero com CodeSamples en Category 3aRtti TRttiType 到目前为止我已经尝试了以下方法 1 使用P
iTunes Connect 预发布版本无效。

当尝试提交应用程序存档时我在 Xcode 中收到以下错误错误 ITMS 9000 预发布列车无效列车版本 2 1 5 已关闭以提交新版本有人有解决方案吗该版本已经等待审核我拒绝了它现在正在尝试提交新版本版本号相同但我增加了
覆盖 Primefaces 特定小部件的方法

我想覆盖 Primefaces 数据表组件的函数根据这个问题如何在基于 widgetVar 的 Primefaces 组件中查找和或覆盖 JavaScript https stackoverflow com questions 275
如何强制内联div保持在同一行？

我正在尝试制作三列布局我希望左列和右列的宽度仅与其子项内容一样宽我希望中心柱能够扩大以填充剩余空间我正在尝试以下操作概述下面包含 jsfiddle 链接 colLeft display inline float left colC
在 .NET 异常中保留原始 StackTrace/LineNumbers

了解之间的区别throw ex and throw 为什么在这个例子中保留了原来的StackTrace static void Main string args try LongFaultyMethod catch System Excep
Windows Phone 应用程序缺少 EventToCommand

我正在使用 MVVM Light 构建 Windows Phone 8 应用程序到目前为止一切都很好但是当我使用 EventToCommand 时出现多个错误一个类似的问题在这里迁移到 SL5 的 v4 时 EventToCom
为什么 C++ 中不允许初始化整型成员变量（不是 const static）？

当我尝试在类定义中初始化 int 成员变量时我的 C 编译器会抱怨它告诉我们只有静态常量整型数据成员才能在类中初始化您能否解释一下此限制背后的理由如果可能的话举例说明因为目前的标准是不允许的根据比亚恩的说法 http www
WP7 在地图上拖动图钉

有谁知道如何在运行 Mango 的 WP7 客户端上的地图上实现可拖动图钉我有一个图钉绑定到地图上的地理位置我希望用户能够将其拖动到地图上并记录其新位置我见过一些资源但它们用于非 WP7 Bing 地图控制任何帮助将不胜感激 T
如何使用 Asset Pipeline 从非标准目录传送字体

我正在尝试将 Fontawesome 包含在 Rails 4 应用程序中但资产并未进入资产管道然而这些字体并没有在生产中使用我不明白为什么文件结构组织我所有的资产都存储在 assets components因此 Fontawes
Node.js 公牛队列中的作业陷入“等待”状态

我有一堆工作在公牛队列中其中一个被卡住了 1 个多小时通常需要大约 2 分钟才能运行但没有失败我无法使用我使用的 bull arena UI 将作业从活动状态中删除因此我删除了 Redis 中活动作业的密钥这消除了卡住的活动作业
php 中的图像验证码

下面是一个程序的源代码谁能帮我弄清楚程序的工作原理
在 Android 手机中打开键盘时图像大小调整问题

感谢您的阅读我是cordova开发的新手我正在使用framework7使用cordova开发混合应用程序我将背景放在登录表单上但在移动设备中当打开键盘进行书写时背景图像会调整大小我想要修复打开 Android 键盘时未调整大小
r-将列表列转换为字符向量，其中列表是字符

我正在尝试将列表转换为单个字符值或者基本上从这里开始 test lt data frame a c 1 1 1 2 2 2 b c a b c d e f gt group by a gt summarise b list b to th
在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词

在我正在构建的索引中我有兴趣运行查询然后使用方面返回该查询的带状疱疹这是我在文本上使用的分析器 settings analysis analyzer shingleAnalyzer tokenizer standard filte

在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词

在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词 的相关文章

随机推荐

热门标签

在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词的相关文章