搜索存储在 Hadoop 中的文档 - 使用哪个工具?

2023-11-20

我迷失在:Hadoop、Hbase、Lucene、Carrot2、Cloudera、Tika、ZooKeeper、Solr、Katta、Cascading、POI...

当您阅读有关该工具的信息时,您通常可以确定其他每一种工具都会被提及。

我并不指望你向我解释每一个工具——当然不是。如果你能帮助我针对我的特定场景缩小这个范围,那就太好了。到目前为止,我不确定以上哪一个适合,而且看起来(一如既往)有不止一种方法可以完成要做的事情。

该场景是:Hadoop 中存储了 500GB - ~20 TB 的文档。多种格式的文本文档:电子邮​​件、doc、pdf、odt。有关存储在 SQL 数据库中的文档的元数据(发件人、收件人、日期、部门等)。文档的主要来源将是 ExchangeServer(电子邮件和附件),但不仅如此。现在进行搜索:用户需要能够对这些文档进行复杂的全文搜索。基本上,他会看到一些搜索配置面板(java 桌面应用程序,而不是 web 应用程序) - 他将设置日期范围、文档类型、发件人/收件人、关键字等 - 启动搜索并获取文档的结果列表(以及对于每个文档的信息,为什么它包含在搜索结果中,即在文档中找到了哪些关键字)。

我应该考虑哪些工具,哪些不应该考虑?重点是仅使用最少的所需“粘合”代码来开发这样的解决方案。我精通 SQLdb,但对 Apache 及相关技术感到非常不舒服。

基本工作流程如下所示:ExchangeServer/其他源 -> 从 doc/pdf/... 转换 -> 重复数据删除 -> Hadopp + SQL(元数据) -> 构建/更新索引 显示搜索结果

谢谢你!


使用 solr 是一个不错的选择。我已经将它用于您上面描述的类似场景。您可以使用 solr 作为分布式索引服务器来处理真正的海量数据。

但要获取有关所有这些文档格式的元数据,您应该使用其他工具。基本上你的工作流程将是这样的。

1)使用hadoop集群存储数据。

2)使用mapreduce提取hadoop集群中的数据

3)进行文件识别(识别文件类型)

4) 从这些文档中提取元数据。

5)在solr服务器中索引元数据,将其他摄取信息存储在数据库中

6) Solr 服务器是分布式索引服务器,因此对于每次摄取,您可以创建一个新的分片或索引。

7) 当需要搜索时,对所有索引进行搜索。

8)Solr支持所有复杂的搜索,因此您不必制作自己的搜索引擎。

9) 它还为您进行寻呼。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

搜索存储在 Hadoop 中的文档 - 使用哪个工具? 的相关文章

  • Solr 分面搜索性能建议

    我们有一个包含 86 315 770 个文档的 solr 实例 它使用高达 4GB 的内存 我们需要它来对称为内容的标记化字段进行分面 磁盘上的索引大小为 23GB 为什么我们要在标记化字段上进行分面 因为我们想要查询该字段中最常用的 n
  • 在云模式下设置 Apache Solr

    我必须执行以下操作 我必须在 2 个服务器 节点上部署 Solr 在另一台服务器上部署 Zookeeper 将自定义配置上传到 Zookeeper 创建具有 2 个分片和 2 个副本的自定义集合 Solr 7 4 0 和 Zookeeper
  • 如何减少solr内存使用?

    我在我的应用程序中使用 solr 只有数百个文档 内存占用80M左右 如何减少 80M 并不多 事实上它几乎是最低限度 你不会比这个低很多 影响内存使用的一些因素 输入文档尺寸 多线程文档更新 缓存大小 分面查询 Sorting 参考 ht
  • 使用 Java API 在 Hadoop 中移动文件?

    我想使用 Java API 在 HDFS 中移动文件 我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动 但我想将它们保留在 HDFS 中并将它们移动到那里 我错过了一些基本的东西吗 我能想到的唯一方法是从输
  • 在 Ecom 应用程序中实施 SOLR 的最佳实践是什么?

    我是 SOLR 的新用户 我正在开发一个具有 SQL 数据库的电子商务 Web 应用程序 我想在应用程序中为我的 类别页面 实现 SOLR 我们将在其中显示该类别的产品以及特定信息 例如可用库存 价格和更多详细信息 此外 我们希望根据库存情
  • 如何在Hadoop中序列化List集合对象?

    有没有办法在 Hadoop 中序列化 java 集合 The Writable接口仅适用于 Java 原语 我有以下类属性 private String keywords private List
  • 使用进度条时出错:Max 必须是正整数

    每当我用 solr 重新索引 a 时 都会收到以下错误 RAILS ENV development rake sunspot solr reindex Error using progress bar Max must be a posit
  • 匹配拉丁脚本中包含少于 10 个单词的两个字符串的最佳算法是什么

    我正在比较歌曲标题 使用拉丁字母 尽管并不总是 我的目标是一种算法 如果两个歌曲标题看起来相同 则给出高分 如果它们没有任何共同点 则给出很低的分数 现在我已经必须使用 Lucene 和 RAMDirectory 编写代码 Java 来编写
  • 在 solr 的类路径中找不到资源“solrconfig.xml”

    problem 我无法访问 solr 管理页面 当我在本地系统上运行 url 时 response
  • sqoop 通过 oozie 导出失败

    我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常 但是当我通过调用oozie 它出现以下错误并失败 我还包括了罐子 没有描述性日志 sqoop脚本 export c
  • 当 docvalues=true 时,小写过滤器工厂不起作用

    我正在尝试使用 Solr 实现不区分大小写的排序并面临这个问题 https stackoverflow com questions 31745713 solr case insensitive sort not working Copied
  • Solr 7.x 支持 Java 11 吗?

    目前我们的应用程序使用 Spring Data Solr Apache Solr 5 3 Java 8 运行 我们正在将系统升级到 Java 11 Spring Data Solr 和 Apache Solr 最新版本是否支持 Java 1
  • 将数据从 .txt 文件加载到 Hive 中以 ORC 形式存储的表

    我有一个数据文件位于 txt格式 我正在使用该文件将数据加载到 Hive 表中 当我将文件加载到类似表中时 CREATE TABLE test details txt visit id INT store id SMALLINT STORE
  • Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用?

    我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
  • MapReduce 中的分区到底是如何工作的?

    我认为我总体上对 MapReduce 编程模型有一定的了解 但即使在阅读了原始论文和其他一些来源之后 我仍然不清楚许多细节 特别是关于中间结果的分区 我将快速总结到目前为止我对 MapReduce 的理解 我们有一个可能非常大的输入数据集
  • 测量文档集之间的相似性

    出于说明目的 我们假设这是一个论坛服务 我需要计算每个用户帖子之间的 相似度 结果如下 among posts by user A similarity 60 among posts by user B similarity 20 我正在处
  • 特定查询出现错误

    Lucene 的新手 我在 java 客户端中将它与 Hibernate 一起使用 并且在特定查询上收到此错误 HSEARCH000146 The query string a applied on field name has no me
  • Hadoop 超立方体

    嘿 我正在启动一个基于 hadoop 的超立方体 具有灵活的维度数 有人知道这方面现有的方法吗 我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它 另一种方法是Z
  • Hadoop fs 查找块大小?

    在 Hadoop fs 中如何查找特定文件的块大小 我主要对命令行感兴趣 例如 hadoop fs hdfs fs1 data 但看起来这并不存在 有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量 但是 要
  • CakePHP 与 Lucene

    我正在尝试使用 cakephp 实现 Lucene 并遵循本指南http jamienay com 2010 01 zend search lucene datasource for cakephp http jamienay com 20

随机推荐