如何从 HTML 文件中提取元标签并在 SOLR 和 TIKA 中对其进行索引

2023-12-08

我正在尝试提取 HTML 文件的元标签，并通过 tika 集成将它们索引到 solr 中。我无法使用 Tika 提取这些元标记，也无法在 solr 中显示。

我的 HTML 文件看起来像这样。

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
<meta name="product_id" content="11"/>
<meta name="assetid" content="10001"/>
<meta name="title" content="title of the article"/>
<meta name="type" content="0xyzb"/>
<meta name="category" content="article category"/>
<meta name="first" content="details of the article"/>

<h4>title of the article</h4>
<p class="link"><a href="#link">How cite the Article</a></p>
<p class="list">
  <span class="listterm">Length: </span>13 to 15 feet<br>
  <span class="listterm">Height to Top of Head: </span>up to 18 feet<br>
  <span class="listterm">Weight: </span>1,200 to 4,300 pounds<br>
  <span class="listterm">Diet: </span>leaves and branches of trees<br>
  <span class="listterm">Number of Young: </span>1<br>
  <span class="listterm">Home: </span>Sahara<br>
</p>
</p>

我的 data-config.xml 文件如下所示

<dataConfig>
<dataSource name="bin" type="BinFileDataSource" />
    <document>   
    <entity name="f" dataSource="null" rootEntity="false"
        processor="FileListEntityProcessor"
        baseDir="/path/to/html/files/" 
        fileName=".*html|xml" onError="skip"
        recursive="false">

        <field column="fileAbsolutePath" name="path" />
        <field column="fileSize" name="size"/>
        <field column="file" name="filename"/>

        <entity name="tika-test" dataSource="bin" processor="TikaEntityProcessor" 
        url="${f.fileAbsolutePath}" format="text" onError="skip">

        <field column="product_id" name="product_id" meta="true"/>
        <field column="assetid" name="assetid" meta="true"/>
        <field column="title" name="title" meta="true"/>
        <field column="type" name="type" meta="true"/>
        <field column="first" name="first" meta="true"/>
        <field column="category" name="category" meta="true"/>      
        </entity>
    </entity>
</document>
</dataConfig>

在我的 schema.xml 文件中，我添加了以下字段。

<field name="product_id" type="string" indexed="true" stored="true"/>
<field name="assetid" type="string" indexed="true" stored="true" />
<field name="title" type="string" indexed="true" stored="true"/>
<field name="type" type="string" indexed="true" stored="true"/>
<field name="category" type="string" indexed="true" stored="true"/>
<field name="first" type="text_general" indexed="true" stored="true"/>

在我的 solrconfing.xml 文件中，我添加了以下代码。

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler" />
<lst name="defaults">
  <str name="config">/path/to/data-config.xml</str>
</lst>

谁能知道如何从 HTML 文件中提取这些元标记并在 solr 和 Tika 中对它们进行索引？我们将不胜感激您的帮助。

我不认为 meta="true" 意味着你认为的意思。它通常指的是那些about文件而不是内容。因此，内容类型等。可能 http-equiv 也会被映射。

除此之外，您需要提取实际内容。您可以通过使用 format="xml" 然后使用 XPathEntityProcessor 放置内部实体并映射路径来完成此操作。除非，即使如此，你还是受到限制，因为卡住了，因为 AFAIK，DIH 使用 DefaultHtmlMapper，它对它允许的内容有极大的限制，并跳过大多数“class”和“id”属性，甚至像“div”之类的东西。您可以阅读允许的元素和属性列表自己在源代码中。

坦率地说，更简单的方法是拥有一个 Solr 客户端并自己管理 Tika。然后你可以将其设置为使用 Identity Html Mapper，它不会与 HTML 混淆。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Solr

apachetika

dataimport

solr4

如何从 HTML 文件中提取元标签并在 SOLR 和 TIKA 中对其进行索引的相关文章

复杂的 SOLR 查询，包括 NOT 和 OR

我对 SOLR 搜索有一些相当复杂的要求我需要针对标记内容的数据库执行这些搜索我需要首先过滤数据库以获取与我的过滤器标签匹配的结果任何具有黑名单中的标签的结果都应被删除除非它们也包含白名单中的标签假设我想检索所有标记为森林或
ckan本地安装，solr JSP支持未配置500错误

我正在尝试使用 Ubuntu 14 04 LTS 在本地计算机上安装 CKAN 我按照从找到的源安装的说明进行操作here http docs ckan org en latest maintaining installing instal
apache solr：group by 产生的数据总和

我们有一个要求需要按特定字段对记录进行分组并获取相应数字字段的总和前任 select userid sum click count from user action group by userid 我们尝试使用 apache solr
客户端断开连接后 Solr 查询继续吗？

我对 Solr 长期运行查询遇到的问题有一个理论但我不知道它是否正确也不知道如何测试它我正在使用 cURL 从应用程序查询 Solr cURL 的配置方式是如果 Solr 在 3 秒内未发送响应它将放弃并断开连接从而允许托管 c
需要在 java api 中的 Solr 搜索中搜索文本及其周围的几行

我正在使用 solr 7 7 2 并且我使用 solrj 在 Solr 中编写了一个 Java 程序该程序在一个巨大的文本文件中搜索单词我使用以下代码来显示代表整个文本的搜索结果 SolrQuery params new SolrQue
Solr 您的意思是（拼写检查组件）

我在我的应用程序中使用 solr 并集成了拼写检查组件但我遇到了一些问题第一的当我输入一个用空格分隔的术语时他们会给我每个术语的更正 Eg 水 gt 什么术语但事实是watters 第二当我输入一些带有错误术语的短语时尽管其他
Solr 中缺少强制 uniquekey 字段错误

我的项目中有这个问题我使用 Apache Poi 读取 xlsx excel 文件并且想在 Solr 核心中对它们进行索引我使用 SolrInputDocument 来索引读取文件这是我的java代码 package org sol
Solr：在带有空格的字符串上使用通配符

我的问题与这里讨论的问题基本相同带空格的 Solr 通配符查询 https stackoverflow com questions 10023133 solr wildcard query with whitespace 但这个问题没有得
Solr PatternReplaceCharFilterFactory 未替换为指定模式

所以我对 Solr 很陌生但我尝试使用 PatternReplaceCharFilterFactory 对将存储的电话号码字符串进行一些预处理这是该字段的配置
如何将 Solarium 配置为使用 POST 而不是 GET 请求

我面临的问题是我们发送到 solr jetty 的 uri 变得很长超过 9k 字节超出了 jetty 的默认限制解决方案是从 GET 请求切换到 POST 请求因为我们不想增加 jetty 可以接受的 requestHeaderS
在 Solr 中实现术语关联挖掘的最简单方法是什么？

关联挖矿似乎为检索提供了良好的结果相关术语在文本语料库中有很多关于这个主题的著作其中包括著名的LSA http en wikipedia org wiki Latent semantic analysis方法挖掘关联最直接的方法是构建
由于未定义符号，PECL solr 未加载：curl_easy_getinfo

我正在尝试加载 PECL solr 扩展我尝试使用 pecl install solr 并下载并使用 phpize configure make 来安装它在这两种情况下扩展安装时都没有错误但在 apache 重新启动后或在命令行上
SOLR - Boost 函数 (bf) 以增加日期最接近 NOW 的文档的分数

我有一个 solr 实例其中包含具有 startTime 字段的文档范围从上个月到一年后我想添加一个提升查询函数来提升 startTime 字段接近当前时间的文档的分数到目前为止我已经看到很多使用 rord 为较新的文档添加增强
是否可以检索与 Solr 中的查询匹配的字段名称？

我想动态地向用户显示哪个字段与发送到 Solr 的查询相匹配例如如果我有一个文档 document field1 yay field2 nay dynamic field hurr one yay two nay 我查询 yay 我是否
为什么Tika门面选择EmptyParser？

我正在使用 Tika 外观按照以下示例elasticsearch mapper attachment 插件 https github com elasticsearch elasticsearch mapper attachments b
在云模式下设置 Apache Solr

我必须执行以下操作我必须在 2 个服务器节点上部署 Solr 在另一台服务器上部署 Zookeeper 将自定义配置上传到 Zookeeper 创建具有 2 个分片和 2 个副本的自定义集合 Solr 7 4 0 和 Zookeeper
如何减少solr内存使用？

我在我的应用程序中使用 solr 只有数百个文档内存占用80M左右如何减少 80M 并不多事实上它几乎是最低限度你不会比这个低很多影响内存使用的一些因素输入文档尺寸多线程文档更新缓存大小分面查询 Sorting 参考 ht
Solr 自定义相似度

我想在我的 solr schema xml 中设置我自己的自定义相似度但我在理解此功能时遇到一些问题我想完全停用 solr 评分 tf idf coord 和 fieldNorm 我不知道从哪里开始我知道的事情我必须编写自己的 De
solr 不标记受保护的单词

我在 Solr Lucene 3 x 中有一个文档其中有一个特殊的复制字段facet headline 以便有一个用于分面的未词干字段有时两个或以上的单词属于在一起这应该被处理算作一个单词例如 kim jong il 因此标题星
是否可以“合理”地设置 Solr 分数阈值，而与返回的结果无关？（即 Solr 评分是否以任何方式标准化）

我有一个包含许多条目的 Solr 索引并且在查询时返回一些子集每个条目都有一些分数显而易见一旦结果与分数一起返回我希望能够仅保留高于某个分数的结果即仅具有特定质量的结果当返回的子集可以是任何东西时是否可以这样做我问这个问

随机推荐

将 JSON 日期（刻度）转换为 NSDate

有谁知道如何在 Objective C 中将 JSON 日期 ticks 转换为 NSDate 有人可以发布一些代码吗我在这里猜测但你的 JSON 值是自 1970 年以来的毫秒数对吧您可以使用 NSDate 的dateWithTi
ProcessBuilder 找不到指定的文件，而 Process 可以[重复]

这个问题在这里已经有答案了我正在尝试从 Java 程序运行 jar 文件并且使用成功getRuntime Process processAlgo Runtime getRuntime exec java jar algoPath 但是当
Google 图表错误：b.L 不是函数

我使用 Google API 制作了一个包含 3 个图形的小页面一切都很完美然而从一个时刻到另一个时刻都崩溃了在图表中出现此消息的地方 bL 不是函数有人可以向我解释为什么会发生这种情况吗我的例子working
WPF XAML StringFormat：C# 4.0 中的文化解决方法被破坏？

周围的工作 FrameworkElement LanguageProperty OverrideMetadata typeof FrameworkElement new FrameworkPropertyMetadata XmlLangua
使用 Jersey 2 (HK2) DI 注册 Dropwizard 配置

在我的 Dropwizard 1 2 4 应用程序中我无法将 Dropwizard 配置注入到由 HK2 实例化的类中实现这一目标的最佳方法是什么只需绑定配置即可instance Override public void run fi
我可以信任 Java SecurityManager 沙箱吗？

我正在编写一个 JavaFX2 应用程序它接受从远程位置加载的任意代码对我来说使用自定义 SecurityManager ClassLoader 和 ProtectionDomain 是最佳选择不幸的是这似乎与用于沙箱小程序的设置
手动指定特定链接符号的重新映射

在不修改这两个源文件的情况下有没有办法获取编译它们生成的目标文件并说服链接器链接foo在 main v1 c 中bar在bar c main v1 c void foo void int main void foo bar c incl
JavaScript 是多线程的吗？

这是我的问题我需要使用 jQuery getScript 动态下载多个脚本并执行某些JavaScript加载所有脚本后的代码所以我的计划是做这样的事情 function GetScripts scripts callback var l
Python 和 C++ 模数

我正在学习 C 在尝试编写一个小程序时我发现了一些奇怪的东西这是关于模数 C 代码 cout lt lt 325 325 100 lt lt endl 300 cout lt lt 325 325 100 300 和Python代码 p
关于泛型方法调用的 Java 类型提示

我想知道调用具有如下签名的静态方法的正确方法是什么 public static
如何获取单选按钮的文本（而不是值）

我知道我可以获取单选按钮的值属性但我发现获取单选按钮的文本非常困难考虑下面的例子它有 3 个单选按钮并尝试提醒第一个单选按钮的值红色然后尝试提醒单选按钮的文本苹果但失败了获取几乎任何元素的文本都可以使用 elem ch
正则表达式在文件夹中查找文件

如何查找文件夹中与正则表达式模式匹配的所有文件 Thanks The GetFiles方法允许您指定通配符模式但不是真正的正则表达式另一种可能性是简单地循环遍历文件并根据正则表达式验证它们的名称 IEnumerable
将图像大小调整到给定边界区域的最简单方法是什么？

我想创建一个函数例如 def generateThumbnail self width height Generates thumbnails for an image im Image open self file im thumbna
MYSQLi 错误：用户已经拥有超过“max_user_connections”的活动连接[重复]

这个问题在这里已经有答案了我正在运行的网站上出现以下错误我不明白为什么会这样因为它在我的本地主机上运行良好跟楼主有关系吗我在 Unix 服务器上 Warning mysqli mysqli mysqli mysqli 42000
NodeJS 将 Int16Array 二进制缓冲区转换为 Google Speech API 的 LINEAR16 编码原始流

我正在尝试在节点服务器中将语音转换为文本其中使用 AudioContext 在浏览器中进行语音录制我能够通过binaryType arraybuffer的WebSocket连接将int16Array缓冲区记录的数据发送到我的节点服务
从列号获取 Excel 样式的列名称

这是在提供行和列 ID 时提供列名称的代码但当我给出如下值时row 1 and col 104 它应该返回CZ 但它返回D row 1 col 104 div col column label str while div div mod
如何从左到右移动uiview，反之亦然

您好我正在开发一个应用程序我为一个视图制作了从左到右从右到左移动的动画并更改该视图中包含的标签的值但是当我单击左或右按钮时该视图将被删除新视图覆盖旧视图所以我不想覆盖只是我想添加新视图我的代码是 void centerAn
文本文件的行数

我正在尝试创建一个函数它接受文件名即 data txt 并生成该文件的行数 data txt 24 42 45 54 67 76 89 98 12 21 99 99 33 33 下面的代码是我尝试构建一个函数该函数接受文件名 data
mongoose 和 mongoJS 有什么区别？我应该使用哪个？

我只是想知道 mongoose 和 mongoJS 有什么区别那么如果我们使用 mongoose 或 mongoJS 有何优点和缺点因为我们知道连接 NodeJS 和 MongoDB 有很多依赖关系例如猫鼬和 mongoJS Mon
如何从 HTML 文件中提取元标签并在 SOLR 和 TIKA 中对其进行索引

我正在尝试提取 HTML 文件的元标签并通过 tika 集成将它们索引到 solr 中我无法使用 Tika 提取这些元标记也无法在 solr 中显示我的 HTML 文件看起来像这样

如何从 HTML 文件中提取元标签并在 SOLR 和 TIKA 中对其进行索引

如何从 HTML 文件中提取元标签并在 SOLR 和 TIKA 中对其进行索引 的相关文章

随机推荐

热门标签

如何从 HTML 文件中提取元标签并在 SOLR 和 TIKA 中对其进行索引的相关文章