Apache Tika 如何提取没有页眉和页脚内容的 html 正文

2023-11-30

我希望提取除页眉和页脚之外的 html 的整个正文内容，但是我遇到了异常

org.xml.sax.SAXException：命名空间http://www.w3.org/1999/xhtml未申报

下面是我如上所述创建的代码at

import org.apache.tika.exception.TikaException;
import org.apache.tika.io.TikaInputStream;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.sax.BodyContentHandler;
import org.apache.tika.sax.ToHTMLContentHandler;
import org.apache.tika.sax.ToXMLContentHandler;
import org.apache.tika.sax.XHTMLContentHandler;
import org.apache.tika.sax.xpath.Matcher;
import org.apache.tika.sax.xpath.MatchingContentHandler;
import org.apache.tika.sax.xpath.XPathParser;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import org.apache.tika.metadata.Metadata;

import java.io.File;
//import java.io.FileInputStream;
import java.io.IOException;
import java.io.InputStream;


public class NewtikaXpath {
    public static void main(String args[]) throws IOException, SAXException, TikaException {
        XPathParser xhtmlParser = new XPathParser("xhtml", XHTMLContentHandler.XHTML);
        Matcher divContentMatcher = xhtmlParser.parse("/xhtml:html/xhtml:body/xhtml:table/descendant::node()");
        ContentHandler xhandler = new MatchingContentHandler(new ToXMLContentHandler(), divContentMatcher);
        AutoDetectParser parser = new AutoDetectParser();
        //ToHTMLContentHandler htmlhandler = new ToHTMLContentHandler();
        //ContentHandler textHandler = new BodyContentHandler();
        Metadata xmetadata = new Metadata();
        try  (InputStream stream = TikaInputStream.get(new File("///httpmoneycnncomnewsworldiidHBNQL1.html"))){
            parser.parse(stream, xhandler, xmetadata);
            System.out.println("text:\n" + xhandler.toString());
        }
    }

}

我得到的例外是

Exception in thread "main" org.xml.sax.SAXException: Namespace http://www.w3.org/1999/xhtml not declared
at org.apache.tika.sax.ToXMLContentHandler$ElementInfo.getPrefix(ToXMLContentHandler.java:62)
at org.apache.tika.sax.ToXMLContentHandler$ElementInfo.getQName(ToXMLContentHandler.java:68)
at org.apache.tika.sax.ToXMLContentHandler.startElement(ToXMLContentHandler.java:148)
at org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)
at org.apache.tika.sax.xpath.MatchingContentHandler.startElement(MatchingContentHandler.java:60)
at org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)
at org.apache.tika.sax.SecureContentHandler.startElement(SecureContentHandler.java:250)
at org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)
at org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)
at org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)
at org.apache.tika.sax.SafeContentHandler.startElement(SafeContentHandler.java:264)
at org.apache.tika.sax.XHTMLContentHandler.startElement(XHTMLContentHandler.java:255)
at org.apache.tika.sax.XHTMLContentHandler.startElement(XHTMLContentHandler.java:285)
at org.apache.tika.parser.html.HtmlHandler.startElementWithSafeAttributes(HtmlHandler.java:171)
at org.apache.tika.parser.html.HtmlHandler.startElement(HtmlHandler.java:133)
at org.apache.tika.sax.ContentHandlerDecorator.startElement(ContentHandlerDecorator.java:126)
at org.apache.tika.parser.html.XHTMLDowngradeHandler.startElement(XHTMLDowngradeHandler.java:60)
at org.ccil.cowan.tagsoup.Parser.push(Parser.java:794)
at org.ccil.cowan.tagsoup.Parser.rectify(Parser.java:1061)
at org.ccil.cowan.tagsoup.Parser.stagc(Parser.java:1016)
at org.ccil.cowan.tagsoup.HTMLScanner.scan(HTMLScanner.java:567)
at org.ccil.cowan.tagsoup.Parser.parse(Parser.java:449)
at org.apache.tika.parser.html.HtmlParser.parse(HtmlParser.java:122)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
at org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:280)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:120)
at org.apache.tika.parser.AutoDetectParser.parse(AutoDetectParser.java:136)
at com.fractal.NewtikaXpath.main(NewtikaXpath.java:35)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)

虽然我确实明白，根据蒂卡-1215我们不应该包装内容处理程序，我没有看到任何替代方法来解决这个问题，因为简单的 bodycontenthandler 没有帮助，我验证了很多与此类似的 stackoverflow 案例，但我在任何地方都找不到解决方案。非常感谢任何建议、解决方案或指针。

找到了解决方案at基于研究锅炉管检测，它与 apache tika 集成，可以使用下面的 java 代码运行。

import org.apache.tika.exception.TikaException;
import org.apache.tika.io.TikaInputStream;
import org.apache.tika.parser.AutoDetectParser;
import org.apache.tika.parser.html.BoilerpipeContentHandler;
import org.apache.tika.sax.BodyContentHandler;
import org.xml.sax.ContentHandler;
import org.xml.sax.SAXException;
import org.apache.tika.metadata.Metadata;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;   

public class NewtikaXpath {
    public static void main(String args[]) throws IOException, SAXException, TikaException {
        AutoDetectParser parser = new AutoDetectParser();
        ContentHandler textHandler = new BodyContentHandler();
        Metadata xmetadata = new Metadata();
        try  (InputStream stream = TikaInputStream.get(new URL("your favourite url"))){
            parser.parse(stream, new BoilerpipeContentHandler(textHandler), xmetadata);
            System.out.println("text:\n" + textHandler.toString());
        }
    }

}

您可以进行简单的锅炉管道检测演示at..还可以提供更多信息at..

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

Parsing

apachetika

boilerpipe

Apache Tika 如何提取没有页眉和页脚内容的 html 正文的相关文章

使用溢出时无法隐藏滚动条：auto

我有这个CSS div background color red position relative height 414px overflow auto width 902px margin 0px auto 我尝试过overflow y
HTML 和 JavaScript - 将滚动操作从一个元素传递到另一个元素

假设我有两个 div div div div A scrollable list div 我想让它当光标停在里面时 control并且鼠标滚轮滚动 view将会滚动无论如何要实现这一目标好的快速修复对我有用即使固定 div 不可滚动
文本后面有粗下划线

如何使用 span 和 css 在文本 ABC 后面重现这种下划线我已经能够做下划线below嵌套的文本span和彩色的border bottom 但无法获取behind图像和above文本基线 p style font size 48p
数字和小数的输入掩码

在测试我的程序后我发现了以下错误我在 sqlserver 中的表包含价格数字 6 2 我的程序的用户输入价格 555 00 就很好了但是当他输入 555555 时这是错误的所以我需要指定掩码其中尾数是可选的 0 到 999 小
响应式导航栏隐藏其下方的元素

我创建了一个响应式导航栏但它使下面的元素 Flexslider 插件消失在我制作导航栏之前下面的 Flexslider 可以正常显示但现在不行导航栏的 z index 为 2 所以我不知道问题是什么我应该如何更改什么才能允许
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
使用滤镜将css3灰色图像转为蓝色？

我正在尝试将灰色图像变为更蓝色的色调真的不知道如何为此设置滤镜或是否可能该图像只有一种颜色 cacaca 其余部分透明我正在尝试使用相同的图像进行一些叠加以便它仅突出显示那些彩色部分而不是透明区域一直在尝试其中的一些但没有取得多
占位符 HTML 元素？

是否有任何 HTML 元素可以用来包装其他元素以用作占位符例如 ul ul
Google Maps API 下拉列表，缩放至标记

我正在使用 Google Maps API v3 我有一个带有一些标记的简单地图我还有一个下拉列表我需要最少的代码来完成这项工作我想在下拉列表中选择一个标记并将选定的标记平移到它我已经尝试了一切并在网上查看我发现事情很接近但到
使用 iframe 显示静态文本内容

我有一个非常简单的要求我有一个 div 我在其中显示一些文本内容的标签我想在一个中显示相同的文本内容我想要实现的目标已写在下面有人可以帮忙吗 b div This is a content which I want to displ
Flexbox 不适用于 iPad 和 Safari [重复]

这个问题在这里已经有答案了我在网站上使用 Flexbox 但它在 iPad Air iPad 3 和 Safari PC 上崩溃设计和代码与此 codepen 类似 http codepen io anon pen xwJzEg htt
使用 jQuery/JS 打开时使
标签的内容具有动画效果

我只想要 HTML5 的内容details标记为滑行动画打开而不是仅仅弹出打开立即出现这可以用 jQuery Javascript 实现吗 Fiddle http jsfiddle net 9h4Hq HTML
从标签获取 href 值

我有以下 html div class threeimages a img alt Australia src Images Services 20button tcm7 9688 gif a div class text h2 a hre
保持未知数量的 div 居中，每行最多 4 个

我有一个简单的问题但我自己无法解决简而言之有一个未知电话我必须在页面中放置的元素数量最多每行 4 个元素但仍居中此图片给您一个提示我为了示例而设置它详细在上图中我涵盖了不同的场景例如如果总共有 5 个元素则应使用第
jquery从变量中删除html元素

我将 html 保存在变量中 var itinerary events today html 我有很多 html 和一个按钮我想删除它的 ID 为 myButton 如何从变量中保存的 html 中删除它我建议这种方法 var itin
为什么我不能在 AngularJS 中使用 data-* 作为指令的属性名称？

On the t他的笨蛋 http plnkr co edit l3KoY3 p preview您可以注意到属性名称模式的奇怪行为data 在指令中电话 Test of data named attribute br
为什么元素上的负底部边距会降低该元素父元素的高度？

这可能是由于边距折叠造成的我知道边距折叠至少知道它如何影响相邻元素但我不明白当涉及负边距时它如何在嵌套元素上工作例如在此标记和随附的 CSS 中 Markup div class parent div class child Ch
使用

Apache Tika 如何提取没有页眉和页脚内容的 html 正文

Apache Tika 如何提取没有页眉和页脚内容的 html 正文 的相关文章

Apache Tika 如何提取没有页眉和页脚内容的 html 正文的相关文章