使用 golang 解析损坏的 HTML

2024-02-13

我需要在 HTML 字符串中查找元素。不幸的是，HTML 几乎被破坏了（例如，没有打开对的关闭标签）。

我尝试使用 XPathlaunchpad.net/xmlpath但它无法解析 HTML 文件，真是太糟糕了。

如何使用 golang 找到损坏的 HTML 中的元素？我更喜欢使用 XPath，但如果我可以使用它来查找具有特定 id 或类的标签，我也愿意接受其他解决方案。

它似乎net/html https://godoc.org/code.google.com/p/go.net/html完成工作。

这就是我现在正在做的事情：

package main

import (
    "strings"
    "golang.org/x/net/html"
    "log"
    "bytes"
    "gopkg.in/xmlpath.v2"
)

func main() {
    brokenHtml := `<!DOCTYPE html><html><body><h1 id="someid">My First Heading</h1><p>paragraph</body></html>`

    reader := strings.NewReader(brokenHtml)
    root, err := html.Parse(reader)

    if err != nil {
        log.Fatal(err)
    }

    var b bytes.Buffer
    html.Render(&b, root)
    fixedHtml := b.String()

    reader = strings.NewReader(fixedHtml)
    xmlroot, xmlerr := xmlpath.ParseHTML(reader)

    if xmlerr != nil {
        log.Fatal(xmlerr)
    }

    var xpath string
    xpath = `//h1[@id='someid']`
    path := xmlpath.MustCompile(xpath)
    if value, ok := path.String(xmlroot); ok {
        log.Println("Found:", value)
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

xpath

go

使用 golang 解析损坏的 HTML 的相关文章

更改时触发跨度文本/html

jQuery 或 JavaScript 中是否有任何事件在以下情况下触发span标签 text html 已更改 Code span class user location span user location change functio
显示班级图片 10 秒

我有下面给出的代码显示9 boxes 其值如下digital time 还有一个班级box002显示digits相当于随机选择的九个盒子的值 box002 can be dragged to digital time starting wi
文本后面有粗下划线

如何使用 span 和 css 在文本 ABC 后面重现这种下划线我已经能够做下划线below嵌套的文本span和彩色的border bottom 但无法获取behind图像和above文本基线 p style font size 48p
响应式导航栏隐藏其下方的元素

我创建了一个响应式导航栏但它使下面的元素 Flexslider 插件消失在我制作导航栏之前下面的 Flexslider 可以正常显示但现在不行导航栏的 z index 为 2 所以我不知道问题是什么我应该如何更改什么才能允许
使用纯javascript选择最接近id的id

div div TEXT div div div div TEXT div div div TEXT div 如何选择最接近div1的div2 关注w3docs https www w3 org TR html4 struct global
使用 iframe 显示静态文本内容

我有一个非常简单的要求我有一个 div 我在其中显示一些文本内容的标签我想在一个中显示相同的文本内容我想要实现的目标已写在下面有人可以帮忙吗 b div This is a content which I want to displ
使用或实现可访问性的更好做法是什么？

我有一个下载链接但我找不到任何良好的可访问解决方案来说明如何处理这种情况我遵循一个共同的经验法则按钮做事链接去地方我的情况是我有一个触发文档下载的按钮同一页面我相信这应该是一个具有按钮角色的锚点因为它明确不触发重定向或导航
当 URL 包含片段时，iframe 会导致父元素在 Google Chrome 上向上滚动

在 Google Chrome 37 0 2062 122 OSX Windows 上具有包含片段的 URL 的 iframe 会导致父元素向上滚动它只发生在 Chrome 中在 Safari 和 Firefox 中测试这是显示问题
为什么自关闭 iframe 标签会阻止显示更多 DOM 元素？

在 Firefox 和 Safari 上以下代码仅显示第一个 iframe 而添加结束标签可以解决问题我不明白为什么它不起作用当使用 DOMParser 解析第二个示例时它无论如何都会转换为自关闭 iframe 在这里小提琴 htt
CSS 中的像素与像素密度

我对 HTML 和 CSS 非常陌生我突然想到当决定某个东西是 5px 时比如说由于像素的物理尺寸取决于密度所以 5px 在 100 ppi 的屏幕上看起来肯定比在 300 ppi 的屏幕上看起来更大ppi 这是正确的吗如果是
垂直对齐复选框标签？ [复制]

这个问题在这里已经有答案了我有这样的复选框
如何重定向到 instagram://user?username={username}

我的 html 页面上有这个链接可以在特定用户上打开 Instagram 应用程序 a href Link to Instagram Profile a 我一直在寻找自动运行 url instagram user username USE
如何更改bootstrap中form-control弹出窗口中必填字段的默认消息？
如何防止 Iframe 在与浏览器交互后弄乱浏览器的历史记录？

因此就我而言我使用 Iframe 将 Grafana 附加到我的页面这为我提供了漂亮且易于使用的图表可以注意到每次在图表上进行放大或缩小使用鼠标单击交互后 Grafana 的 Iframe 都会在我的 Angular 页面上触
从标签获取 href 值

我有以下 html div class threeimages a img alt Australia src Images Services 20button tcm7 9688 gif a div class text h2 a hre
如何阻止破折号自行包裹？

我有一个标题标题最后一个单词的末尾是一个破折号单词和破折号之间没有空格当浏览器窗口变小时破折号会中断并换成新行在自己的行上有一个破折号是不好的排版如何停止破折号之前的换行以便最后一个单词运行到新行这是代码 h1 XYZ co
我可以使用 jQuery 打开下拉列表吗

对于 HTML 中的下拉列表
FireFox 中的自动滚动

我的应用程序是实时聊天我有一个 Div 来包装消息每条消息都是一个 div 所以在几条消息之后我的 DOM 看起来像这样 div div Message number two div div div div
是否可以使用 go:generate 重定向 stdin/stdout

我有一个充当管道的工具它从标准输入读取数据并将源代码写入标准输出是否可以设置输入输出重定向并将此类工具与 go generate 一起使用就像是 go generate tool lt file txt gt file go 我想出
如何在 AngularJS 循环内使用标签

所以我在里面ng repeat像这样 li li

随机推荐

如何在 C# 中通过循环组成变量名称？

我重写了这个问题因为不是每个人都明白希望没问题这是同样的主要问题非常抱歉我有一个带有 15 个进度条的 winform 名为 baraClasa1 baraClasa2 baraClasa3 baraClasa15 我必须分配 V
创建内存中的 FileDescriptor

文件描述符 https developer android com reference java io FileDescriptor htmlAndroid 中的 API 说文件描述符类的实例用作不透明句柄代表打开文件的底层机器特定结构
两个不同的应用程序可以有相同的packageName吗？

我有这个代码来获取系统上所有应用程序的列表 PackageManager pm getPackageManager Intent mainIntent new Intent Intent ACTION MAIN List
swift + OS X 沙箱：将“NSVBOpenPanel”视为“NSOpenPanel”:: 因为我需要在委托方法中获取发送者

我使用 swift 并展示了一个 NSOpenPanel 在委托中我需要查看发送者的提示来区分要采取的操作 e g func show panel delegate self panel prompt xy panel run func
无法使用连接编译 C# linq 查询

下面是一些我在执行一些 linq 连接时无法编译的 C 代码的简化示例有谁知道为什么这不能编译错误是无法从查询中推断出类型参数在我的真实代码中Fetch 返回一个IQueryable
CSS Border 在一行中声明 4 个边、颜色、宽度

我这里有这样的规则 border 3px 0 0 0 solid ccc 然而边界的 4 条边似乎没有注册 border 3px solid ccc 不过似乎工作正常有没有一种方法可以制作一个分配了 4 个边宽的单行线虽然边框没有确切
使用 pandas.to_datetime 时仅保留日期部分

I use pandas to datetime解析我的数据中的日期 Pandas 默认表示日期datetime64 ns 即使日期都是每天的我想知道是否有一种优雅聪明的方法将日期转换为datetime date or datetime
使用 JDBC 将 CSV 复制到具有自定义类型数组的 Postgres

我在数据库中定义了一个自定义类型 CREATE TYPE address AS ip inet port int 以及在数组中使用此类型的表 CREATE TABLE my table addresses address NULL 我有一个
Android DownloadManager 类：getUriForDownloadedFile 返回错误路径

我使用 DownloadManager 库下载 apk 文件并且我有一个用于下载服务的 BroadcastReceiver 这是我在 onRecieve 中的代码 long id intent getExtras getLong Down
我们应该为 adam 优化器做学习率衰减吗

我正在使用 Adam 优化器训练图像定位网络有人建议我使用指数衰减我不想尝试这个因为 Adam 优化器本身会降低学习率但那家伙坚持说他以前就这么做过那么我应该这样做吗你的建议背后有什么理论依据吗这取决于 ADAM 使用单独的学
MSSQL 错误“底层提供程序打开失败”

我当时用的是 mdf用于连接到database and entityClient 现在我想更改连接字符串这样就不会出现 mdf file 是下面的connectionString正确的
html 中输入的 maxlength 属性在 HTC One M7 上不起作用

我有一个简单的输入字段它有一个 maxlength 2 属性代码如下所示
我想在使用 opengl 运行任何游戏时捕获屏幕 [重复]

这个问题在这里已经有答案了可能的重复为什么 glReadPixels 在 iOS 6 0 中的这段代码中失败 https stackoverflow com questions 12528365 why is glreadpixels
如何使 UITableViewCell 附件公开指示器在黑色背景中可见？

cell accessoryType UITableViewCellAccessoryDisclosureIndicator 在这个方法中 UITableViewCell tableView UITableView tableView ce
Behat Mink Webdriver 会话在套件中的每个功能之后都会被销毁

我正在尝试使用 behat BDD 和 Mink 以及 selenium webdriver for php 来自动化 Sugarcrm 功能我已经正确安装了它们并且能够一起运行 behat 和 mink 例如将 SugarCRM 上
vim 正则表达式仅用一个空格替换多个连续空格

我经常使用具有可变数量的空格作为单词分隔符的文本文件像Word这样的文本处理器会这样做因为某些字体中的字母大小不同所以公平地分配空白量并且即使在另存为纯文本我想自动化将这些具有可变长度的空格序列替换为单个空格的过程我怀疑正则表达
C# webbrowser 控件无法导航到另一个页面

我有一个控制台应用程序并且在其中定义了一个网络浏览器首先我导航到一个页面并填写登录表单并调用提交按钮进行登录之后我想使用相同的网络浏览器转到同一站点中的另一个页面但它不会导航到该页面相反它会导航到登录后重定向的页面这是我的
最新的处理器不支持 SSSE3 指令？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案是否有任何不支持 SSSE3 指令的仍然相关的 CPU Intel AMD Atom 没有 SSSE3 的最新 CPU 是什么没有 SS
限制 Rails 中的“每个”列表

我们有这个 li li 该代码将产生 50 个条目的总结果在我的例子中我如何才能将此视图限制为 20 是的只是限制它我不需要任何分页之类的 Thanks 更改控制器中的代码 shops正在设置或者将上面的代码改为 shops ta
使用 golang 解析损坏的 HTML

我需要在 HTML 字符串中查找元素不幸的是 HTML 几乎被破坏了例如没有打开对的关闭标签我尝试使用 XPathlaunchpad net xmlpath但它无法解析 HTML 文件真是太糟糕了如何使用 golang 找到损坏

使用 golang 解析损坏的 HTML

使用 golang 解析损坏的 HTML 的相关文章

随机推荐

热门标签