使用lxml解析HTML时如何保留名称空间信息？

2024-05-04

>>> from lxml.etree import HTML, tostring
>>> tostring(HTML('<fb:like>'))
'<html><body><like/></body></html>'

注意标签如何从<fb:like>简单地<like>.

这使得处理将 XFBML 与 lxml 结合在一起的页面变得更加困难。（同样的事情也发生在<g:plusone></g:plusone>)

任何帮助表示赞赏。

解决此问题的一种方法是.

参考libxml2.9.2的源码（https://git.gnome.org/browse/libxml2/tree/?id=v2.9.2），在SAX2.c中（https://git.gnome.org/browse /libxml2/tree/SAX2.c?id=v2.9.2) （用于创建 DOM 树的内部 SAX 解析器）在第 1699 行，带有 xmlns 的属性在 HTML 模式下不会被解析，并且它们会像任何其他属性一样被解析行和 1740。因此，调整第 1622 行是有意义的，该行将名称分为前缀和本地部分。改变：

name = xmlSplitQName(ctxt, fullname, &prefix);

into

if (!ctxt->html) {
    name = xmlSplitQName(ctxt, fullname, &prefix);
} else {
    name = xmlStrdup(fullname);
    prefix = NULL;
}

然后 libxml2 会考虑诸如<o:p>用于具有名称的元素o:p，即元素名称中包含冒号，没有特殊含义。这是 HTML 中的正确解释。例如，HTML5 规范说 http://www.w3.org/TR/html5/infrastructure.html#namespaces:

在 HTML 语法中，命名空间前缀和命名空间声明与 XML 中的效果不同。例如，冒号在 HTML 元素名称中没有特殊含义。

希望 libxml2 的未来版本能够批准这一更改。有一个开放的错误报告（https://bugzilla.gnome.org/show_bug.cgi?id=654146）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用lxml解析HTML时如何保留名称空间信息？的相关文章

如何使用 JavaScript 创建链接？

我有一个标题字符串和一个链接字符串我不知道如何将两者放在一起以使用 JavaScript 在页面上创建链接任何帮助表示赞赏我试图解决这个问题的原因是因为我有一个 RSS 源并且有一个标题和 URL 列表我想将标题链接到 URL 以使
悬停此元素时隐藏元素后的伪元素

我的菜单垂直放置在页面左侧和菜单之间 li 我有一个 after那是一个分隔符我想要的是当我悬停元素本身如果它是第一个元素时隐藏 after 元素或者当它是中间元素时隐藏上面和底部的元素如果它是最后一个子元素则隐藏 after前
使用 Tkinter 显示 numpy 数组中的图像

我对 Python 缺乏经验第一次使用 Tkinter 制作一个 UI 显示我的数字分类程序与 mnist 数据集的结果当图像来自 numpy 数组而不是我的 PC 上的文件路径时我有一个关于在 Tkinter 中显示图像的问题我为
如何使用 OpencV 从 Firebase 读取图像？

有没有使用 OpenCV 从 Firebase 读取图像的想法或者我必须先下载图片然后从本地文件夹执行 cv imread 功能有什么办法我可以使用cv imread link of picture from firebase 您可以
AWS EMR Spark Python 日志记录

我正在 AWS EMR 上运行一个非常简单的 Spark 作业但似乎无法从我的脚本中获取任何日志输出我尝试过打印到 stderr from pyspark import SparkContext import sys if name m
不使用 local-name() 或 name() 函数的 XPath

我必须解析oprResult code使用 XPath 从下面的 XML 中获取 XPath 表达式 local name oprResult code 正在按预期工作但是我无法使用name or local name功能为在我的解析
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
添加不同形状的 numpy 数组

我想添加两个不同形状的 numpy 数组但不进行广播而是将缺失值视为零可能最简单的例子是 1 2 3 2 gt 3 2 3 or 1 2 3 2 1 gt 3 2 3 1 0 0 我事先不知道形状我正在弄乱每个 np shape
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
尝试将数据存储在点击器网站中

我正在尝试存储一个名为的变量score无论何时刷新您都会一次又一次地使用它我不明白的是它的代码是什么我尝试了一些方法但似乎都不起作用这是我的答题器网站但是当我尝试使用 JavaScript 来存储它时它不起作用window o
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
在 HTML5 画布中，如何用我选择的背景遮盖图像？

我试图用画布来实现这一点 globalCompositeOperation 但没有运气所以我在这里问这里有类似的问题但我没有在其中找到我的案例我的画布区域中有图层从下到上的绘制顺序画布底座填充纯白色 fff 用fillRect
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
图像背景不透明度不影响边框

如何设置背景不透明度而不影响边框线不透明度我找到的解决方案没有帮助 div class selected img src assets img image product 1 thumbnail jpg alt product 1 thu
可以设置标题样式吗？（并且使用CSS或js？）[重复]

这个问题在这里已经有答案了我想知道是否可以设计一个title a href title This is a title Hello a 样式问题有两个方面文本格式编码我猜这是可能的所以在问题中这样做工具提示样式你能把它弄大一点
在 HTML 下拉列表中有一个滚动条

我正在寻找一种在 HTML 的下拉列表中添加滚动条的方法这样如果下拉列表包含的内容超过例如 5 项将出现滚动条以查看其余项这是因为我将被迫列出一些大清单过去几个小时我一直在谷歌上搜索它但没有运气它需要适用于 IE8 FF 和 C
使用css bootstrap时如何仅向一列添加右边框？

我正在尝试使用CSS引导框架 http getbootstrap com css tables在我的项目中我正在使用带有以下类的表table table bordered table striped 我想删除除第一列之外的所有列的边框这
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2

随机推荐

Biztalk 项目命名约定

当启动 BizTalk 项目时我通常遵循发现的命名约定here http www traceofthought net misc BizTalk 20Naming 20Conventions htm 您命名项目和程序集的位置类似于 MyC
在 Dialogflow 中使用 sys.date 参数的 .recent 属性时出现问题

我对 Dialogflow 中的意图配置有疑问我找到了有关信息堆栈溢出 https stackoverflow com questions 54683810 dialogflow obtaining wrong dates for pre
Symfony2 KnpMenuBundle：设置活动菜单项，即使它不在该菜单上

我创建了菜单生成器并且它可以工作我的路线之一是 database 但这有一个子路线 database view id 我不想将视图路线放入菜单项中因为没有 ID 它就无法工作但我希望当用户在视图上时数据库路由处于活动状态我怎样才能做
如何从xml文件中读取数据
如何更改联系表单 7 动态重定向 URL - WordPress

我正在为我的一个客户建立一个网站他们希望在他们的网站中添加如下功能当人们点击下载链接时会出现一个表格联系表格 7 访客输入详细信息后它将重定向到下载链接通过对联系表单 7 使用以下附加设置我可以在表单提交后重定向到新页面 on
批处理中嵌套 IF ( IF ( ... ) ELSE( .. ) ) 语句

我正在尝试写一个IF ELSE语句嵌套在另一个语句中IF陈述这是我所拥有的 IF dirdive 1 IF DEFINED log ECHO DATE TIME gt gt log FOR R root1 G IN DO SET G G
Quartz 调度程序执行 Runnable

Quartz Scheduler 可以执行 Runnable 吗例如我有以下代码正在由 spring 运行TaskScheduler Autowired Qualifier IntegrationConfiguration TASK S
C# 有没有办法制作时间范围列表？可配置

有没有办法列出时间范围例如包含以下内容的列表中午 12 00 至下午 1 00 下午 1 00 至 2 00 ETC 其中划分部分是配置我认为你必须使用日期时间并将其除以一定的数字在本例中为一小时有人可以指出我正确的方向或给我提
定期递归调用函数

所以我想知道定期递归调用函数的更好方法就堆栈增长和性能而言是什么例如假设我想每 200 毫秒读取一次文件内容我有以下两种方法想知道它们是否有什么不同方法 1 使用普通的 ols setTimeout 而不使用 process
项目引用 .net core 类库时出现问题

我创建了新的 asp net core Web 应用程序和 net core 类库然后我尝试从 asp net core 添加对 net core 类库的引用构建正常但不可见任何想法任何想法 Yes this https stac
“值错误：元素定位器与任何元素都不匹配。”当尝试定位一个元素时

我使用 Robot Framework 和 Selenium2Library 进行网站测试自动化我的 HTML 值是
在实体框架中映射自定义数据库值函数

我有一个简单的数据库函数它需要两个字符串作为参数并返回一个字符串我想用实体框架来映射它如同这个问题 https stackoverflow com questions 45451383 dbfunction cannot be tra
CSS - 显示：无；不工作

我正在尝试开发一个移动样式表在这个样式表中我想删除一个特定的 div 在div的HTML代码中我放置了一个名为 tfl 的id 如下所示 div style display block width 187px height 260px
如何创建 Azure Mgmt 序列化器/反序列化器参数？

我可以在最新的 azure mgmt media 和 Python 存储 sdk 中看到用户需要为序列化器反序列化器传递 2 个参数我的 Python 经验很少我不知道如何创建这些对象我找不到任何媒体示例也没有带有最新签名 3
使用反射将 Nullable 属性复制到非 Nullable 版本

我正在编写代码以使用反射将一个对象转换为另一个对象它正在进行中但我认为它可以归结为以下内容我们相信这两个属性具有相同的类型 private void CopyPropertyValue object source string sou
如何引用 Cypress 配置文件中的环境变量？

我读了赛普拉斯中的环境变量 https www toolsqa com cypress environment variables in cypress 以及有关在 Cypress 运行中传递环境变量的其他文章但是如何引用 JSON 配
如何检测Windows 8.1开始菜单？

当我们在 Windows 8 1 上按下开始菜单时它会以磁贴的形式显示所有新的开始菜单以及应用程序该菜单显示在整个屏幕上有没有办法检测这个菜单是否在 C 中打开 8 1 SDK 中是否有 winAPI 可以执行此操作提前致谢调用
是否有可能成为内置类型的虚拟子类？

是否可以使用户定义的类型成为Python中内置类型的虚拟子类我希望我的班级被视为以下类别的子类int 但是我don t想像这样直接继承 class MyInt int Do some stuff kind of like an int
如何在 C# 中从 TabPage 获取控件？

我有几个选项卡页每个选项卡页都包含富文本框如何在选定的选项卡上访问 richtechbox TabPage selectedTab tabControl SelectedTab RichTextBox selectedRtb selec
使用lxml解析HTML时如何保留名称空间信息？

gt gt gt from lxml etree import HTML tostring gt gt gt tostring HTML

使用lxml解析HTML时如何保留名称空间信息？

使用lxml解析HTML时如何保留名称空间信息？ 的相关文章

随机推荐

热门标签

使用lxml解析HTML时如何保留名称空间信息？的相关文章