如何解决解析带有西里尔字母符号的html文件的问题？

2023-12-05

我有一些带有 span 元素的 html 文件：

<html>
<body>
<span class="one">Text</span>some text</br>
<span class="two">Привет</span>Текст на русском</br>
</body>
</html>

要获取“一些文本”：

# -*- coding:cp1251 -*-
import lxml
from lxml import html

filename = "t.html"
fread = open(filename, 'r')
source = fread.read()

tree = html.fromstring(source)
fread.close()


tags = tree.xpath('//span[@class="one" and text()="Text"]') #This OK
print "name: ",tags[0].text
print "value: ",tags[0].tail

tags = tree.xpath('//span[@class="two" and text()="Привет"]') #This False

print "name: ",tags[0].text
print "value: ",tags[0].tail

这个节目：

name: Text
value: some text

Traceback: ... in line `tags = tree.xpath('//span[@class="two" and text()="Привет"]')`
    ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes

如何解决这个问题呢？

lxml

（正如观察到的，这在系统编码之间有点狡猾，并且显然在 Windows XP 中不能正常工作，尽管在 Linux 中可以正常工作。）

我通过解码源字符串让它工作 -tree = html.fromstring(source.decode('utf-8')):

# -*- coding:cp1251 -*-
import lxml
from lxml import html

filename = "t.html"
fread = open(filename, 'r')
source = fread.read()

tree = html.fromstring(source.decode('utf-8'))
fread.close()


tags = tree.xpath('//span[@class="one" and text()="Text"]') #This OK
print "name: ",tags[0].text
print "value: ",tags[0].tail

tags = tree.xpath('//span[@class="two" and text()="Привет"]') #This is now OK too

print "name: ",tags[0].text
print "value: ",tags[0].tail

这意味着实际的树是全部unicode对象。如果您只是将 xpath 参数作为unicode它找到 0 个匹配项。

美丽汤

无论如何，我更喜欢使用 BeautifulSoup 来处理此类事情。这是我的互动环节；我将文件保存在 cp1251 中。

>>> from BeautifulSoup import BeautifulSoup
>>> filename = '/tmp/cyrillic'
>>> fread = open(filename, 'r')
>>> source = fread.read()
>>> source  # Scary
'<html>\n<body>\n<span class="one">Text</span>some text</br>\n<span class="two">\xcf\xf0\xe8\xe2\xe5\xf2</span>\xd2\xe5\xea\xf1\xf2 \xed\xe0 \xf0\xf3\xf1\xf1\xea\xee\xec</br>\n</body>\n</html>\n'
>>> source = source.decode('cp1251')  # Let's try getting this right.
u'<html>\n<body>\n<span class="one">Text</span>some text</br>\n<span class="two">\u041f\u0440\u0438\u0432\u0435\u0442</span>\u0422\u0435\u043a\u0441\u0442 \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c</br>\n</body>\n</html>\n'
>>> soup = BeautifulSoup(source)
>>> soup  # OK, that's looking right now. Note the </br> was dropped as that's bad HTML with no meaning.
<html>
<body>
<span class="one">Text</span>some text
<span class="two">Привет</span>Текст на русском
</body>
</html>

>>> soup.find('span', 'one').findNextSibling(text=True)
u'some text'
>>> soup.find('span', 'two').findNextSibling(text=True)  # This looks a bit daunting ...
u'\u0422\u0435\u043a\u0441\u0442 \u043d\u0430 \u0440\u0443\u0441\u0441\u043a\u043e\u043c'
>>> print _  # ... but it's not, really. Just Unicode chars.
Текст на русском
>>> # Then you may also wish to get things by text:
>>> print soup.find(text=u'Привет').findParent().findNextSibling(text=True)
Текст на русском
>>> # You can't get things by attributes and the contained NavigableString at the same time, though. That may be a limitation.

最后，可能值得考虑尝试source.decode('cp1251')代替source.decode('utf-8')当您从文件系统中获取它时。那么 lxml 可能真的可以工作。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Parsing

lxml

如何解决解析带有西里尔字母符号的html文件的问题？的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Python 类型提示 Dict 语法错误可变默认值是不允许的。使用“默认工厂”

我不知道为什么解释器会抱怨这个类型的字典对于这两个实例我得到一个不允许可变默认值使用默认工厂语法错误我使用的是 python 3 7 3 from dataclasses import dataclass from typing
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
使用 Python Oauthlib 通过服务帐户验证 Google API

我不想使用适用于 Python 的 Google API 客户端库但仍想使用 Python 访问 Google APIOauthlib https github com idan oauthlib 创建服务帐户后谷歌开发者控制台 http
python的shutil.move()在linux上是原子的吗？

我想知道python的shutil move在linux上是否是原子的如果源文件和目标文件位于两个不同的分区上行为是否不同或者与它们存在于同一分区上时的行为相同吗我更关心的是如果源文件和目标文件位于同一分区上 shutil move
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

“git commit”出现意外行为。当预提交挂钩修改暂存文件时

在我的经验中git commit a具有等同的行为git commit 但是最近我创建了一个预提交挂钩可以自动格式化我的源代码现在git commit 有一些意想不到的副作用提交命令完成后提交的文件最终会在工作目录和索引中被修改
为什么javascript的handleEvent方法可以访问省略事件参数的事件？ [复制]

这个问题在这里已经有答案了根据MDN doc handleEvent方法有event作为它的单个参数但是这个例子 Codepen html代码
无法共同创建对象

我在 net中创建了一个dll 并使用jacob从java程序中调用它因为昨天我有Windows 7 32位操作系统所以程序成功运行现在我格式化并安装了Windows 7 64位操作系统所以遇到以下错误 com jacob com
div 上的全角背景颜色

我正在使用 1120px css 响应式框架或者它可以在我需要时充当固定网格我在 1120px 容器 div 内有一个 div 我想在其上应用全宽背景颜色 div 的背景颜色当然仅位于容器 div 内部我想让它填充 body 元素的整
如何计算形状相交的多边形数量？

我有一个非常大的数据集其中包含多边形和点周围有缓冲区我想在点数据中创建一个新列其中包括点缓冲区相交的多边形数量这是一个简化的例子 import pandas as pd import geopandas as gp from sh
如何分析混淆矩阵？

当我打印 scikit learn 的混淆矩阵时我收到一个非常巨大的矩阵我想分析什么是真阳性真阴性等我该怎么做这就是我的混淆矩阵的样子我希望更好地理解这一点 4015 336 0 0 0 2 228 2704 0 0 0 0 4
在 Java Swing 中检查点是否在线

我画了一条线然后画了一个点然后我想检查该点是否在线上我在数组中获取了一条线坐标因为有多条线我想检查最后一行的当前点吗 if positionX1 positionX2 positionY1 positionY2 float m l
使用 C# 的电子邮件中的多个附件文件

如何使用 C 在电子邮件中附加多个文件 MailMessage mail new MailMessage SmtpClient SmtpServer new SmtpClient smtp gmail com get the userID
如何在ubuntu上编译curlpp？

下面是使用curl的简单test c代码 include
使用 matcher() 匹配字符串中的小数

我有一个关于匹配器的问题目前我正在尝试读取一个字符串并将所有数字存储到一个数组中我的问题是你如何尝试匹配整数和小数我有一个双打数组名为 double thisArray new double 20 在这个数组中我试图存储从字符串
HTML5 Web 语音 API 无法在本地运行

我试图让这段代码工作但不知道为什么它在本地不起作用我在 CodePen io 上尝试了同样的方法它有效
jQuery 提交表单无需重新加载页面

好的所以我正在尝试使用 jquery 和经典 ASP 从我的网站创建一个新的登录表单截至目前我的文档中有一个包含 div 该 div 设置为隐藏然后当用户选择登录链接时 div 将淡出并覆盖带有表单的页面如果用户单击提交页面将
处理禁用节点上的事件

有什么方法可以处理鼠标单击例如在禁用的元素上我的任务是禁用列表并在双击它后将其启用禁用的节点不会接收鼠标或按键事件 See the 官方文档您可以将该节点包装到另一个节点中并在那里处理鼠标事件以防子节点被禁用
如何在 asp.net 3.5 中会话超时时将用户重定向到默认页面

我只想在 asp net 3 5 中会话过期时将用户重定向到主页 Default aspx 我只是用网络用户控制来做到这一点但钢它不能完美地工作所以我只想用 web config 来做到这一点
多态性不适用于使用 MessagePack-Csharp nuget 的集合元素

我无法反序列化实例之间具有继承关系的元素集合有人遇到过这个问题吗所以我的用例是这样的我的模型与此类似 DataContract public class Item DataMember public int Id get set Da
索引签名参数类型不能是联合类型。考虑使用映射对象类型代替

我正在尝试使用以下模式 enum Option ONE one TWO two THREE three interface OptionRequirement someBool boolean someString string inter
如何在自定义编译表达式中使用bindparam()？

我的代码基于 zzzeeek 的回答这个问题我对其进行了一些扩展因此它考虑了 Postgresql 的 NULL 和 ARRAY class values FromClause named with column True def in
如何获取XMLHttpRequest的响应？

我想知道如何使用 XMLHttpRequest 加载远程 URL 的内容并将所访问站点的 HTML 存储在 JS 变量中比如说如果我想加载并alert HTMLhttp foo com bar php 我该怎么做你可以通过以下方式获取
重复 B 列中的值，直到 python 中 A 列发生变化

我是 python 新手有一个疑问我需要在 B 列中重复该值直到 A 列发生更改这是示例数据 A B 18 1 18 0 18 0 24 2 24 0 24 0 24 0 10 3 10 0 10 0 我想要怎样的输出 Column
如何解决解析带有西里尔字母符号的html文件的问题？

我有一些带有 span 元素的 html 文件 span class one Text span some text span class two span 要获取一些文本 coding cp1251 import lxml from l

如何解决解析带有西里尔字母符号的html文件的问题？

lxml

美丽汤

如何解决解析带有西里尔字母符号的html文件的问题？ 的相关文章

随机推荐

热门标签

如何解决解析带有西里尔字母符号的html文件的问题？的相关文章