在 Python 2.7.3 / Raspberry Pi 中使用特殊字符取消转义 HTML

2023-12-31

我被困在这里试图取消转义 HTML 特殊字符。

有问题的文本是

Rudimental &amp; Emeli Sandé

应该转换为Rudimental 和 Emeli Sandé

文本通过 WGET 下载（在 python 之外）

要对此进行测试，请使用此行保存 ANSI 文件并将其导入。

import HTMLParser

trackentry = open('import.txt', 'r').readlines()
print(trackentry)
track = trackentry[0]
html_parser = HTMLParser.HTMLParser()

track = html_parser.unescape(track)

print(track)

当一行有时我收到此错误é in it.

*pi@raspberrypi ~/scripting $ python unparse.py
['Rudimental &amp; Emeli Sand\xe9\n']
Traceback (most recent call last):
  File "unparse.py", line 9, in <module>
    track = html_parser.unescape(track)
  File "/usr/lib/python2.7/HTMLParser.py", line 472, in unescape
    return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|\w{1,8}));", replaceEntities, s)
  File "/usr/lib/python2.7/re.py", line 151, in sub
    return _compile(pattern, flags).sub(repl, string, count)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 11: ordinal not in range(128)*

相同的代码在 Windows 下工作正常 - 我只在树莓派上遇到问题运行Python 2.7.3。

Python 无法解码 'é' ('\xe9') 使用 ASCII 编解码器，因为该字符不是 7 位 ASCII。

您的问题（精简）：

import HTMLParser
parser = HTMLParser.HTMLParser()
input = 'Rudimental &amp; Emeli Sand\xe9'
output = parser.unescape(input)

produces

Traceback (most recent call last):
  File "problem.py", line 4, in <module>
    output = parser.unescape(input)
  File "/usr/lib/python2.7/HTMLParser.py", line 475, in unescape
    return re.sub(r"&(#?[xX]?(?:[0-9a-fA-F]+|\w{1,8}));", replaceEntities, s)
  File "/usr/lib/python2.7/re.py", line 151, in sub
    return _compile(pattern, flags).sub(repl, string, count)
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe9 in position 11: ordinal not in range(128)

HTMLParser.unescape()返回一个unicode对象，因此必须转换您的输入str。所以它要求默认编码（在你的情况下是 ASCII）并且无法解释 '\xe9' 作为 ASCII 字符（因为它不是）。我猜你的文件编码是 ISO-8859-1 其中 '\xe9' is 'é'.

有两个简单的解决方案。您可以手动进行转换：

import HTMLParser
parser = HTMLParser.HTMLParser()
input = 'Rudimental &amp; Emeli Sand\xe9'
input = input.decode('iso-8859-1')
output = parser.unescape(input)

或者你使用编解码器.open()代替open()每当您处理文件时：

import codecs
import HTMLParser
parser = HTMLParser.HTMLParser()
input = codecs.open("import.txt", encoding="iso-8859-1").readline()
output = parser.unescape(input)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

characterencoding

htmlparsing

RaspberryPi

pythonunicode

在 Python 2.7.3 / Raspberry Pi 中使用特殊字符取消转义 HTML 的相关文章

logger.warning("MSVC is not support") 在 Windows 10 上安装 pystan 时出错

我的目标是在我的 Windows 10 计算机上安装 fbprophet 我正在尝试使用 pip 安装 pystan 先知的主要依赖项但大约一分钟后我收到以下错误 Traceback most recent call last File
当将utf-8编码的字符串从字节转换为字符时，计算机如何知道字符在哪里结束？

给定一个以 UTF 8 编码的 Unicode 字符串它只是内存中的字节如果计算机想要将这些字节转换为其相应的 Unicode 代码点数字它如何知道一个字符在哪里结束另一个字符在哪里开始有些字符用 1 个字节表示有些字符最多用
Python Pocketsphinx：使用 Decoder 类时无法识别关键字

我正在尝试使用 Pocketsphinx 从 wav 文件中检测关键字特别是使用解码器类当我给它的时候this https www filedropper com clientaudio wav 文件并打印它检测到的内容甚至不接近这是
在 ROS 中运行tensorRT时出现“LogicError：explicit_context_dependent失败：无效的设备上下文 - 没有当前活动的上下文？”

我在 TensorRT 使用 python 中有一个推理代码我想在 ROS 中运行此代码但在尝试分配缓冲区时出现以下错误 LogicError explicit context dependent failed invalid devi
ctypes c_char_p 的不同行为？

我对不同版本的 python 的这种行为感到困惑不明白为什么 Python 2 7 5 default Aug 25 2013 00 04 04 GCC 4 2 1 Compatible Apple LLVM 5 0 clang 500
每个值有多个键

是否可以在 Python 字典中为每个值分配多个键一种可能的解决方案是为每个键分配值 dict k1 v1 k2 v1 k3 v1 k4 v2 但这并不高效因为我的数据文件大于 2 GB 否则你可以制作一个字典键的字典 key dic
ubuntu 12.10 上使用 https 和 python 2.7 时出现 urlopen 错误 [Errno 110]

预先感谢您提供的任何帮助我在 ubuntu 12 10 上安装了 python 2 7 我根据其他帖子编写了一个简单的脚本来测试 http 和 https 连接 import urllib2 urllib def set proxy pr
使用正则表达式抓取文本正文，排除特定条件

我正在使用 Python 正则表达式来获取已解析电子邮件的正文该正文可能不包含任何内容也可能看起来像这样一些连贯的句子拉尔斯克法 ljkd 其他的东西几行电子邮件签名等等等等等等等等我想要电子邮件正文中的所有内容不包括签名行
PyCharm 调试模式下的键盘中断

在调试模式下有什么方法可以在 PyCharm IDE 3 1 中发送键盘中断事件吗不幸的是没有简单的方法可以做到这一点您将需要使用psutil和signal模块为此您需要安装psutil最好的方法是通过pip pip insta
Redis - 错误：值不是有效的浮点数

我在 Redis 中有一个排序集我试图通过在Python代码中使用zincrby来更新特定元素的计数器值例如 conn zincrby usersSet float 1 user1 但它显示错误为错误值不是有效的浮点数我在 cli
使用opencv+picamera流IO用树莓派捕获视频

我使用 Raspberry 来简单地显示一个视频目前仅此为此我必须使用 opencv cv2 我尝试了很多解决方案但现在我想使用 Picamera 库捕获视频我将向您展示我的代码 import io import time imp
如何生成给定范围内的回文数列表？

假设范围是 1 X 120 这是我尝试过的 gt gt gt def isPalindrome s check if a number is a Palindrome s str s return s s 1 gt gt gt def ge
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
MySQL连接字符集问题

我在 Mac 上使用带有 MySQL 的 velosurf 没有任何编码问题但是当我切换到 Linux 计算机时从 velosurf 获得的值未正确编码我发现这可能是默认连接字符集的问题在 Mac 上我得到 mysql gt sho
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
python 从字典中获取唯一值

我想从我的字典中获取唯一的值 Input 320 167 316 0 319 167 401 167 319 168 380 167 265 166 期望的输出 167 0 168 166 我的代码 unique values sorted
pyplot 中的等宽绘图大小，同时保持纵横比相等

我想让两个图具有相同的宽度但是生成的代码缩小了 imshow 图 xx np linspace 0 0 255 5 512 yy np linspace 0 0 255 5 512 Func np random rand len xx l
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se

随机推荐

Rails：切换用户 Gem 以及切换回原始用户的问题

在我的应用程序中我正在使用switch user https github com flyerhzm switch user https github com flyerhzm switch user gem 允许管理员以另一个用户身份登录
BASH：基本 if then 和变量赋值

我习惯了 csh 所以不得不使用 bash 有点令人恼火这段代码有什么问题 if time gt 0300 time lt 0900 then mod 2 else mod 0 fi 按照标准应该是 if time gt 300 time
有没有办法了解导致“_NSTouchBarFinderObservation”崩溃的原因？

我的 Crashlytics 显示多个用户遇到以下崩溃见下文我能够重新创建这个的唯一方法我怀疑用户正在这样做是打开 Xcode Touch Bar 模拟器并在generations当应用程序运行时以下设备和操作系统已报告崩溃 ma
一个测试用例应该涵盖多少内容？

到目前为止我从未编写过正确的测试只编写了测试成功后我会处理的小程序我正在浏览Python的unittest网络上的模块和教程但我不清楚一个应该多少钱TestCase覆盖我在网上看到过一些例子TestCase仅具有一种方法的类以
从 Postgres 和 jOOQ 中的分层表递归生成 JSON 树

我在 Postgres 数据库中有一个分层表例如category 结构很简单如下所示 id parent id name 1 null A 2 null B 3 1 A1 4 3 A1a 5 3 A1b 6 2 B1 7 2 B2 我需
当我需要其他内容时，BASH 脚本正在等待

我的 bash 脚本需要一些帮助 bin bash zenity list title Select Server text Select the server to start radiolist column column Server
如何收集实时推文？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如何使用 Ruby 收集实时推文并将
Wicket 1.5(.2) 中的 url 更改时组件未重新加载？

我第一次使用以下 URL 导航到我的应用程序主页 0 用户 x 在调试模式下我看到 wicket 很好地实例化了我的面板等显然如果我将 URL 更改为主页 0 用户 y 那么什么也没有发生面板不会重新初始化对于新用户 gt 用
React 组件声明中“导出”的目的是什么？

在 React ES6 中为什么我有时看到这个吗 class Hello extends React Component 有时this export class Hello extends React Component 有何意义expo
如何在protobuf中定义枚举的值和id？（原始java客户端）

我对 protobuf 的使用很陌生我计划编写带有枚举的 protobuf def 有什么方法可以在其中提供 id 值和描述编译后我希望生成的枚举应该与下面的示例等效 enum Sample W 0 W P 0 P C 0 C B 0
Rails + devise：尝试删除用户帐户

当我尝试在 Rails 应用程序中删除我的帐户时我得到没有路由匹配 users My View p We hate to see you go p 我的路线 user registration POST users format act
如何为不同的根目录配置 xampp Web 服务器

Web 目录是应用程序的所有公共文件和静态文件的所在地包括图像样式表和 JavaScript 文件这也是前端控制器居住的地方所以问题是当我安装并设置 xampp 时我的 web 目录是 xampp htdocs 我想将其设置为 xa
将现有文件添加到不同的 Visual Studio 2010 项目

是否可以将文件添加到位于不同目录中的 Visual Studio 项目中但是将文件保留在这些目录中并在更新项目中的文件时更新这些文件当我将现有文件添加到项目中时它所做的只是将它们复制到项目中然后更新复制的文件而不是原始文件有什么
在脚本模块标记中使用 import 语句中的函数

我正在尝试使用createPopup我使用导入的函数import我的脚本标签中的函数但是我总是收到错误消息指出函数未定义 Uncaught ReferenceError createPopup is not defined 这是我的代
Xamarin Forms 自定义主题不起作用

我有一个使用 Xamarin Forms 2 0 的 Android 应用程序我制作了一个自定义主题来设置一些颜色我创建了这些文件资源值 styles xml AndroidResource
Numpy dtype - 数据类型不理解

我有一个数据框我正在查看与每列关联的数据类型当我跑步时 In 23 df dtype descr Out 24 u date
Ruby 中具有前瞻功能的正则表达式

我当前的正则表达式之争是替换字符串中数字之前的所有逗号然后正则表达式必须忽略所有以下逗号我已经在 rubular 上折腾了大约一个小时但似乎没有什么效果测试字符串 this is a sentence33 Here is anot
Contiki 无线编程

我正在通过一个项目开始在天空微粒上使用 Contiki 我现在正在尝试让无线编程正常工作我一直在查看 example sky shell exec 和 apps shell 我觉得我需要通过 sky shell exec 和可能的 tes
服务器发送事件和浏览器限制

我有一个监听服务器发送事件的 Web 应用程序当我在打开多个窗口的情况下进行工作和测试时事情不起作用我多次撞到头朝错误的方向看最终我意识到问题出在并发连接上然而我测试的数量非常有限即使我在 Apache 上运行测试我知道
在 Python 2.7.3 / Raspberry Pi 中使用特殊字符取消转义 HTML

我被困在这里试图取消转义 HTML 特殊字符有问题的文本是 Rudimental amp Emeli Sand 应该转换为Rudimental 和 Emeli Sand 文本通过 WGET 下载在 python 之外要对此进行测试请

在 Python 2.7.3 / Raspberry Pi 中使用特殊字符取消转义 HTML

在 Python 2.7.3 / Raspberry Pi 中使用特殊字符取消转义 HTML 的相关文章

随机推荐

热门标签