Python：在 CSV 中得到 \xa0 而不是空格，无法删除或转换

2024-02-10

我有一个与 python 中的编码问题相关的问题（IPython笔记本）。由于此类问题非常常见且简单，但我仍然无法真正解决它。

我有一个CSV http://www.montefiore.ulg.ac.be/~glouppe/2012-2013/challenge/train.csv文件在这里，正如您所看到的，我们在该文件中有许多 '\xa0' 和其他 '\n' 字符。

I used

with io.open(train_fname) as f:
for line in f:
    line = line.encode("ascii", "replace")

但它不起作用，我总是得到以下输出。

想象一下，你知道吗，没有制裁，没有关于 IEAA 法规的永久听证会，不再隐藏在友好核能的幌子下。 \xa0你有 2 天的时间； \xa0即\xa0让检查人员停止杀害平民。

我尝试了其他方法，例如

line.replace(u"\xa0", " ")它也不起作用，我还尝试了各种编码在我的文本编辑 sublime text 中打开这个 CSV 文件。我尝试了 windows-1252、utf-8 和所有其他编码，但在查看此 CSV 文件时，我总是得到 \xa0 是我的文本编辑。

这是否意味着

\xa0

已作为输入文本写入此 CSV 文件中？是不是python编码的问题？如果是这种情况，为什么我不能使用replace方法来简单地替换这个字符串？ \xa0 表示文件采用哪种编码？这意味着这个文件是用 utf-8 编写的，但我尝试以 ascii 或其他情况打开它？

我搜索了很多问题，但它们似乎没有提供太多帮助。如果我的问题不是很清楚，请问我。非常感谢！

The \xa0您看到的是 4 个字符的序列：\ x a 0。所有这些字符都是纯 ASCII，因此这里不存在字符集问题。

显然，您应该解释这些转义序列。用空格替换它们的想法很好，但必须小心反斜杠字符。当它出现在字符串文字中时，必须写成\\。所以试试这个：

line.replace("\\xa0", " ")

or:

line.replace(r"\xa0", " ")

The r字符串前面的意思是按字面意思解释每个字符，甚至是反斜杠。

请注意，CSV 文件中的数据充满了不一致之处。例子：

\n可能意味着换行。
\\n也会出现，并且可能也意味着换行。
\xa0是一个不间断空格，以 ISO-8859-1 编码。
\xc2\xa0是一个不间断空格，以 UTF-8 编码。
\\xc2\\xa0也出现，具有相同的含义。
\\\\n也出现。

因此，要从该文件中获取有意义的内容，您应该重复解释转义序列，直到没有任何变化。之后，尝试将生成的字节序列解释为 UTF-8。如果有效的话，很好。如果不是，请将其解释为代码页 1252（它是 ISO-8859-1 的超集）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python：在 CSV 中得到 \xa0 而不是空格，无法删除或转换的相关文章

类的 IPython 表示

我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示相反它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类我有真正有意义的类表示应该向用户显示是
Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
VBA将二进制图像转换为网页的base64编码字符串

我正在尝试读取 JPG 文件并将该文件转换为 base64 编码的字符串该字符串可用作网页上的嵌入 jpeg 我在网上发现了两个在 VBA 中进行 Base64 编码解码的函数它们似乎被广泛接受编码解码过程产生了我的原始二进制字符
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这

随机推荐

访问 MemoryCache 是否会创建副本？

我有一个这样的缓存服务 public interface ICacheService T Get
phpmailer 无名附件

我正在使用 phpmailer 发送电子邮件但我所有的电子邮件都带有无名附件在使用 addAttachemnt 函数之前我已经检查过变量是否已设置并且确实如此它看起来像这样 fname FILES file name fTmpNam
Java中的静态循环依赖

对于以下代码 class A public static int X static X B Y 1 public class B public static int Y A X 1 static public static void mai
Ruby 中的函数指针？

也许这是一个愚蠢的问题但我是红宝石新手我用谷歌搜索发现了这些 proc Proc new x deal with x a lambda lambda a puts a 但我想要这个 def forward slash to back
非常需要：突出显示的 JSON 日志查看器

Using winston https github com flatiron winston对于 node js 日志记录我获取 json 日志文件在这种情况下日志文件只是一系列换行符分隔的 json 对象这对于日志查询和将日志
上传图片到服务器

我用谷歌搜索了很多但没有用我找到了很多包含信息的网站但在所有网站中我的应用程序都崩溃了我要打开的图片是 lastfile png 它存储在内部存储中因此我使用 openFileInput lastfile png 打开它我在 A
Django WeasyPrint CSS 集成警告：没有基本 URI 的相对 URI 引用：位于第 None 行

我想在 Django 中使用 Wea syPrint 生成报告但我不知道如何集成CSS 特别是引导CSS文件我可以看到生成的 html 但是当我将此行添加到我的模板时我收到警告警告是没有基本 URI 的相对 URI 引用位于 N
调用未定义函数 Illuminate\Filesystem\finfo_file()

我的中出现以下错误laravel log我正在运行的网站上的文件如何确定错误的根源由于堆栈跟踪如此短我不确定从哪里开始 2017 07 03 16 05 13 生产错误异常 Symfony Component Debug Exce
Symfony：使用全局变量

我知道远离全局变量问题是我真的真的需要一个可以获取的价值而且最重要的是可修改的来自应用程序的不同部分它是我出于调试目的需要监视的某些操作的计数器谷歌搜索任何与 Symfony 和全局变量相关的内容总是让我得到建议使用 Conta
如何从 API 获取数据并将其打印在列表中，然后发布到不同的 API？（扑）

在我正在编写的注册过程页面之一中我正在尝试打印其中的内容类别总计api 打印所有id and category 到一个列表中然后将新用户选择的任意数量发布到不同的 api 其中包含user id and 类别 id 最终之前我已经
确保使用双比较和交换指令来实现无锁堆栈？

假设64位x86 64架构和Intel第3 4代CPU 以下是 Concurrency in Action 一书第 202 页中堆栈的无锁实现 template
从 ASP.NET 网站发送 SMS [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案有没有办法使用 Web API 从 ASP NET 网站发送 SMS 我了解网络服务但不知道如何从我的应用程序调用这些服务 Web 服务
为什么 vscode pylint 会漏掉明显的错误？

我在 Visual Studio Code 中打开了一个 python 文件有一个明显的错误使用未定义的变量但问题下列出的 pylint 问题仅显示一长串小约定问题在其上手动运行 pylint 与 vscode 分开可以很好地
Ajax/Js 图像上传器：创建重复的预览图像

我正在使用 Ajax 图像上传器SITE http dondedeportes es uploader previewer 我目前实现了创建重复的预览图像一个出现在输入字段下另一个将出现在页面中的其他位置例如这就是您选择的问题是
将 int 转换为 ASCII 字符

I have int i 6 而且我要 char c 6 通过转换有什么简单的方法可以推荐一下吗 EDIT 我还需要生成一个随机数并转换为字符然后添加一个 txt 并在 ifstream 中访问它直接的方法 char digits
JavaScript Promises - 拒绝与抛出

我读过几篇关于这个主题的文章但我仍然不清楚两者之间是否有区别Promise reject与抛出错误例如使用 Promise reject return asyncIsPermitted then function result if
结合UIView动画块和OpenGL ES渲染

我正在开发一款 iP 游戏并且使用 UIKit 和 OpenGL ES 2 0 UIKit 元素在 OpenGL 视图上渲染并占据大量任意屏幕空间我必须承认苹果做得非常出色游戏的帧率始终保持在60 FPS 为了得出这个结论我做了
php自定义异常

我想知道如何编写自定义异常处理程序这样我就可以做类似的事情 throw new dbException sql message 并让它输出您的查询有误消息消息查询 sql 这里行行异常被抛出文件抛出文件异常但我也想捕获例
如何在您的应用程序中获取 Elastic Beanstalk 应用程序版本？

我们希望能够在 PHP 代码中检索 elastic beanstalk 应用程序版本我没有看到 EB 在任何服务器配置文件中将其传递给我们我觉得这很奇怪还有其他人知道我们如何才能得到这个吗至少对于 Docker 容器您可以使用存储
Python：在 CSV 中得到 \xa0 而不是空格，无法删除或转换

我有一个与 python 中的编码问题相关的问题 IPython笔记本由于此类问题非常常见且简单但我仍然无法真正解决它我有一个CSV http www montefiore ulg ac be glouppe 2012 2013 ch

Python：在 CSV 中得到 \xa0 而不是空格，无法删除或转换

Python：在 CSV 中得到 \xa0 而不是空格，无法删除或转换 的相关文章

随机推荐

热门标签

Python：在 CSV 中得到 \xa0 而不是空格，无法删除或转换的相关文章