Python:在 CSV 中得到 \xa0 而不是空格,无法删除或转换

2024-02-10

我有一个与 python 中的编码问题相关的问题(IPython笔记本)。由于此类问题非常常见且简单,但我仍然无法真正解决它。

我有一个CSV http://www.montefiore.ulg.ac.be/~glouppe/2012-2013/challenge/train.csv文件在这里,正如您所看到的,我们在该文件中有许多 '\xa0' 和其他 '\n' 字符。

I used

with io.open(train_fname) as f:
for line in f:
    line = line.encode("ascii", "replace")

但它不起作用,我总是得到以下输出。

想象一下,你知道吗,没有制裁,没有关于 IEAA 法规的永久听证会,不再隐藏在友好核能的幌子下。 \xa0你有 2 天的时间; \xa0即\xa0让检查人员停止杀害平民。

我尝试了其他方法,例如

line.replace(u"\xa0", " ")它也不起作用,我还尝试了各种编码在我的文本编辑 sublime text 中打开这个 CSV 文件。 我尝试了 windows-1252、utf-8 和所有其他编码,但在查看此 CSV 文件时,我总是得到 \xa0 是我的文本编辑。

这是否意味着

\xa0

已作为输入文本写入此 CSV 文件中?是不是python编码的问题?如果是这种情况,为什么我不能使用replace方法来简单地替换这个字符串? \xa0 表示文件采用哪种编码?这意味着这个文件是用 utf-8 编写的,但我尝试以 ascii 或其他情况打开它?

我搜索了很多问题,但它们似乎没有提供太多帮助。如果我的问题不是很清楚,请问我。 非常感谢!

`


The \xa0您看到的是 4 个字符的序列:\ x a 0。所有这些字符都是纯 ASCII,因此这里不存在字符集问题。

显然,您应该解释这些转义序列。用空格替换它们的想法很好,但必须小心反斜杠字符。当它出现在字符串文字中时,必须写成\\。所以试试这个:

line.replace("\\xa0", " ")

or:

line.replace(r"\xa0", " ")

The r字符串前面的意思是按字面意思解释每个字符,甚至是反斜杠。


请注意,CSV 文件中的数据充满了不一致之处。例子:

  • \n可能意味着换行。
  • \\n也会出现,并且可能也意味着换行。
  • \xa0是一个不间断空格,以 ISO-8859-1 编码。
  • \xc2\xa0是一个不间断空格,以 UTF-8 编码。
  • \\xc2\\xa0也出现,具有相同的含义。
  • \\\\n也出现。

因此,要从该文件中获取有意义的内容,您应该重复解释转义序列,直到没有任何变化。之后,尝试将生成的字节序列解释为 UTF-8。如果有效的话,很好。如果不是,请将其解释为代码页 1252(它是 ISO-8859-1 的超集)。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python:在 CSV 中得到 \xa0 而不是空格,无法删除或转换 的相关文章

  • 类的 IPython 表示

    我正在使用我创建的模块尝试 IPython 但它没有显示类对象的实际表示 相反 它显示类似的内容 TheClass module TheClass name I heavily在这个模块中使用元类 我有真正有意义的类表示 应该向用户显示 是
  • Python - 比较同一字典中的值

    我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串 该字符串是键的值 对于这个例子 期望
  • 计算另一个字符串中多个字符串的出现次数

    在 Python 2 7 中 给定以下字符串 Spot是一只棕色的狗 斑点有棕色的头发 斑点的头发是棕色的 查找字符串中 Spot brown 和 hair 总数的最佳方法是什么 在示例中 它将返回 8 我正在寻找类似的东西string c
  • 在 Python 中将列表元素作为单独的项目返回

    Stackoverflow 的朋友们大家好 我有一个计算列表的函数 我想单独返回列表的每个元素 如下所示 接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
  • NLTK 2.0分类器批量分类器方法

    当我运行此代码时 它会抛出一个错误 我认为这是由于 NLTK 3 0 中不存在batch classify 方法 我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
  • 为什么 web2py 在启动时崩溃?

    我正在尝试让 web2py 在 Ubuntu 机器上运行 所有文档似乎都表明要在 nix 系统上运行它 您需要下载源代码并执行以下操作 蟒蛇 web2py py 我抓住了source http www web2py com examples
  • PyQt 使用 ctrl+Enter 触发按钮

    我正在尝试在我的应用程序中触发 确定 按钮 我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而 它不起作用 这是有道理的 我尝试查找一些按键序列here http ftp ics
  • MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

    我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素 现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象 该列表中的
  • GUI(输入和输出矩阵)?

    我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据 完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
  • Python 3:将字符串转换为变量[重复]

    这个问题在这里已经有答案了 我正在从 txt 文件读取文本 并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
  • 使用 python/numpy 重塑数组

    我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
  • 导入错误:没有名为flask.ext.login的模块

    我的flask login 模块有问题 我已经成功安装了flask login模块 另外 从命令提示符我可以轻松运行此脚本 不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
  • 未知错误:Chrome 无法启动:异常退出

    当我使用 chromedriver 对 Selenium 运行测试时 出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
  • 尽管我已在 python ctypes 中设置了信号处理程序,但并未调用它

    我尝试过使用 sigaction 和 ctypes 设置信号处理程序 我知道它可以与python中的信号模块一起使用 但我想尝试学习 当我向该进程发送 SIGTERM 时 但它没有调用我设置的处理程序 只打印 终止 为什么它不调用处理程序
  • 如何将 ascii 值列表转换为 python 中的字符串?

    我在 Python 程序中有一个列表 其中包含一系列数字 这些数字本身就是 ASCII 值 如何将其转换为可以在屏幕上回显的 常规 字符串 您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
  • Python - 如何确定解析的 XML 元素的层次结构级别?

    我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档 该文档将包含元素并保留其层次结构 我的问题是我无法弄清楚每个元素 解析器在其上迭代 的嵌套深度 XML 示例摘录 3 个元素 它们可以任意嵌套
  • VBA将二进制图像转换为网页的base64编码字符串

    我正在尝试读取 JPG 文件并将该文件转换为 base64 编码的字符串 该字符串可用作网页上的嵌入 jpeg 我在网上发现了两个在 VBA 中进行 Base64 编码 解码的函数 它们似乎被广泛接受 编码 解码过程产生了我的原始二进制字符
  • 带有 LSTM 的 GridSearchCV/RandomizedSearchCV

    我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数 我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
  • python 中的“槽包装器”是什么?

    object dict 和其他地方的隐藏方法设置为这样的
  • 重新分配唯一值 - pandas DataFrame

    我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人 总体目标是使用尽可能少的个人 诀窍在于这

随机推荐

  • 访问 MemoryCache 是否会创建副本?

    我有一个这样的缓存服务 public interface ICacheService T Get
  • phpmailer 无名附件

    我正在使用 phpmailer 发送电子邮件 但我所有的电子邮件都带有无名附件 在使用 addAttachemnt 函数之前我已经检查过变量是否已设置 并且确实如此 它看起来像这样 fname FILES file name fTmpNam
  • Java中的静态循环依赖

    对于以下代码 class A public static int X static X B Y 1 public class B public static int Y A X 1 static public static void mai
  • Ruby 中的函数指针?

    也许这是一个愚蠢的问题 但我是红宝石新手 我用谷歌搜索 发现了这些 proc Proc new x deal with x a lambda lambda a puts a 但我想要这个 def forward slash to back
  • 非常需要:突出显示的 JSON 日志查看器

    Using winston https github com flatiron winston对于 node js 日志记录 我获取 json 日志文件 在这种情况下 日志文件只是一系列 换行符分隔的 json 对象 这对于日志查询和将日志
  • 上传图片到服务器

    我用谷歌搜索了很多 但没有用 我找到了很多包含信息的网站 但在所有网站中我的应用程序都崩溃了 我要打开的图片是 lastfile png 它存储在内部存储中 因此我使用 openFileInput lastfile png 打开它 我在 A
  • Django WeasyPrint CSS 集成警告:没有基本 URI 的相对 URI 引用: 位于第 None 行

    我想在 Django 中使用 Wea syPrint 生成报告 但我不知道如何集成CSS 特别是引导CSS文件 我可以看到生成的 html 但是当我将此行添加到我的模板时 我收到警告 警告是 没有基本 URI 的相对 URI 引用 位于 N
  • 调用未定义函数 Illuminate\Filesystem\finfo_file()

    我的中出现以下错误laravel log我正在运行的网站上的文件 如何确定错误的根源 由于堆栈跟踪如此短 我不确定从哪里开始 2017 07 03 16 05 13 生产 错误 异常 Symfony Component Debug Exce
  • Symfony:使用全局变量

    我知道 远离全局变量 问题是我真的真的需要一个可以获取的价值 而且最重要的是可修改的来自应用程序的不同部分 它是我出于调试目的需要监视的某些操作的计数器 谷歌搜索任何与 Symfony 和全局变量相关的内容 总是让我得到建议使用 Conta
  • 如何从 API 获取数据并将其打印在列表中,然后发布到不同的 API? (扑)

    在我正在编写的注册过程页面之一中 我正在尝试打印其中的内容类别 总计api 打印所有id and category 到一个列表中 然后将新用户选择的任意数量发布到不同的 api 其中包含user id and 类别 id 最终 之前 我已经
  • 确保使用双比较和交换指令来实现无锁堆栈?

    假设64位x86 64架构和Intel第3 4代CPU 以下是 Concurrency in Action 一书第 202 页中堆栈的无锁实现 template
  • 从 ASP.NET 网站发送 SMS [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 有没有办法使用 Web API 从 ASP NET 网站发送 SMS 我了解网络服务 但不知道如何从我的应用程序调用这些服务 Web 服务
  • 为什么 vscode pylint 会漏掉明显的错误?

    我在 Visual Studio Code 中打开了一个 python 文件 有一个明显的错误 使用未定义的变量 但 问题 下列出的 pylint 问题仅显示一长串小约定问题 在其上手动运行 pylint 与 vscode 分开 可以很好地
  • Ajax/Js 图像上传器:创建重复的预览图像

    我正在使用 Ajax 图像上传器SITE http dondedeportes es uploader previewer 我目前实现了创建重复的预览图像 一个出现在输入字段下 另一个将出现在页面中的其他位置 例如 这就是您选择的 问题是
  • 将 int 转换为 ASCII 字符

    I have int i 6 而且我要 char c 6 通过转换 有什么简单的方法可以推荐一下吗 EDIT 我还需要生成一个随机数 并转换为字符 然后添加一个 txt 并在 ifstream 中访问它 直接的方法 char digits
  • JavaScript Promises - 拒绝与抛出

    我读过几篇关于这个主题的文章 但我仍然不清楚两者之间是否有区别Promise reject与抛出错误 例如 使用 Promise reject return asyncIsPermitted then function result if
  • 结合UIView动画块和OpenGL ES渲染

    我正在开发一款 iP 游戏 并且使用 UIKit 和 OpenGL ES 2 0 UIKit 元素在 OpenGL 视图上渲染并占据大量 任意 屏幕空间 我必须承认苹果做得非常出色 游戏的帧率始终保持在60 FPS 为了得出这个结论 我做了
  • php自定义异常

    我想知道如何编写自定义异常处理程序 这样我就可以做类似的事情 throw new dbException sql message 并让它输出 您的查询有误 消息 消息 查询 sql 这里 行 行异常被抛出 文件 抛出文件异常 但我也想捕获例
  • 如何在您的应用程序中获取 Elastic Beanstalk 应用程序版本?

    我们希望能够在 PHP 代码中检索 elastic beanstalk 应用程序版本 我没有看到 EB 在任何服务器配置文件中将其传递给我们 我觉得这很奇怪 还有其他人知道我们如何才能得到这个吗 至少对于 Docker 容器 您可以使用存储
  • Python:在 CSV 中得到 \xa0 而不是空格,无法删除或转换

    我有一个与 python 中的编码问题相关的问题 IPython笔记本 由于此类问题非常常见且简单 但我仍然无法真正解决它 我有一个CSV http www montefiore ulg ac be glouppe 2012 2013 ch