修复 UTF-8 文本中的 mojibakes

2023-12-05

我有一个包含 UTF-8 葡萄牙语文本的文件。不知何故,生成该文件的人选择了错误的编码,并且文本中充满了mojibake:

IDENTIFICAÌàÌÄO instead of identificação
André instead of André

自动化工具看不出该文件有任何问题。我尝试用以下方法修复它Python 包 ftfy无济于事。 除了手动替换所有不正确的字符之外,如何修复此文件?


“André”而不是“André”是 UTF-8 编码的 Latin-1 解释。 您可以通过反转编码/解码来修复它:

>>> 'André'.encode('latin-1').decode('utf-8')
'André'

遵循此模式的所有情况都可以这样修复。

但是,我无法解释另一种情况(“ç”用“Ìà”,“ã”用“ÌÄ”),因此无法提供解决方案。 如果您可以找到“Ì”、“à”和“Ä”分别具有代码点 C3、A7 和 A3 的编解码器,那么您可以使用它而不是 Latin-1 来修复文本。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

修复 UTF-8 文本中的 mojibakes 的相关文章

随机推荐

  • Excel VBA For-Next 循环将数据从一个 WB 提取到另一个 WB

    我正在开发一个 for 循环 该循环根据第 12 列中等于 Airfare 的字符串提取整行数据 这个想法是复制第 12 列 EXPENSE TYPE 是机票的数据行并将其粘贴到第二个工作簿中 我的代码 如下 未正确循环所有 120 行数据
  • 查找忽略重叠的总分钟数(将基于光标的答案转换为 CTE)

    有一个现有问题该问题询问如何查找多个日期范围内有多少分钟 忽略重叠 给出的示例数据是 userID 不是特别相关 Available ID userID availStart availEnd 1 456 2012 11 19 16 00
  • 从低完整性进程获取对 MemoryMappedFile 的访问

    我试图在中等完整性进程上创建 MemoryMappedFile 然后在低完整性子进程上打开相同的文件 并将此共享内存用于 IPC 没有真正的磁盘文件 使用MemoryMappedFile CreateNew 我的问题是低完整性进程无法打开共
  • 如何仅按顶部标题行对表格进行排序

    我知道这个问题以前曾被问过 但没有解决方案让我满意 我想将列过滤输入放置在正文和列标题之间 我把它们放在一个额外的 tr inside thead 许多消息来源说这有效 一切正常 只是现在它链接了这些输入而不是标题的排序 你可以看一个例子h
  • 我们是否应该始终在类中包含默认构造函数?

    一位同事问我这个问题 我们是否应该始终在类中包含默认构造函数 如果是这样 为什么 如果不是 为什么不呢 Example public class Foo Foo Foo int x int y 我也有兴趣从专家那里得到一些关于这个问题的见解
  • android:TextView每行限制10个字符

    我从 EditText 读取值并将其写入 TextView editTitle1 addTextChangedListener new TextWatcher public void afterTextChanged Editable s
  • 将EventListener添加到多个复选框

    下面 我有一个简单的表单 其中有 4 个复选框作为席位 我想做的是 当访客选择带有 ID 的座位复选框时A2 and A4 我希望在单击名称为的段落后立即显示这些 ID 及其总价值id demo 单击 立即预订 按钮后 应将总值分配给名为的
  • 连接 Java - MySQL:不允许公钥检索

    我尝试使用连接器 8 0 11 将 MySQL 数据库与 Java 连接 一切似乎都很好 但我得到了这个例外 Exception in thread main java sql SQLNonTransientConnectionExcept
  • React Native iOS 中的键盘语言?

    有没有办法知道 React Native iOS 应用程序中键盘的语言 因为我想切换TextInput根据当前语言自动指示 您可以使用以下方式获取设备区域设置 import NativeModules from react native c
  • iOS:如何在运行时使用音频单元重新采样音频(PCM 数据)?

    如何在运行时 实时使用音频单元重新采样音频 PCM 数据 我的音频单元设置如下 void setUpAudioUnit OSStatus status AudioComponentInstance audioUnit AudioCompon
  • 创建自定义对话框时出现问题

    我在创建自定义对话框时遇到问题 但我没有发现失败 希望有人能帮助我 protected Dialog onCreateDialog int id Dialog dialog null switch id case DIALOG ABOUT
  • 如何从java程序在终端运行命令?

    我需要从 JAVA 程序在 Fedora 16 的终端运行命令 我尝试使用 Runtime getRuntime exec xterm 但这只是打开终端 我无法执行任何命令 我也尝试过这个 OutputStream out null Pro
  • Maven TestNG 项目,将命令行参数传递给 testng.xml 文件

    我有一个 Maven TestNG 项目 并且正在尝试将几个命令行参数传递到 testng xml 文件中 testng xml 文件如下所示
  • 将最新季度财务资产负债表结果导出到单个 Excel 工作簿中?

    下面的代码是我到目前为止所拥有的 感谢我的 Luis先前的问题 当前代码为每个股票代码 以及所有季度 创建一个单独的工作表 目前的结果如下图所示 我想要一张仅包含最新季度业绩的表格 因此 B 列中的结果将是 AMZN C 列将是 MSFT
  • html + css + jquery:切换显示更多/更少文本

    我正在做一个个人项目 遇到一个小问题 这是我的代码 目前有效 http jsfiddle net gvM3b show more click function this text Show Less text toggleClass sho
  • 从我的 YouTube 频道检索我的评论历史记录

    我正在尝试通过 YouTube API 从我的频道检索我自己的评论列表 但找不到方法 这可以通过历史记录获得 https www youtube com feed history comment history 但 API 文档中没有提及
  • 为什么 C++ 中默认对“char”进行签名?

    为什么 char 默认在 128 到 127 范围内 而它应该表示一个文本表示在 0 到 255 范围内的 字符 从这个意义上说 我猜 char 默认情况下应该是无符号的 只有当我们打算将其视为 数字 时 我们才必须添加 signed 关键
  • 如何为文本视图中选定的文本提供背景颜色

    如何为文本视图中选定的文本提供背景颜色 我正在开发基于文本视图的应用程序 我必须更改所选文本的颜色 我尝试使用委托方法 但没有找到任何这样的属性 您能建议一种方法来克服这个问题吗 在 AppStore 限制内无法更改选择颜色 事实上 考虑到
  • python多进程启动失败

    这是我在 python 中执行简单多处理任务的代码 from multiprocessing import Process def myfunc num tmp num num print squared O P will be tmp r
  • 修复 UTF-8 文本中的 mojibakes

    我有一个包含 UTF 8 葡萄牙语文本的文件 不知何故 生成该文件的人选择了错误的编码 并且文本中充满了mojibake IDENTIFICA O instead of identifica o Andr instead of Andr 自