修复 UTF-8 文本中的 mojibakes

2023-12-05

我有一个包含 UTF-8 葡萄牙语文本的文件。不知何故，生成该文件的人选择了错误的编码，并且文本中充满了mojibake:

IDENTIFICAÌàÌÄO instead of identificação
AndrÃ© instead of André

自动化工具看不出该文件有任何问题。我尝试用以下方法修复它Python 包 ftfy无济于事。除了手动替换所有不正确的字符之外，如何修复此文件？

“André”而不是“André”是 UTF-8 编码的 Latin-1 解释。您可以通过反转编码/解码来修复它：

>>> 'AndrÃ©'.encode('latin-1').decode('utf-8')
'André'

遵循此模式的所有情况都可以这样修复。

但是，我无法解释另一种情况（“ç”用“Ìà”，“ã”用“ÌÄ”），因此无法提供解决方案。如果您可以找到“Ì”、“à”和“Ä”分别具有代码点 C3、A7 和 A3 的编解码器，那么您可以使用它而不是 Latin-1 来修复文本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

UTF8

characterencoding

mojibake

修复 UTF-8 文本中的 mojibakes 的相关文章

编辑 scikit-learn 决策树

我想编辑 sklearn DecisionTree 例如改变条件或切割节点叶子等但似乎没有功能可以做到这一点如果我可以导出到文件编辑它以导入如何编辑决策树环境 Windows 10 python3 3 sklearn 0 17
子进程改变目录

我想在子目录超级目录中执行脚本我需要首先进入该子目录超级目录我无法得到subprocess进入我的子目录 tducin localhost Projekty tests ve python Python 2 7 4 default
Python 遍历目录树的方法是什么？

我觉得分配文件和文件夹并执行 item 部分有点黑客有什么建议么我正在使用Python 3 2 from os import from os path import def dir contents path contents list
为什么在 Windows 中使用 GetConsoleScreenBufferInfoEx 时控制台窗口会缩小？

我正在尝试使用 GetConsoleScreenBufferInfoEx 和 SetConsoleScreenBufferInfoEx 设置 Windows 命令行控制台的背景和前景色我正在 Python 中使用 wintypes 进行此
为什么导入 pdb 时出现此错误？ “模块”对象没有属性“ascii_letters”

尝试调试我的代码我正在导入库pdb import sys from subprocess import check call import pdb functions if name main Code 我收到此错误 File reg p
如何从谷歌云存储桶读取音频文件并在datalab笔记本中使用ipd播放

我想在数据实验室笔记本中播放我从谷歌云存储桶中读取的声音文件这个怎么做 import numpy as np import IPython display as ipd import librosa import soundfile as
字典中的列表，Python 中的循环

我有以下代码 TYPES hotmail type hotmail lookup mixed dkim no signatures S Return Path email protected cdn cgi l email protecti
在 Flask (WSGI) 中使用全局单例，我是否需要担心竞争条件？ [复制]

这个问题在这里已经有答案了 Flask 的 hello world 演示是 from flask import Flask app Flask name app route def hello return Hello World if n
如何使用循环将十进制转换为二进制？

我想编写一个程序将十进制数 0 到 9 转换为二进制数我可以编写如何使用重复除法将十进制数转换为二进制数的代码但是我在创建一个以二进制格式打印十进制数字 0 到 9 的循环时遇到了麻烦这是我的代码 number 0 remaind
JavaPreparedStatementUTF-8字符问题

我有一份准备好的声明 PreparedStatement st 在我的代码中我尝试使用 st setString 方法 st setString 1 userName userName 的值为 ak a setString 方法将 ak
如何对这个 Flask 应用程序进行单元测试？

我有一个 Flask 应用程序它使用 Flask Restless 来提供 API 我刚刚写了一些身份验证来检查如果消费者主机被识别该请求包含一个哈希值通过加密 POST 的请求内容和 GET 的 URL 以及秘密 API 密钥来计
WireShark - 我可以解码数据包中的 UTF-8 数据吗？

在Wireshark中如何查看数据包中的非ASCII字符我的一些网络数据采用 UTF 8 编码我希望 Wireshark 能够识别它有一个插件吗 I found this http ask wireshark org questio
Matplotlib 图例不工作

自从升级 matplotlib 以来每当尝试创建图例时我都会收到以下错误 usr lib pymodules python2 7 matplotlib legend py 610 UserWarning Legend does not
Python正则表达式从字符串中获取浮点数

我正在使用正则表达式来解析字符串中的浮点数 re findall a zA Z d d t 是我使用的代码这段代码有问题如果数字和任何字符之间没有空格则不会解析该数字例如 0 1 2 3 4 5 6 7 8 9 的预期输出为 0 1
一起使用 Flask 和 Tornado？

我是以下的忠实粉丝Flask 部分是因为它很简单部分是因为它有很多扩展 http flask pocoo org extensions 然而 Flask 是为了在 WSGI 环境中使用而设计的而 WSGI 不是非阻塞的所以我相信它
参数验证，Python 中的最佳实践[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案让我们举一个 API 的例子 def get abs directory self path if os path isdir path ret
numpy.cov() 返回意外的输出

我有一个 X 数据集有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵我使用np cov originalData generatedData rowvar False 代
Django 接受 AM/PM 作为表单输入

我试图弄清楚如何使用 DateTime 字段在 Django 中接受 am pm 作为时间格式但我遇到了一些麻烦我尝试在 forms py 文件中这样设置 pickup date time from DateTimeField inpu
Python 枚举子集迭代

我想迭代以下枚举的子集 class Items enum Enum item1 0 item2 1 item3 2 item4 3 item5 4 item6 5 item7 6 item8 7 说我想 for item in Items
为什么用字符串和时间增量转置 DataFrame 会转换数据类型？

这种行为对我来说似乎很奇怪 id列字符串在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v

随机推荐

Excel VBA For-Next 循环将数据从一个 WB 提取到另一个 WB

我正在开发一个 for 循环该循环根据第 12 列中等于 Airfare 的字符串提取整行数据这个想法是复制第 12 列 EXPENSE TYPE 是机票的数据行并将其粘贴到第二个工作簿中我的代码如下未正确循环所有 120 行数据
查找忽略重叠的总分钟数（将基于光标的答案转换为 CTE）

有一个现有问题该问题询问如何查找多个日期范围内有多少分钟忽略重叠给出的示例数据是 userID 不是特别相关 Available ID userID availStart availEnd 1 456 2012 11 19 16 00
从低完整性进程获取对 MemoryMappedFile 的访问

我试图在中等完整性进程上创建 MemoryMappedFile 然后在低完整性子进程上打开相同的文件并将此共享内存用于 IPC 没有真正的磁盘文件使用MemoryMappedFile CreateNew 我的问题是低完整性进程无法打开共
如何仅按顶部标题行对表格进行排序

我知道这个问题以前曾被问过但没有解决方案让我满意我想将列过滤输入放置在正文和列标题之间我把它们放在一个额外的 tr inside thead 许多消息来源说这有效一切正常只是现在它链接了这些输入而不是标题的排序你可以看一个例子h
我们是否应该始终在类中包含默认构造函数？

一位同事问我这个问题我们是否应该始终在类中包含默认构造函数如果是这样为什么如果不是为什么不呢 Example public class Foo Foo Foo int x int y 我也有兴趣从专家那里得到一些关于这个问题的见解
android：TextView每行限制10个字符

我从 EditText 读取值并将其写入 TextView editTitle1 addTextChangedListener new TextWatcher public void afterTextChanged Editable s
将EventListener添加到多个复选框

下面我有一个简单的表单其中有 4 个复选框作为席位我想做的是当访客选择带有 ID 的座位复选框时A2 and A4 我希望在单击名称为的段落后立即显示这些 ID 及其总价值id demo 单击立即预订按钮后应将总值分配给名为的
连接 Java - MySQL：不允许公钥检索

我尝试使用连接器 8 0 11 将 MySQL 数据库与 Java 连接一切似乎都很好但我得到了这个例外 Exception in thread main java sql SQLNonTransientConnectionExcept
React Native iOS 中的键盘语言？

有没有办法知道 React Native iOS 应用程序中键盘的语言因为我想切换TextInput根据当前语言自动指示您可以使用以下方式获取设备区域设置 import NativeModules from react native c
iOS：如何在运行时使用音频单元重新采样音频（PCM 数据）？

如何在运行时实时使用音频单元重新采样音频 PCM 数据我的音频单元设置如下 void setUpAudioUnit OSStatus status AudioComponentInstance audioUnit AudioCompon
创建自定义对话框时出现问题

我在创建自定义对话框时遇到问题但我没有发现失败希望有人能帮助我 protected Dialog onCreateDialog int id Dialog dialog null switch id case DIALOG ABOUT
如何从java程序在终端运行命令？

我需要从 JAVA 程序在 Fedora 16 的终端运行命令我尝试使用 Runtime getRuntime exec xterm 但这只是打开终端我无法执行任何命令我也尝试过这个 OutputStream out null Pro
Maven TestNG 项目，将命令行参数传递给 testng.xml 文件

我有一个 Maven TestNG 项目并且正在尝试将几个命令行参数传递到 testng xml 文件中 testng xml 文件如下所示
将最新季度财务资产负债表结果导出到单个 Excel 工作簿中？

下面的代码是我到目前为止所拥有的感谢我的 Luis先前的问题当前代码为每个股票代码以及所有季度创建一个单独的工作表目前的结果如下图所示我想要一张仅包含最新季度业绩的表格因此 B 列中的结果将是 AMZN C 列将是 MSFT
html + css + jquery：切换显示更多/更少文本

我正在做一个个人项目遇到一个小问题这是我的代码目前有效 http jsfiddle net gvM3b show more click function this text Show Less text toggleClass sho
从我的 YouTube 频道检索我的评论历史记录

我正在尝试通过 YouTube API 从我的频道检索我自己的评论列表但找不到方法这可以通过历史记录获得 https www youtube com feed history comment history 但 API 文档中没有提及
为什么 C++ 中默认对“char”进行签名？

为什么 char 默认在 128 到 127 范围内而它应该表示一个文本表示在 0 到 255 范围内的字符从这个意义上说我猜 char 默认情况下应该是无符号的只有当我们打算将其视为数字时我们才必须添加 signed 关键
如何为文本视图中选定的文本提供背景颜色

如何为文本视图中选定的文本提供背景颜色我正在开发基于文本视图的应用程序我必须更改所选文本的颜色我尝试使用委托方法但没有找到任何这样的属性您能建议一种方法来克服这个问题吗在 AppStore 限制内无法更改选择颜色事实上考虑到
python多进程启动失败

这是我在 python 中执行简单多处理任务的代码 from multiprocessing import Process def myfunc num tmp num num print squared O P will be tmp r
修复 UTF-8 文本中的 mojibakes

我有一个包含 UTF 8 葡萄牙语文本的文件不知何故生成该文件的人选择了错误的编码并且文本中充满了mojibake IDENTIFICA O instead of identifica o Andr instead of Andr 自

修复 UTF-8 文本中的 mojibakes

修复 UTF-8 文本中的 mojibakes 的相关文章

随机推荐

热门标签