我有一个包含 UTF-8 葡萄牙语文本的文件。不知何故,生成该文件的人选择了错误的编码,并且文本中充满了mojibake:
IDENTIFICAÌàÌÄO instead of identificação
André instead of André
自动化工具看不出该文件有任何问题。我尝试用以下方法修复它Python 包 ftfy无济于事。
除了手动替换所有不正确的字符之外,如何修复此文件?
“André”而不是“André”是 UTF-8 编码的 Latin-1 解释。
您可以通过反转编码/解码来修复它:
>>> 'André'.encode('latin-1').decode('utf-8')
'André'
遵循此模式的所有情况都可以这样修复。
但是,我无法解释另一种情况(“ç”用“Ìà”,“ã”用“ÌÄ”),因此无法提供解决方案。
如果您可以找到“Ì”、“à”和“Ä”分别具有代码点 C3、A7 和 A3 的编解码器,那么您可以使用它而不是 Latin-1 来修复文本。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)