Python：比较字符串与重音字符不起作用

2024-05-03

我对 python 很陌生。我正在尝试从另一个列表中删除一个列表中出现的文件。这些列表是通过在 mac 和 windows 上重定向 ll -R 生成的（但自从使用其他 python 脚本进行了一些处理 - 合并、排序等）。某些文件名带有重音符号和特殊符号。这些字符串即使相同（打印相同并且在包含列表的文件中看起来相同），也被发现不相等。

我找到了关于如何比较字符串与 unicode 中特殊字符的线程：Python 字符串比较——特殊/Unicode 字符的问题 https://stackoverflow.com/questions/5228925/python-string-comparison-problems-with-special-unicode-characters这和我的问题非常相似。我对编码以及如何更改字符串的编码进行了更多阅读。但是，我尝试了在编解码器文档中可以找到的所有编解码器：https://docs.python.org/2/library/codecs.html https://docs.python.org/2/library/codecs.html对于所有可能的编解码器对，两个字符串不相等（请参见下面的程序 - 尝试了解码和编码选项）。

当我逐一检查两个字符串中的字符时，重音 e 在一个文件中显示为重音 e（一个字符），在另一个文件中显示为两个字符（e 和可打印为空格）。

任何想法，将不胜感激。

我将两个文本文件缩小为一行，每行一个字（显然带有重音）。我将文本文件上传到保管箱：数据中的测试文件 https://www.dropbox.com/s/94qlr93blkj15l6/testfilesindata and 测试缺失文件 https://www.dropbox.com/s/o37p5uibvexkesf/testmissingfiles（但尚未尝试从保管箱下载新副本）。

非常感谢！

附言。抱歉弄乱了链接。我没有声誉10...

#!/usr/bin/python3

import sys

codecs = [ 'ascii', 'big5', 'big5hkscs', 'cp037', 'cp424', 'cp437', 'cp500', 'cp720      ', 'cp737   ', 'cp775', 'cp850', 'cp852', 'cp855', 'cp856   ', 'cp857', 'cp858', 'cp860', 'cp861', 'cp862', 'cp863', 'cp864', 'cp865', 'cp866', 'cp869', 'cp874     ', 'cp875   ', 'cp932', 'cp949', 'cp950', 'cp1006   ', 'cp1026', 'cp1140', 'cp1250', 'cp1251', 'cp1252', 'cp1253', 'cp1254', 'cp1255', 'cp1256', 'cp1257', 'cp1258', 'euc_jp', 'euc_jis_2004', 'euc_jisx0213', 'euc_kr', 'gb2312', 'gbk', 'gb18030', 'hz', 'iso2022_jp', 'iso2022_jp_1', 'iso2022_jp_2', 'iso2022_jp_2004', 'iso2022_jp_3', 'iso2022_jp_ext', 'iso2022_kr', 'latin_1', 'iso8859_2', 'iso8859_3', 'iso8859_4', 'iso8859_5', 'iso8859_6', 'iso8859_7', 'iso8859_8', 'iso8859_9', 'iso8859_10', 'iso8859_13', 'iso8859_14', 'iso8859_15', 'iso8859_16', 'johab', 'koi8_r   ', 'koi8_u      ', 'mac_cyrillic', 'mac_greek', 'mac_iceland', 'mac_latin2', 'mac_roman', 'mac_turkish', 'ptcp154', 'shift_jis', 'shift_jis_2004', 'shift_jisx0213', 'utf_32', 'utf_32_be', 'utf_32_le', 'utf_16', 'utf_16_be', 'utf_16_le', 'utf_7', 'utf_8', 'utf_8_sig' ]

file1 = open('testmissingfiles','r')
file2 = open('testfilesindata','r')

list1 = file1.readlines()
list2 = file2.readlines()

word1 = list1[0].rstrip('\n')
word2 = list2[0].rstrip('\n')

for i in range(0,len(codecs)-1):
    for j in range(0,len(codecs)-1):
        try:
            encoded1 = word1.decode(codecs[i])
            encoded2 = word2.decode(codecs[j])

            if encoded1 == encoded2:
                sys.stdout.write('Succeeded with ' + codecs[i] + ' & ' + codecs[j] + '\n')
        except:
            pass

Use unicodedata.normalize将 to 字符串标准化为相同的范式：

import unicodedata

encoded1 = unicodedata.normalize('NFC', word1.decode('utf8'))
encoded2 = unicodedata.normalize('NFC', word2.decode('utf8'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python：比较字符串与重音字符不起作用的相关文章

即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
如何使用Python将WebP图像转换为Gif？

我已经尝试过这个 from PIL import Image im Image open this webp im save that gif gif save all True 这给了我这个错误类型错误不支持的操作数类型 tuple
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
Python BeautifulSoup XML 解析

我编写了一个简单的脚本来使用 BeautifulSoup 模块解析 XML 聊天日志标准 soup prettify 工作正常只是聊天日志中有很多绒毛您可以在下面看到我正在使用的脚本代码和一些 XML 输入文件 Code import
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
Paramiko - 使用私钥连接 - 不是有效的 OPENSSH 私钥/公钥文件

我正在尝试找到解决方案但无法理解我做错了什么在我的 Linux 服务器上我运行了以下命令 ssh keygen t rsa 这产生了一个id rsa and id rsa pub file 然后我将它们复制到本地并尝试运行以下代码 s
PIL Image.size 返回相反的宽度/高度

使用PIL确定图像的宽度和高度在特定图像上幸运的是只有这一个但这很麻烦从 image size 返回的宽度高度是相反的图片 http storage googleapis com cookila 533ebf752b9d1f7c
为什么 Python 中的“pip install”会引发语法错误？

我正在尝试使用 pip 安装软件包我试着跑pip install从Python shell 但我得到了SyntaxError 为什么我会收到此错误如何使用 pip 安装软件包 gt gt gt pip install selenium
如何在python中检索aws批处理参数值？

流程 Dynamo DB gt Lambda gt 批处理如果将角色 arn 插入动态数据库它是从 lambda 事件中检索的然后使用submit job角色 arn 的 API 被传递为 parameters role arn ar
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
Python 中的 @staticmethod 与 @classmethod

方法和方法有什么区别装饰的 https peps python org pep 0318 with staticmethod http docs python org library functions html staticmethod和
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
select() 可以在 Windows 下使用 Python 中的文件吗？

我正在尝试在 Windows 下运行以下 python 服务器 An echo server that uses select to handle multiple clients at a time Entering any line o
Matplotlib Scatter - ValueError：RGBA 序列的长度应为 3 或 4

我正在尝试为我的功能绘制图表但不断收到此错误 ValueError RGBA sequence should have length 3 or 4 每当我只有 6 种形状时代码就可以完美运行但现在我将其增加到 10 种它就不起作用了
如何有效地从 loadmat 函数生成的嵌套 numpy 数组中提取值？

python中是否有更有效的方法从嵌套的python列表中提取数据例如A array array 12000000 dtype object 我一直在使用A 0 0 0 0 当你有很多像 A 这样的数据时这似乎不是一个有效的方法我也用
张量流：注册 numpy bfloat16 扩展

正如我所见 tensorflow 中有 bfloat16 的 numpy 扩展 https github com tensorflow tensorflow blob 24ffe9f729160a095a5cab8f592392018280
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案

随机推荐

RxJS Angular2 在 Observable.forkjoin 中处理 404

我目前正在链接一堆 http 请求但是在订阅之前我无法处理 404 错误 My code 在模板中 service getData subscribe data gt this items data err gt console log
通过 https 安全登录后，Weblogic 应用程序切换回 http

我已在 Weblogic 9 2 MP3 上成功配置 SSL 我能够使用 https 安全地登录应用程序并继续使用 https 协议处理应用程序当用户访问提供以下 URL 的应用程序时情况就是如此 https servername 7
一种父子关系级联软删除的方法

我有一个简单的架构其中使用软删除这就是它的设计方式并且无法更改有两个表参与该架构 Company id is deleted and Employee id company id is deleted where company id
从文件导入变量创建变量的副本

If I from file import variable and the varable在模块文件中更改 variables 值未更新如果我 import file 变量file variable已更新有没有一种方法可以有选择地从模
如何从命令行运行 spock 测试？

我已经检查过这个链接 https gist github com ysb33r 5825457 https gist github com ysb33r 5825457 似乎可以这样运行 groovyc groovy java cp gra
所有AJAX请求完成时的JQuery调用函数

我的问题是问题的变体here https stackoverflow com questions 970967 jquery ajax call function when all requests are complete 然而有两点不
MPAndroidChart BarChart xValues 问题

我注意到有一个问题BarChart of MPAndroidChart并需要修复首先是我的代码 this barChart BarChart view findViewById R id bar fragment bar chart th
AutoCAD 插件开发示例

我对开发 AutoCAD 插件感兴趣并试图了解几种不同类型的 AutoCAD 插件文件之间的关系随 AutoCAD 插件一起提供的托管 DLL ARX 文件 https fileinfo com extension arx附带 Auto
如何在 SQLite 中插入换行符（“\n”）？

在尝试插入类似以下内容时 Hello nWorld SQLite 抛出类似以下的错误消息无法识别的令牌 Hello 还有一些其他错误即使我将上面的字符串转换为 Hello nWorld or Hello n World 这些转义字符序
退格事件麻烦

我在第 1 页有一个事件侦听器 window addEventListener keydown 这给我带来了问题即第 1 页对话框中的另一个事件侦听器 keydown 与窗口事件侦听器发生冲突有两个事件监听器对话框事件监听器页面事件
使用畸变从图像平面计算相机矢量

我正在尝试使用相机模型来重建可以使用某些相机及其外部内部参数拍摄的图像这一点我没有任何问题现在我想添加扭曲正如它们中所描述的那样OpenCV https docs opencv org 4 x dc dbb tutorial p
React TypeScript - 将动态泛型类型传递到forwardRef组件中

我的问题的核心 const FinalComponent
机器和管道（或其他类似的库）之间的概念区别是什么？

我想学习这个概念以便我能够理解和使用诸如machines http hackage haskell org package machines 我试着跟随R nar Bjarnason 关于机器的演讲 https dl dropbox co
授予对视图的 SELECT 权限，但不授予对基础对象的 SELECT 权限

我经常读到视图的目的之一是安全性允许某些用户访问基础表而其他用户仅访问派生视图考虑到这一点我设计了几个向外部用户提供受限数据集的视图一切都很好但在实践中这是行不通的我授予后SELECT对视图的权限除非我授予否则用户无法访
XPath 直到下一个标签

与之前在这里问过的其他人类似的问题但由于我不知道如何应用这些建议所以我需要一些帮助我想找到一个 html 文档的节点其结构如下摘录可能有所不同 h2 My title 1 h2 h3 Sub heading h3 p span
Laravel Schema onDelete 设置为 null

无法弄清楚如何在 Laravel 中的表上设置正确的 onDelete 约束我正在使用 SqLite table gt gt onDelete cascade works table gt gt onDelete null set nul
.Net 如何创建一个在进程的所有AppDomain之间共享的自定义ThreadPool？

我制作了一个针对我的特定需求进行优化的自定义线程池但是当进程中有多个 AppDomain 时 CLR ThreadPool 能够在所有 AppDomain 之间共享我希望能够重现这种行为这可以使用 MarshalByRefObjec
集合划分比差分获得更好的结果

分区问题 https en wikipedia org wiki Partition problem已知是 NP 困难的根据问题的特定实例我们可以尝试动态规划或一些启发式方法例如差分法也称为 Karmarkar Karp 算法后者
使用 selenium web 驱动程序时如何在测试执行后保持浏览器打开

我的脚本在浏览器的不同选项卡中搜索不同的字符串有没有办法在测试执行结束后保持浏览器打开以便稍后检查结果目前即使我没有使用 driver quit 浏览器也会在 5 分钟后自动关闭 Selenium 2 33 Win 7 FF 和 C
Python：比较字符串与重音字符不起作用

我对 python 很陌生我正在尝试从另一个列表中删除一个列表中出现的文件这些列表是通过在 mac 和 windows 上重定向 ll R 生成的但自从使用其他 python 脚本进行了一些处理合并排序等某些文件名带有重音符号和

Python：比较字符串与重音字符不起作用

Python：比较字符串与重音字符不起作用 的相关文章

随机推荐

热门标签

Python：比较字符串与重音字符不起作用的相关文章