组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

2024-02-16

我明白那个unicodedata.normalize将变音符号转换为非变音符号：

import unicodedata
''.join( c for c in unicodedata.normalize('NFD', u'B\u0153uf') 
            if unicodedata.category(c) != 'Mn'
       )

我的问题是（可以在这个例子中看到）： unicodedata 是否有办法将组合的 char 变音符号替换为对应的变音符号？（u'œ' 变为 'oe'）

如果不是，我想我将不得不对这些进行打击，但我也可能会用所有 uchar 及其对应项编译我自己的字典，然后忘记unicodedata共...

您的问题中的术语有些混乱。 A变音符号 http://en.wikipedia.org/wiki/Diacritic是可以添加到字母或其他字符的标记，但通常不独立。（Unicode 还使用更通用的术语组合字符.) What normalize('NFD', ...)所做的是转换预制字符 http://en.wikipedia.org/wiki/Precomposed_character到他们的组件中。

不管怎样，答案是 – 不是一个预组合字符。它是印刷连字 http://en.wikipedia.org/wiki/Typographic_ligature:

>>> unicodedata.name(u'\u0153')
'LATIN SMALL LIGATURE OE'

The unicodedata模块没有提供将连字分割成各个部分的方法。但数据存在于角色名称中：

import re
import unicodedata

_ligature_re = re.compile(r'LATIN (?:(CAPITAL)|SMALL) LIGATURE ([A-Z]{2,})')

def split_ligatures(s):
    """
    Split the ligatures in `s` into their component letters. 
    """
    def untie(l):
        m = _ligature_re.match(unicodedata.name(l))
        if not m: return l
        elif m.group(1): return m.group(2)
        else: return m.group(2).lower()
    return ''.join(untie(l) for l in s)

>>> split_ligatures(u'B\u0153uf \u0132sselmeer \uFB00otogra\uFB00')
u'Boeuf IJsselmeer ffotograff'

（当然，在实践中您不会这样做：您将按照您在问题中建议的方式预处理 Unicode 数据库以生成查找表。Unicode 中没有那么多连字。）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

replace

diacritics

组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化的相关文章

如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
将 Matlab 的 datenum 格式转换为 Python

我刚刚开始从 Matlab 迁移到 Python 2 7 在读取 mat 文件时遇到一些问题时间信息以 Matlab 的日期数字格式存储对于那些不熟悉它的人日期序列号将日历日期表示为自固定基准日期以来已经过去的天数在 MATLAB
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

“WSGIRequest”对象没有属性“user”

我正在尝试在我的 django 项目中创建一个身份验证模块但是当我打开我的网站网址时出现此错误 WSGIRequest 对象没有属性 user 我试图找到有关此问题的信息有人说问题出在 MIDDLEWARE CLASSES 中但我无法
当后台获取异步时，何时在 application:performFetchWithCompletionHandler: 中调用completionHandler？

我有一个应用程序可以在后台获取的帮助下在后台获取内容因此如果后台获取应该发生我的application performFetchWithCompletionHandler 方法被调用在此方法中我使用 NSURLConnection
在手动定义的套件树中增强测试用例和套件固定装置

在 Windows x86 Android TI 2 2 上使用 Boost 1 46 1 我已经定义了自己的测试套件树因为我需要用户选择测试的顺序尽管我知道测试应该是独立的但这是一个要求使用我自己的实现重新定义了测试套件树test
Android 无法删除自定义标题栏周围的填充

我正在向标题标题添加一个自定义 img 但无论我做什么 img 的每一侧仍然有一个小间隙也显示在这个中 question https stackoverflow com questions 2665507 custom title bar
解析器错误 cxf-beans.xml 找不到元素“jaxws:endpoint”的声明
为什么我的响应式 html/css 无法在手机上运行？

我创建了一个测试地点 https test chozan co 我在 css 中使用了媒体查询但是当我在移动设备上加载页面时我看不到移动版本并且当我重新调整浏览器大小时网站会响应我在多个地方读过不要使用 device width
使用 Composer 安装/更新后是否应该自动从磁盘删除依赖项？

从composer json 中删除依赖项并运行安装或更新后我是否应该期望这些文件会自动从磁盘中删除我必须手动删除它们不确定是否应该这样做运行作曲家update将删除您从composer json中删除的包 Since instal
scala 中的“悬空”本地块

在 scala 中可以在函数中定义局部块本地块计算最后一条语句例如 val x val x 1 x 1 Here x 2 内部val x是该块本地的然而在编写匿名类时这些本地块可能会导致隐秘的错误例如来自scala的参考 n
ISymbol.DeclaringSyntaxReferences 和 ISymbol.Locations 之间的区别

两者有什么区别声明语法引用 http source roslyn codeplex com Microsoft CodeAnalysis Symbols ISymbol cs 7f9fc305c0940c9b财产和地点 http sourc
异常：System.ArgumentException：不支持关键字：将连接字符串硬编码到 dbcontext 时“初始目录”

我首先将连接字符串硬编码到实体框架数据库的 dbcontext 中 public MirrorBranchesEntities string connectionStringName string db base name connecti
HighStock 图表无法通过 SSL（即 https）工作

我有一个网站它是一个安全网站意味着可以使用以下方式访问它https 协议这个网站上有 highchart 当协议执行时 highchart 工作得很好http 但安装安全证书后它无法在任何浏览器中加载我已导入 HighStock
在网络网格中添加行

我正在使用 MVC 3 webgrid 我需要在 webgrid 中添加一个新行以显示产品表中的价格总和任何想法表示赞赏这是我的代码 WebGrid grid new WebGrid source Model rowsPerPage 3
在 AWS Glue 中转换其他列的数据类型时，某些列会变为 null

我正在尝试使用 AWS Glue 将 csv 数据从 AWS S3 移动到 AWS Redshift 我正在移动的数据使用非标准格式来记录每个条目的时间戳例如 01 JAN 2020 01 02 03 因此我的胶水爬行程序将此列作为字符串
网站上的数据泄露暴露了 Chrome 在我的登录表单上发送的密码消息

I made a login form an authenticated user is redirected to their home page But along with redirection chrome sent me thi
pandas scatter_matrix 方法的签名

Signature pandas scatter matrix frame alpha 0 5 figsize None ax None grid False diagonal hist marker density kwds None h
如何使用 Storyboard 在 AppDelegate 中使用自定义导航控制器

我有一个关于 AppDelegate 中的 Navigationcontroller 的问题我正在使用故事板如下所示由于使用推送通知我的 AppDelegate 文件中具有以下功能 void application UIApplic
对角循环二维数组

我编写了以下代码来遍历数组的一半对角线 String b a b c d e f g h i public void LoopDiag for int i b length 1 i gt 0 i String temp for int j
当 main() 退出时，分离的线程会发生什么？

假设我正在开始一个std thread进而detach 它所以线程继续执行即使std thread曾经代表它的东西已经超出了范围 Assume further that the program does not have a relia
如何使用 Jackson 将对象转换为具有前导零的整数字段的 JSON？

当我尝试转换具有整数字段的对象时其值为0000 转换后的 JSON 包含0代替0000 我该如何配置杰克逊的ObjectMapper转换0000 to 00000 前导 0 表示八进制数因此 JSON 中的数值不允许有前导零请参阅以下
组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

我明白那个unicodedata normalize将变音符号转换为非变音符号 import unicodedata join c for c in unicodedata normalize NFD u B u0153uf if unic

组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化 的相关文章

随机推荐

热门标签

组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化的相关文章