Python 对于单个 Unicode 字符串返回长度为 2

2024-01-30

在 Python 2.7 中：

In [2]: utf8_str = '\xf0\x9f\x91\x8d'
In [3]: print(utf8_str)
????
In [4]: unicode_str = utf8_str.decode('utf-8')
In [5]: print(unicode_str)
???? 
In [6]: unicode_str
Out[6]: u'\U0001f44d'
In [7]: len(unicode_str)
Out[7]: 2

Since unicode_str只包含一个 unicode 代码点 (0x0001f44d)，为什么len(unicode_str)返回 2 而不是 1？

您的 Python 二进制文件是使用 UCS-2 支持编译的（anarrowbuild），并且内部 BMP（基本多语言平面）之外的任何内容都使用代理对 https://en.wikipedia.org/wiki/UTF-16#U.2B10000_to_U.2B10FFFF.

这意味着在询问长度时，此类代码点会显示为 2 个字符。

如果这很重要，您必须重新编译 Python 二进制文件才能使用 UCS-4 (./configure --enable-unicode=ucs4将启用它），或升级到 Python 3.3 或更高版本，其中Python 对 Unicode 支持进行了彻底修改 https://docs.python.org/3/whatsnew/3.3.html#pep-393使用可变宽度 Unicode 类型，根据所包含的代码点的需要在 ASCII、UCS-2 和 UCS-4 之间切换。

在 Python 版本 2.7 和 3.0 - 3.2 上，您可以通过检查来检测您拥有的构建类型sys.maxunicode value https://docs.python.org/2/library/sys.html#sys.maxunicode;这将是2^16-1 == 65535 == 0xFFFF对于狭窄的 UCS-2 构建，1114111 == 0x10FFFF适用于广泛的 UCS-4 构建。在 Python 3.3 及更高版本中，它始终设置为 1114111。

Demo:

# Narrow build
$ bin/python -c 'import sys; print sys.maxunicode, len(u"\U0001f44d"), list(u"\U0001f44d")'
65535 2 [u'\ud83d', u'\udc4d']
# Wide build
$ python -c 'import sys; print sys.maxunicode, len(u"\U0001f44d"), list(u"\U0001f44d")'
1114111 1 [u'\U0001f44d']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 对于单个 Unicode 字符串返回长度为 2 的相关文章

在 python 程序中合并第三方库的最佳实践是什么？

下午好我正在为我的工作编写一个中小型Python程序该任务需要我使用 Excel 库xlwt and xlrd 以及一个用于查询 Oracle 数据库的库称为CX Oracle 我正在通过版本控制系统即CVS 开发该项目我想知道围
使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
Flask 会话变量

我正在用 Flask 编写一个小型网络应用程序当两个用户在同一网络下尝试使用应用程序时我遇到会话变量问题这是代码 import os from flask import Flask request render template
如何在 Python 中检索 for 循环中的剩余项目？

我有一个简单的 for 循环迭代项目列表在某些时候我知道它会破裂我该如何退回剩余的物品 for i in a b c d e f g try some func i except return remaining items if s
Python pickle：腌制对象不等于源对象

我认为这是预期的行为但想检查一下也许找出原因因为我所做的研究结果是空白我有一个函数可以提取数据创建自定义类的新实例然后将其附加到列表中该类仅包含变量然后我使用协议 2 作为二进制文件将该列表腌制到文件中稍后我重新运行脚本
绘制方程

我正在尝试创建一个函数它将绘制我告诉它的任何公式 import numpy as np import matplotlib pyplot as plt def graph formula x range x np array x rang
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在seaborn displot中使用hist_kws

我想在同一图中用不同的颜色绘制直方图和 kde 线我想为直方图设置绿色为 kde 线设置蓝色我设法弄清楚使用 line kws 来更改 kde 线条颜色但 hist kws 不适用于显示我尝试过使用 histplot 但我无法为
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

如何确定 .Net DLL 是否用于 GUI 应用程序或 Web 服务？

如何确定 Net DLL 是否在 Windows GUI 应用程序或 Web 服务中运行我有一个低级类在两个应用程序之间共享并且需要在 Web 服务中使用它时禁用消息框 Windows 应用程序有超过 200 个解决方案我无法重构现
将 !important 应用于具有多个选项的字体系列

如何将 important 应用于以下样式 font family Trebuchet MS Verdana Helvetica Sans Serif 我已经尝试过这个但不起作用 font family Trebuchet MS Verd
Prolog 程序返回命题公式中的原子

我是序言新手正在尝试编写一个返回atoms在一个结构良好的命题公式中例如查询ats and q imp or p q neg p As 应该返回 p q for As 下面是我的代码它返回的公式为As 我不知道该怎么做才能拆分sing
IIS7 URL从根目录重定向到子目录[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在使用带有 IIS7 的 Windows Server 2008 我需要重定向访问的用户www mysite com to wwww
oracle中的触发器

触发器可以增强或阻碍性能的条件是什么何时使用系统中的触发器何时不使用触发器如何使用触发器来施加复杂的约束执行触发器总是会产生一些开销至少您要为导致触发器触发的每一行执行从 SQL 引擎到 PL SQL 引擎的上下文转换虽然触发
JavaFX ObservableList - 添加项目导致 ConcurrentModificationException

我有一张桌子Albums用户可以过滤和排序这是该表的样子正如您所看到的这些列是可排序的并且顶部有一个文本框当前正在过滤其中包含字符串 cu 的专辑一切都很完美填充专辑列表后但是如果我在填充专辑列表时尝试排序或过滤我会得到一
c++ 不合逻辑 >= 处理 vector.size() 时的比较很可能是由于 size_type 是无符号的

在处理 vector size 又名 size type 时我可以使用一些帮助来澄清这种奇怪的比较 vector
如何更改 jqgrid 中弹出的列选择器中的列名称？

我有一个两列标题 Phase1 和 Phase 2 图像 1 现在在列选择器窗口中显示列名称图 2 Name 类别子类别类别子类别我想以不同的方式展示 Name 一等奖组一期子类别 Ph2组 Ph2子类别注意根据我的要求不要
何时在 Ruby 中使用“self”

这个方法 def format stations and date from station titelize if from station respond to titleize to station titleize if to st
使用 Windows 身份验证对单个操作而不是整个应用程序进行身份验证

我想在某个计算机上使用 Windows 集成身份验证进行身份验证单控制器动作而不是全局应用程序我在网上和StackOverflow上阅读了很多文章但没有找到答案请注意我正在 Web API 2 0 中进行开发而不是 MVC 也就是
XMLHttpRequest 上传带有参数的文件

我想使用 Safari 5 1 的 XMLHTTRequest 上传文件并在 POST 请求中传递参数这如何实现它应该是纯 JavaScript 而不使用任何 API 我这样做是因为 Safari 不支持 5 1 版本中的 FileRe
为什么 Python 异常被命名为“Error”？

为什么 Python 异常被命名为 Error 例如ZeroDivisionError NameError TypeError 而不是例外例如ZeroDivisionException NameException TypeExcepti
Google 群组和订阅代码

我对任何领域的编程都是新手刚开始我有一个添加订阅按钮的任务我拥有的 Google 群组邮件列表一个网站我没有 Google 应用引擎要求非常简单网站中的订阅按钮可以自动将人们订阅到邮件列表语言 PHP HTML 不要问我有关
ReplaceReducer 导致意外的键错误

我有一个 React 应用程序它动态加载模块包括模块的减速器函数然后调用 Redux 的replaceReducer 来替换减速器不幸的是我收到了一个错误在传递给 createStore 的初始状态参数中发现意外的键 bookEn
如何在 SQLAlchemy 中使用通配符？ [复制]

这个问题在这里已经有答案了我正在尝试使用 SQLAlchemy 对查询使用通配符但我得到一个空列表 My code engine create engine os getenv DATABASE URL db scoped sessio
如何使 IconButton 的突出显示颜色显示在父窗口小部件上？

当我设置包含 IconButton 的容器的颜色时我发现 IconButton 的突出显示颜色被容器的颜色隐藏了这就是我的意思如何保证蓝圈出现above红方块这是我的代码 import dart ui import package
Google 通过图像脚本搜索本地图像[重复]

这个问题在这里已经有答案了我正在搜索一个脚本来查找与本地图像相似的图像实际上我在 stackoverflow 上搜索过类似的主题但找不到任何解决方案或线索来解决我的问题以下网址中的主题与我的问题类似但它使用文本进行搜索 pyth
更改 Spark 数据框中列的可为空属性

我正在手动创建一个数据框进行一些测试创建它的代码是 case class input id Long var1 Int var2 Int var3 Double val inputDF sqlCtx createDataFrame Lis
jQuery UI 在下降时平滑过渡

我正在使用 jQuery UI 卡牌掉落插件创建一个非常简单的配对游戏我想让卡掉落的捕捉过渡更加平滑这样当您将正确的卡掉落到正确的插槽上时它就会稳定地移动到位她是一个 JSFiddlehttp jsfiddle net AyN2a
Python 对于单个 Unicode 字符串返回长度为 2

在 Python 2 7 中 In 2 utf8 str xf0 x9f x91 x8d In 3 print utf8 str In 4 unicode str utf8 str decode utf 8 In 5 print unico

Python 对于单个 Unicode 字符串返回长度为 2

Python 对于单个 Unicode 字符串返回长度为 2 的相关文章

随机推荐

热门标签