为什么使用 python split 时字符串会发生变化？

2023-12-09

test_str = "Question: The cryptocurrency Bitcoin Cash (BCH/USD) settled at 1368 USD at 07:00 AM UTC at the Bitfinex exchange on Monday, April 23. In your opinion, will BCH/USD trade above 1500 USD (+9.65%) at anу timе bеfore Арril 28? Indicаtоr: 60.76%"

print(test_str)
print(test_str.split('before '))

这是分割后得到的输出

"['Question: The cryptocurrency Bitcoin Cash (BCH/USD) settled at 1368 USD at 07:00 AM UTC at the Bitfinex exchange on Monday, April 23. In your opinion, will BCH/USD trade above 1500 USD (+9.65%) at an\xd1\x83 tim\xd0\xb5 b\xd0\xb5fore \xd0\x90\xd1\x80ril 28? Indic\xd0\xb0t\xd0\xber: 60.76%']"

Demo: https://repl.it/repls/VitalOrganicBackups

该问题是由拉丁字符和西里尔字符混合引起的。它们在大多数保单中打印完全相同，但仍然是不同的字符并且具有不同的代码。

问题中的输出适用于 Python 2.7（原始提问者使用的是什么），但在 Python 3 中很容易具有等效的行为：

>>> print(test_str.encode('UTF8'))
b'Question: The cryptocurrency Bitcoin Cash (BCH/USD) settled at 1368 USD at 07:00 AM UTC at the Bitfinex exchange on Monday, April 23. In your opinion, will BCH/USD trade above 1500 USD (+9.65%) at an\xd1\x83 tim\xd0\xb5 b\xd0\xb5fore \xd0\x90\xd1\x80ril 28? Indic\xd0\xb0t\xd0\xber: 60.76%'

unicodedata 模块有助于更好地理解实际发生的情况：

>>> for i in b'\xd1\x83\xd0\xb5\xd0\x90\xd1\x80\xd0\xbe'.decode('utf8'):
    print(i, hex(ord(i)), i.encode('utf8'), unicodedata.name(i))

у 0x443 b'\xd1\x83' CYRILLIC SMALL LETTER U
е 0x435 b'\xd0\xb5' CYRILLIC SMALL LETTER IE
А 0x410 b'\xd0\x90' CYRILLIC CAPITAL LETTER A
р 0x440 b'\xd1\x80' CYRILLIC SMALL LETTER ER
о 0x43e b'\xd0\xbe' CYRILLIC SMALL LETTER O

因此，原始文本包含西里尔字母，为了比较，它们与拉丁字母不同，即使它们打印相同。该问题与 split 无关，只是原始字符串很差。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

string

python3x

python27

为什么使用 python split 时字符串会发生变化？的相关文章

导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
java中如何连接字符串

这是我的字符串连接代码 StringSecret java public class StringSecret public static void main String args String s new String abc s co
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
NameError：名称“urllib”未定义”

CODE import networkx as net from urllib request import urlopen def read lj friends g name fetch the friend list from Liv
如何将 numpy.matrix 提高到非整数幂？

The 运算符为numpy matrix不支持非整数幂 gt gt gt m matrix 1 0 0 5 0 5 gt gt gt m 2 5 TypeError exponent must be an integer 我想要的是 oct
Nuitka 未使用 nuitka --recurse-all hello.py [错误] 编译 exe

我正在尝试通过 nuitka 创建一个简单的 exe 这样我就可以在我的笔记本电脑上运行它而无需安装 Python 我在 Windows 10 上并使用 Anaconda Python 3 我输入 nuitka recurse all h
在Python中重置生成器对象

我有一个由多个yield 返回的生成器对象准备调用该生成器是相当耗时的操作这就是为什么我想多次重复使用生成器 y FunctionWithYield for x in y print x here must be something t
类型错误：只能使用标量值执行操作

如果您能让我知道如何为所提供的表格绘制一些信息丰富的图表我将不胜感激here https www iasplus com en resources ifrs topics use of ifrs 例如我需要一个名为国内非上市公司非上
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
从 Python 中的类元信息对 __init__ 函数进行类型提示

我想做的是复制什么SQLAlchemy确实以其DeclarativeMeta班级有了这段代码 from sqlalchemy import Column Integer String from sqlalchemy ext declar
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
C# 中最小化字符串长度

我想减少字符串的长度喜欢这串 string foo Lorem ipsum dolor sit amet consectetur adipiscing elit Aenean in vehicula nulla Phasellus li
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

matplotlib 中的标记和图形大小：不确定它是如何工作的

我想制作一个标记大小取决于图形大小的图形这样使用方形标记大小无论您选择什么分辨率或图形大小所有标记都会相互接触遮盖背景而不重叠这是我所在的位置标记尺寸指定为pt 2 with 1pt 1 72inch 分辨率以每英寸像素为单
如何从文本文件中读取微分方程组并使用 scipy.odeint 求解该方程组？

我有一个大型 gt 2000 个方程 ODE 系统我想用 python scipy 的 odeint 来求解我有三个问题想要解决也许我需要问 3 个不同的问题为了简单起见我将在这里用一个玩具模型来解释它们但请记住我的系统很大假
在 PHP 中将一张图像添加到另一张图像的底部

我想在 php 中将一张图像添加到另一张图像的底部我有这个来加载图像 load top top imagecreatefrompng templateTop load bottom bottom imagecreatefrompng te
无法使用 Aptana Studio 3 创建新的 Rails 项目

我今天安装了 Aptana Studio 3 并尝试创建一个新的 Rails 项目但什么也没有被创造我可以在命令行中看到它正在运行 rails 而不是 rails new 有什么建议吗我在用着 Windows 7的导轨3 0 9 红
如何从另一个函数访问全局函数（Vue.prototype.myFn）？

我在 nuxt js 项目中并尝试创建全局函数但出现以下错误 Cannot read property toggleBodyClass of undefined 这是我的代码 plugins globals js import Vue f
如何在 Swift 4 中复制 hash_hmac('sha256', $key, $secret_key) 函数？

在使用 CommonCrypto CryptoSwift 等库之后我尝试在 Swift 4 中生成等效的 hash hmac sha256 key secret key php 函数但没有成功我需要这些函数来进行 API 身份验证使
将就地插件添加到 grails 3 项目

在 grails 2 x 中我们可以通过在 BuildConfig groovy 中添加以下内容来添加就地插件 grails plugin location my plugin my plugin 我的问题是我们是否可以在 grails
Javascript：将字符串拆分为匹配参数的数组

我有一个包含数字和数学运算符的字符串 x 混入其中 12 345x6 789 我需要将其转换为由这些数学运算符分隔的数组 12 345 x 6 789 执行此操作的简单方法是什么连续分割非数字 chars D you get consol
Scala 中柯里化的两种方式；每个的用例是什么？

我正在讨论多个参数列表在我维护的 Scala 风格指南中我开始意识到有两种方法currying 我想知道用例是什么 def add a Int b Int a b Works add 5 6 Doesn t compile val f a
仅获取与连接表中所有条目匹配的行 (SQL)

我有以下五个表 ISP Product 联系 AddOn AddOn Product 多对多关系的数据透视表每个产品都链接到一个 ISP 每个连接都列出到一个产品通过使用数据透视表该表只有 2 个字段一个用于产品 ID 一个用于附加
使用 css 将水平子菜单置于父级下方居中

最好用小提琴来展示 http jsfiddle net Jnttm 如何使子菜单位于父菜单项下方的中心我发现的许多居中技巧并不适用因为子元素比父元素更宽这可以用纯 CSS 实现吗还是我必须求助于 javascript 如果需要 JS
为什么同步字段变量并在同步块内递增它会导致打印乱序？

我有一个简单的代码片段 public class ItemManager private Integer itemCount 0 public void incrementAndPrint synchronized this System
从 Firefox WebDriver 源代码中删除机器人识别功能？

方法之一WebDriver 将自己标识为外部网站的机器人是通过设置webdriver 活动标志为真 SO 上的用户建议可以修改Chrome Driver用于删除所有机器人识别属性的源代码请参阅this and this回复是否可以通过修
在android中将word文档转换为pdf

我知道 stackoverflow 中有 n 个关于同一问题的问题但我没有得到我想要的东西我什至尝试使用jwordconvert jar from Qoppa软件但是唉它说 Unable to execute dex Java he
屏幕锁定时服务暂停

出于测试目的我制作了一项会发出蜂鸣声的服务每 1 分钟一次还没有客户端服务器接口正常时会发出蜂鸣声屏幕打开但当它进入睡眠状态时蜂鸣声停止我正在制作一个必须定期轮询服务器的应用程序为了某件事为此我正在尝试创建一项持续不
正则表达式帮助，贪婪与非贪婪

嘿我有一个很大的 html 字符串比如 a style background none href swatch4 a a style background none a
如何在不更改视图模型的属性 getter 的情况下格式化 XAML 中的字符串？

我的应用程序中有以下界面 public interface IContactMedium string ContactString get set string Type get set bool IsValid 该接口适用于代表某人某种联
将目录添加到 $LOAD_PATH (Ruby)

我见过两种常用的技术用于将当前正在执行的文件的目录添加到 LOAD PATH 或我看到了这样做的好处以防您不使用 gem 显然其中一个似乎比另一个更冗长但是有理由选择其中一个而不是另一个吗第一种冗长的方法可能有点矫枉过正 LO
WEKA & MySQL 设置连接

WEKA Explorer 无法打开与 MySQL 的连接连接到 jdbc mysql MYSERVER 3306 NAME true 顺便说一句 mysql驱动程序已下载 mysql connector java 5 1 14 bin
为什么使用 python split 时字符串会发生变化？

test str Question The cryptocurrency Bitcoin Cash BCH USD settled at 1368 USD at 07 00 AM UTC at the Bitfinex exchange o

为什么使用 python split 时字符串会发生变化？

为什么使用 python split 时字符串会发生变化？ 的相关文章

随机推荐

热门标签

为什么使用 python split 时字符串会发生变化？的相关文章