python中处理字符编码问题

2023-05-16

NO.1认识字符编码

GBK

	***win默认中文字符编码是:

GBK


Unicode

	***(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。兼容GB2312、GBK......***

ASCII

	***美国(国家)信息交换标准(代)码,一种使用7个或8个二进制位进行编码的方案,最多可以给256个字符

ASCII(包括字母、数字、标点符号、控制字符及其他符号)分配(或指定)数值。***

Unicode默认两个字节(16)位表示一个中文或者英文;
ascII默认一个字节(8)位表示,只能存英文或特殊字符;

UTF-8((可变长的字符编码)

	***EG:原本一个英文文档本来是ASCII做字符编码集,要是用了Unicode则增加了一倍空间,造成了空间的浪费,为了解决这个问题,在Unicode的基础上, 衍生出了Unicode的扩展集 :UTF-8(可变长的字符编码)***

默认:所有的英文字符按ASCII码的形式去存储,所有的中文字符统一是三个字节

字符编码的各种转换

以下图片来自博客:https://www.cnblogs.com/luotianshuai/articles/5735051.html
字符编码集关系图

总结:所有不同编码之间的转换都要经过Unicode来当作媒介

日文的字符要在中国的win上显示或者应用的过程: 先将日文的字符编码转换成Unicode,再由Unicode转换成中文的GBK

python3上默认所有的字符都是Unicode类型

以下小实验以下python3中从UTF-8转成GBK
encode:编码
decode:解码

#-*-coding:utf-8-*-

import sys
print(sys.getdefaultencoding())
                  
[root@localhost mnt]# python -V
Python 3.6.5
[root@localhost mnt]# python test.py 
utf-8    #系统做过设置,一般默认是Unicode
[root@localhost mnt]# 

在python2版本中默认是ascii
在这里插入图片描述

字符转换实验 python2.7环境
python2默认字符集(ascii)转换成unicode-》utf-8类型

#-*- coding:utf-8 -*-
import sys
print(sys.getdefaultencoding())   #打印默认字符编码集


s = '你好'
s_to_unicode = s.decode("utf-8")  #转成utf-8(属unicode于)
print(s_to_unicode)
print(type(s_to_unicode))   #打印类型

###########################打印
[root@localhost mnt]# python test.py 
ascii
你好
<type 'unicode'>
[root@localhost mnt]# 

#把unicode类型转换成gbk类型

#-*- coding:utf-8 -*-
import sys
print(sys.getdefaultencoding())


s = '你好'
s_to_unicode = s.decode("utf-8")
print(s_to_unicode)
print(type(s_to_unicode))

s_to_gbk = s_to_unicode.encode("gbk")
print(s_to_gbk)



[root@localhost mnt]# python test.py 
ascii
你好     #CRT设置成GB2312  按说应该设置成默认,因为win默认是GBK字符编码集
[root@localhost mnt]#

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python中处理字符编码问题 的相关文章

  • Pythonanywhere 安装并导入新模块

    我是 Pythonanywhere 的新手 想要安装 soundcloud Python 模块 我打开了 Bash 控制台并给出了pip install user soundcloud命令 它似乎已经安装 正如我使用时在模块列表中看到的那样
  • 使用“iloc”时出现“尝试在 DataFrame 切片的副本上设置值”错误

    Jupyter 笔记本返回此警告 C anaconda lib site packages pandas core indexing py 337 SettingWithCopyWarning A value is trying to be
  • 在 Python 中搜索文本文件并打印相关行?

    如何在文本文件中搜索关键短语或关键字 然后打印关键短语或关键字所在的行 searchfile open file txt r for line in searchfile if searchphrase in line print line
  • Matplotlib imshow:如何在矩阵上应用蒙版

    我正在尝试以图形方式分析二维数据 matplotlib imshow在这方面非常有用 但我觉得如果我可以从矩阵中排除一些单元格 超出感兴趣范围的值 我可以更多地利用它 我的问题是这些值使我感兴趣的范围内的色彩图 变平 排除这些值后 我可以获
  • 在 HSV 颜色空间内定义组织学图像掩模的颜色范围(Python、OpenCV、图像分析):

    为了根据颜色将组织学切片分成多个层 我修改了 OpenCV 社区提供的一些广泛分布的代码 1 我们的染色程序用不同的颜色标记组织横截面的不同细胞类型 B 细胞为红色 巨噬细胞为棕色 背景细胞核为蓝色 I m interested in se
  • 如何向未知用户目录读取/写入文件?

    我正在尝试从用户目录 C Users USERNAME Test Source 读取和写入文件 但我未能成功找到任何有关如何自动检测用户名的资源 其中的 USERNAME上面的例子 或者无论如何 我可以让它读取和写入目录 而不需要知道用户名
  • OpenPyXL - 如何查询单元格边框?

    python 和 openpyxl 都是新的 编写一个 py 脚本来遍历大量 Excel 工作簿 工作表 并且需要找到由边框格式标识的某些单元格 我在网上看到几个关于如何设置单元格边框的示例 但我需要阅读它们 具体来说 当表内的数据不一致但
  • 代码运行时出现内存问题(Python、Networkx)

    我编写了一个代码来生成具有 379613734 条边的图 但由于内存问题 代码无法完成 当经过 6200 万行时 大约会占用服务器内存的 97 所以我杀了它 您有解决这个问题的想法吗 我的代码是这样的 import os sys impor
  • 会话cookie太大烧瓶应用程序[重复]

    这个问题在这里已经有答案了 我正在尝试使用会话 本地 加载某些数据 并且它已经工作了一段时间 但是现在我收到以下警告 并且不再加载通过会话加载的数据 b session cookie 太大 该值是 13083 字节 但是 标头需要 44 个
  • 如何检查Docker中是否安装了python包?

    我使用Dockerfile成功构建了一个容器 但是 我的代码在容器中不起作用 如果我手动安装所有软件包 它确实有效 我假设我搞砸了一些导致 docker 没有正确安装软件包的事情 所以 我想检查Docker容器中是否安装了python包 最
  • Pandas系列矢量化文本处理

    我想使用矢量化操作改进我的 Pandas 代码 假设我有一个简单的 DataFrame 其中有一个文本列 其中可能包含 url Column1 0 hello http www google com 1 bye www mail com w
  • 如何使用列表理解从列表中删除重复的项目? [复制]

    这个问题在这里已经有答案了 如何使用列表理解从列表中删除重复的项目 我有以下代码 a 1 2 3 3 5 9 6 2 8 5 2 3 5 7 3 5 8 b b item for item in a if item not in b 但它不
  • XGBOOST 功能名称错误 - Python

    也许这个问题已经以不同的形式被问过很多次了 但是 我的问题是当我使用XGBClassifier 对于像数据这样的产品 我收到功能名称不匹配错误 我希望有人能告诉我我做错了什么 这是我的代码 顺便说一句 数据完全是编造的 import pan
  • 如何在 Python 中从 C++/C# 紧密实现 ?: ?

    在 C 中 我可以轻松编写以下内容 string stringValue string IsNullOrEmpty otherString defaultString otherString 有没有一种快速的方法可以在 Python 中做同
  • 如何在Python中使用内联正则表达式修饰符[重复]

    这个问题在这里已经有答案了 我有一个正则表达式 n DOCUMENTATION n n n 2 s 女巫我正在尝试处理这样的一些文件 usr bin python coding utf 8
  • 如何在 django-rest-framework 查询集响应中添加注释数据?

    我正在为查询集中的每个项目生成聚合 def get queryset self from django db models import Count queryset Book objects annotate Count authors
  • 当输入是 DataFrame 时,在seaborn中对箱线图进行分组

    我打算在一个图中绘制多个列pandas dataframe 全部按另一列分组 使用groupby inside seaborn boxplot 对于类似的问题 这里有一个很好的答案matplotlib matplotlib 分组箱线图 ht
  • Django model.foreignKey 并返回 self.text 错误

    所以我正在 Django 中处理 model py 但遇到了 2 个 pylint 错误 我不明白为什么 这是 pylint 的问题还是我在代码中做错了什么 E1120 No value for argument on delete in
  • 如何使用 NLP 确定句子中的中心词?

    例如 如果我得到一个句子 一名英国士兵在阿富汗战斗中丧生 这句话的中心词是 杀 给定 Python 中的 nltk 包 我怎样才能找到它 我不是在谈论词干 我指的是中心词 您正在寻找中心词句子解析 它可以在 Python 的 nltk 包中
  • python nltk从句子中提取关键字

    我们要做的第一件事 就是杀掉所有律师 威廉 莎士比亚 鉴于上面的引用 我想退出 kill and lawyers 作为两个突出的关键词来描述句子的整体含义 我提取了以下名词 动词 POS 标签 First NNP thing NN do V

随机推荐