字符集和编码的故事

2023-05-16

作者： haoxiaobo
转载： http://www.cnblogs.com/haoxiaobo/p/6723498.html

快下班了，爱问问题的小朋友Nico又问了一个问题：
　　“sqlserver里面有char和nchar，那个n据说是指unicode的数据，这个是什么意思。”
　　并不是所有简单的问题都很容易回答，就像这个问题一样。于是我答应专门写一篇BLOG来从头讲讲编码的故事。那么就让我们找个草堆坐下，先抽口烟，看看夜晚天空上的银河，然后想一想要从哪里开始讲起。嗯，也许这样开始比较好……
　　
　　
　　很久很久以前，有一群人，他们决定用8个可以开合的晶体管来组合成不同的状态，以表示世界上的万物。他们看到8个开关状态是好的，于是他们把这称为“字节”。
　　再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很多状态，状态开始变来变去。他们看到这样是好的，于是它们就这机器称为“计算机”。
　　
　　开始计算机只在美国用。八位的字节一共有256种不同的状态。
　　他们把其中的编号从0开始的32种状态分别规定了特殊的用途，一但终端、打印机遇上这些字节被传过来时，就要做一些约定的动作。于是打印机会打印反白的字了（0x1b…），会换行(0x10)了，终端会嘟嘟(0x07)叫了，有色彩(0x1b…)了。他们看到这样很好，于是就把这些0x20以下的字节状态称为“控制码”。
　　他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编到了第127号，这样计算机就可以用不同字节来存储英语的文字了。大家看到这样，都感觉很好，于是大家都把这个方案叫做ANSI的“Ascii”编码（American Standard Code for Information Interchange，美国信息互换标准代码），所有的计算机都用同样的ASCII方案来保存英文文字。
　　后来，就像建造巴比伦塔一样，世界各地的都开始使用计算机，但是很多国家用的不是英文，他们的字母里有许多是ASCII里没有的，为了可以在计算机保存他们的文字，他们决定采用127号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态255。从128到255这一页的字符集被称“扩展字符集”。从此之后，贪LAN的人类再没有新的状态可以用了，美帝国主义可能没有想到还有第三世界国家的人们也希望可以用到计算机吧！
　　等中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，况且有6000多个常用汉字需要保存呢。但是这难不倒智慧的中国人民，我们直接不客气地把那些127号之后的奇异符号们取消掉, 规定：两个连续字节表示一个汉字，高字节(前面的一个字节)从0xA1用到0xF7，低字节从0xA1到0xFE，这样我们就可以组合出大约7000多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的“全角”字符，而原来在127号以下的那些就叫“半角”字符了。
　　中国人民看到这样很不错，于是就把这种汉字方案叫做“GB2312”。GB2312是对ASCII的中文扩展。
　　但是中国的汉字太多了，我们很快就就发现有许多人的人名没有办法在这里打出来，特别是某些很会麻烦别人的国家领导人。于是我们不得不继续把GB2312没有用到的码位找出来老实不客气地用上。
　　后来还是不够用，于是干脆不再要求低字节一定是127号之后的内码，只要第一个字节是大于127就固定表示这是一个汉字的开始，不管后面跟的是不是扩展字符集里的内容。结果扩展之后的编码方案被称为GBK标准，GBK包括了GB2312的所有内容，同时又增加了近20000个新的汉字（包括繁体字）和符号。
　　后来少数民族也要用电脑了，于是我们再扩展，GBK扩成了GB18030，又加了几千个新的少数民族的字。从此之后，中华民族的文化就可以在计算机时代中传承了。
　　中国的程序员们看到这一系列汉字编码的标准是好的，于是通称他们叫做“DBCS”（Double byte charecter set双字节字符集）。在DBCS系列标准里，单字节字符和双字节字符同时存在，因此他们写的程序为了支持中文处理，必须要注意字串里的每一个字节的值，如果这个值是大于127的，那么就认为一个双字节字符集里的字符出现了。那时候凡是受过加持，会编程的人都要每天念下面这个咒语数百遍：
　　“一个汉字算两个英文字符！一个汉字算两个英文字符……”
　　
　　但是世界民族之林中，还有很不少用不上电脑的少数民族，他们的文字怎么办？而且各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码。当时的中国人想让电脑显示汉字，就必须装上一个“汉字系统”，专门用来处理汉字的显示、输入的问题，但是那个台湾的愚昧封建人士写的算命程序就必须加装另一套支持BIG5编码的什么“倚天汉字系统”才可以用。
　　真是计算机的巴比伦塔命题啊！
　　正在这时，国际标谁化组织ISO及时出现了，他们决定废了所有的地区性编码方案，重新搞一个包括了地球上所有文化、所有字母和符号的编码来，还打算叫它“Universal Multiple-Octet Coded Character Set”，简称UCS, 俗称“UNICODE”。
　　UNICODE开始制订时，计算机的存储器容量极大地发展了，空间再也不成为问题了。于是ISO就没有考虑与ANSI兼容的问题，而直接规定必须用两个字节，也就是16位来统一表示所有的字符，由于“半角”英文符号只需要用到低８位，所以其高位永远是０，因此这种大气的方案在保存英文文本时会多浪费一倍的空间。
　　这时候，从旧社会里走过来的程序员开始发现一个奇怪的现象：他们的strlen函数靠不住了，一个汉字不再是相当于两个字符了，而是一个！是的，从UNICODE开始，无论是半角的英文字母，还是全角的汉字，它们都是统一的“一个字符！”同时，也都是统一的“两个字节”，请注意“字符”和“字节”两个术语的不同。UNICODE的一个字符就是两个字节。一个汉字算两个英文字符的时代已经快过去了。
　　多种字符集存在时，那些做多语言软件的公司遇上了很大麻烦，他们在区域化软件时不得不也加持那个双字节字符集咒语，还要处处小心不要搞错。UNICODE对于他们来说是一个很好的一揽子解决方案，于是从Windows NT开始，MS趁机把它们的操作系统改了一遍，把所有的核心代码都改成了兼容UNICODE的版本，从这时开始，WINDOWS系统终于无需要加装各种本土语言系统，就可以显示全世界上所有文化的字符了。
　　但是，UNICODE在制订时没有考虑与任何一种现有的编码方案保持兼容，这使得GBK与UNICODE在汉字的内码编排上完全是不一样的，没有一种简单的算术方法可以把文本内容从一个编码转换到另一种编码，这种转换必须通过查表来进行。
　　如前所述，UNICODE是用两个字节来表示为一个字符，他总共可以组合出65535不同的字符，这大概已经可以覆盖世界上所有文化的符号。如果还不够也没有关系，ISO已经准备了UCS-4方案，说简单了就是四个字节来表示一个字符，这样我们就可以组合出21亿个不同的字符出来（最高位有其他用途），这大概可以用到银河联邦成立那一天吧！
　　
　　UNICODE来到时，一起到来的还有计算机网络的兴起，UNICODE如何在网络上传输也是一个必须考虑的问题，于是面向传输的众多UTF（UCS Transfer Format）标准出现了，顾名思义，UTF8就是每次8个位传输数据，而UTF16就是每次16个位，只不过为了传输时的可靠性，从UNICODE到UTF时并不是直接的对应，而是要过一些算法和规则来转换。
　　受到过网络编程加持的计算机僧侣们都知道，在网络里传递信息时有一个很重要的问题，就是对于数据高低位的解读方式，一些计算机是采用低位先发送的方法，例如我们的INTEL架构，而另一些是采用高位先发送的方式，在网络中交换数据时，为了核对双方对于高低位的认识是否是一致的，采用了一种很简便的方法，就是在文本流的开始时向对方发送一个标志符——如果之后的文本是高位在位，那就发送“FEFF”，反之，则发送“FFFE”。不信你可以用二进制方式打开一个UNICODE或是UTF-X格式的文件，看看开头两个字节是不是这两个字节？
　　
　　讲到这里，我们再顺便说说一个很著名的奇怪现象：当你在windows的记事本里新建一个文件，输入“联通”两个字之后，保存，关闭，然后再次打开，你会发现这两个字已经消失了，代之的是几个乱码！呵呵，有人说这就是联通之所以拼不过移动的原因。
　　其实这是因为GB2312编码与UTF8编码产生了编码冲撞的原因。
　　从网上引来一段从UNICODE到UTF8的转换规则：

Unicode	UTF-8
0000 – 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 – FFFF	1110xxxx 10xxxxxx 10xxxxxx

　　例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 1100 0100 1001，将这个比特流按三字节模板的分段方法分为0110 110001 001001，依次代替模板中的x，得到：1110-0110 10-110001 10-001001，即E6 B1 89，这就是其UTF8的编码。
　　而当你新建一个文本文件时，记事本的编码默认是ANSI, 如果你在ANSI的编码输入汉字，那么他实际就是GB系列的编码方式，在这种编码下，“联通”的内码是：


c1	1100	0001
aa	1010	1010
cd	1100	1101
a8	1010	1000

　　注意到了吗？第一二个字节、第三四个字节的起始部分的都是“110”和“10”，正好与UTF8规则里的两字节模板是一致的，于是再次打开记事本时，记事本就误认为这是一个UTF8编码的文件，让我们把第一个字节的110和第二个字节的10去掉，我们就得到了“00001 101010”，再把各位对对齐，补上前导的0，就得到了“0000 0000 0110 1010”，不好意思，这是UNICODE的006A，也就是小写的字母“j”，而之后的两字节用UTF8解码之后是0368，这个字符什么也不是。这就是只有“联通”两个字的文件没有办法在记事本里正常显示的原因。
　　而如果你在“联通”之后多输入几个字，其他的字的编码不见得又恰好是110和10开始的字节，这样再次打开时，记事本就不会坚持这是一个utf8编码的文件，而会用ANSI的方式解读之，这时乱码又不出现了。
　　
　　好了，终于可以回答NICO的问题了，在数据库里，有n前缀的字串类型就是UNICODE类型，这种类型中，固定用两个字节来表示一个字符，无论这个字符是汉字还是英文字母，或是别的什么。
　　如果你要测试“abc汉字”这个串的长度，在没有n前缀的数据类型里，这个字串是7个字符的长度，因为一个汉字相当于两个字符。而在有n前缀的数据类型里，同样的测试串长度的函数将会告诉你是5个字符，因为一个汉字就是一个字符。
　　
　　希望这篇文章正是NICO想要的.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

字符集和编码的故事的相关文章

用Python来表白，把情书写进她的照片里

前言这不已经十一月了 xff0c 22年马上就过完了 xff0c 各位兄弟有对象了吗 xff0c 现在就是缺钱还缺对象退一步来说 xff0c 有心仪的人吗啊 xff0c 如果有的话 xff0c 看看这篇程序员的表白小妙招吧实现步骤
用Python采集球员信息，成功预测到了球赛胜负？

前言嗨嗨 xff0c 最近看球赛的朋友多吗 emm怎么说 xff0c 我对这个虽然兴趣不是很大但是还是想跟朋友赌赌 xff0c 自己对这些球员也不是很熟悉 xff0c 索性叫我的好同事帮我用Python采集了各国球员的一些信息 xff0
Python制作粒子烟花，提前开始跨年？

前言跨年倒计时20天 xff1f 我已经开始整烟花了 xff0c 虽然不是很好看吧 xff0c 但是也能将就看看 x1f625 这个的背景图 xff0c 音乐 xff0c 还有文字都是可以自己修改的哦效果展示导入库 span clas
最简易的教程 -一篇文章教会你用Python打包文件

前言嗨嗨 xff0c 好久不见 xff0c 我是我叫 emmm你们好我是一堆英文字母 xff08 名字乱打的不好yi shi xff09 看到文章的人多不多 xff0c 我不知道 xff0c 招呼我还是要打一个的 x1f44d 今天文
10-26 查询成绩最高的前三名同学(MSSQL)

本题目要求编写SQL语句 xff0c 查询 C语言课程成绩最高的前三名同学提示 xff1a MSSQLServer 评测SQL语句表结构请在这里写定义表结构的SQL语句例如 xff1a 学生表 CREATE TABLE stu s
如何用python代码，更改照片尺寸，以及更换照片底色

前言 python浅浅替代ps xff1f 如何用代码来p证件照并且更换底色 xff1f 唉 xff0c 有个小姐姐给我扔了张照片 xff0c 叫我帮忙给她搞成证件照的尺寸还得换底色 xff0c 她说自己忙的很可惜电脑上没有ps只有pyc
五一回家没票？给你分享这个用Python制作出来的查票抢票脚本

前言有人想去武汉 xff0c 重庆 xff0c 成都玩的吗 xff0c 我五一想去 xff0c 但是奈何公司假期一直没有公布 xff0c 具体假期耶不知道几天 xff0c 结果今晚上知道了 xff0c 然后马上点开我的12306 xff0
初学Python来用它制作一个简单的界面

前言很多刚开始学习python的宝子 xff0c 就想着自己开始琢磨一些界面 xff0c 但是吧很多都是有点难度的 xff0c 自己又琢磨不透 xff0c 只能把代码复制粘贴 43 运行现在就带你们来了解一个制作简单界面的代码 ttkb
拿到数据，如何用Python来做可视化分析？

前言很多朋友现在都是学校布置好作业 xff0c 有了爬下来的数据 xff0c 结果老师说需要做个数据分析还能怎么办 xff0c 做啊 xff0c 都吩咐下来了 xff0c 只能上网搜搜搜 xff0c 这不今天就有个来找我的 x1f447
解决安装import nonebot后报错importError问题

一问题描述 python3 9 12 执行 import nonebot 报错信息如下 xff1a Traceback span class token punctuation span most recent call last spa
解决云服务器上go-cqhttp扫码登录QQ失败问题

解决云服务器上go cqhttp扫码登录QQ失败问题搭建环境 go cqhttp v1 0 0 rc1 nonebot V1 9 1 python 3 9 12 CentOs 7 6 本篇文章仅仅分享如何登录的问题 xff0c 当然对于Q
Kaldi语音识别技术(一) ----- 搭建Kaldi环境

Kaldi语音识别技术一搭建Kaldi环境从零开始搭建Kaldi环境解决kaldi编译tools出错相关问题破防了最近入门语音识别相关的领域用的kaldi 结果make的时候是各种报错我用的操作环境是Vmware16 2 4
Ubuntu22.04.1安装ROS2入门级教程(ros-humble)

Ubuntu22 04 1安装ROS2入门级教程 ros humble 文章目录 Ubuntu22 04 1安装ROS2入门级教程 ros humble 一键安装ROS 五星推荐前言一安装Vmware16 2二下载Ubuntu 22
解决Pycharm运行服务器文件时出现Cannot find remote credentials for target config com.jetbrains.plugins.remotesdk.

解决Pycharm运行服务器文件时出现Cannot find remote credentials for target config com jetbrains plugins remotesdk target webDeployment
单片机---1MHz方波的产生(中断和查询方式)

单片机定时计数器方式产生1MHz方波要求使用定时器1 xff0c 采用工作方式1 xff0c 在输出口P2 0产生周期未1秒的方波 xff1b 定时计数基本流程计算初值定义TMOD寄存器确定 T0 或 T1 为工作方式把计数器初值
10-164 查询图书表中全部图书的最高售价、最低售价和平均售价

分数 3 全屏浏览题目切换布局作者刘冬霞单位山东理工大学本题目要求编写SQL语句 xff0c 查询图书表中全部图书的最高售价最低售价和平均售价提示 xff1a 请使用SELECT语句作答表结构图书 xff08 条形码文
Proteus8.15 Professional的安装

Proteus8 15 Professional的安装基本介绍 Proteus 8 15 Pro是一款计算机辅助设计电子电路的软件包该封装是一个基于PSPICE电子元件模型的电路仿真系统 Proteus 8是一个单一的应用程序 xff0
Kaldi语音识别技术(六) ----- DTW和HMM-GMM

Kaldi语音识别技术六 DTW和HMM GMM 文章目录 Kaldi语音识别技术六 DTW和HMM GMM前言一语音识别概况二语音识别基本原理三 DTW xff08 动态时间弯折 xff09 算法四 GMM HMM 前言前面的内
Kaldi语音识别技术(七) ----- 训练GMM

Kaldi语音识别技术七 GMM 文章目录 Kaldi语音识别技术七 GMM训练GMMtrain mono sh 用于训练GMM训练GMM 生成文件训练GMM final模型查看训练GMM final occs查看训练GMM 对齐信息查
Kaldi语音识别技术(八) ----- 整合HCLG

Kaldi语音识别技术八整合HCLG 文章目录 Kaldi语音识别技术八整合HCLGHCLG 概述组合LG fst可视化 LG fst 组合CLG fst可视化CLG fst 生成H fst组合HCLG fst生成HaCLG fst

随机推荐

测试cudnn是否安装成功(针对没反应的问题)

安装cudnn后 xff0c 使用网上的命令行查看cudnn是否安装成功 cat usr local cuda include cudnn h grep CUDNN MAJOR A 2 发现没反应发生甚么事了 xff1f 奥 xff0c
Python零基础入门基础教程（非常详细）

目前python可以说是一门非常火爆的编程语言 xff0c 应用范围也非常的广泛 xff0c 工资也挺高 xff0c 未来发展也极好 Python究竟应该怎么学呢 xff0c 我自己最初也是从零基础开始学习Python的 xff0c 给大家
Spring Boot整合Mybatis-Plus和PageHelper分页插件

Spring Boot整合Mybatis Plus和PageHelper分页插件 1 导入依赖 span class token comment lt Lombok提供了一组有用的注释 xff0c 用来消除Java类中的大量样板代码 gt
centos7同时安装Python2和Python3

目录 1 背景2 安装1 1 1版本的openssl3 安装centos依赖包4 下载5 解压6 安装7 创建软链接8 ssl的使用验证9 配置阿里云镜像加速本文适用于Python 3 10 5版本 xff0c 已经过测试 1 背景我们
centos7安装mysql8.0.31版本

目录 1 卸载mariadb2 下载3 安装4 修改 etc my cnf5 启动6 修改密码 1 卸载mariadb 因centos7默认安装了mariadb 会造成依赖冲突 xff0c 按下列方式进行卸载 xff1a root 64 c
10-204 在员工表中查询所有男性员工的编号，姓名和入职日期，结果按员工编号升序排列

分数 3 全屏浏览题目切换布局作者刘冬霞单位山东理工大学查询所有男性员工的编号 xff0c 姓名和入职日期 xff0c 结果按员工编号升序排列表结构员工 xff08 员工编号文本型 xff0c 姓名文本型 xff0c 性
Ubuntu18.04安装cuDNN

Ubuntu18 04安装cuDNN 一 xff1a 安装准备 xff08 1 xff09 选择cudnn版本官网cudnn链接 xff1a https developer nvidia com rdp cudnn archive 选择c
自动写代码？别闹了！

大家好 xff0c 我是良许这几天 xff0c GitHub 上有个很火的插件在抖音刷屏了 Copilot 这个神器有啥用呢 xff1f 简单来讲 xff0c 它就是一款由人工智能打造的编程辅助工具我们来看看它有啥用首先就是代码补全功
C++构造函数的调用

对象特性构造函数和析构函数构造函数没有回值也不写void 函数值和类名相同构造函数可以有参数 xff0c 因此可以发生重载程序在调用对象的时候自动调用构造 xff0c 无须手动调用 xff0c 只能调用一次析构函数语法析构函数
Python基础---output【print()】

一输出字符串 1 一般字符串 gt gt gt print 34 My name is Pegga 34 My name is Pegga 2 输出带单引号 xff08 xff09 的字符串方法一 xff1a gt gt gt prin
sqlite3命令读出sqlite3格式的文件内容案例

Author Samson Date 07 09 2014 Test platform 3 11 0 11 generic 19 Ubuntu GNU bash version 4 2 45 sqlite是一个嵌入式的SQL数据库引擎 xf
Debian改变系统语言环境(中文切换到英文)实例

Author Samson Date 08 15 2015 Test platform gcc 4 8 2 GNU bash 4 3 11 1 release x86 64 pc linux gnu Debian 8 Debian下如何设置
nest.js创建以及error相关问题

开始之前 xff0c 你可以使用 Nest CLI 创建项目 xff0c 也可以克隆一个 starter project xff08 两者的结果是一样的 xff09 若要使用 Nest CLI 构建项目 xff0c 请运行以下命令这将创建
java读取jar包内置文件或同目录下配置文件

java读取jar包内置文件或同目录下配置文件读取jar包同目录下文件 java程序在打成jar包后 xff0c jar内的文件就不再具备文件系统级别的路径 xff0c 因此要读取jar包同目录下的文件 xff0c 就需要特殊处理这里使
MFC使用winpcap 抓包 pcap_compile使用

使用Winpcap编写 xff1a 最近工作需要抓取傻瓜交换机的MAC xff0c 由于没有IP只能使用Winpcap抓包工具来实现本人初学者 xff0c 大佬请绕行 a 先获取电脑的网卡信息在SwithCheckMacDlg h文件中
【c++】map用法详解

map是c 43 43 标准库中定义的关联容器 xff0c 是关键字 xff08 key xff09 值 xff08 value xff09 对的结合体本文记录其用法与案例 1 头文件 include lt map gt stl头文件不带
定制 kali nethunter内核 (官方不支持的手机)

Kali Linux NetHunter内核编译指南发表于 2021 09 12 更新于 2022 10 08 分类于 kali 阅读次数 xff1a 阅读次数 xff1a 1890 Valine xff1a 2 本文字数 xff1a 1
QTreeWidget设置让节点之间显示连线

ui gt treeWidget gt setStyle QStyleFactory create 34 windows 34
什么是系统调用?为什么要用系统调用?

什么是系统调用 Linux内核中设置了一组用于实现各种系统功能的子程序 xff0c 称为系统调用用户可以通过系统调用命令在自己的应用程序中调用它们从某种角度来看 xff0c 系统调用和普通的函数调用非常相似区别仅仅在于 xff0c 系
字符集和编码的故事

作者 xff1a haoxiaobo 转载 xff1a http www cnblogs com haoxiaobo p 6723498 html 快下班了 xff0c 爱问问题的小朋友Nico又问了一个问题 xff1a sqlserver

字符集和编码的故事

字符集和编码的故事 的相关文章

随机推荐

热门标签

字符集和编码的故事的相关文章