汉字编码基础知识（一）

2023-05-16

4.1.1) GB2312

范围： 0xA1A1--0xFEFE

汉字范围： 0xB0A1--0xF7FE

编码方式：

GB2312规定"对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示"，习惯上称第一个字节为"高字节"，第二个字节为"低字节"。

字符集：

GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

与ASCII有重叠，通行方法是将GB码两个字节的最高位置1以示区别。

背景知识：

GB2312 码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集--基本集》，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。该字符集是几乎所有的中文系统和国际化的软件都支持的中文字符集，这也是最基本的中文字符集。其编码范围是高位 0xa1－0xfe，低位也是0xa1-0xfe；汉字从0xb0a1开始，结束于0xf7fe。16-87区为汉字区（ 0xb0-0xf7）。故而GB2312最多能表示6763个汉字。

备注：

· GB2312 的原文还是区位码，从区位码到内码，需要在高字节和低字节上分别加上 A0 。

· 在 DBCS 中， GB 内码的存储格式始终是 big endian ，即高位在前。

· GB2312 的两个字节的最高位都是 1 。但符合这个条件的码位只有 128*128=16384 个。所以 GBK 和 GB18030 的低字节最高位都可能不是 1 。不过这不影响 DBCS 字符流的解析：在读取 DBCS 字符流时，只要遇到高位为 1 的字节，就可以将下两个字节作为一个双字节编码，而不用管低字节的高位是什么。

关键词：　中国国家标准， gb2312, 汉字：

4.1.2)GBK

范围：0×8140 - 0xFEFE

汉字范围：

GBK/2：OXBOA1-F7FE, 收录 GB2312 汉字 6763 个，按原序排列；

GBK/3：OX8140-AOFE，收录 CJK 汉字 6080 个；

GBK/4：OXAA40-FEAO，收录 CJK 汉字和增补的汉字 8160 个。

编码方式：

GBK 亦采用双字节表示，总体编码范围为 8140-FEFE 之间，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 XX7F 一条线。

字符集：

GBK 共收入21886个汉字和图形符号，包括：

GB2312 中的全部汉字、非汉字符号;

BIG5 中的全部汉字;

与 ISO-10646 相应的国家标准 GB13000 中的其它 CJK 汉字;

以上合计 20902 个汉字。

其它汉字、部首、符号，共计 984 个。

背景知识：

GBK 向下与 GB2312 完全兼容，向上支持 ISO-10646 国际标准，是一种过渡时期的编码实现方式。

GBK是GB2312-80的扩展，是向上兼容的。它包含了20902个汉字，其编码范围是0x8140-0xfefe，剔除高位0x80的字位。其所有字符都可以一对一映射到Unicode2.0。

备注：

微软公司自Windows 95 简体中文版开始支持 GBK 代码，标准叫法是 Windows codepage 936，也叫做 GBK（国家标准），它也是 8-bit 的变长编码。据我所知 GBK从来没成为正式的国家标准，只不过因为Windows 的普及，它已经成为事实上的标准了。但目前的多数搜索引擎都不能很好地支持 GBK 汉字。

4.1.3) TW-BIG5：大五码

范围：0xA140 - 0xF9FE, 0xA1A1 - 0xF9FE

编码方式：

每个字由两个字节组成，其第一字节编码范围为0xA1~0xF9，第二字节编码范围为0×40~0×7E与0xA1~0xFE。

字符集：

总计收入13868个字 (包括5401个常用字、7652 个次常用字、7个扩充字、以及808个各式符号)。

背景知识：

Big5是台湾的IIIT1984年发明的,CNS 11643-1992( Chinese National Standard)是扩展版本,主要大家用的还是big5。BIG5又称大五码或五大码，1984年由台湾财团法人信息工业策进会和五间软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大众 (FIC)创立，故称大五码。

4.1.4)unicode

国际标准组织于1984年4月成立ISO/IECJTC1/SC2/WG2工作组，针对各国文字、符号进行统一性编码。1991年美国跨国公司成立UnicodeConsortium，并于1991年10月与WG2达成协议，采用同一编码字集。目前 Unicode 是采用 16 位编码体系，其字符集内容与ISO10646的 BMP（BasicMultilingualPlane）相同。

编码方法： Unicode 标准始终使用十六进制数字，而且在书写时在前面加上前缀 “U+” ，例如字母 “A” 的编码为 004116 。所以 “A” 的编码书写为 “U+0041” 。

Unicode 编码表
0000-0FFF	8000-8FFF	10000-10FFF	20000-20FFF	28000-28FFF
1000-1FFF	9000-9FFF		21000-21FFF	29000-29FFF
2000-2FFF	A000-AFFF		22000-22FFF	2A000-2AFFF
3000-3FFF	B000-BFFF		23000-23FFF
4000-4FFF	C000-CFFF	1D000-1DFFF	24000-24FFF	2F000-2FFFF
5000-5FFF	D000-DFFF		25000-25FFF
6000-6FFF	E000-EFFF		26000-26FFF
7000-7FFF	F000-FFFF		27000-27FFF	E0000-E0FFF

4.1.5)utf-8

utf8 是我们常用的编码方式， UTF-8 是 UNICODE 的一种变长字符编码，由 Ken Thompson 于 1992 年创建。现在已经标准化为 RFC 3629 。

在 web 开发中使用 utf8 编码能完全解决字符集问题。其实 utf8 是 unicode 字符集的一种物理实现，它描述了如何高效的存储 unicode 的内码（就是上面说的字符在字符集的顺序码）， RFC2044 文档 (http://www.ietf.org/rfc/rfc2044.txt?number=2044) 描述了如何从一个内码转换成 utf8 格式的算法。英文不好没关系，看这个转换表就会马上明白了：

   UCS-4 range (hex.)           UTF-8 octet sequence (binary)
   0000 0000-0000 007F   0xxxxxxx
   0000 0080-0000 07FF   110xxxxx 10xxxxxx
   0000 0800-0000 FFFF   1110xxxx 10xxxxxx 10xxxxxx
   0001 0000-001F FFFF   11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
   0020 0000-03FF FFFF   111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
   0400 0000-7FFF FFFF   1111110x 10xxxxxx ... 10xxxxxx

上面的表格左边是 16 进制表示的 unicode 内码，最后一行的 16 进制数 “7FFF FFFF” 是 utf8 所能表示的内码的最大值，换成 10 进制是这样的一个数： 2147483647 （够大吧 :) ）上面表格中右边一列就是 utf8 的二进制格式 , 转换规则可谓一目了然。

UTF-8 编码，这是一种变长编码，它将基本 7 位 ASCII 字符仍用 7 位编码表示，占用一个字节（首位补 0 ）。而遇到与其它 Unicode 字符混合的情况，将按一定算法转换，每个字符使用 1-3 个字节编码，并利用首位为 0 或 1 进行识别。这样对以 7 位 ASCII 字符为主的西文文档就大大节省了编码长度（具体方案参见 UTF-8 ）。

UTF-8 使用可变长度字节储存，使计算机程序设计变得复杂。 ( 故此，在计算机程序或操作系统内部，多采用 UCS-2 编码。 )

在旧式的中文、日文及韩文编码之中，每字符都使用 2 字节储存，而 UTF-8 须使用 3 字节。 ( 采用 UTF-16 编码则可只使用 2 字节储存。（编者言：事实上 utf-8 又是一种美国标准的做法，为了节约编码空间而不考虑国际通用性的一种造成事实的美国标准。）

4.1.6) unicode编码方式与实现方式

unicode是一种世界语言文字的编码标准。UCS 和 Unicode 只是分配整数给字符的编码表. Unicode 的编码方式与 ISO 10646 的通用字符集（Universal Character Set，UCS）概念相对应，目前的用于实用的 Unicode 版本对应于 UCS-2，使用16 位的编码空间。也就是每个字符占用2个字节。上述16位 Unicode 字符构成基本多文种平面（Basic Multilingual Plane, 简称 BMP）。

最新（但未实际广泛使用）的 Unicode 版本定义了16个辅助平面，两者合起来至少需要占据21位的编码空间，比3字节略少。（UCS-4）

将一个 ASCII 或 Latin-1 的文件转换成 UCS-2 只需简单地在每个 ASCII 字节前插入 0x00。如果要转换成 UCS-4, 则必须在每个 ASCII 字节前插入三个 0x00。

Unicode 的实现方式不同于编码方式。一个字符的 Unicode 编码是确定的。但是在实际传输过程中，由于不同系统平台的设计不一定一致，以及出于节省空间的目的，对 Unicode 编码的实现方式有所不同。 Unicode 的实现方式称为 Unicode 转换格式 （ Unicode Translation Format ，简称为 UTF ）。

UTF-8 不使用大尾序和小尾序的形式。每个使用 UTF-8 储存的字符，除了第一个字节外，其余字节的头两个位都是以 "10" 开始，使文字处理器能够较快地找出每个字符的开始位置。


* 0xxxxxxx                                               (00-7f)


* 110xxxxx 10xxxxxx                                      (c0-df)(80-bf)


* 1110xxxx 10xxxxxx 10xxxxxx                             (e0-ef)(80-bf)(80-bf)


* 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx                    (f0-f7)(80-bf)(80-bf)(80-bf)


* 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx           (f8-fb)(80-bf)(80-bf)(80-bf)(80-bf)


* 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx (fc-fd)(80-bf)(80-bf)(80-bf)(80-bf)(80-bf)

其它中文编码：

GB18030:

GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。

GB18030 编码是一二四字节变长编码。

一字节部分从 0×0~0×7F 与 ASCII编码兼容。

二字节部分：首字节从 0×81~0xFE, 尾字节从 0×40~0×7E 以及0×80~0xFE, 与 GBK标准基本兼容。

四字节部分：

第一字节从 0×81~0xFE, 第二字节从 0×30~0×39, 第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从 0×0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。

Hong Kong GCCS

Hong Kong GCCS是香港政府为big5加的3049个字,(Government Chinese Character Set)香港增补字符集(HKSCS)是后来的标准,包括了Big5和ISO10646的编码,所以HKSCS的big5版是补充了GCCS的增强版。

编码字数统计 :

GB2312 6763个汉字

GB12345 6866个汉字

GBK 21003个汉字

GB18030 27000个汉字

Big5 13053个汉字

CNS11643 48,027个汉字

汉字编码转化

GB2312

第一节字，行码0xA1-0xFE

第二节字，列码0x40-0x7E, 0xA1-0xFE，每行157个汉字

其中：1-3/38-40行(A1-A3, C6-C8) 全角字母、符号

4-39行(A4-C6) 一级汉字5401字

41-89行(C9-F9) 二级汉字7652字

例如：BIG5 码16行121列同样表示“啊”字，编码为0xB0DA。

BIG5

第一节字，行码0xA1-0xFE

第二节字，列码0x40-0x7E, 0xA1-0xFE，每行157个汉字

其中：1-3/38-40行(A1-A3, C6-C8) 全角字母、符号

4-39行(A4-C6) 一级汉字5401字

41-89行(C9-F9) 二级汉字7652字

例如：BIG5 码16行121列同样表示“啊”字，编码为0xB0DA。

第一字节	第二字节	字区	制定
A1..A2	40..7E, A1..FE	各种符号区	1984
A3	40..7E, A1..BF	各种符号区 (包括标点符号、ASCII 全角符号、注音符号等)	1984
A3	E1	欧元符号	CP950
A4..C5	40..7E, A1..FE	常用字区	1984
C6	40..7E	常用字区	1984
C6	A1..FE	罕用符号区	倚天
C7	40..7E, A1..FE	罕用符号区 (包括日文、俄文等)	倚天
C8	40..7E, A1..D3	罕用符号区 (包括俄文、输入法特殊符号等)	倚天
C9..F8	40..7E, A1..FE	次常用字区	1984
F9	40..7E, A1..D5	次常用字区	1984
F9	D6..DC	七个扩充字	倚天
F9	DD..FE	表格符号区	倚天

Table 1. BIG5 字区与编码范围

扩充字	BIG5 码	Unicode 码	BIG5_1984 的同义字
碁	0xF9D6	0x88CF	棋
锈	0xF9D7	0x92B9	锈
里	0xF9D8	0x7CA7	里
墙	0xF9D9	0x58BB	墙
恒	0xF9DA	0x6052	恒
妆	0xF9DB	0x7881	妆
娴	0xF9DC	0x5AFA	娴

Table 2. 七个扩充字

编码	第一个字节	第二个字节	第三个字节	第四个字节
GB2312	0xB0 - 0xF7	0xA0 - 0xFE
GBK	0x81 - 0xFE	0x40 - 0xFE
GB18030 的双字节	0x81 - 0xFE	0x40 - 0x7E, 0x80 - 0xFE
GB18030 的四字节	0x81 - 0xFE	0x30 - 0x39	0x81 - 0xFE	0x30 - 0x39

Table 3. GB 的汉字编码规则

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

汉字编码基础知识

汉字编码基础知识（一）的相关文章

【WSL2小技巧】Win10/Win11 开机自动启动 WSL2 下 Ubuntu 内 Linux 程序

Win10 开机自动启动 WSL2 下 Ubuntu 内 Linux 程序前言一启动过程二开机自启举例1 安装Linux程序 xff08 以redis为例 xff0c redis安装过程略 xff09 2 编写启动redis脚本3 编
【QMT之xtquant】活用xtdata，激活download_history_data2批量高效获取行情数据

文章目录前言一 XtQuant是什么 xff1f 二如何活动XtQuant xff1f 1 引入库2 批量下载数据总结前言 QMT包含了XtQuant xff0c 可以方便的获取行情数据 xff0c 最近碰到一些小问题 xff0c
【Python小技巧】使用Gradio 构建基于ChatGPT的AI绘图 Web 应用（附源码）

文章目录前言一 Gradio是什么 xff1f 二使用Gradio构建基于ChatGPT的 Web 应用1 安装gradio库2 安装openai库 xff08 ChatGPT的python库 xff09 3 Web 应用示例 xff0
【Python小技巧】将pdf转为txt，并使用edge-tts将txt批量转为MP3（不想看书想听书的转过来，送源代码）

文章目录前言一 PDF转为MP3 xff1f 二准备工作1 安装pdfplumber包 xff0c 用于将pdf转为txt2 安装edge tts包 xff0c 用于将txt转为音频三代码很简单四变更播音员总结前言一 PDF转
【AI选股】如何通过python调用通达信-小达实现AI选股（量化又多了一个选股工具）

文章目录前言一通达信小达是什么 xff1f 二使用步骤1 引入browser cookie3库2 通达信小达 AI选股源代码总结前言 ChatGPT火遍网络 xff0c 那么有没有可以不用写公式就可以实现AI选股的方法 xff
Cannot find name ‘console‘.(已解决)

学习ts中使用ts node进行ts的编译运行时遇到的错误 Cannot find name span class token string 39 console 39 span span class token punctuation s
Android Studio 导入项目时出现Failed to apply plugin

Android Studio导入项目时出现问题 Caused by org gradle api internal plugins PluginApplicationException Failed to apply plugin id c
八数码的有无解问题

为了方便讨论 xff0c 我们把它写成一维的形式 xff0c 并以0代替空格位置那么表示如下 xff1a 1 2 3 4 5 6 7 8 0 通过实验得知 xff0c 以下状态是无解的 xff08 交换了前两个数字1 2 xff09
电脑用户名中文改英文步骤总结

背景 xff1a 在单位领了两台新电脑 xff0c 脑子一热用户名直接设置成中文名字了 xff0c 后来在装许多环境的时候都出现中文乱码路径错误等情况 xff0c 因此需要改成英文账户名步骤 xff1a 先修改本地的账户名打开控制面板
把无线wifi或手机热点信号转成有线信号的路由器中继设置方法

方法 xff1a A xff1a 第二路由器桥接到第一路由器 1 xff1a 登陆无线路由器设置2管理界面 xff0c 在无线设置基本设置中设置 SSID号信道 2 xff1a 在无线设置无线安全设置中设置无线信号加密信息 3 x
Masonry适配——（7）UITableView中自定义UITableViewCell高度自适应及计算

https github com potato512 SYDemo Masonry 在UITableView列表的使用中 xff0c 因为在自定义的UITableViewCell中页面相对复杂 xff0c 所以会出现每一个cell都有不同的
C#异常提示.WAV,MP3等文件不是一个有效的波形文件

代码 xff1a 报错信息 xff1a 知识拓展 xff1a 什么是波形文件 xff1f 波形文件是一种声音文件格式 xff0c Windows Media Audio也称WAV xff0c 是最早的数字音频格式 xff0c 被Window
Gitee(码云)托管代码超详细!!!

转眼间我的大学生生活就即将结束八月中旬便要走上实习的道路为了让自己所学的知识更牢固有利于今后回顾我决定将自己所学的知识定期编写Blogger进行记录今后希望我们大家一起努力学习共同进步那么今天我来分享并记录一下如何使用Git
【UNI-APP OR H5+ 开发-必看教程】APP自动更新实现（带进度条）

UNI APP笔记底部附源码下面附一段实战应用的案例 Down plus downloader createDownload url xff0c option xff0c completedCB 自动更新 xff1a DownLoade
【.NET_EFCore中常见错误汇总】

记录一下在配置分层项目中所遇到的问题问题一启动项目没有引用 Your startup project 39 8 1 MVC 39 doesn 39 t reference Microsoft EntityFrameworkCore De
【MySql安装教程】

一下载安装包下载版本如下图所示根据需要下载对应的版本推荐下载 MySql Community Server 下载链接 MySQL MySQL Community Downloads 二配置环境变量安装包下载完成之后首先要配置环境
pytorch 取出tensor向量中的值

不要tensor 只要tensor里的值解决方法 tensor item
python读取txt文件并将其转换为Dataframe格式

对 LogiReg data txt 中的数据进行逻辑回归分析完成下列工作 xff1a 读取数据并转换为DataFrame格式 xff0c 将第一列的列标签设置为参数1 xff0c 第二列的列标签设置为参数2 xff0c 第三列的列标
python判断某个元素是否在列表中

in和not in qwe span class token operator 61 span span class token punctuation span span class token number 1 span span cl

随机推荐

outlook不断弹出“对以下服务器输入您的用户名和密码”

解决方法 xff1a 确保您已在您的网页版邮箱中为您的邮箱账户启用了IMAP POP功能 xff0c 启用后可能会给您一个应用密码 https social technet microsoft com Forums zh CN f18563
OSError: CUDA_HOME environment variable is not set. Please set it to your CUDA install root.

https stackoverflow com questions 52731782 get cuda home environment path pytorch
quartus ModelSim executable not found.

https www cnblogs com yiruliu p 11099489 html
windows安装caffe

比较靠谱的博客 xff1a https blog csdn net qq 42722197 article details 122749759 2022 3 29安装完毕 xff0c 如果有朋友有问题可在评论区提问 xff08 不要私信 x
numpy中savez存储多个数组

按照文档给的例子 xff0c 使用np savez只能以np savez filepath a 61 array a b 61 array b 的形式传参 xff0c 如下所示 np savez span class token punct
pycharm调试(debug)卡住

问题描述 xff1a debug时查看变量 xff08 variables xff09 卡顿 xff0c 读取缓慢 xff0c 不显示 xff08 Variables只显示Connected xff0c 卡住不动 xff09 这种情况下你会
树莓派使用DHT11/DHT22无输入/输出，Adafruit_DHT库输出None值

将DHT11 22接入树莓派后 xff0c 无法读入信号 xff0c 可能原因如下 xff1a 未将树莓派的地线接入扩展板如果使用了扩展板 xff0c 信号传递需要将树莓派的地 Ground 与扩展板的地相连接使用Adafruit DHT
PPT设置全局字体

有的时候希望提前设置好PPT每一页的字体 xff0c 方法如下 xff1a 单击设计选项卡 xff0c 在变体窗格中 xff0c 单击下拉箭头单击字体 xff0c 选择一种字体 xff0c 右键单击 xff0c 选择编辑 xf
latex 表格设置线宽(可用于制作三线表)

改 hline为 Xhline 1 2pt https www 404bugs com index php details 1080980696326787072
解决远程桌面总是自动断开

Win 43 R 打开运行窗口输入 sysdm cpl xff0c 确定点击允许远程连接到此计算机 xff0c 确定重新进行本地远程连接
IOS15 的UITableViewController 如何初始化

IOS15 的UITableViewController 如何初始化一个类继承了UITableViewController xff0c 如何初始化UITableView的样式 xff0c 一般有group组样式 xff0c 也有plain
WARNING overcommit_memory is set to 0! Background save may fail under low memory condition. To fix t

WARNING overcommit memory is set to 0 Background save may fail under low memory condition To fix this issue add 39 vm ov
码云的初次使用

文章目录下载Git码云官网注册初始化第一次上传代码到git 通过这篇博客成功使用了码云 xff1a https blog csdn net ai1362425349 article details 82119889 现在整理一下 xff0
Superset数据探索和可视化平台入门以及案例实操

1 Superset背景 1 1 Superset概述 Apache Superset是一个现代的数据探索和可视化平台它功能强大且十分易用 xff0c 可对接各种数据源 xff0c 包括很多现代的大数据分析引擎 xff0c 拥有丰富的图表
C语言中信号量的使用

在操作系统理论课上 xff0c 其实讲授了信号量的原理和使用方式以及使用信号量的优点相信看到这篇文章的人已经对信号量底层实现机制有了一定的了解 xff0c 这里就不再过多赘述本文主要以两个题目为例来讲授信号量如何在高级语言中使用如果不
C语言使用信号量（Linux）

在windows中使用信号量已经在另一篇文章中讲过了 xff0c 信号量的详细细节也已经展示了 xff0c 本文介绍如何在linux环境下使用c语言编写信号量类型的例子代码 windows c语言使用信号量与windows环境下不同 xf
iOS Dev (10) 创建一个简单的 UIView

iOS Dev 10 创建一个简单的 UIView 作者 xff1a CSDN 大锐哥地址 xff1a http blog csdn net prevention 创建一个 Empty App 略创建一个 UIView BOOL appl
Ubuntu双系统的安装

文章目录制作系统盘磁盘分区安装系统换源解决系统同步问题更改启动默认项双系统的卸载制作系统盘下载Win32DiskImager xff0c Ubuntu操作系统映像 xff0c 准备好U盘写入完成后 xff0c 打开U盘能看见efi文
关于XSS三种攻击方式的理解：反射性，存储型，基于DOM

关于XSS三种攻击方式的理解 xff1a 反射性 xff0c 存储型 xff0c 基于DOM 首先脚本执行需要客户端浏览器进行解析 xff0c 是js脚本就交个js环境解析 xff0c 或者php交给php环境解析 xff0c 只有在相应环
汉字编码基础知识（一）

lt script src 61 34 win js 34 type 61 34 text javascript 34 gt lt script gt 4 1 基础知识 4 1 1 GB2312 范围 xff1a 0xA1A1 0xFEFE

汉字编码基础知识（一）

汉字编码基础知识（一） 的相关文章

随机推荐

热门标签

汉字编码基础知识（一）的相关文章