c++——Unicode编码和多字节编码的区别

2023-05-16

1. VS项目属性不同字符集的区别

单字节字符集:顾名思义,单字节字符集就是用一个字节表示一个字符,简称SBCS。ASCII就是单字节字符集。在编码的过程中char类型就是单字节编码。

Unicode字符集:前面咱已经介绍什么是Unicode字符集了,不懂的请看前面的文章字符集与字符编码。默认编码是USC-2,即所有的字符都是固定的使用2个字节进行编码。因为比单字节字符宽,所有又叫宽字节编码。宽字节编码有很多,Unicode编码只是宽字节编码中的一种实现方式,其它的比如:USC-4。

多字节字符集:指使用多个字节表示一个字符,其实就是ANSI编码。有的字符使用一个字节,如ASCII字符,有的字符使用多个字节表示,如中文。英文名简称MBCS,由于Windows里使用的多字节字符绝大部分是两个字节,所以MBCS常被用**DBCS(双字节字符)**代替。

选择这两者的优缺点比较:

在这里插入图片描述

另外Unicode是国际通用的字符集,所以很容易在不同字符集之间进行转换,有利于软件的国际化。

2. wchar_t 、 _T 、TCHAR等含义

wchar_t意思是宽字节,w是Wide(宽)的缩写,所以只有在选择Unicode编码时才能使用。

wchar_t的定义为:typedef unsigned short wchar_t;
从这里我们可以看到,所谓的宽字节就是无符号短整型,即2个字节。
使用时前面加大写的“L”,比如:wchar_t str = L"Hello";*

选择宽字节字符集在编码的过程中字符串的类型是wchar_t,跟双字节字符集的类型char不一致,这样导致了两个问题:
1、像strlen()只能接受标准C字符的类型(char),所有使用char* 类型参数的函数都要重新
2、如何使编写的代码能够同时支持 多字节编码 和 宽字节(Unicode)编码的系统上运行?

对于第一个问题:
解决办法就是对函数进行重写,比如strlen的宽字节版本是wcslen,需要加入头文件Windows.h
需要注意的是:strlen是字符串的所占字节数,wcslen是字符串中字符个数,乘以2才是字节数。

对于第二个问题:
通过定义 宏 或者 起别名 的方式对 替代名称 做 不同定义 来实现的,比如tchar.h头文件中:

之所以能实现,主要通过编译器来实现,通过使用条件编译#ifdef _UNICODE(有下划线) 来对 替代名称 的不同定义。

在这里插入图片描述

这样子您就知道_T和TCHAR的啥意思了,它是为了方便程序员编码使用的。

说的这里了,您可能又有疑问了,哪里定义_UNICODE宏呢?

这里又回到最初了,我们在项目属性中选择 “使用多字节字符集” 或者 “使用Unicode字符集”时,VS在“C++ -> 预处理器”中增加了宏定义,分别是 _MBCS 和 _UNICODE,注意 _MBCS和_UNICODE是相互排斥的。

最后说一下一个细节,有Windows编码经验的人可能发现了,还有一个UNICODE宏,很多的定义跟_UNICODE是一样的,这是为什么呢?
UNICODE是Windows 提供的宏,Windows有一些系统API也要用到字符串,但是C库没有,比如:SetWindowText()和MessageBox()等,微软就对_UNICODE进行了重写和扩展,但是本质是一样,都是为了方便处理两种编码程序。
在这里插入图片描述

3. 字符转换

#include <locale>
#include <stdio.h>
#include <codecvt>

using namespace std;
//Unicode转ANSI
const std::string WstringToString(const std::wstring& src)
{
	std::locale sys_locale("");

	const wchar_t* data_from = src.c_str();
	const wchar_t* data_from_end = src.c_str() + src.size();
	const wchar_t* data_from_next = 0;

	int wchar_size = 4;
	char* data_to = new char[(src.size() + 1) * wchar_size];
	char* data_to_end = data_to + (src.size() + 1) * wchar_size;
	char* data_to_next = 0;

	memset(data_to, 0, (src.size() + 1) * wchar_size);

	typedef std::codecvt<wchar_t, char, mbstate_t> convert_facet;
	mbstate_t out_state = { 0 };
	auto result = std::use_facet<convert_facet>(sys_locale).out(
		out_state, data_from, data_from_end, data_from_next,
		data_to, data_to_end, data_to_next);
	if (result == convert_facet::ok)
	{
		std::string dst = data_to;
		delete[] data_to;
		return dst;
	}
	else
	{
		printf("convert error!\n");
		delete[] data_to;
		return std::string("");
	}
}

//ANSI转Unicode
const std::wstring StringToWstring(const std::string& src)
{
	std::locale sys_locale("");

	const char* data_from = src.c_str();
	const char* data_from_end = src.c_str() + src.size();
	const char* data_from_next = 0;

	wchar_t* data_to = new wchar_t[src.size() + 1];
	wchar_t* data_to_end = data_to + src.size() + 1;
	wchar_t* data_to_next = 0;

	wmemset(data_to, 0, src.size() + 1);

	typedef std::codecvt<wchar_t, char, mbstate_t> convert_facet;
	mbstate_t in_state = { 0 };
	auto result = std::use_facet<convert_facet>(sys_locale).in(
		in_state, data_from, data_from_end, data_from_next,
		data_to, data_to_end, data_to_next);
	if (result == convert_facet::ok)
	{
		std::wstring dst = data_to;
		delete[] data_to;
		return dst;
	}
	else
	{
		printf("convert error!\n");
		delete[] data_to;
		return std::wstring(L"");
	}
}

//Unicode转UTF-8
const std::string WstringToUTF8(const std::wstring& src)
{
	std::wstring_convert<std::codecvt_utf8<wchar_t>> conv;
	return conv.to_bytes(src);
}

//UTF-8转Unicode
const std::wstring UTF8ToWstring(const std::string& src)
{
	std::wstring_convert<std::codecvt_utf8<wchar_t> > conv;
	return conv.from_bytes(src);
}


//GBK转Unicode
wstring  GBKToWstring(const string &str)
{
	wstring_convert<codecvt<wchar_t, char, mbstate_t>> gbk_cvt(new codecvt<wchar_t, char, mbstate_t>("chs"));
	return gbk_cvt.from_bytes(str);
}

//Unicode转GBK
string  WstringToGBK(const wstring &str)
{
	wstring_convert<codecvt<wchar_t, char, mbstate_t>> gbk_cvt(new codecvt<wchar_t, char, mbstate_t>("chs"));
	return gbk_cvt.to_bytes(str);
}

//UTF8转GBK
string UTF8ToGBK(const string &str)
{
	wstring_convert<codecvt_utf8<wchar_t>> utf8_cvt; // utf8-》unicode转换器
	wstring_convert<codecvt<wchar_t, char, mbstate_t>> gbk_cvt(new codecvt<wchar_t, char, mbstate_t>("chs")); // unicode-》gbk转换器
	wstring t = utf8_cvt.from_bytes(str);
	return gbk_cvt.to_bytes(t);
}

//GBK转UTF8
string GBKToUTF8(const string &str)
{
	wstring_convert<codecvt_utf8<wchar_t>> utf8_cvt;
	wstring_convert<codecvt<wchar_t, char, mbstate_t>> gbk_cvt(new codecvt<wchar_t, char, mbstate_t>("chs")); // unicode-》gbk转换器
	wstring t = gbk_cvt.from_bytes(str);
	return utf8_cvt.to_bytes(t);
}

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

c++——Unicode编码和多字节编码的区别 的相关文章

  • 对二维离散图像进行哈达玛变换

    目录 一 沃尔什变换简介 二 哈达玛变换简介 三 哈达玛变换的原理及公式 1
  • java变量笔记

    一 变量类型及使用 int age 61 20 double score 61 88 6 char gender 61 39 男 39 String name 61 34 jack 34 变量必须先声明后使用 xff1b 变量在同一作用域内
  • java运算符

    一 运算符介绍 运算符是一种特殊的符号 xff0c 用以表示数据的运算 xff0c 赋值和比较等 一些算数运算符 除法比较特殊 xff0c 取决于参与运算的数据类型 xff0c 例如10 4 61 2 xff0c 10 0 4 61 2 5
  • 在linux系统下中.sh文件无法执行的问题及两种解决方法

    在写了shell脚本1 sh文件后 xff0c 想要执行该脚本 xff0c 结果提示我权限不够 xff1a 然后我就加上了管理员的权限 xff1a xff08 其实这里提示的并不是管理员的权限不够 xff0c 而是这个shell脚本并没有执
  • makefile的简单实现

    这里是简单的关于makefile的一个实现案例 xff0c 目的是让一些类似于我这样没有接触过的小白 xff0c 切实的感受一下什么是makefile 首先找到一个空文件夹 xff0c 我们将在该文件夹下进行操作 1 创建并编辑hello
  • Java集合总结图

    Java集合总结图
  • Android keyguard之上如何显示Toast

    ENV Android M 6 0 1 锁屏之上应该如何显示Toast呢 xff1f 看下面的实现 xff1a public class KeyguardToast public static Toast makeText Context
  • 2021-11-01

    建立spring helloword工程 1 建立maven工程 命名为spring helloword 2 导入依赖 span class token generics span class token punctuation lt sp
  • 2021-11-04

    spring基础 Spring是一个轻量级的控制反转 IoC 和面向切面 AOP 的容器 xff08 框架 xff09 IOC Inversion of Control 控制反转 IOC创建对象的方式 1 默认通过无参构造器创建对象 spa
  • filter和sessionListener实现session超时退出功能,过滤掉轮询请求

    filter和sessionListener实现session超时退出功能 xff0c 过滤掉轮询请求 1 requestFilter span class token keyword public span span class toke
  • MVC web项目中引入jquery插件

    MVC web项目中引入jquery插件 1 下载jquery https jquery com 看到这样的文档 xff0c 直接CTRL 43 S保存到自己的文件夹 2 将文件夹中的js文件直接拖拽导入到项目中的web文件下 xff0c
  • 27(牛客Top100)-62. 不同路径

    一个机器人位于一个 m x n 网格的左上角 xff08 起始点在下图中标记为 Start xff09 机器人每次只能向下或者向右移动一步 机器人试图达到网格的右下角 xff08 在下图中标记为 Finish xff09 问总共有多少条不同
  • 28(牛客Top100)-64. 最小路径和

    给定一个包含非负整数的 m x n 网格 grid xff0c 请找出一条从左上角到右下角的路径 xff0c 使得路径上的数字总和为最小 说明 xff1a 每次只能向下或者向右移动一步 思路 xff1a 动态规划 1 状态定义 初始化二维数
  • 30(牛客Top100)-72. 编辑距离

    给你两个单词 word1 和 word2 xff0c 请你计算出将 word1 转换成 word2 所使用的最少操作数 你可以对一个单词进行如下三种操作 xff1a 插入一个字符 删除一个字符 替换一个字符 思路 xff1a 动态规划 1
  • 29(牛客Top100)-70.爬楼梯

    假设你正在爬楼梯 需要 n 阶你才能到达楼顶 每次你可以爬 1 或 2 个台阶 你有多少种不同的方法可以爬到楼顶呢 xff1f 注意 xff1a 给定 n 是一个正整数 思路 xff1a 方法1 xff1a 动态规划 span class
  • 31(牛客Top100)-75.颜色分类

    给定一个包含红色 白色和蓝色 xff0c 一共 n 个元素的数组 xff0c 原地对它们进行排序 xff0c 使得相同颜色的元素相邻 xff0c 并按照红色 白色 蓝色顺序排列 此题中 xff0c 我们使用整数 0 1 和 2 分别表示红色
  • spring boot面试总结

    spring boot xff08 1 xff09 新建springboot项目 xff08 2 xff09 springboot整合mybatis实现增删改查 1 概述 1 1 springboot介绍 Spring Boot 是 Spr
  • [Android] 以singleInstance模式加载的Activity怎么接收以Bundle方式传递过来的参数 By onNewIntent() but not onResum

    问题来自这儿 xff0c Bundle在接收时未更新 xff0c http blog csdn net dadoneo article details 8164058 虽然可以暂时解决问题 xff0c 但并未说到根本原因 xff0c 下面就
  • 33(牛客Top100)-78.子集

    给你一个整数数组 nums xff0c 数组中的元素 互不相同 返回该数组所有可能的子集 xff08 幂集 xff09 解集 不能 包含重复的子集 你可以按 任意顺序 返回解集 思路 方法1 xff1a 二进制排序 xff08 字典排序 x
  • 34(牛客Top100)-79.单词搜索

    给定一个 m x n 二维字符网格 board 和一个字符串单词 word 如果 word 存在于网格中 xff0c 返回 true xff1b 否则 xff0c 返回 false 单词必须按照字母顺序 xff0c 通过相邻的单元格内的字母

随机推荐

  • 35(牛客Top100)-84.柱状图中最大的矩形

    给定 n 个非负整数 xff0c 用来表示柱状图中各个柱子的高度 每个柱子彼此相邻 xff0c 且宽度为 1 求在该柱状图中 xff0c 能够勾勒出来的矩形的最大面积 思路 xff1a 方法1 xff1a 栈 43 邵兵 span clas
  • 36(牛客Top100)-85.最大矩阵

    给定一个仅包含 0 和 1 大小为 rows x cols 的二维二进制矩阵 xff0c 找出只包含 1 的最大矩形 xff0c 并返回其面积 思路 xff1a 先抄下来 xff0c 我也不懂 方法1 xff1a 单调栈 span clas
  • 新建springboot项目

    1 新建项目 xff0c 选择Spring Initializr 2 直接finish xff0c 然后就等待下载各种包 xff0c 大约10分钟左右 3 包变绿后 xff0c pom xml中导入web依赖 span class toke
  • springboot整合mybatis实现增删改查

    1 新建springboot项目 xff0c 连接数据库 2 导入依赖 span class token generics span class token punctuation lt span dependencies span cla
  • 37(牛客Top100)-94.二叉树的中序遍历

    给定一个二叉树的根节点 root xff0c 返回它的 中序 遍历 思路 xff1a 方法1 xff1a 递归 按照访问左子树 根节点 右子树的方式遍历这棵树 span class token keyword public span spa
  • 38(牛客Top100)-96.不同的二叉搜索树

    给你一个整数 n xff0c 求恰由 n 个节点组成且节点值从 1 到 n 互不相同的 二叉搜索树 有多少种 xff1f 返回满足题意的二叉搜索树的种数 思路 xff1a 1 动态规划 动态方程 xff1a span class token
  • 40(牛客Top100)-101.对称二叉树

    给定一个二叉树 xff0c 检查它是否是镜像对称的 思路 xff1a 方法1 xff1a 递归 span class token keyword public span span class token keyword boolean sp
  • 39(牛客Top100)-98.验证二叉搜索树

    给你一个二叉树的根节点 root xff0c 判断其是否是一个有效的二叉搜索树 有效 二叉搜索树定义如下 xff1a 节点的左子树只包含 小于 当前节点的数 节点的右子树只包含 大于 当前节点的数 所有左子树和右子树自身必须也是二叉搜索树
  • Excel合并计算完成多表格数据汇总求和

    Excel合并计算完成多表格数据汇总求和 多表格数据汇总可以使用透视表 xff0c 使用函数 xff0c 今天读书屋OFFICE网陈飞老师分享一个通过合并计算完成多表格数据汇总方法 xff0c 合并计算分为两种情况 xff0c 一种情况是
  • Google Datastore 学习记录

    由于在google app engine 使用google cloud sql 是要收费的 xff0c 于是学习一下google提供的免费的非关系型数据库datastore 它的特点有 xff1a No planned downtime x
  • 41(牛客Top100)-104.二叉树的最大深度

    给定一个二叉树 xff0c 找出其最大深度 二叉树的深度为根节点到最远叶子节点的最长路径上的节点数 说明 叶子节点是指没有子节点的节点 思路 xff1a 方法1 xff1a 深度优先搜索 span class token keyword p
  • 42(牛客Top100)-102.二叉树的层序遍历

    给你一个二叉树 xff0c 请你返回其按 层序遍历 得到的节点值 xff08 即逐层地 xff0c 从左到右访问所有节点 xff09 思路 xff1a 用队列按层次遍历 方法1 xff1a 广度优先搜索 span class token k
  • MySQL总结

    1 数据库基础知识 1 1 什么是MySQL MySQL是一个关系型数据库管理系统 xff0c MySQL是最好的 RDBMS Relational Database Management System xff0c 关系数据库管理系统 应用
  • 45(牛客Top100)-121.买卖股票的最优时间

    给定一个数组 prices xff0c 它的第 i 个元素 prices i 表示一支给定股票第 i 天的价格 你只能选择 某一天 买入这只股票 xff0c 并选择在 未来的某一个不同的日子 卖出该股票 设计一个算法来计算你所能获取的最大利
  • 47(牛客Top100)-128.最长连续子序列

    给定一个未排序的整数数组 nums xff0c 找出数字连续的最长序列 xff08 不要求序列元素在原数组中连续 xff09 的长度 请你设计并实现时间复杂度为 O n 的算法解决此问题 思路 xff1a 方法1 xff1a 利用set集合
  • 48(牛客Top100)-136.只出现一次的数字

    给定一个非空整数数组 xff0c 除了某个元素只出现一次以外 xff0c 其余每个元素均出现两次 找出那个只出现了一次的元素 说明 xff1a 你的算法应该具有线性时间复杂度 你可以不使用额外空间来实现吗 xff1f 思路 xff1a 方法
  • stc-isp 51单片机烧录软件的安装

    stc isp的获取 百度网盘链接 xff1a https pan baidu com s 1vDTN2o8ffvczzNQGfyjHng 提取码 xff1a gdzf stc isp安装 此软件是绿色软件 xff0c 双击直接运行即可 开
  • 实习日记。。。

    第一周 第一天7 11 周一 入职第一天 xff0c 一直在数据库建表 xff0c 写了二十来个 xff0c 还有领了工卡和饭卡 xff0c 带我的老大哥请我恰了一顿 xff0c 晚上下班的时候 xff0c 因为舍不得我的电脑所以多待了一个
  • TCP/IP协议栈Lwip的设计与实现:之三

    接上文 xff1a TCP IP协议栈Lwip的设计与实现 xff1a 之二 龙赤子的博客 CSDN博客 目录 10 xff0e TCP处理 10 1概述 10 2数据结构 10 3序列号计算 10 4数据入队和传输 10 5接收段数据 1
  • c++——Unicode编码和多字节编码的区别

    1 VS项目属性不同字符集的区别 单字节字符集 xff1a 顾名思义 xff0c 单字节字符集就是用一个字节表示一个字符 xff0c 简称SBCS ASCII就是单字节字符集 在编码的过程中char类型就是单字节编码 Unicode字符集