WChars、编码、标准和可移植性

2024-03-06

以下问题可能不属于 SO 问题；如果超出范围，请随时告诉我离开。这里的问题基本上是：“我是否正确理解了 C 标准，这是处理问题的正确方法吗？”

我想请求对我对 C（以及 C++ 和 C++0x）中字符处理的理解进行澄清、确认和更正。首先，一个重要的观察：

可移植性和序列化是正交的概念。

便携式的东西是像C这样的东西，unsigned int, wchar_t。可序列化的东西是这样的uint32_t或 UTF-8。 “可移植”意味着您可以重新编译相同的源代码并在每个受支持的平台上获得工作结果，但二进制表示可能完全不同（或者甚至不存在，例如 TCP-over-Carrier Pig）。另一方面，可序列化的东西总是有same代表，例如我可以在 Windows 桌面、手机或牙刷上阅读该 PNG 文件。可移植的东西是内部的，可序列化的东西处理 I/O。可移植的东西是类型安全的，可序列化的东西需要类型双关。前言>

当谈到 C 中的字符处理时，有两组事情分别与可移植性和序列化相关：

wchar_t, setlocale(), mbsrtowcs()/wcsrtombs(): C 标准没有提到“编码”;事实上，它与任何文本或编码属性完全无关。它只说“你的入口点是main(int, char**);你得到一个类型wchar_t它可以容纳您系统的所有字符；您可以获得读取输入字符序列并将其转换为可用的 wstring 的函数，反之亦然。
iconv()UTF-8,16,32：在明确定义的、明确的、固定的编码之间进行转码的函数/库。 iconv 处理的所有编码都得到普遍理解和认可，但有一个例外。

可移植的、与编码无关的 C 世界与其wchar_t可移植的字符类型和确定性的外部世界是WCHAR-T 和 UTF 之间的 iconv 转换.

那么，我是否应该始终将字符串存储在与编码无关的 wstring 中，通过 CRT 进行接口wcsrtombs()，并使用iconv()用于序列化？从概念上讲：

                        my program
    <-- wcstombs ---  /==============\   --- iconv(UTF8, WCHAR_T) -->
CRT                   |   wchar_t[]  |                                <Disk>
    --- mbstowcs -->  \==============/   <-- iconv(WCHAR_T, UTF8) ---
                            |
                            +-- iconv(WCHAR_T, UCS-4) --+
                                                        |
       ... <--- (adv. Unicode malarkey) ----- libicu ---+

实际上，这意味着我将为我的程序入口点编写两个样板包装器，例如对于 C++：

// Portable wmain()-wrapper
#include <clocale>
#include <cwchar>
#include <string>
#include <vector>

std::vector<std::wstring> parse(int argc, char * argv[]); // use mbsrtowcs etc

int wmain(const std::vector<std::wstring> args); // user starts here

#if defined(_WIN32) || defined(WIN32)
#include <windows.h>
extern "C" int main()
{
  setlocale(LC_CTYPE, "");
  int argc;
  wchar_t * const * const argv = CommandLineToArgvW(GetCommandLineW(), &argc);
  return wmain(std::vector<std::wstring>(argv, argv + argc));
}
#else
extern "C" int main(int argc, char * argv[])
{
  setlocale(LC_CTYPE, "");
  return wmain(parse(argc, argv));
}
#endif
// Serialization utilities

#include <iconv.h>

typedef std::basic_string<uint16_t> U16String;
typedef std::basic_string<uint32_t> U32String;

U16String toUTF16(std::wstring s);
U32String toUTF32(std::wstring s);

/* ... */

这是仅使用纯标准 C/C++ 以及使用 iconv 的定义良好的 UTF I/O 接口编写惯用的、可移植的、通用的、与编码无关的程序核心的正确方法吗？（请注意，诸如 Unicode 规范化或变音符号替换之类的问题超出了范围；仅当您决定确实想要Unicode（与您可能喜欢的任何其他编码系统相反）是时候处理这些细节了，例如使用像 libicu 这样的专用库。）

Updates

继许多非常好的评论之后，我想添加一些观察结果：

如果您的应用程序明确想要处理 Unicode 文本，您应该将iconv-转换部分核心及使用uint32_t/char32_t-内部使用 UCS-4 字符串。
Windows：虽然使用宽字符串通常没问题，但与控制台（就此而言，任何控制台）的交互似乎受到限制，因为似乎不支持任何合理的多字节控制台编码，并且mbstowcs本质上是无用的（除了微不足道的扩大）。从 Explorer-drop 接收宽字符串参数GetCommandLineW+CommandLineToArgvW可以工作（也许应该有一个单独的 Windows 包装器）。
文件系统：文件系统似乎没有任何编码的概念，只是将任何以空结尾的字符串作为文件名。大多数系统采用字节字符串，但 Windows/NTFS 采用 16 位字符串。在发现哪些文件存在以及处理该数据时（例如char16_t不构成有效 UTF16 的序列（例如裸代理）是有效的 NTFS 文件名）。标准Cfopen无法打开所有 NTFS 文件，因为没有可能的转换可以映射到所有可能的 16 位字符串。使用 Windows 特定的_wfopen可能需要。作为推论，通常没有明确定义的概念来表示给定的文件名包含“多少个字符”，因为首先没有“字符”的概念。买者自负。

这是仅使用纯标准 C/C++ 编写惯用的、可移植的、通用的、与编码无关的程序核心的正确方法吗

不，并且根本没有办法满足所有这些属性，至少如果您希望您的程序在 Windows 上运行的话。在 Windows 上，您必须忽略几乎所有地方的 C 和 C++ 标准，并专门使用wchar_t（不一定是内部的，而是系统的所有接口）。例如，如果您从

int main(int argc, char** argv)

您已经失去了对命令行参数的 Unicode 支持。你必须写

int wmain(int argc, wchar_t** argv)

相反，或使用GetCommandLineW函数，C 标准中没有指定这些函数。

进一步来说，

Windows 上任何支持 Unicode 的程序都必须主动忽略 C 和 C++ 标准，例如命令行参数、文件和控制台 I/O，或者文件和目录操作。这当然不是惯用语。请改用 Microsoft 扩展或包装器，例如 Boost.Filesystem 或 Qt。
可移植性实现起来极其困难，尤其是对于 Unicode 支持。你真的必须做好准备，你认为你所知道的一切都可能是错误的。例如，您必须考虑用于打开文件的文件名可能与实际使用的文件名不同，并且两个看似不同的文件名可能代表同一个文件。创建两个文件后a and b，您最终可能会得到一个文件c，或两个文件d and e，其文件名与您传递给操作系统的文件名不同。您要么需要一个外部包装库，要么需要大量#ifdefs.
编码不可知性通常在实践中不起作用，特别是如果您想要便携的话。你必须知道wchar_t是 Windows 上的 UTF-16 代码单元char通常（bot 并不总是）Linux 上的 UTF-8 代码单元。编码意识通常是更理想的目标：确保您始终知道您使用哪种编码，或者使用将它们抽象出来的包装器库。

我想我必须得出这样的结论：除非您愿意使用额外的库和特定于系统的扩展，并在其中投入大量精力，否则完全不可能用 C 或 C++ 构建可移植的支持 Unicode 的应用程序。不幸的是，大多数应用程序已经无法完成相对简单的任务，例如“将希腊字符写入控制台”或“以正确的方式支持系统允许的任何文件名”，而此类任务只是实现真正的 Unicode 支持的第一步。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

WChars、编码、标准和可移植性的相关文章

InvalidOperationException - 对象当前正在其他地方使用 - 红十字

我有一个 C 桌面应用程序其中我连续创建的一个线程从源实际上是一台数码相机获取图像并将其放在 GUI 中的面板 panel Image img 上这必须是另一个线程如它是控件的代码隐藏该应用程序可以工作但在某些机器上我会在随
每个托管线程是否都有自己对应的本机线程？

我想知道是否在 Net 中创建托管线程通过调用Thread Start 导致在后台创建一个本机线程那么托管线程是否有对应的本机线程呢如果是当托管线程等待或睡眠时是否意味着相应的本机线程也在等待或睡眠是的 NET 线程映射到所有当
在 C++ 中使用 matlab 结构（matlab 函数调用的返回值）（由 matlab 编译器生成的库）

你好我有一个相当简单的 matlab 函数例如 function MYSTRUCT myfunc MYSTRUCT prop1 test MYSTRUCT prop2 foo MYSTRUCT prop3 42 end 我用 matla
未提供参数时如何指定 C# System.Commandline 行为？

在我的控制台应用程序中当未提供控制台参数时将执行我指定列表在本例中为参数 3 的任何处理程序调用该处理程序时布尔参数设置为 false 但对我来说根本不调用它更有意义如何防止这种情况发生并显示帮助文本 using System
为什么 int8_t 和用户通过 cin 输入显示奇怪的结果[重复]

这个问题在这里已经有答案了一小段代码让我发疯但希望你能阻止我跳出窗外看这里 include
如何在c++中读取pcap文件来获取数据包信息？

我想用 C 编写一个程序来读取 pcap 文件并获取数据包的信息例如 len sourc ip flags 等现在我找到了如下代码我认为它会帮助我获取信息但是我有一些疑问首先我想知道应该将哪个库添加到我的程序中然后什么是 pca
在 DataView 的 RowFilter 中选择 DISTINCT

我试图根据与另一个表的关系缩小 DataView 中的行范围我使用的 RowFilter 如下 dv new DataView myDS myTable id IN SELECT DISTINCT parentID FROM myOthe
在 C 中匹配二进制模式

我目前正在开发一个 C 程序需要解析一些定制的数据结构幸运的是我知道它们是如何构造的但是我不确定如何在 C 中实现我的解析器每个结构的长度都是 32 位并且每个结构都可以通过其二进制签名来识别举个例子有两个我感兴趣的特定结构
复制目录内容

我想将目录 tmp1 的内容复制到另一个目录 tmp2 tmp1 可能包含文件和其他目录我想使用C C 复制tmp1的内容包括模式如果 tmp1 包含目录树我想递归复制它们最简单的解决方案是什么我找到了一个解决方案来打开目录并读
标准化 UTF-8 到底是什么？

The 重症监护室项目 http userguide icu project org transforms normalization 现在也有一个PHP库 http us php net manual en class normalize
Azure 辅助角色“请求输入之一超出范围”的内部异常。

我在辅助角色中调用 CloudTableClient CreateTableIfNotExist 方法但收到一个异常其中包含请求输入之一超出范围的内部异常我做了一些研究发现这是由于将表命名为非法表名引起的但是我尝试为我的表命
“接口”类似于 boost::bind 的语义

我希望能够将 Java 的接口语义与 C 结合起来起初我用过boost signal为给定事件回调显式注册的成员函数这非常有效但后来我发现一些函数回调池是相关的因此将它们抽象出来并立即注册所有实例的相关回调是有意义的但我了解到的
使用管道时，如果子进程数量大于处理器数量，进程是否会被阻塞？

当子进程数量很大时我的程序停止运行我不知道问题是什么但我猜子进程在运行时以某种方式被阻止下面是该程序的主要工作流程 void function int process num int i initial variables for
将 MQTTNet 服务器与 MQTT.js 客户端结合使用

我已经启动了一个 MQTT 服务器就像this https github com chkr1011 MQTTnet tree master例子该代码托管在 ASP Net Core 2 0 应用程序中但我尝试过控制台应用程序但没有成
如何在非控制台应用程序中查看 cout 输出？

输出到调试窗口似乎相当繁琐我在哪里可以找到cout如果我正在编写非控制台信息则输出 Like double i a b cout lt lt b lt lt endl I want to check out whether b is z
使用 C# 读取 Soap 消息
调用堆栈中的“外部代码”是什么意思？

我在 Visual Studio 中调用一个方法并尝试通过检查调用堆栈来调试它其中一些行标记为外部代码这到底是什么意思方法来自 dll已被处决外部代码意味着该dll没有可用的调试信息你能做的就是在Call Stack窗口中单
方法优化 - C#

我开发了一种方法允许我通过参数传入表字符串列数组字符串和值数组对象然后使用这些参数创建参数化查询虽然它工作得很好但代码的长度以及多个 for 循环散发出一种代码味道特别是我觉得我用来在列和值之间插入逗号的方法可以用不同的
System.IO.FileNotFoundException：找不到网络路径。在 Windows 7 上使用 DirectoryEntry 对象时出现异常

我正在尝试使用 DirectoryEntry 对象连接到远程 Windows 7 计算机这是我的代码 DirectoryEntry obDirEntry new DirectoryEntry WinNT hostName hostName
Oracle Data Provider for .NET 不支持 Oracle 19.0.48.0.0

我们刚刚升级到 Oracle 19c 19 3 0 所有应用程序都停止工作并出现以下错误消息 Oracle Data Provider for NET 不支持 Oracle 19 0 48 0 0 我将 Oracle ManagedData

随机推荐

是否可以迭代 Lucene 索引中存储的文档？

我有一些文档存储在带有 docId 字段的 Lucene 索引中我想获取存储在索引中的所有 docId 还有一个问题文档数量约为 300 000 因此我希望以大小为 500 的块获取此 docId 是否可以这样做 IndexReader
Objective-C 中如何检查一个字符串是否包含另一个字符串？

如何检查字符串 NSString 包含另一个较小的字符串我希望有这样的事情 NSString string hello bla bla NSLog d string containsSubstring hello 但我能找到的最接近的是
GetMapping 和 PostMapping 注释

我对这个操作有疑问创建此类控制器的工作原理 Controller public class StudentController RequestMapping value student method RequestMethod GET p
云功能完成延迟太多

这是我正在使用的云功能当发货人接受订单时向店主发送通知但有时至少需要 20 秒才能完成更常见的是需要 3 分钟以上我的其他云功能运行得很好无法找出此功能的问题 exports onChangeOfOrderStatus functi
连接组件标签 - 实施

几天前我问过类似的问题但我还没有找到解决问题的有效方法我正在开发一个简单的控制台游戏我有一个像这样的二维数组 1 0 0 0 1 1 1 0 1 1 0 1 0 0 1 1 1 1 1 0 0 0 0 1 0 我试图找到由相邻 1 4
本地化系统生成的状态消息

我在 NET 环境中工作系统偶尔会为客户生成日志条目然后消息将附加到客户日志中以便稍后查看例如如果客户正在订阅新服务或者客户付款尝试失败这些消息将被附加到客户日志中目前所有消息都被硬编码到代码中例如客户未能完成 XX
正则表达式问题通过curl向Varnish服务器发送BAN请求

我一直在尝试发送BAN请求通过curl to the Varnish服务器缓存的内容无效该 url 包含一些供 Varnish 检查的正则表达式我已成功发送此请求 1 curl X BAN https oursite com produ
“pip uninstall jupyter”不起作用，但是“which jupyter”返回有效路径[重复]

这个问题在这里已经有答案了我正在尝试卸载 jupyter pip uninstall jupyter 它给了我这个错误 Cannot uninstall requirement jupyter not installed but whic
php gd imagecreatefromstring() 和图像 mime 类型

有没有办法使用imagecreatefromstring 并以某种方式得到图像类型是什么当您使用 imagecreatefrom 方法时图像将作为未压缩的位图加载到内存中此时还没有真正的图像类型您可以使用 image 功能将其保存为
Mongodb Atlas：管理员无权执行命令

我有一个 MongoDB Atlas 集群我试图在其中简单地复制同一实例中的数据库不幸的是每次我尝试运行 db copyDatabase 或 copydb admin 命令时都会收到以下错误 not authorized on ad
根据特定时间格式计算总秒数

如何计算总秒数 33 小时 40 分 40 秒在 asp net c 中 new TimeSpan 33 40 40 TotalSeconds
如何实现XSLT tokenize功能？

EXSLT tokenize 函数似乎不适用于 PHP XSLTProcessor XSLT 1 0 我尝试用纯 XSL 实现它但无法使其工作
golang 在 Windows 中运行缓慢 [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案 package main import fmt func main fmt Println Hello world 命令是go run a
CXF - Jboss AS 7 中的 Jaxws 问题：org.apache.cxf.staxutils.DepthExceededStaxException：达到innerElementCountThreshold：50000

我在处理 SOAP Web 服务响应时在 Jaxws 客户端中遇到异常该异常非常大这在 Jboss 5 1 中运行得很好但我将 Jboss 升级到 AS 7 并开始出现以下错误 Caused by javax xml ws soap
从媒体存储中获取数据的内部 URI 与外部 URI

希望有人可以向我澄清这一点我正在开发一个简单的视频播放器应用程序可以播放手机上存储的视频剪辑我见过的所有示例都使用 MediaStore Video Media EXTERNAL CONTENT URI 内容 Uri 获取视频类似的
Canvas requestAnimationFrame 暂停

如何暂停使用 requestAnimationFrame 制作的画布动画我这样开始动画 Code window requestAnimFrame function return window requestAnimationFrame w
是什么导致使用 across() 函数在 filter() 中出现“未找到对象”错误？

此函数从我的数据集中过滤选择一个或多个变量并将其写入新的 CSV 文件当我调用该函数时出现未找到对象错误这是函数 extract ids lt function filename opp Read in data df lt r
仅对箱线图中的中位数着色

有没有办法只对箱线图的中线而不是整个箱线图进行着色当我尝试这个时 boxplot matrix col red 然后整个盒子变成红色我只想为箱线图的中线着色有没有办法在 R 中做到这一点 Try medcol as in boxplo
从完整文件路径获取文件夹名称

如何从应用程序的完整路径获取文件夹名称这是下面的文件路径 c projects root wsdlproj devlop beta2 text 这里的 text 是文件夹名称如何从此路径获取该文件夹名称 See 目录信息名称 http
WChars、编码、标准和可移植性

以下问题可能不属于 SO 问题如果超出范围请随时告诉我离开这里的问题基本上是我是否正确理解了 C 标准这是处理问题的正确方法吗我想请求对我对 C 以及 C 和 C 0x 中字符处理的理解进行澄清确认和更正首先一个重要的观察

WChars、编码、标准和可移植性

WChars、编码、标准和可移植性 的相关文章

随机推荐

热门标签

WChars、编码、标准和可移植性的相关文章