您如何处理标准库的signed char -> int 问题？

2024-04-22

这是我工作中一个长期存在的问题，我意识到我still没有好的解决办法...

C 天真地为 int 定义了它的所有字符测试函数：

int isspace(int ch);

但是字符通常是带符号的，并且完整的字符通常不适合 int 或用于字符串的任何单个存储单元*****。

这些函数已成为当前 C++ 函数和方法的逻辑模板，并为当前标准库奠定了基础。事实上，他们仍然受到支持。

因此，如果您传递 isspace(*pchar) ，您最终可能会遇到符号扩展问题。它们很难被发现，因此根据我的经验，它们很难防范。

类似地，因为 isspace() 及其同类都采用整数，并且因为字符的实际宽度通常在没有字符串分析的情况下是未知的 - 这意味着任何现代字符库本质上都不应该围绕 char 或 wchar_t 而只围绕指针/迭代器，因为只有通过分析字符流才能知道它有多少组成单个逻辑字符，所以我对如何最好地解决这些问题感到有点茫然？

我一直期待一个真正强大的库，基于抽象出任何字符的大小因素，并且仅使用字符串（提供 isspace 等），但要么我错过了它，要么有另一个更简单的解决方案在等着我面对你们所有人（知道自己在做什么的人）都使用...

** 对于可以完全包含完整字符的固定大小的字符编码，这些问题不会出现 - UTF-32 显然是具有这些特征的唯一选项（或将自身限制为 ASCII 或某些此类的特殊环境）。

所以，我的问题是：

“如何以一种不会遇到两个问题的方式测试空白、可打印等：

1) 符号扩展，以及
2）变宽字符问题

毕竟，大多数字符编码是可变宽度的：UTF-7、UTF-8、UTF-16 以及旧标准（例如 Shift-JIS）。如果编译器将 char 视为带符号的 8 位单元，那么即使是扩展的 ASCII 也可能存在简单的符号扩展问题。

请注意：

无论你的 char_type 大小是多少，对于大多数字符编码方案来说都是错误的。

这个问题在标准C库中，以及在C++标准库中；它仍然尝试在各种 isspace、isprint 等实现中传递 char 和 wchar_t，而不是字符串迭代器。

实际上，正是这些类型的函数破坏了 std::string 的通用性。如果它只在存储单元中工作，并且不试图假装将存储单元的含义理解为逻辑字符（例如 isspace），那么抽象就会更加诚实，并且会迫使我们程序员去寻找其他地方寻找有效的解决方案...

谢谢

所有参与的人。在这次讨论和WChars、编码、标准和可移植性 https://stackoverflow.com/questions/6300804/wchars-encodings-standards-and-portability我对这些问题有了更好的处理。尽管没有简单的答案，但一点点理解都会有所帮助。

如何以不受两个问题困扰的方式测试空白、可打印等：
1）符号扩展
2）变宽字符问题
毕竟，无论程序员是否意识到，所有常用的 Unicode 编码都是可变宽度的：UTF-7、UTF-8、UTF-16，以及 Shift-JIS 等较旧的标准...

显然，您必须使用支持 Unicode 的库，因为您已经（正确地）证明了 C++03 标准库不是。 C++11 库得到了改进，但对于大多数用途来说仍然不够好。是的，某些操作系统具有 32 位 wchar_t，这使它们能够正确处理 UTF32，但这只是一种实现，并不能由 C++ 保证，并且对于许多 unicode 任务来说远远不够，例如迭代字形（字母）。

IBMICU http://www-306.ibm.com/software/globalization/icu/index.jsp
Libiconv http://www.gnu.org/software/libiconv/
微UTF-8 http://puszcza.gnu.org.ua/software/microutf8/
UTF-8 CPP，版本 1.0 https://sourceforge.net/projects/utfcpp
utfproc http://www.flexiguided.de/publications.utf8proc.en.html
还有更多在http://unicode.org/resources/libraries.html http://unicode.org/resources/libraries.html.

如果问题不是关于特定字符测试，而是更多关于一般代码实践：请执行您的框架所做的任何事情。如果您正在为 linux/QT/networking 编码，请将所有内容保留在内部 UTF-8 中。如果您使用 Windows 进行编码，请将所有内容在内部保存为 UTF-16。如果您需要弄乱代码点，请将所有内容保留在内部 UTF-32 中。否则（对于可移植的通用代码），做任何你想做的事，因为无论如何，你都必须针对某些操作系统或其他操作系统进行翻译。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)