尽管我非常喜欢 C 和 C++,但我还是忍不住对空终止字符串的选择感到摸不着头脑:
- 长度前缀(即 Pascal)字符串在 C 之前就已存在
- 长度前缀字符串通过允许恒定时间长度查找使多种算法更快。
- 带长度前缀的字符串更难以导致缓冲区溢出错误。
- 即使在 32 位计算机上,如果允许字符串为可用内存大小,则长度前缀字符串仅比空终止字符串宽三个字节。在 16 位机器上,这是一个字节。在 64 位机器上,4GB 是合理的字符串长度限制,但即使您想将其扩展到机器字的大小,64 位机器通常也有足够的内存,使得额外的 7 个字节成为空参数。我知道最初的 C 标准是为极其糟糕的机器(就内存而言)编写的,但效率论点并不能让我信服。
- 几乎所有其他语言(即 Perl、Pascal、Python、Java、C# 等)都使用长度前缀字符串。这些语言通常在字符串操作基准测试中击败 C,因为它们处理字符串的效率更高。
- C++ 对此做了一些修正
std::basic_string
模板,但期望以 null 结尾的字符串的纯字符数组仍然普遍存在。这也是不完美的,因为它需要堆分配。
- 以空结尾的字符串必须保留一个字符(即空),该字符不能存在于字符串中,而长度前缀的字符串可以包含嵌入的空值。
其中一些事情比 C 更晚才被发现,因此 C 不知道它们也是有道理的。然而,有几个早在 C 出现之前就已经很简单了。为什么选择以空结尾的字符串而不是明显优越的长度前缀?
EDIT: 既然有人要求facts(并且不喜欢我已经提供的那些)就我上面的效率点而言,它们源于以下几件事:
- 使用空终止字符串进行连接需要 O(n + m) 时间复杂度。长度前缀通常只需要 O(m)。
- 使用空终止字符串的长度需要 O(n) 时间复杂度。长度前缀是 O(1)。
- 长度和连接是迄今为止最常见的字符串操作。在某些情况下,以 null 结尾的字符串可以更有效,但这种情况发生的频率要低得多。
从下面的答案来看,在某些情况下,空终止字符串效率更高:
- 当您需要切断字符串的开头并将其传递给某些方法时。即使允许您销毁原始字符串,您也不能真正在恒定时间内使用长度前缀来完成此操作,因为长度前缀可能需要遵循对齐规则。
- 在某些情况下,如果您只是逐个字符地循环字符串,您也许可以保存 CPU 寄存器。请注意,这只适用于您没有动态分配字符串的情况(因为这样您就必须释放它,从而需要使用您保存的 CPU 寄存器来保存最初从 malloc 和朋友那里获得的指针)。
以上都不像长度和连接那么常见。
下面的答案中还有一个断言:
但这是不正确的——对于以 null 结尾的字符串和长度前缀的字符串来说,时间是相同的。 (空终止字符串只需在您想要新结尾的位置粘贴一个空值,长度前缀只需从前缀中减去。)
来自马嘴 https://www.bell-labs.com/usr/dmr/www/chist.html
BCPL、B 或 C 都不支持
字符数据强在
语言;每个都对字符串处理得很多
就像整数向量和
通过一些补充一般规则
惯例。在 BCPL 和 B a 中
字符串文字表示的地址
一个静态区域初始化为
字符串的字符,打包成
细胞。在 BCPL 中,第一个打包字节
包含的字符数
字符串; B 中没有计数
字符串以 a 结尾
特殊字符,B 拼写的*e
。此更改已部分完成
以避免长度限制
由持有引起的字符串
计数 8 位或 9 位槽,以及
部分原因是维持计数
根据我们的经验,似乎较少
比使用终结器方便。
Dennis M Ritchie, Development of the C Language
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)