如何使用任意语言环境比较“basic_string”

2023-12-02

我重新发布了今天早些时候提交的问题，但现在我引用了一个具体的例子来回应我收到的反馈。原问题可以找到here（请注意，这不是家庭作业）：

我只是想确定 C++ 是否无法执行（有效的）不区分大小写比较一个basic_string对象也包含任意任意的因素locale目的。例如，似乎不可能编写如下所示的高效函数：

bool AreStringsEqualIgnoreCase(const string &str1, const string &str2, const locale &loc);

根据我目前的理解（但有人可以证实这一点），这个函数has呼叫两者ctype::toupper() and collate::compare()对于给定的locale（一如既往地使用提取use_facet()）。然而，因为collate::compare()特别需要 4 个指针参数，您需要为需要比较的每个字符传递这 4 个参数（在第一次调用ctype::toupper())，或者，首先将两个字符串转换为大写，然后进行一次调用collate::compare().

第一种方法显然效率低下（为每个测试的字符传递 4 个指针），第二种方法要求您将两个字符串全部转换为大写（需要分配内存以及不必要地将两个字符串复制/转换为大写）。我对此是否正确，即，不可能有效地做到这一点（因为没有办法解决）collate::compare()).

试图以一致的方式处理世界上所有的书写系统的小烦恼之一是，实际上你认为你所了解的关于字符的知识实际上都是正确的。这使得执行“不区分大小写的比较”之类的事情变得很棘手。事实上，进行任何形式的区域设置比较都是很棘手的，而且不区分大小写也很棘手。

不过，在一些限制下，这是可以实现的。所需的算法可以使用正常的编程实践（以及一些静态数据的预计算）来“有效”地实现，但它不能像不正确的算法那样有效地实现。通常可以牺牲正确性来换取速度，但结果并不令人愉快。不正确但快速的语言环境实现可能会吸引那些语言环境正确实现的人，但对于语言环境产生意外结果的部分受众来说显然不能令人满意。

字典顺序对人类不起作用

对于具有大小写的语言，大多数语言环境（“C”语言环境除外）已经以预期的方式处理字母大小写，即仅在考虑所有其他差异后才使用大小写差异。也就是说，如果单词列表按照区域设置的排序顺序进行排序，则列表中仅大小写不同的单词将是连续的。大写单词位于小写单词之前还是之后取决于区域设置，但中间不会有其他单词。

该结果无法通过任何单遍从左到右逐个字符的比较（“字典顺序”）来实现。而且大多数语言环境都有其他排序规则的怪癖，这些怪癖也不会屈服于天真的词典顺序。

如果您有适当的区域设置定义，标准 C++ 排序规则应该能够处理所有这些问题。但它不能仅仅使用对成对的比较函数来简化为字典顺序比较whar_t，因此 C++ 标准库不提供该接口。

以下只是说明为什么区域设置感知排序规则如此复杂的几个示例；更长的解释，以及更多的例子，可以在Unicode 技术标准 10.

口音去哪儿了？

大多数浪漫语言（以及英语，在处理借用词时）都认为元音之上的重音是一种次要特征;也就是说，首先对单词进行排序，就像不存在重音符号一样，然后进行第二次排序，其中非重音字母位于重音字母之前。需要第三遍来处理大小写，这在前两遍中被忽略。

But that doesn't work for Northern European languages. The alphabets of Swedish, Norwegian and Danish have three extra vowels, which follow z in the alphabet. In Swedish, these vowels are written å, ä, and ö; in Norwegian and Danish, these letters are written å, æ, and ø, and in Danish å is sometimes written aa, making Aarhus the last entry in an alphabetical list of Danish cities.

In German, the letters ä, ö, and ü are generally alphabetised as with romance accents, but in German phonebooks (and sometimes other alphabetical lists), they are alphabetised as though they were written ae, oe and ue, which is the older style of writing the same phonemes. (There are many pairs of common surnames such as "Müller" and "Mueller" are pronounced the same and are often confused, so it makes sense to intercollate them. A similar convention was used for Scottish names in Canadian phonebooks when I was young; the spellings M', Mc and Mac were all clumped together since they are all phonetically identical.)

一个符号，两个字母。或者两个字母，一个符号

German also has the symbol ß which is collated as though it were written out as ss, although it is not quite identical phonetically. We'll meet this interesting symbol again a bit later.

In fact, many languages consider digraphs and even trigraphs to be single letters. The 44-letter Hungarian alphabet includes Cs, Dz, Dzs, Gy, Ly, Ny, Sz, Ty, and Zs, as well as a variety of accented vowels. However, the language most commonly referenced in articles about this phenomenon -- Spanish -- stopped treating the digraphs ch and ll as letters in 1994, presumably because it was easier to force Hispanic writers to conform to computer systems than to change the computer systems to deal with Spanish digraphs. (Wikipedia claims it was pressure from "UNESCO and other international organizations"; it took quite a while for everyone to accept the new alphabetization rules, and you still occasionally find "Chile" after "Colombia" in alphabetical lists of South American countries.)

总结：比较字符串需要多遍，有时需要比较字符组

使其全部不区分大小写

由于相比之下，区域设置可以正确处理大小写，因此实际上没有必要执行不区分大小写的排序。进行不区分大小写的等价类检查（“相等”测试）可能很有用，尽管这提出了其他哪些不精确的等价类可能有用的问题。 Unicode 规范化、重音删除、甚至转录为拉丁语在某些情况下都是合理的，但在其他情况下却非常烦人。但事实证明，大小写转换也不像您想象的那么简单。

Because of the existence of di- and trigraphs, some of which have Unicode codepoints, the Unicode standard actually recognizes three cases, not two: lower-case, upper-case and title-case. The last is what you use to upper case the first letter of a word, and it's needed, for example, for the Croatian digraph ǆ (U+01C6; a single character), whose uppercase is Ǆ (U+01C4) and whose title case is ǅ (U+01C5). The theory of "case-insensitive" comparison is that we could transform (at least conceptually) any string in such a way that all members of the equivalence class defined by "ignoring case" are transformed to the same byte sequence. Traditionally this is done by "upper-casing" the string, but it turns out that that is not always possible or even correct; the Unicode standard prefers the use of the term "case-folding", as do I.

C++ 语言环境不能完全胜任这项工作

因此，回到 C++，可悲的事实是 C++ 语言环境没有足够的信息来进行准确的大小写折叠，因为 C++ 语言环境的工作原理是假设字符串的大小写折叠仅包含顺序和单独的大写字母字符串中的每个代码点都使用将一个代码点映射到另一个代码点的函数。正如我们将看到的，这根本行不通，因此其效率问题是无关紧要的。另一方面，重症监护病房图书馆有一个接口，可以像 Unicode 数据库允许的那样正确地进行大小写折叠，并且它的实现是由一些非常优秀的编码人员精心设计的，因此它可能在限制范围内尽可能高效。所以我绝对推荐使用它。

如果您想很好地了解折叠案例的难度，您应该阅读 5.18 和 5.19 节统一码标准 (第 5 章的 PDF）。以下仅举几个例子。

大小写转换不是从单个字符到单个字符的映射

The simplest example is the German ß (U+00DF), which has no upper-case form because it never appears at the beginning of a word, and traditional German orthography didn't use all-caps. The standard upper-case transform is SS (or in some cases SZ) but that transform is not reversible; not all instances of ss are written as ß. Compare, for example, grüßen and küssen (to greet and to kiss, respectively). In v5.1, ẞ, an "upper-case ß, was added to Unicode as U+1E9E, but it is not commonly used except in all-caps street signs, where its use is legally mandated. The normal expectation of upper-casing ß would be the two letters SS.

并非所有表意文字（可见字符）都是单字符代码

Even when a case transform maps a single character to a single character, it may not be able to express that as a wchar→wchar mapping. For example, ǰ can easily be capitalized to J̌, but the former is a single combined glyph (U+01F0), while the second is a capital J with a combining caron (U+030C).

There is a further problem with glyphs like ǰ:

天真的逐字符大小写折叠可能会导致非规范化

Suppose we upper-case ǰ as above. How do we capitalize ǰ̠ (which, in case it doesn't render properly on your system, is the same character with an bar underneath, another IPA convention)? That combination is U+01F0,U+0320 (j with caron, combining minus sign below), so we proceed to replace U+01F0 with U+004A,U+030C and then leave the U+0320 as is: J̠̌. That's fine, but it won't compare equal to a normalized capital J with caron and minus sign below, because in the normal form the minus sign diacritic comes first: U+004A,U+0320,U+030C (J̠̌, which should look identical). So sometimes (rarely, to be honest, but sometimes) it is necessary to renormalize.

撇开 unicode 的怪异不谈，有时大小写转换是上下文相关的

Greek has a lot of examples of how marks get shuffled around depending on whether they are word-initial, word-final or word-interior -- you can read more about this in chapter 7 of the Unicode standard -- but a simple and common case is Σ, which has two lower-case versions: σ and ς. Non-greeks with some maths background are probably familiar with σ, but might not be aware that it cannot be used at the end of a word, where you must use ς.

In short

大小写折叠的最佳可用正确方法是应用 Unicode 大小写折叠算法，该算法需要为每个源字符串创建一个临时字符串。然后，您可以在两个转换后的字符串之间进行简单的字节比较，以验证原始字符串是否位于同一等价类中。对转换后的字符串进行排序规则虽然可能，但效率比对原始字符串进行排序规则要低得多，并且出于排序目的，未转换的比较可能与转换后的比较一样好或更好。
理论上，如果您只对大小写相等感兴趣，则可以线性进行转换，请记住转换不一定是上下文无关的，也不是简单的字符到字符映射函数。不幸的是，C++ 语言环境不向您提供执行此操作所需的数据。 Unicode CLDR 更接近，但它是一个复杂的数据结构。
所有这些东西都非常复杂，并且充满了边缘情况。（请参阅 Unicode 标准中有关立陶宛语重音的注释i例如。）您最好只使用维护良好的现有解决方案，其中最好的例子是 ICU。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

如何使用任意语言环境比较“basic_string” 的相关文章

类型中的属性名称必须是唯一的

我正在使用 Entity Framework 5 并且有以下实体 public class User public Int32 Id get set public String Username get set public virtual
如何在 Cassandra 中存储无符号整数？

我通过 Datastax 驱动程序在 Cassandra 中存储一些数据并且需要存储无符号 16 位和 32 位整数对于无符号 16 位整数我可以轻松地将它们存储为有符号 32 位整数并根据需要进行转换然而对于无符号 64 位整
std::vector 与 std::stack

有什么区别std vector and std stack 显然向量可以删除集合中的项目尽管比列表慢得多而堆栈被构建为仅后进先出的集合然而堆栈对于最终物品操作是否更快它是链表还是动态重新分配的数组我找不到关于堆栈的太多信息但
如何在 C# 中打开 Internet Explorer 属性窗口

我正在开发一个 Windows 应用程序我必须向用户提供一种通过打开 IE 设置窗口来更改代理设置的方法 Google Chrome 使用相同的方法当您尝试更改 Chrome 中的代理设置时它将打开 Internet Explorer
free 和 malloc 在 C 中如何工作？

我试图弄清楚如果我尝试从中间释放指针会发生什么例如看下面的代码 char ptr char malloc 10 sizeof char for char i 0 i lt 10 i ptr i i 10 ptr ptr ptr pt
如何使从 C# 调用的 C（P/invoke）代码“线程安全”

我有一些简单的 C 代码它使用单个全局变量显然这不是线程安全的所以当我使用 P invoke 从 C 中的多个线程调用它时事情就搞砸了如何为每个线程单独导入此函数或使其线程安全我尝试声明变量 declspec thread 但
用于 FTP 的文件系统观察器

我怎样才能实现FileSystemWatcherFTP 位置在 C 中这个想法是每当 FTP 位置添加任何内容时我都希望将其复制到我的本地计算机任何想法都会有所帮助这是我之前问题的后续使用 NET 进行选择性 FTP 下载 ht
WPF 数据绑定到复合类模式？

我是第一次尝试 WPF 并且正在努力解决如何将控件绑定到使用其他对象的组合构建的类例如如果我有一个由两个单独的类组成的类 Comp 为了清楚起见请注意省略的各种元素 class One int first int second cla
如何获取 EF 中与组合（键/值）列表匹配的记录？

我有一个数据库表其中包含每个用户年份组合的记录如何使用 EF 和用户 ID 年份组合列表从数据库获取数据组合示例 UserId Year 1 2015 1 2016 1 2018 12 2016 12 2019 3 2015 91
C# - 当代表执行异步任务时，我仍然需要 System.Threading 吗？

由于我可以使用委托执行异步操作我怀疑在我的应用程序中使用 System Threading 的机会很小是否存在我无法避免 System Threading 的基本情况只是我正处于学习阶段例子 class Program public
为什么这个字符串用AesCryptoServiceProvider第二次解密时不相等？

我在 C VS2012 NET 4 5 中的文本加密和解密方面遇到问题具体来说当我加密并随后解密字符串时输出与输入不同然而奇怪的是如果我复制加密的输出并将其硬编码为字符串文字解密就会起作用以下代码示例说明了该问题我究竟做错
C 编程：带有数组的函数

我正在尝试编写一个函数该函数查找行为 4 列为 4 的二维数组中的最大值其中二维数组填充有用户输入我知道我的主要错误是函数中的数组但我不确定它是什么如果有人能够找到我出错的地方而不是编写新代码我将不胜感激除非我刚去南方我的尝
空指针与 int 等价

Bjarne 在 C 编程语言中写道空指针与整数零不同但 0 可以用作空指针的指针初始值设定项这是否意味着 void voidPointer 0 int zero 0 int castPointer reinterpret cast
LINQ：使用 INNER JOIN、Group 和 SUM

我正在尝试使用 LINQ 执行以下 SQL 最接近的是执行交叉联接和总和计算我知道必须有更好的方法来编写它所以我向堆栈团队寻求帮助 SELECT T1 Column1 T1 Column2 SUM T3 Column1 AS Amoun
复制目录下所有文件

如何将一个目录中的所有内容复制到另一个目录而不循环遍历每个文件你不能两者都不Directory http msdn microsoft com en us library system io directory aspx nor Dir
为什么 isnormal() 说一个值是正常的，而实际上不是？

include
使用特定参数从 SQL 数据库填充组合框

我在使用参数从 sql server 获取特定值时遇到问题任何人都可以解释一下为什么它在 winfom 上工作但在 wpf 上不起作用以及我如何修复它我的代码 private void UpdateItems COMBOBOX1 Ite
当文件流没有新数据时如何防止fgets阻塞

我有一个popen 执行的函数tail f sometextfile 只要文件流中有数据显然我就可以通过fgets 现在如果没有新数据来自尾部 fgets 挂起我试过ferror and feof 无济于事我怎样才能确定fgets 当
C++ 中的参考文献

我偶尔会在 StackOverflow 上看到代码询问一些涉及函数的重载歧义例如 void foo int param 我的问题是为什么会出现这种情况或者更确切地说你什么时候会有对参考的参考这与普通的旧参考有何不同我从未在现
C# 使用“？” if else 语句设置值这叫什么

嘿我刚刚看到以下声明 return name null name NA 我只是想知道这在 NET 中叫什么是吗代表即然后执行此操作这是一个俗称的条件运算符三元运算符 http en wikipedia org wiki Tern

随机推荐

CHM 的 hhc 文件转 html

我创建了一个chm文件使用HTML Help workshop并且在 Windows 下运行良好但是那chm viewer用于Linux不太好我不想用它Linux 我还被限制在 Linux 中使用任何其他查看器于是我想到了反编译ch
org.springframework.web.client.RestClientException：无法提取响应：

我正在创建一个restful API 它将使用来自服务器的json 但我遇到了以下异常 org springframework web client RestClientException 无法提取响应找不到适合响应类型 Lexample
如何获取 tf.dataset 中steps_per_epoch 的样本数量？

我很好奇如何在 tf keras 中设置 steps per epoch 适合在 tf dataset 上进行训练由于我需要示例数量来计算它我想知道如何得到这个由于它是 tf data 类型您可以假设这更容易如果我将steps p
在实体框架中更新时排除属性

我一直在寻找一种正确的方法来标记在 MVC 中更新模型时不更改的属性例如我们以这个小模型为例 class Model Key public Guid Id get set public Guid Token get set lots o
C# 中的 Array.Copy 与 Skip 和 Take

我正在浏览这个问题和一些类似的问题从现有数组中获取子数组我在很多地方读过这样的答案从现有数组中获取子数组我想知道为什么 Skip 和 Take 不是数组的恒定时间操作反过来如果它们是恒定时间操作那么 Skip 和 Take 方
在 F# 中将枚举转换为列表、序列或通用集合类型

我的类型是Dictionary
Spotify api 获取用户的播放列表

我需要使用 apiSpotify我的客户需要有一个 Spotify 应用程序该应用程序将代表注册用户连接到 Spotify 并获取所有播放列表名称及其在这些播放列表中的歌曲并将创建这些播放列表的 txt 文件就是这样请帮助我我应该从
Maven 排除传递依赖的传递依赖

pom 文件中是否有一种语法方法可以排除传递依赖项的依赖项例如如果 A 具有依赖项 B B 具有依赖项 C C 具有依赖项 D 则可以在编译 A 时排除依赖项 D 对依赖性的排除似乎只深入一层我过去完成此任务的方法是将依赖项 C 包含
为什么 exevp 之前的 printf 没有运行？

我得到嗨的输出为什么这不打印东西 include
Excel 宏突出显示与当前单元格中的值匹配的所有单元格

我正在寻找一个宏如果当前工作表中的任何单元格的值与当前选定的单元格相同它将自动突出显示这些单元格因此如果当前选择了单元格 B3 并且它包含值 3 则所有其他值为 3 的单元格将突出显示有任何想法吗 Reafidy 提供了一个很好的
Swagger：支持可选路由

我有一条带有可选参数的路线 Route categoryId public HttpResponseMessage Get int categoryId null 但是当我不提供值时categoryId该通话包括 categoryId 在
使用 Java 和 Corba 识别对等文件共享中的客户端。并在 2 个客户端之间建立套接字套接字

我正在使用 Java 和 CORBA 开发一个点对点文件共享应用程序我是 CORBA 新手到目前为止我已经成功创建了一个客户端程序该程序通过 CORBA 在 SQL 数据库中注册一个文件该表存储以下信息 filename 共享基
constexpr 定义声明为 const 的文字类型的静态数据成员

我有一个关于 constexpr 定义在类定义中声明为 const 且未指定内联或 constexpr 的文字类型静态数据成员的问题 S h struct S static int const i not specified inline
S3 正在将带有空格和符号的 url 编码为未知格式

我有一个带有静态网站托管的 S3 存储桶 S3是编码路由 AniketFuryRocks What is Lorem Ipsum to route AniketFuryRocks What is Lorem Ipsum 3F 而不是路线 A
数据库连接池[Hikari]初始化错误

我正在尝试为我的 Web 应用程序配置 HikariCP 我没有使用任何框架它是一个简单的 Java Web 应用程序当我尝试通过普通 JDBC 建立连接时它成功了并且我能够执行所有数据库操作但是当我尝试与连接池建立连接时初始
iPhone 3.0 的 Safari 缓存大小

互联网上的多个网站声称 iPhone 2 2 上的 Safari 缓存为 25k 和 19 个对象有谁知道 iPhone 3 0 上 Safari webview 的缓存大小是多少特别是如果您使用客户端存储或缓存清单您可以存储更多数据
如何将参数发送到 Microsoft Access 查询，以便我可以将访问参数查询导入 Excel？

我需要将具有弹出输入参数的 Microsoft Access 查询导入到 Excel 中我尝试了下面的代码但它不起作用我收到错误 93 告诉我未设置对象或对象变量我希望能够引用 Excel 中包含当前和上个月值的两个单元格然后将这
Python Regex - 拒绝带有换行符的字符串

我想将完整的字符串与特定的模式匹配比方说 word aaaa test re match r aaaa word this returns True 但是如果该单词后跟换行符 word aaaa n test re match r aa
如何使用 API v3 列出 YouTube 频道的所有上传视频（URL）？

本文展示了如何在版本 2 中从特定频道获取所有上传的视频但我不知道如何在版本 3 中做到这一点是否可以大多数版本 3 的文章只讨论搜索 Here 您将找到所有 Data API v3 参考只需几个步骤即可 1 You list上传完
如何使用任意语言环境比较“basic_string”

我重新发布了今天早些时候提交的问题但现在我引用了一个具体的例子来回应我收到的反馈原问题可以找到here 请注意这不是家庭作业我只是想确定 C 是否无法执行有效的不区分大小写比较一个basic string对象也包含任意任意的因素

如何使用任意语言环境比较“basic_string”

如何使用任意语言环境比较“basic_string” 的相关文章

随机推荐

热门标签