为什么 Mac OS 上的 C 运行时允许预组合和分解的 UTF-8？

2024-05-14

所以我们都知道 Mac OS 上的文件系统具有使用完全分解的 UTF-8 的古怪功能。如果您调用 POSIX API，例如realpath()例如，您将从 Mac OS 返回这样一个完全分解的 UTF-8 字符串。当使用像这样的 API 时fopen()但是，传递预组合的 UTF-8 似乎也可以。

这是一个小演示程序，它尝试打开一个名为ä。第一次致电fopen()传递一个预先组合的 UTF-8 字符串，第二个调用传递一个分解的 UTF-8 字符串，令我惊讶的是，两者都有效。我预计只有第二个可以工作，但预组合的 UTF-8 也可以工作。

#include <stdio.h>

int main(int argc, char *argv[])
{
    FILE *fp, *fp2;

    fp = fopen("\xc3\xa4", "rb");       // ä as precomposed UTF-8
    fp2 = fopen("\x61\xcc\x88", "rb");  // ä as decomposed UTF-8

    printf("CHECK: %p %p\n", fp, fp2);

    if(fp) fclose(fp);
    if(fp2) fclose(fp2);

    return 0;
}

现在回答我的问题：

这是定义的行为吗？即是否允许将预组合的 UTF-8 传递给 POSIX API，还是应该始终传递分解的 UTF-8？
怎样才能像这样的功能fopen()甚至知道传递的文件是否包含预组合或分解的 UTF-8？这难道不会导致各种各样的问题吗？由于传递的字符串可以用两种不同的方式解释，因此可能指向两个不同的文件，因此打开了错误的文件？这让我有些困惑。

EDIT

更让人困惑的是，这种奇怪的行为似乎不仅限于文件 I/O。看一下这段代码：

#include <stdio.h>

int main(int argc, char *argv[])
{
    printf("\xc3\xa4\n");
    printf("\x61\xcc\x88\n");

    return 0;
}

Both printf调用的作用完全相同，即它们都打印字符ä，第一个调用使用预组合的 UTF-8，第二个调用使用分解的 UTF-8。真的很奇怪。

Unicode 字符串中有两种不同类型的等价形式：一是规范等价，另一个是兼容性。由于您的问题是关于软件似乎认为相同的字符串，所以让我们重点关注规范等价 (OTOH, 兼容性允许语义差异，因此在这个问题中它是题外话）。

引用自Unicode 等效项 https://en.wikipedia.org/wiki/Unicode_equivalence在维基百科中：

代码点序列定义为规范等效是假定在打印或时具有相同的外观和含义显示。例如，代码点 U+006E（拉丁文小写字母 “n”）后跟 U+0303（组合波形符“◌̃”）定义为 Unicode 规范地等同于单个代码点 U+00F1 （西班牙语字母表中的小写字母“ñ”）。因此，那些序列应以相同的方式显示，应以通过按字母顺序排列名称或搜索等应用程序以相同的方式，并且可以互相替代.

换句话说，如果两个字符串规范等效，软件应该考虑两个字符串代表完全相同的事物。所以，MacOS 在这里做的是正确的事情：你有两个不同的 UTF-8 字符串（一个是分解的，另一个是预组合的），但它们是规范等效，因此它们映射到同一对象（示例中的文件名相同）。这是正确的（记住“应通过应用程序以相同的方式处理，例如按字母顺序排列名称或搜索，并且可以相互替换”上面引用的行）。

我不太明白你的第二个例子printf()。是的，分解的字符和预合成的字符都会呈现相同的输出。这正是 Unicode 支持的字符双重表示的要点：您可以选择是使用预先组合的字节序列还是分解的字节序列来表示组合字符。它们打印相同的视觉结果，但表示方式不同。如果两种表示方式都是规范等效（在某些情况下是，在某些情况下不是），那么系统必须将它们视为同一对象的两种表示。

为了在您的软件中更轻松地管理所有这些，您应该标准化您的 Unicode 字符串 https://en.wikipedia.org/wiki/Unicode_equivalence#Normalization在与他们合作之前。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 Mac OS 上的 C 运行时允许预组合和分解的 UTF-8？的相关文章

json.net自定义jobject反序列化

我正在尝试使用 JsonConvert DeserializeObject string 将字符串反序列化为可与动态一起使用的 jobject 来动态访问 json 文档但是我想避免知道文档的大小写以便我可以输入 dynamic doc
将 new 与 decltype 一起使用

T t T is an implementation detail t new T want to avoid naming T to allow for flexibility t new decltype t error cannot
在 OnModelCreating 期间设置列名称

Issue 我目前正在尝试通过设置的属性为我的表及其列添加前缀我正在使用实体框架核心我已经正确地为表名添加了前缀但我似乎无法弄清楚列的前缀我有一种感觉我需要使用反射我已经留下了我的可能很糟糕的反思尝试有人有办法在实体中设置
删除是如何工作的？ [复制]

这个问题在这里已经有答案了可能的重复 C 编程 free 如何知道要释放多少 https stackoverflow com questions 1518711 c programming how does free know how m
linq 中使用字符串数组 c# 的 'orderby'

假设我有一个这样的方法定义 public CustomerOrderData GetCustomerOrderData string CustomerIDs var query from a in db Customer join b in
运行需要 MySql.Data 的内置 .NET 应用程序

我在运行我编写的内置 NET 应用程序时遇到问题我的应用程序使用最新的 MySql 连接器该连接器安装在我的系统上当我尝试将其添加为引用时该连接器显示为 NET 4 Framwork 组件当我在环境中以调试模式运行应用程序时一切
在开关中使用“goto”？

我看到了一个建议的编码标准内容如下Never use goto unless in a switch statement fall through 我不跟这个例外案例到底是什么样的这证明了goto 此构造在 C 中是非法的 swi
计算另一个表达式中的 C# 表达式

我想在另一个表达式中使用一个表达式 Expression
为什么'enable_if'不能用于禁用这里声明

include
在 omp 并行 for 循环中使用 unique_ptr 会导致 SEG.FAULT

采取以下代码 include
获取 boost Spirit 语法中的当前行

我正在尝试使用 boostspirit 获取正在解析的文件的当前行我创建了一个语法类和结构来解析我的命令我还想跟踪在哪一行找到命令并将其解析到我的结构中我将 istream 文件迭代器包装在 multi pass 迭代器中然后将其包
使用查询表达式对 List 进行排序

我在使用 Linq 订购这样的结构时遇到问题 public class Person public int ID get set public List
如何对 NServiceBus.Configure.WithWeb() 进行单元测试？

我正在构建一个 WCF 服务该服务接收外部 IP 上的请求并将其转换为通过 NServiceBus 发送的消息我的单元测试之一调用Global Application Start 它执行应用程序的配置然后尝试将 Web 服务解析为验
搜索实体的所有字段

我正在尝试在客户数据库上实现多功能框类型的搜索其中单个查询应尝试匹配客户的任何属性这是一些示例数据来说明我想要实现的目标 FirstName LastName PhoneNumber ZipCode Mary Jane 12345
Project Euler #8，我不明白我哪里出了问题[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案我正在做项目欧拉第八题 https projecteuler net problem 8 其中我得到了这个大得离谱的数字 7316
逆向工程 ASP.NET Web 应用程序

我有一个 ASP NET Web 应用程序我没有源代码该 bin 包含 10 个程序集和一个 compiled 文件我在 App Code dll 上使用 Reflector 它向我显示了类和命名空间之类的东西但它太混乱了有没有什
如何停止无限循环？

我正在编写一个程序该程序将计算三角形或正方形的面积然后提示用户是否希望计算另一个我的代码已经运行到可以计算任一形状的面积的程度但随后不再继续执行代码的其余部分例如如果选择了正方形则计算面积然后返回到正方形边长的提示我假设这
如何调试 .NET 运行时中的内部错误？

我正在尝试调试一些处理大文件的工作代码本身works 但 NET 运行时本身会报告零星错误对于上下文这里的处理是一个 1 5GB 文件仅加载到内存中一次在循环中处理和释放故意尝试重现此否则不可预测的错误我的测试片段基本上是 t
使用 using 声明时，非限定名称查找如何工作？

根据 C 标准这是格式错误还是格式良好 namespace M struct i namespace N static int i 1 using M i using N i int main sizeof i Clang 拒绝它 GCC
如何将 SQL“LIKE”与 LINQ to Entities 结合使用？

我有一个文本框允许用户指定搜索字符串包括通配符例如 Joh Johnson mit ack on 在使用 LINQ to Entities 之前我有一个存储过程该存储过程将该字符串作为参数并执行以下操作 SELECT FROM T

随机推荐

更新 conda 后 conda 环境损坏

在广泛使用 conda 一段时间后我昨天被要求更新它现在事情看起来很糟糕我必须承认我不是幕后发生的专家所以请耐心等待安装 conda 后我使用了pip安装各种软件包昨天我开始处理 git 教程中的一些代码该教程建议创建一个临
在 ASP.NET 中使用 AjaxControlToolkit 的异步 AJAXFileUpload 控件返回数据

我正在使用上面的控件注意它是 ASP NET 控件我似乎看到很多人使用用 javascript 编写的类似名称的控件来允许使用进度条拖放操作来上传多个文件该部分一切正常但我需要随文件返回两条数据具体来说用户从两个文本框中输入
Guzzle 中的“并发”到底是什么？

我没有找到太多关于concurrency选项中Pool 如果这是可以在服务器上打开的 TCP 套接字数量那么问题是我可以使用多少并发来更快地处理请求我有这个使用的例子Pool I am using Laravel this is ba
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
如何在 swift 中以编程方式使用坐标打开地图应用程序？

我想在地图应用程序中打开纬度和经度我尝试了这段代码HERE https stackoverflow com questions 12504294 programmatically open maps app in ios 6 func g
在 PhotoImage 下调整图像大小

我需要调整图像大小但我想避免使用 PIL 因为我无法使其在 OS X 下工作不要问我为什么无论如何因为我对 gif pgm ppm 感到满意所以 PhotoImage 类对我来说没问题 photoImg PhotoImage fi
将 C# 字符串传递给非托管 C++ DLL

我有一个简单的应用程序它加载一个非托管 dll 并从 C 向它传递一些字符串值但在 C dll 应用程序中我收到异常试图访问读写保护的内存我的 DLL 导入如下所示 DllImport X dll CallingConventi
如何将数据库查询的行转换为 XML 文件？

我正在开发一个 Delphi 应用程序该应用程序需要从一段工作中获取行并将其转换为单个 XML 文件以便上传到第三方 Web 服务有没有可用的组件或库可以做到这一点如果不是那么构建 DB2XML 转换器的最佳代码方法是什么我注意
将相同匹配模式的连续 2 行放入单行中

我想解析这组行以便如果得到相同的模式例如 lt email protected cdn cgi l email protection gt 在连续的行中它应该以单行形式打印并在两行之间使用 q2VDWKkY010407 222187
MatAutocomplete 值 X 显示

我的自动完成显示具有以下定义的对象的值 export class Person id number name string cityName string 这是自动完成模板
具有子集合成员条件的 NHibernate 查询仅返回部分子集合

我与以下人员之间存在亲子关系Teacher and StudentReport Each StudentReport有一个时间戳字段记录老师完成报告的时间我有一个查询要查找截至某一分钟前已完成一份或多份报告的所有教师 public IL
线程池，C++

我正在使用 C 开发一个网络程序我想实现一个 pthread 池每当我从接收套接字接收到一个事件时我都会将数据放入线程池中的队列中我正在考虑创建 5 个独立的线程并将持续检查队列以查看是否有任何传入数据需要完成这是一个非常简单的
在 C# 中创建一副纸牌

因此我正在尝试为我的一个编程课程创建一副纸牌我从来没有真正做过这样的事情如果我犯了一些愚蠢的错误我很抱歉我正在 Visual Studio 中对此进行编码按照类规则我正在尝试为我的 Deck 创建一系列 Card 对象我遇到
多 AVL 树旋转

假设我有一个无序集合 s 3 6 5 1 2 4 并且我需要构造一个 AVL 树就这么多了我了解基本的旋转我在这里达到这一点 5 2 6 1 3 但当我尝试插入 4 时一切都崩溃了我得到的最终答案是左边的 4 But the a
iPhone OS 3.0.1 会毁掉你的开发手机吗？

我将手机更新到3 0 1 虽然手机作为手机工作正常 xcode http en wikipedia org wiki Xcode组织者不再知道手机的名称它还说这个版本的 xcode 不支持 3 0 1 我下载了最新版本的xcode和操作系
使用把手显示来自 parse.com 的 json 响应

我想将 json 响应传递给车把我已经查看了解析文档和 stackoverflow 问题但我似乎无法弄清楚这一点这是回应 results address 755 W Yale createdAt 2013 02 09T01 12 15
开源 EDA 项目

您知道 EDA 电子设计自动化领域有哪些开源项目正在寻找 C 程序员吗如果您经常关注 gEDA 的邮件列表您也许能够加入 gEDA 细节 http www gpleda org developer html http www gple
Webpack 子编译器更改配置

我希望在编译我的服务工作人员时将我的 webpack 构建的输出定义为变量我想使用子编译功能来编译放入不同路径的服务工作人员我需要 webpack 编译发出的输出来正确编译服务工作线程我最初的做法是使用与离线插件相同的策略在其中创建
为什么 Mac OS 上的 C 运行时允许预组合和分解的 UTF-8？

所以我们都知道 Mac OS 上的文件系统具有使用完全分解的 UTF 8 的古怪功能如果您调用 POSIX API 例如realpath 例如您将从 Mac OS 返回这样一个完全分解的 UTF 8 字符串当使用像这样的 API 时f

为什么 Mac OS 上的 C 运行时允许预组合和分解的 UTF-8？

为什么 Mac OS 上的 C 运行时允许预组合和分解的 UTF-8？ 的相关文章

随机推荐

热门标签

为什么 Mac OS 上的 C 运行时允许预组合和分解的 UTF-8？的相关文章