UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？

2024-05-04

在过去的几天里，我一直在阅读有关 Unicode 和 UTF-8 的内容，并且经常遇到与此类似的按位比较：

int strlen_utf8(char *s) 
{
  int i = 0, j = 0;
  while (s[i]) 
  {
    if ((s[i] & 0xc0) != 0x80) j++;
    i++;
  }
  return j;
}

有人可以澄清与 0xc0 的比较并检查它是否是最高有效位吗？

谢谢你！

编辑：ANDed，而不是比较，使用了错误的词；）

这不是比较0xc0，这是一个逻辑与运算0xc0.

位掩码0xc0 is 11 00 00 00所以 AND 所做的只是提取前两位：

    ab cd ef gh
AND 11 00 00 00
    -- -- -- --
  = ab 00 00 00

然后将其与0x80（二进制10 00 00 00）。换句话说，if语句正在检查值的前两位是否不等于10.

“为什么？”，我听到你问。嗯，这是个好问题。答案是，在 UTF-8 中，所有以位模式开头的字节10是多字节序列的后续字节：

                    UTF-8
Range              Encoding  Binary value
-----------------  --------  --------------------------
U+000000-U+00007f  0xxxxxxx  0xxxxxxx

U+000080-U+0007ff  110yyyxx  00000yyy xxxxxxxx
                   10xxxxxx

U+000800-U+00ffff  1110yyyy  yyyyyyyy xxxxxxxx
                   10yyyyxx
                   10xxxxxx

U+010000-U+10ffff  11110zzz  000zzzzz yyyyyyyy xxxxxxxx
                   10zzyyyy
                   10yyyyxx
                   10xxxxxx

所以，这个小片段所做的就是遍历 UTF-8 字符串的每个字节，并计算所有不是连续字节的字节（即，它获取字符串的长度，如广告所示）。看这个维基百科链接 http://en.wikipedia.org/wiki/UTF-8欲了解更多详细信息和Joel Spolsky 的优秀文章 http://www.joelonsoftware.com/articles/Unicode.html作为底漆。

顺便说一句有趣的。您可以按如下方式对 UTF-8 流中的字节进行分类：

将高位设置为0，它是一个单字节值。
将两个高位设置为10，它是一个连续字节。
否则，它是多字节序列的第一个字节和前导的数量1位表示该序列总共有多少字节（110...表示两个字节，1110...表示三个字节等）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

UTF8

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？的相关文章

电子邮件正则表达式将如何处理新的 unicode 域？

Since 2009年10月互联网名称指定公司和 Numbers ICANN 批准了创建国家地区代码顶级域名 ccTLD 在互联网上使用母语 IDNA 标准脚本我很确定大多数网站当前使用的标准正则表达式不会将它们标记为有效还
处理不兼容的字符编码：UTF-8 和 ASCII-8BIT

我在生产中遇到不兼容的字符编码错误我尝试在本地重现它但没有成功这是错误消息 A ActionView Template Error occurred in controller name action name incompatibl
在 strings.xml 中使用 Unicode 字符

我想在字符串中使用以下 unicode 字符我通过以下方式找到了它的十六进制和十进制代码this http apps timwhitlock info unicode inspect s F0 9F 9A 95 虽然我知道如何在字符串中使
JTextPane 的等宽字体/符号

我想使用 JTextPane 构建类似控制台的输出因此我使用等宽字体 textpane setFont new Font Font MONOSPACED Font PLAIN 12 这适用于所有类型的字母如 a z 0 9 等字符但
如何区分哪些 unicode 字符是字母（单词）还是标点符号？

我想检测文本中的单词即我需要知道给定文本中的哪些字符是字母即它们可以是口语单词的一部分另一方面哪些字符是标点符号等例如在上面的句子中我想要和 i 和 e 是这方面的单词而空格和逗号则不是这样做的困难在于我希望能够
os.path.expanduser("~") 的替代方案？

在Python 2 7 x中 os path expanduser Unicode 已损坏这意味着如果的扩展中包含非 ASCII 字符则会出现异常 http bugs python org issue13207 http bugs p
闪亮的本地部署错误：输入字符串 1 无效 UTF-8

我很惊讶地发现一个突然的错误我的 ShinyApp 停止工作并出现未知错误提示输入字符串 1 无效 UTF 8 即使在昨天该应用程序也可以正常运行但是突然停止了下面是我运行时的错误描述runApp gt runApp Liste
如何将UTF-8编码的汉字从MySql正确导出到SQL

过去三天我们正在与严重的问题作斗争我们从PhpmyAdmin导出MySql数据库文件数据库条目中写入的数据是带有UTF 8字符集的中文导出后将其转换为拉丁字符集现在我们正在将此数据库SQl文件导入到其他主机我们在UTF 8和排序规
PHP 中的 JS charCodeAt 等效项（具有完整的 unicode 和 emoji 兼容性）

我在 JS 中有一个简单的代码如果涉及特殊字符我无法在 PHP 中复制它这是 JS 代码参见JSFiddle https jsfiddle net h8oca3qg 5 用于输出 var str t char t and speci
运行源代码中包含 Unicode 字符的 Python 2.7 代码

我想运行一个在源代码中包含 unicode utf 8 字符的 Python 源文件我知道这可以通过添加评论来完成 coding utf 8 在一开始的时候但是我希望不使用这种方法来做到这一点我能想到的一种方法是以转义形式编写 un
如何在 Emacs shell 缓冲区中获得对“✖”等的支持？

我正在运行一个进程如果出现错误则输出字符如 Unicode 中定义但是如果在 Emacs shell 缓冲区 GNU Emacs 的 Aquamacs 发行版中运行该进程我根本看不到错误使用 braeburn aquamac
列表中的“u”是什么意思？

这是我第一次遇到这种情况刚刚打印了一个列表每个元素似乎都有一个u在它前面即 u hello u hi u hey 它是什么意思为什么列表的每个元素前面都会有这个由于我不知道这种情况有多常见如果您想了解我是如何遇到它的我会很乐意
Enthought - matplotlib（plot()函数的问题）

我正在尝试使用绘图库 http en wikipedia org wiki Matplotlib在冠层快车上即使简单的代码也无法运行注意系统无法识别plot x 功能好像有 ASCII X Unicode 的东西我的计算机使用 U
DOMDocument 对我的字符串做了什么？

dom new DOMDocument 1 0 UTF 8 str p Hello p var dump mb detect encoding str dom gt loadHTML str var dump dom gt saveHTML
标准化 Unicode

在Python中是否有一种标准方法来规范化unicode字符串以便它只理解可用于表示它的最简单的unicode实体我的意思是可以翻译类似序列的东西 LATIN SMALL LETTER A COMBINING ACUTE ACCENT
Scala 中使用转义特殊字符解码字符串问题

我有一个多行 JSON 文件其中包含编码为十六进制的特殊字符的记录以下是单个 JSON 记录的示例 x22value x22 x22 xC4 xB1arines Bint xC4 xB1 xC3 xA7 Ramu xC3 xA7lar
如何转换 UTF-8 <-> UTF16 可移植

有没有一种简单可移植的方法至少是 win32 linux 将 UTF 16 转换为 UTF 8 并返回最好使用升压谢谢你的帮助托比亚斯 Both libiconv http www gnu org software libicon
印地语在 tcpdf 上无法正确显示

我创建了以下代码用于在 tcpdf 中使用 arial unicode 字体显示印地文文本 pdf new TCPDF PDF PAGE ORIENTATION PDF UNIT PDF PAGE FORMAT true UTF 8 fa
为什么 OS X 和 Linux 之间的 UTF-8 文本排序顺序不同？

我有一个包含 UTF 8 编码文本行的文本文件 mac os x cat unsorted txt foo foo 津如果它有助于重现问题这里是文件中确切字节的校验和和转储以及如何自己生成文件在 Linux 上使用base64 d
TCPDF UTF-8 符号未显示

我使用最新的 TCPDF 版本 5 9 但在编码方面遇到一些奇怪的问题我需要立陶宛语语言符号例如但只能得到其中的一小部分其他的还是这样所以我该怎么做我使用默认的 times 字体它带有 TCPDF 下载任何帮助将不胜感激

随机推荐

（一元）* 运算符在此 Ruby 代码中起什么作用？

给出 Ruby 代码 line first name mickey last name mouse country usa record Hash line split 我理解第二行中的所有内容除了操作员它在做什么以及相关文档在哪里
自动将测试从 JUnit 3 迁移到 JUnit 4 的最佳方法？

我有一堆 JUnit 3 类它们扩展了 TestCase 并希望自动将它们迁移为带有注释的 JUnit4 测试例如 Before After Test etc 有什么工具可以在大批量运行中执行此操作吗在我看来这并没有那么难那么让我
从一个项目调用控制器到另一个项目

我正在使用 Asp net MVC4 和 razor 我想知道如何在同一解决方案中从一个项目调用控制器到另一个项目我是 MVC4 的新手您可以简单地将控制器添加到另一个项目类库或 MVC 项目等我们有几个共享控制器的项目 webAP
Swift 2：IBOutlet 集合 [UIButton]！内存泄漏

最近在我的应用程序中我发现我的 UIButton 出口集合正在泄漏内存我所拥有的只是 IBOutlet var TabBarButtons UIButton And from Instrument 谁能告诉我出了什么问题吗随着时间的推
使用 SimpleDateFormat 分别获取日、月和年

我有一个SimleDateFormat像这样 SimpleDateFormat format new SimpleDateFormat MMM dd yyyy hh mm String date format format Date par
插件架构中的反射与属性

我正在开发一个在启动时从子目录加载插件的应用程序目前我正在通过使用反射来迭代每个程序集的类型并查找实现 IPluginModule 接口的公共类来实现此目的由于反射涉及性能影响并且我预计一段时间后会有多个插件我想知道定义在程序集级别
如何计算 pyspark dataframe 中的每日基础（时间序列）

所以我有一个数据框我想计算一些数量比如说每天假设我们有 10 列 col1 col2 col3 col4 coln 其中每列都依赖于值col1 col2 col3 col4 等等日期根据id date col1 id col2 co
使用cachedTextGenerator获取字母的正确位置

考虑一个Text有许多文本段落这很容易查找某个字符在哪里 using UI字符信息 http docs unity3d com ScriptReference UICharInfo html 例如查找所有换行符 TextGenerato
python 在单击的 QTreeview 项目复选框上发出信号已更改

当树视图项目的复选框发生更改时如何发出信号 import sys from PySide import QtGui QtCore class Browser QtGui QDialog def init self parent None
线程同时打印会弄乱文本输出

我在应用程序中使用 4 个线程它们返回我想要打印给用户的文本由于我想避免线程独立打印这些文本因此我创建了一个类来管理它我不知道我在这里做错了什么但它仍然不起作用您可以在下面看到代码 from threading import T
有哪些用例可以证明 310 OffsetDatetime 的合理性？

偏移日期 http threeten sourceforge net apidocs javax time calendar OffsetDate html表示带有区域偏移的日期我不明白这个类的用途证明它存在的主要用例是什么在分析日期
已弃用的代码： vs style="font-weight:bold;"

我一直用 b 标记为粗体因为这是我很久以前就被教做的方式但现在我的 IDE 总是告诉我 b 已弃用并使用 css 样式假设他们希望我使用 div style font weight bold Bold Text div 我的 IDE

MongoDB 中的游标是什么？

我们对最终发生的事情感到困扰cursor not found exceptions对于一些 Morphia 查询asList http mongodb github io morphia 1 0 guides querying 我找到了一个

在 Hadoop 中处理带标头的文件

我想在 Hadoop 中处理很多文件每个文件都有一些头信息后面跟着很多记录每个记录都存储在固定数量的字节中对此有何建议我认为最好的解决方案是编写一个自定义的InputFormat http hadoop apache org co

声明指令 templateUrl 相对于 root

我目前正在声明相对于当前窗口位置的 templateUrl cvApp directive personalDetails function return restrict A templateUrl Scripts app templat

Tensorflow lite 目标检测示例中相机的屏幕尺寸 [水平屏幕]

在tensorflow lite示例对象检测中相机不会拍摄整个屏幕而只会拍摄一部分我试图在 CameraActivity CameraConnectionFragment 和 Size 类中找到一些常量但没有结果所以我只是想要一种

Android：Notification.DEFAULT_VIBRATE是否需要振动权限？

有时我读到 notification defaults Notification DEFAULT VIBRATE and notification defaults Notification DEFAULT ALL 需要振动权限

从 WebAPI 发送大文件。内容长度为 0

我正在尝试将大文件 GB 从一个WebAPI NET Core 发送到另一个WebApi Net Core 我已经设法发送较小的文件作为多部分请求的一部分就像上一篇文章中那样 link https forums asp net t 209

无法自省类 [org.springframework.security.config.annotation.web.configuration.WebSecurityConfiguration]

我使用 spring boot 2 1 1 创建了一个项目当我尝试提升它时出现以下错误 2018 12 10 19 23 14 837 ERROR 8096 main o s boot SpringApplication 应用程序运行失

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？

在过去的几天里我一直在阅读有关 Unicode 和 UTF 8 的内容并且经常遇到与此类似的按位比较 int strlen utf8 char s int i 0 j 0 while s i if s i 0xc0 0x80 j i r

热门标签

树莓派为什么涨价了

我学起来这么吃力

触摸板不能用问题

语言什么水平可以学

语言要求高吗

Sinkhorn

遇到问题解决

getupdate

远程共享目录

有哪些区别

找不到命令解决办法

中的常用快捷键

模型的问题

文件中导入

dae

添加末端六维力传感器

fbx

bvh

pkl

frankmocap

配置文件并对密码加密

比较大小的方法

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？ 的相关文章

随机推荐

热门标签

UTF-8 和 Unicode，0xC0 和 0x80 是什么意思？的相关文章