Unicode 组合字符的实际最大数量是多少?

2023-12-01

我正在寻找在非组合字符之后出现的 unicode 组合字符的最大数量在现实的自然文本中.

我知道在 unicode 文本中,文本中的任何位置都可以放置任意数量的组合。但是,我正在编写一个专门的应用程序,该应用程序必须在资源有限的情况下运行,并且由于该原因和其他技术原因,在非组合字符之后显示任意数量的组合字符不是一种选择。但是,如果可能的话,我仍然希望正确显示自然语言,并且对少量组合的支持应该不成问题。

我的直觉是,自然语言在适当的字符之后不需要超过两到三个组合,但我不确定,也找不到该数字的任何来源。


好吧,由于缺乏更好的答案,这就是我所做的(供将来需要时参考):

我最终使用了类似 SmallVec 的东西,分配前的阈值为 8 字节,上限为 50 字节(以 UTF-8 存储的文本)。我认为这应该让每个人都高兴,并且性能不会受到影响。

对这些数字持保留态度,它们是任意的,无论如何我都可能会调整它们。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Unicode 组合字符的实际最大数量是多少? 的相关文章

  • 如何查明我的字符串是否包含“micro”Unicode 字符?

    我有一个包含实验室数据的 Excel 电子表格 如下所示 g L ppb 我想测试希腊字母 是否存在 如果发现我需要做一些特别的事情 通常 我会写这样的东西 if cell StartsWith matchSequence lt unive
  • 如何使用 HTML 在 IE 中显示 Unicode 字符

    我试图使用以下代码在页面底部显示版权和无穷大符号 x00A9 Copyright Mikle 2009 x221E 这在 Firefox 2 3 和 Chrome 中完美运行 不过 IE7 向我显示了实际的代码 如上所示 而不是我所期望的
  • 如何使用 vim 更改文件的编码?

    我习惯使用 vim 修改文件的行结尾 file file file ASCII text with CRLF line terminators vim file set ff mac wq file file file ASCII text
  • 如何在普通 C89 中读取给定字符长度的 UTF-8 字符串?

    我正在用纯 C89 编写一个自定义的跨平台简约 TCP 服务器 但我也会接受 POSIX 特定的答案 服务器使用 UTF 8 字符串 但从不查看它们的内部 它将所有字符串视为不可变的二进制 blob 但现在我需要接受来自客户端的 UTF 8
  • 国际化和非 US-ASCII、Latin1 或 Win1252 的密码

    当用户输入最能以 Unicode 或其他非拉丁字符编码表示的内容时 您如何处理服务密码 具体来说 可以使用西里尔字母密码作为Oracle的密码吗 如果密码以 UTF 8 形式提供 您如何根据 Windows 身份验证机制验证用户的密码 我对
  • 相同的单词但不同的 unicode 字符

    我在 Windows 上使用 Python 构建了一个关于越南餐馆的问答应用程序 要编写越南语字符 我需要使用 Unicode 首先 我从使用 HTML charset utf 8 的 TripAdvisor 网站克隆数据并构建我的 Mon
  • C++:LPWSTR 在 cout 中打印为地址

    我有一个类型变量LPTSTR 我打印到std cout with lt lt 在 ANSI 系统中 不知道它是在哪里确定的 它工作得很好 它打印了字符串 现在 在 Unicode 系统中 我得到的是十六进制地址而不是字符串 那么 为什么LP
  • 如何区分哪些 unicode 字符是字母(单词)还是标点符号?

    我想检测文本中的单词 即我需要知道给定文本中的哪些字符是字母 即它们可以是 口语 单词的一部分 另一方面 哪些字符是标点符号等 例如 在上面的句子中 我 想要 和 i 和 e 是这方面的单词 而空格 和逗号则不是 这样做的困难在于我希望能够
  • os.path.expanduser("~") 的替代方案?

    在Python 2 7 x中 os path expanduser Unicode 已损坏 这意味着如果 的扩展中包含非 ASCII 字符 则会出现异常 http bugs python org issue13207 http bugs p
  • 将 Unicode 字符串转换为 ASCII

    我的字符串包含 ASCII 中未找到的字符 如 我需要一个函数将它们转换为可接受的内容 例如 a e i o u 这是因为我将根据这些字符串创建 IIS 网站 即我将使用它们作为域名 function Convert DiacriticCh
  • 在python中使用编解码器utf-8打开文件错误

    我在 windows xp 和 python 2 6 4 上执行以下代码 但它显示 IOError 如何打开名称带有 utf 8 编解码器的文件 gt gt gt open unicode txt euc kr encode utf 8 T
  • 是否有匹配单个字素簇的正则表达式?

    字素是用户感知的文本字符 在 unicode 中可能由多个代码点组成 From Unicode 标准附录 29 http unicode org reports tr29 Grapheme Cluster Boundaries 重要的是要认
  • 在Python中清理属于不同语言的文本

    我有一个文本集合 其中的句子要么完全是英语 印地语或马拉地语 每个句子附加的 id 为 0 1 2 分别代表文本的语言 无论任何语言的文本都可能有 HTML 标签 标点符号等 我可以使用下面的代码清理英语句子 import HTMLPars
  • Enthought - matplotlib(plot()函数的问题)

    我正在尝试使用绘图库 http en wikipedia org wiki Matplotlib在冠层快车上 即使简单的代码也无法运行 注意 系统无法识别plot x 功能 好像有 ASCII X Unicode 的东西 我的计算机使用 U
  • 正则表达式匹配埃及象形文字[关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我想知道一个匹配埃及象形文字的正则表达式 我完全一无所知 需要你的帮助 我无法发布这些字母 因为堆栈溢出似乎无法识别它 那么谁能告诉我这些
  • 为什么 wprintf 将 Unicode 连字分成两个不同的字素?

    Code include
  • 为什么我们从 MultiByte 转换为 WideChar?

    我习惯于处理 ASCII 字符串 但现在使用 UNICODE 我对一些术语感到非常困惑 什么是多字节字符以及什么是widechar有什么不同 多字节是指在内存中包含多个字节的字符吗 widechar只是一个数据类型来表示吗 为什么我们要从M
  • 如何正确实施 Unicode 密码?

    添加对 Unicode 密码的支持是开发人员不应忽视的重要功能 尽管如此 在密码中添加对 Unicode 的支持仍然是一项棘手的工作 因为相同的文本可以在 Unicode 中以不同的方式进行编码 并且您不希望因此阻止人们登录 假设您将密码存
  • 所见即所得与 Unicode

    我在 Delphi 中编写了一个 Windows 程序 该程序使用 GetCharWidth 和 Em Square 将文本非常精确地放置并换行到屏幕和打印机 这对于 ANSI 文本效果很好 您只需要检索和计算 255 个字符的宽度 但当您
  • 在有或没有 UNICODE 支持的情况下,如何在我的程序中使用 _stprintf?

    微软的 定义 stprintf as swprintf if UNICODE被定义 并且sprintf如果不 但这些函数采用不同的参数 在swprintf 第二个参数是缓冲区大小 但是sprintf没有这个 有人偷懒了吗 如果是这样 这就是

随机推荐

  • 如何检查Access数据库表中是否存在特定列

    我想知道如何检查特定列 例如 日期 是否存在于特定表 例如 myTable 中Access数据库 我读了这个答案它提供了一个查询 该查询会产生另一个查询 IF NOT EXISTS SELECT FROM sys columns WHERE
  • 在R中如何将经度和纬度转换为可在ggplot2或ggmap中使用的格式[关闭]

    Closed 这个问题需要细节或清晰度 目前不接受答案 我得到了原始经度 纬度数据 其格式无法由 R 地图处理 所以我想知道是否有一些 R 函数或算法可以帮助我将这些原始数据转换为可读格式 也许是UTM 这是我的原始数据 纬度 32 14
  • 如何正确处理来自 ListenableFuture 番石榴的异常?

    我有一个库 其中为我们的客户提供了两种方法 同步和异步 他们可以调用他们认为适合其目的的任何方法 执行 Synchronous 等待直到得到结果 然后返回结果 execute Asynchronous 立即返回一个 Future 如果需要
  • 如何使用 Kafka 流 DSL 函数处理重复消息

    我的要求是跳过或避免使用 kafka 流 DSL API 从 INPUT 主题接收到的重复消息 具有相同的密钥 如果发生任何故障 源系统可能会向 INPUT 主题发送重复的消息 FLOW 源系统 gt 输入主题 gt Kafka Strea
  • Misra-C 2012 规则 10.1 布尔操作数在表达式为布尔类型的情况下使用

    以下几行会产生 Misra 违规 unsigned int u16 a unsigned char u8 b if u16 a u8 b Generates Misra C 10 1 violation u16 a 2 1 Generate
  • tidyr::收集不同类型的多个列

    我的问题类似于这个问题 我试图tidyr gather多列 但是 链接中提供的解决方案不太理想 因为所有列的属性通常不相同 因此它们被删除 请注意 我知道如何使用基本 R 执行此操作 但我正在尝试学习如何使用 tidyr 和 或 dplyr
  • 如何操作data.table中的data.frame

    我有data table其中某些观察列包含data frame 例如 data table colA c A1 A2 A3 colB list data frame data frame colsubB1 c B2a B2b colsubB
  • 使用 char 指针输入与 char 数组输入

    考虑代码 include
  • npmpublish 的包名称与现有包太相似

    我想将我的包发布到 npm 我得到的错误是 包名称与现有包太相似 403 Forbidden PUT https registry npmjs org mypack Package name too similar to existing
  • ajax请求中的angularjs错误处理

    我想在我的应用程序中编写一个错误处理部分 我使用下面的代码 但是当错误 500 发生时 它可以正常工作 但是存在一个小或可能大的问题 这就是页面加载的第一次和几秒后的错误页面加载 如何才能我删除这几秒钟并直接进入错误页面而不加载释放错误的主
  • 如何使用多短语查询?

    http lucene apache org java 2 3 1 api core org apache lucene search MultiPhraseQuery html 对于 Microsoft app 这个例子 他说使用Inde
  • CSS 选择器中允许使用括号吗?

    在下面的示例中 我想创建一个仅适用于带有文本 Blockhead 的标题的 CSS 规则 div class gumby span class pokey span h3 Blockhead h3 h3 Clay rules h3 div
  • 如何获取嵌套fragment中的Activity?

    我试图在 ViewPager 中包含的片段中调用 getActivity 的活动 并且该 ViewPager 包含在 Fragment 中 我需要在这些片段中调用此活动的一些方法 但 getActivity 始终为此片段返回 NULL 我不
  • 实例字段的初始化与局部变量的初始化

    我一直想知道为什么在下面的例子中可以not初始化实例字段 依赖于它将具有默认值 并访问它 而局部变量显然must被初始化 即使我将其初始化为默认值 它无论如何都会得到 public class TestClass private bool
  • (!object) 和 (object == nil) 之间有区别吗? [复制]

    这个问题在这里已经有答案了 可能的重复 Objective C if obj 和 if obj null 哪个更好 这两个条件有区别吗 if object do something 和 if object nil do something
  • 在 MySQL 中的 accountID 之间转移“钱”

    我有一个问题 我尝试用谷歌搜索但尚未找到答案 我想做的是使用存储过程在 MySQL 中的两个帐户之间转账 例如 如果我使用呼叫转接 20 Test 3 5 然后我将从 accountID 3 转 20 美元到 accountID 5 并写入
  • 返回先前位置时如何避免 TDbgrid 滚动

    在下面的代码中 我们对某些选定的行进行一些操作 不是删除 然而 有时 完成后 顶部选定的行会滚动 使其显示在网格下方 1 2 处 有没有办法避免这种滚动 如果我的遍历下面选定行的代码由于某些不相关的原因不正确 我欢迎更正 Function
  • 里面有数字的叶子标记

    我想使用 Folium 在地图上做一些标记 并在标记内添加一些数字 我希望标记看起来像 Google 地图使用的标准倒置水滴形状 我看到对于 folium Marker 您可以使用参数 icon folium DivIcon html co
  • Codeigniter 查询生成器在 where_in 中使用 implode 函数

    这是我使用 implode 函数的正常 sql 查询 SELECT from search result WHERE skills IN implode s id 现在我想将其转换为 codeigniter 形式 我尝试了以下代码 但失败了
  • Unicode 组合字符的实际最大数量是多少?

    我正在寻找在非组合字符之后出现的 unicode 组合字符的最大数量在现实的自然文本中 我知道在 unicode 文本中 文本中的任何位置都可以放置任意数量的组合 但是 我正在编写一个专门的应用程序 该应用程序必须在资源有限的情况下运行 并