我正在寻找在非组合字符之后出现的 unicode 组合字符的最大数量在现实的自然文本中.
我知道在 unicode 文本中,文本中的任何位置都可以放置任意数量的组合。但是,我正在编写一个专门的应用程序,该应用程序必须在资源有限的情况下运行,并且由于该原因和其他技术原因,在非组合字符之后显示任意数量的组合字符不是一种选择。但是,如果可能的话,我仍然希望正确显示自然语言,并且对少量组合的支持应该不成问题。
我的直觉是,自然语言在适当的字符之后不需要超过两到三个组合,但我不确定,也找不到该数字的任何来源。
好吧,由于缺乏更好的答案,这就是我所做的(供将来需要时参考):
我最终使用了类似 SmallVec 的东西,分配前的阈值为 8 字节,上限为 50 字节(以 UTF-8 存储的文本)。我认为这应该让每个人都高兴,并且性能不会受到影响。
对这些数字持保留态度,它们是任意的,无论如何我都可能会调整它们。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)