将补充 Unicode 字符映射到 BMP（如果可能）

2024-01-01

我遇到了这样的问题：我的 XML 解析器 (VTD-XML) 似乎无法处理 Unicode 补充字符（如果我在这里已经错了，请更正）。看起来，解析器只使用这些字符的低 16 位。

我无法切换到我正在处理的项目中的另一个解析器。我正在解析 Medline 摘要（https://www.ncbi.nlm.nih.gov/pubmed https://www.ncbi.nlm.nih.gov/pubmed）并且去年似乎添加了包含补充字符的文档（例如https://www.ncbi.nlm.nih.gov/pubmed/?term=26855708 https://www.ncbi.nlm.nih.gov/pubmed/?term=26855708，结果部分结束）。

作为一个快速而肮脏的修复，我只是从文档中删除 0xFFFF 以上的所有字符。显然，这会破坏文档文本中的一些表达式，因此我对该解决方案并不满意。

由于我无法更改解析器，我想知道是否存在将补充字符映射到 BMP 中可能具有相似外观字形（如果存在）的字符的可能性。

当然我欢迎任何其他想法。甚至可以用某种占位符替换补充字符，然后将原始字符放回原处，但这似乎很容易出错。更好的想法？

编辑：这里有一些 - 希望 - 最小的例子来说明这个问题是如何与 VTD-XML 一起出现的：

@Test
public void parseUnicodeBeyondBMP() throws NavException, FileNotFoundException, IOException, EncodingException, EOFException, EntityException, ParseException {
    // character codpoint 0x10400
    String unicode = "<supplementary>\uD801\uDC00</supplementary>";
    byte[] unicodeBytes = unicode.getBytes();
    assertEquals(unicode, new String(unicodeBytes, "UTF-8"));

    VTDGen vg = new VTDGen();
    vg.setDoc(unicodeBytes);
    vg.parse(false);
    VTDNav vn = vg.getNav();
    long fragment = vn.getContentFragment();
    int offset = (int) fragment;
    int length = (int) (fragment >> 32);
    String originalBytePortion = new String(Arrays.copyOfRange(unicodeBytes, offset, offset+length));
    String vtdString = vn.toRawString(offset, length);
    // this actually succeeds
    assertEquals("\uD801\uDC00", originalBytePortion);
    // this fails ;-( the returned character is Ѐ, codepoint 0x400, thus the high surrogate is missing
    assertEquals("\uD801\uDC00", vtdString);
}

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

xml

Unicode

vtdxml

supplementary

将补充 Unicode 字符映射到 BMP（如果可能）的相关文章

序列的排列？

我有具体数量的数字现在我想以某种方式显示这个序列的所有可能的排列例如如果数字数量为3 我想显示 0 0 0 0 0 1 0 0 2 0 1 0 0 1 1 0 1 2 0 2 0 0 2 1 0 2 2 1 0 0 1 0 1 1 0
如何循环遍历所有组合，例如48 选择 5 [重复]

这个问题在这里已经有答案了可能的重复如何在java中从大小为n的集合中迭代生成k个元素子集 https stackoverflow com questions 4504974 how to iteratively generate k
如何使用assertEquals 和 Epsilon 在 JUnit 中断言两个双精度数？

不推荐使用双打的assertEquals 我发现应该使用带有Epsilon的形式这是因为双打不可能100 严格但无论如何我需要比较两个双打预期结果和实际结果但我不知道该怎么做目前我的测试如下 Test public void te
过滤两次 Lambda Java

我有一个清单如下 1 2 3 4 5 6 7 和预期结果必须是 1 2 3 4 5 6 7 我知道怎么做才能到7点我的结果 1 2 3 4 5 6 我也想知道如何输入 7 我添加了i gt i objList size 1到我的过滤器
如何在 Spring 中禁用使用 @Component 注释创建 bean？

我的项目中有一些用于重构逻辑的通用接口它看起来大约是这样的 public interface RefactorAwareEntryPoint default boolean doRefactor if EventLogService wa
jQuery AJAX 调用 Java 方法

使用 jQuery AJAX 我们可以调用特定的 JAVA 方法例如从 Action 类该 Java 方法返回的数据将用于填充一些 HTML 代码请告诉我是否可以使用 jQuery 轻松完成此操作就像在 DWR 中一样此外对于
谷歌应用程序引擎会话

什么是java应用程序引擎默认会话超时如果我们将会话超时设置为非常非常长的时间会不会产生不良影响因为谷歌应用程序引擎会话默认情况下仅存储在数据存储中就像facebook一样每次访问该页面时会话仍然永远存在默认会话超时设置为
Java 公历日历更改时区

我正在尝试设置 HOUR OF DAY 字段并更改 GregorianCalendar 日期对象的时区 GregorianCalendar date new GregorianCalendar TimeZone getTimeZone GM
Eclipse Maven Spring 项目 - 错误

I need help with an error which make me crazy I started to study Java EE and I am going through tutorial on youtube Ever
帮助将图像从 Servlet 获取到 JSP 页面 [重复]

这个问题在这里已经有答案了我目前必须生成一个显示字符串文本的图像我需要在 Servlet 上制作此图像然后以某种方式将图像传递到 JSP 页面以便它可以显示它我试图避免保存图像而是以某种方式将图像流式传输到 JSP 自从我开始寻
内部类的构造函数引用在运行时失败并出现VerifyError

我正在使用 lambda 为内部类构造函数创建供应商ctx gt new SpectatorSwitcher ctx IntelliJ建议我将其更改为SpectatorSwitcher new反而 SpectatorSwitcher 是我正
如何在用户输入数据后重新运行java代码

嘿我有一个基本的java 应用程序显示人们是成年人还是青少年等我从java开始在用户输入年龄和字符串后我找不到如何制作它它们被归类为我希望它重新运行整个过程以便其他人可以尝试的节目我一直在考虑做一个循环但这对我来说没有用
Spring Boot Data JPA 从存储过程接收多个输出参数

我尝试通过 Spring Boot Data JPA v2 2 6 调用具有多个输出参数的存储过程但收到错误 DEBUG http nio 8080 exec 1 org hibernate engine jdbc spi SqlStat
如何访问JAR文件中的Maven资源？ [复制]

这个问题在这里已经有答案了我有一个使用 Maven 构建的 Java 应用程序我有一个资源文件夹com pkg resources 我需要从中访问文件例如directory txt 我一直在查看各种教程和其他答案但似乎没有一个对我有
尝试将 Web 服务部署到 TomEE 时出现“找不到...的 appInfo”

我有一个非常简单的项目用于培训目的它是一个 RESTful Web 服务我使用 js css 和 html 创建了一个客户端我正在尝试将该服务部署到 TomEE 这是我尝试部署时遇到的错误我在这里做错了什么刚刚遇到这个问题我曾
logcat 中 mSecurityInputMethodService 为 null

我写了一点android应显示智能手机当前位置最后已知位置的应用程序尽管我复制了示例代码并尝试了其他几种解决方案但似乎每次都有相同的错误我的应用程序由一个按钮组成按下按钮应该log经度和纬度但仅对数 mSecurityInp
关键字“table”附近的语法不正确，无法提取结果集

我使用 SQL Server 创建了一个项目其中包含以下文件 UserDAO java public class UserDAO private static SessionFactory sessionFactory static se
我如何在java中读取二进制数据文件

因此我正在为学校做一个项目我需要读取二进制数据文件并使用它来生成角色的统计数据例如力量和智慧它的设置是让前 8 位组成一个统计数据我想知道执行此操作的实际语法是什么是不是就像读文本文件一样这样 File file new Fi
使用 svn 1.8.x、subclise 1.10 的 m2e-subclipse 连接器在哪里？

我读到 m2e 的生产商已经停止生产 svn 1 7 以外的任何版本的 m2e 连接器 Tigris 显然已经填补了维护 m2e subclipse 连接器的空缺 Q1 我的问题是使用 svn 1 8 x 的 eclipse 更新 url
双枢轴快速排序和快速排序有什么区别？

我以前从未见过双枢轴快速排序是快速排序的升级版吗双枢轴快速排序和快速排序有什么区别我在 Java 文档中找到了这个排序算法是双枢轴快速排序作者弗拉基米尔雅罗斯拉夫斯基乔恩本特利和约书亚布洛赫这个算法在许多数据集上提供

随机推荐

obj-c 委托模式在 C++ 中的等价物是什么？

我对 objc 非常熟悉现在我正在尝试深入研究 C 我正在寻找 obj c 委托模式的 C 等效项您只需继承类协议而不是遵守协议一个小例子 class Delegate public Some pure virtual metho
集合 <__NSCFSet: 0x1b0b30> 在枚举时发生了变化。如何确定是哪一套？

我正在执行一堆核心数据插入在大约 20k 插入并每 1 2k 保存一次后我收到此错误 Terminating app due to uncaught exception NSGenericException reason Collect
Spring-boot：注册 mongodb 自定义转换器

我将此依赖项用于我的 Spring Boot 服务
在php中如何使用preg替换将url变成tinyurl

我需要将包含长 url 的文本字符串转换为相同的字符串但带有tinyurl 使用tinyurl api 例如转变 blah blah blah http example com news sport blah blah blah int
如何合并数值模型和嵌入序列模型来处理 RNN 中的类别

我想为我的分类特征构建一个带有嵌入的单层 LSTM 模型我目前有数字特征和一些分类特征例如位置它不能进行单热编码例如使用pd get dummies 由于计算复杂性这正是我最初打算做的让我们想象一个例子样本数据 data us
检查SQL表是否存在

以独立于数据库的方式检查 Sql 数据库中是否存在表的最佳方法是什么我想出了 bool exists const string sqlStatement SELECT COUNT FROM my table try using OdbcC
输入字符串的格式不正确#2

double temp temp double Convert ToDouble 1234 5678 嘿伙计们女士们我一生都无法弄清楚为什么上面的行不起作用上面的行给了我一个运行时错误未处理的类型异常 System FormatE
计算带有 LIMIT 的 MySQL 记录

当我尝试计算表中的记录数时即使 SQL 语句有LIMIT进入其中总体来说它是有效的但是发生了一些奇怪的事情代码 sql SELECT COUNT AS count FROM posts ORDER BY post date DESC
Angular2（RC-4）：无法读取未定义的属性“pathsWithParams”

在 angular2 RC 4 中使用子路由时出现此错误无法读取未定义的属性 pathsWithParams 我的路由文件包含 export const routes RouterConfig path component HomeCom
Nodemailer 的邮件在 Azure 服务器上不起作用

我正在尝试使用 Microsoft azure 上的 Express JS 服务器的 Nodemailer 邮件 api 发送邮件它在本地计算机上取得成功但在天蓝色服务器远程上却没有成功任何想法 var mail require
CRTP——访问不完整类型成员

相关问题 one https stackoverflow com questions 6006614 c static polymorphism crtp and using typedefs from derived classes tw
如何在（功能）F# 中创建递归数据结构值？

type 的值如何 type Tree Node of int Tree list 有一个以函数方式生成的引用自身的值吗对于 Tree 的合适定义结果值应等于以下 Python 代码中的 x x Tree x tlist x Edit
将光标移动到 UITextField 的开头

有没有办法让光标位于a的开头UITextField 当我显示带有内容的控件时光标放置在文本的末尾我想把它移到开头 UITextField符合UITextInput协议它提供了让您控制所选范围的方法这在我的测试中有效 void tex
Python：将 3D 椭球（扁形/长形）拟合到 3D 点

亲爱的 stackoverflow 用户我面临如下问题我想在 python 脚本中将 3D 椭球体拟合到 3D 数据点起始数据是一组 x y 和 z 坐标笛卡尔坐标我想要得到的是 3D 数据点凸包的最佳拟合椭球定义方程中的 a 和
AngularFire httpsCallable Object(...) 不是一个函数

我想在我的 Ionic 3 应用程序中调用 httpsCallable 函数我正在尝试遵循这些文档 https firebase google com docs functions callable https firebase goog
在 Java 中实现双缓冲

我有一个简单的 Java JFrame 画布我每半秒左右更新一次屏幕上的内容并且有闪烁我想实现双缓冲来消除闪烁但我对 Java 相当陌生不熟悉如何做到这一点我找到了一些例子但不确定如何将他们的方法应用到我的方法中以下是我现在
删除 MS Excel 中特定字符左侧的所有文本

这是一个与excel相关的问题我想删除字符串中特定字符或多个字符左侧的所有文本所有字符例如假设我的单元格中有一个字符串大家好欢迎来到 stackoverflow 现在我想删除堆栈左侧的所有字符意味着结果应该是堆栈溢出仅限堆
WindowsBase.dll 中发生了“System.ComponentModel.Win32Exception”类型的第一次机会异常

我有一个 NET 4 0 WPF 项目当我打开文件对话框时选择一些文件并按确定按钮然后我在输出窗口中看到以下错误 WindowsBase dll 中发生了 System ComponentModel Win32Exception
Plotly r，按变量划分的线型

我正在尝试制作一个散点图其中线条样式由因子变量指定就像颜色一样但我无法让它工作 library plotly df lt data frame x rnorm 20 y rnorm 20 col c rep 1 10 rep 2 10
将补充 Unicode 字符映射到 BMP（如果可能）

我遇到了这样的问题我的 XML 解析器 VTD XML 似乎无法处理 Unicode 补充字符如果我在这里已经错了请更正看起来解析器只使用这些字符的低 16 位我无法切换到我正在处理的项目中的另一个解析器我正在解析 Medli

将补充 Unicode 字符映射到 BMP（如果可能）

将补充 Unicode 字符映射到 BMP（如果可能） 的相关文章

随机推荐

热门标签

将补充 Unicode 字符映射到 BMP（如果可能）的相关文章