Java 中非 ASCII 字符的 URL 解码

2024-05-04

我正在尝试用 Java 解码包含 % 编码字符的 URL

我尝试使用 java.net.URI 类来完成这项工作，但它并不总是正常工作。

String test = "https://fr.wikipedia.org/wiki/Fondation_Alliance_fran%C3%A7aise";
URI uri = new URI(test);
System.out.println(uri.getPath());

对于测试字符串“https://fr.wikipedia.org/wiki/Fondation_Alliance_fran%C3%A7aise https://fr.wikipedia.org/wiki/Fondation_Alliance_fran%C3%A7aise”，结果是正确的“/wiki/Fondation_Alliance_française”（%C3%A7 正确地替换为 ç）。

但对于其他一些测试字符串，例如“http://sv.wikipedia.org/wiki/Anv%E4ndare:Lsjbot/Statistik#Drosophilidae http://sv.wikipedia.org/wiki/Anv%E4ndare:Lsjbot/Statistik#Drosophilidae”，它给出了错误的结果“/wiki/Anv�ndare:Lsjbot/Statistik”（%E4 被替换为 � 而不是 ä）。

我使用 getRawPath() 和 URLDecoder 类做了一些测试。

System.out.println(URLDecoder.decode(uri.getRawPath(), "UTF8"));
System.out.println(URLDecoder.decode(uri.getRawPath(), "ISO-8859-1"));
System.out.println(URLDecoder.decode(uri.getRawPath(), "WINDOWS-1252"));

根据测试字符串，我使用不同的编码得到正确的结果：

对于 %C3%A7，我按预期得到了使用“UTF-8”编码的正确结果，使用“ISO-8859-1”或“WINDOWS-1252”编码得到了错误的结果
对于%E4，则相反。

对于这两个测试 URL，如果我将它们放入 Chrome 地址栏中，我会得到正确的页面。

如何在所有情况下正确解码 URL？谢谢你的帮助

====回答====

感谢下面麦克道尔回答中的建议，它现在似乎有效。这是我现在的代码：

private static void appendBytes(ByteArrayOutputStream buf, String data) throws UnsupportedEncodingException {
  byte[] b = data.getBytes("UTF8");
  buf.write(b, 0, b.length);
}

private static byte[] parseEncodedString(String segment) throws UnsupportedEncodingException {
  ByteArrayOutputStream buf = new ByteArrayOutputStream(segment.length());
  int last = 0;
  int index = 0;
  while (index < segment.length()) {
    if (segment.charAt(index) == '%') {
      appendBytes(buf, segment.substring(last, index));
      if ((index < segment.length() + 2) &&
          ("ABCDEFabcdef0123456789".indexOf(segment.charAt(index + 1)) >= 0) &&
          ("ABCDEFabcdef0123456789".indexOf(segment.charAt(index + 2)) >= 0)) {
        buf.write((byte) Integer.parseInt(segment.substring(index + 1, index + 3), 16));
        index += 3;
      } else if ((index < segment.length() + 1) &&
                 (segment.charAt(index + 1) == '%')) {
        buf.write((byte) '%');
        index += 2;
      } else {
        buf.write((byte) '%');
        index++;
      }
      last = index;
    } else {
      index++;
    }
  }
  appendBytes(buf, segment.substring(last));
  return buf.toByteArray();
}

private static String parseEncodedString(String segment, Charset... encodings) {
  if ((segment == null) || (segment.indexOf('%') < 0)) {
    return segment;
  }
  try {
    byte[] data = parseEncodedString(segment);
    for (Charset encoding : encodings) {
      try {
        if (encoding != null) {
          return encoding.newDecoder().
              onMalformedInput(CodingErrorAction.REPORT).
              decode(ByteBuffer.wrap(data)).toString();
        }
      } catch (CharacterCodingException e) {
        // Incorrect encoding, try next one
      }
    }
  } catch (UnsupportedEncodingException e) {
    // Nothing to do
  }
  return segment;
}

Anv%E4ndare

As 波波菲波说 https://stackoverflow.com/a/21905895/304这不是有效的 UTF-8 编码序列。

您可以进行一些宽容的最佳猜测解码：

public static String parse(String segment, Charset... encodings) {
  byte[] data = parse(segment);
  for (Charset encoding : encodings) {
    try {
      return encoding.newDecoder()
          .onMalformedInput(CodingErrorAction.REPORT)
          .decode(ByteBuffer.wrap(data))
          .toString();
    } catch (CharacterCodingException notThisCharset_ignore) {}
  }
  return segment;
}

private static byte[] parse(String segment) {
  ByteArrayOutputStream buf = new ByteArrayOutputStream();
  Matcher matcher = Pattern.compile("%([A-Fa-f0-9][A-Fa-f0-9])")
                          .matcher(segment);
  int last = 0;
  while (matcher.find()) {
    appendAscii(buf, segment.substring(last, matcher.start()));
    byte hex = (byte) Integer.parseInt(matcher.group(1), 16);
    buf.write(hex);
    last = matcher.end();
  }
  appendAscii(buf, segment.substring(last));
  return buf.toByteArray();
}

private static void appendAscii(ByteArrayOutputStream buf, String data) {
  byte[] b = data.getBytes(StandardCharsets.US_ASCII);
  buf.write(b, 0, b.length);
}

此代码将成功解码给定的字符串：

for (String test : Arrays.asList("Fondation_Alliance_fran%C3%A7aise",
    "Anv%E4ndare")) {
  String result = parse(test, StandardCharsets.UTF_8,
      StandardCharsets.ISO_8859_1);
  System.out.println(result);
}

请注意，这并不是一个万无一失的系统，可以让您忽略正确的 URL 编码。它在这里起作用是因为v%E4n- 字节序列76 E4 6E- 不是有效的序列UTF-8 方案 http://en.wikipedia.org/wiki/Utf_8#Description并且解码器可以检测到这一点。

如果颠倒编码顺序，第一个字符串可以愉快地（但错误地）解码为 ISO-8859-1。

Note: HTTP 不关心 https://www.rfc-editor.org/rfc/rfc2616#section-3.2关于百分比编码，您可以编写一个接受的 Web 服务器http://foo/%%%%%作为有效的形式。这URI spec https://www.rfc-editor.org/rfc/rfc3986强制使用 UTF-8，但这是追溯性的。实际上由服务器来描述其 URI 的形式，如果您必须处理任意 URI，则需要了解这一遗留问题。

我写了一点有关 URL 和 Java 的更多信息请参见此处 http://illegalargumentexception.blogspot.co.uk/2009/12/java-safe-character-handling-and-url.html.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java 中非 ASCII 字符的 URL 解码的相关文章

MongoTemplate upsert - 从 pojo 进行更新的简单方法（哪个用户已编辑）？

这是一个简单的 pojo public class Description private String code private String name private String norwegian private String en
使用 Java 在 WebDriver 中按 Ctrl+F5 刷新浏览器

我已经使用 java 刷新了 WebDriver 中的浏览器代码如下 driver navigate refresh 如何使用 Java 在 WebDriver 中按 Ctrl F5 来做到这一点我认为您可以使用 WebDriver 和
在哪里可以获得有关 Java FitNesse 和 Slim 的一些教程？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何开始使用 Chainsaw for Log4j？

我想开始使用 Chainsaw v2 几乎没有关于它的信息我只找到了this http www velocityreviews com forums t140105 help using chainsaw for log4j html 但
如何在远程 WebSphere 上进行 JNDI 查找期间解决 sun/io/MalformedInputException

我使用 WebSphere 8 5 来托管我的应用程序并在应用程序服务器上配置了一些 JDBC 资源我还使用瘦客户端运行时库开发了一个客户端应用程序当按以下方式执行 JNDI 查找时 env put Context INITIAL C
如何比较 Struts 2 中 url 请求参数中的单个字符

我正在读取具有单个字符的 url 参数它将是Y or N 我必须写一个条件来检查它是否Y or N并做相应的事情这是我写的但似乎不起作用总是转到其他地方网址是
JTable 和 JScrollpane 大小的问题

我有一个JScrollPane with a JTable在里面在里面JTable我最初有 3 行稍后添加行默认JTable我的 3 行很难看因为JScrollPane calls getPreferredScrollableVie
有多少种方法可以将位图转换为字符串，反之亦然？

在我的应用程序中我想以字符串的形式将位图图像发送到服务器我想知道有多少种方法可以将位图转换为字符串现在我使用 Base64 格式进行编码和解码它需要更多的内存是否有其他可能性以不同的方式做同样的事情从而消耗更少的内存现在我正在
容器中的 JVM 计算处理器错误？

最近我又做了一些研究偶然发现了这一点在向 OpenJDK 团队抱怨之前我想看看是否有其他人观察到这一点或者不同意我的结论因此众所周知 JVM 长期以来忽略了应用于 cgroup 的内存限制众所周知现在从 Java 8 更新某
发生错误。请参阅日志文件 - eclipse juno

每当我启动 Eclipse Juno 时都会出现错误发生错误请查看日志文件 C Program Files eclipse configuration 1362989254411 log 有的网站说卸载jdk重新安装我这样做了但没
Java：java.util.ConcurrentModificationException

我正在制作 2D 目前正在研究用子弹射击子弹是一个单独的类所有项目符号都存储在称为项目符号的数组列表中当它超出屏幕一侧 Exception in thread main java util ConcurrentModification
JSch中如何设置文件类型和文件传输模式？

我使用 Apache Common NetFTPClient并设置了我的ftpClient在上传文件之前使用如下所示的方法 ftpClient setFileType FTP BINARY FILE TYPE ftpClient setFi
如何初始化静态地图？

你会如何初始化静态Map在Java中方法一静态初始化方法二实例初始化匿名子类或者还有其他方法吗各自的优点和缺点是什么这是说明这两种方法的示例 import java util HashMap import java util
Java中的回调接口是什么？

SetObserver 接口的代码片段取自有效的Java 避免过度同步第67条 public interface SetObserver
使用 JAD 反编译 java - 限制

我正在尝试使用 Java 中的 JAD 反编译几个 jar 文件我也尝试过 JD GUI 但运气更差但出现了很多错误一种类型易于修复似乎是内部类但我也发现了这段代码 static int SWITCH TABLE atp com
公共方法与公共 API

在干净的代码书中有一个观点是公共 API 中的 Javadocs 同样 Effective java 一书也有这样的内容项目 56 为所有公开的 API 元素编写文档注释所以这就是我的问题所有公共方法都被视为公共 API 吗它们
无法使用 wget 在 CentOS 机器上安装 oracle jdk

我想在CentOS上安装oracle java jdk 8 我无法安装 java jdk 因为当我尝试使用命令安装 java jdk 时 root ADARSH PROD1 wget no cookies no check certific
每次我们调用浏览器时，在 selenium 中使用 driver.manage().window().maximize() 是否好？

We use driver manage window maximize 最大化浏览器我在网上看到一些使用的例子driver manage window maximize 尽管不需要最大化浏览器例如 gmail 登录我还看到使用 se
如何在 Linux shell 中将十六进制转换为 ASCII 字符？

假设我有一个字符串5a 这是 ASCII 字母的十六进制表示Z 我需要找到一个 Linux shell 命令它将接受一个十六进制字符串并输出该十六进制字符串代表的 ASCII 字符所以如果我这样做 echo 5a command im
如何在不同版本的Google App Engine中使用自定义域名？

我使用谷歌应用程序引擎作为我的 Android 和 Web 应用程序的服务器我使用 Android Studio 开发了 Android 应用程序并使用 Eclipse 开发了 Web 应用程序我在应用程序引擎中部署了两个版本第一个

随机推荐

是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
如何在ArangoDB中设置集群和分片？

我想在arangoDB中使用分片我已经制作了协调器 DBServers 如文档2 8 5中所述但仍然有人可以详细解释它以及我如何能够在分片之后和之前检查查询的性能可以测试您的应用程序对于本地集群所有实例都在一台机器上运行吗 htt
来自 Toplink 表达式的 SQL 查询

我有一个 oracle toplink expressions Expression 表达式对象它是使用 oracle toplink expressions ExpressionBuilder 创建的我想找到它的等效 SQL 查询比
智能表 - 预选特定行

我正在使用智能表我需要预先选择特定行因此在加载我的列表后我循环进入它并设置isSelected当我到达我想要选择的项目时属性 Preselect a row for var i 0 len scope displayCollecti
多线程文件写入

我正在尝试使用多个线程写入大文件的不同部分就像分段文件下载器所做的那样我的问题是执行此操作的安全方法是什么我是否打开文件进行写入创建线程将 Stream 对象传递给每个线程我不希望发生错误因为多个线程可能同时访问同一个对象
如何使用ajax从服务器接收返回的数据？

基本上我有一个带有用户名文本框和提交按钮的表单现在我想要的是当用户在文本框中输入文本时它应该获取文本框值并将用户名发送到服务器以便服务器可以检查该用户名是否被任何其他用户占用我可以将文本值发送到服务器但我不知道如何接收回一些数据
精简 Liferay：删除 Hibernate 和其他未使用的应用程序

我有一些有关 Liferay 与 hibernate 交互的问题由于某些原因我们希望从应用程序中消除这一层因此有以下问题我知道Liferay是与Hibernate一起打包的并且通过使用Hibernate API简化了对Lifera
ContentPane 和 JPanel 之间有什么关系？

我发现了一个示例其中将按钮添加到面板实例JPanel 然后将面板添加到容器中由getContentPane 然后容器通过构造被包含到JFrame 窗户我尝试了两件事我把容器扔掉了更详细地说我向面板添加了按钮实例JPanel
ServletContext 和 Session 对象

我们从请求对象 HttpServletRequest 获得的 ServletContext 和 Session 对象的行为是否相同会话是特定于用户的 Servlet 上下文本质上是全局的在该 Servlet 的上下文内这意味着访问该
在 Java 中从字符串中提取第一个单词的最佳方法是什么？

尝试编写一个简短的方法以便我可以解析字符串并提取第一个单词我一直在寻找最好的方法来做到这一点我想我会用str split 但是我想从字符串中获取第一个单词并将其保存在一个变量中然后将其余的标记放入另一个变量中有没有一种简洁的方法
是否可以使 font-weight:bold 等于 500 而不是 700？

我刚刚使用 Google Fonts 并发现了 Fira Sans 字体很好但我不喜欢 Bold 700 风格它太大胆了不符合我的喜好但是如果我选择中 500 样式浏览器不会将其用于任何设置为font weight bold
在python中求Legendre多项式的根

我正在编写一个程序通过勒让德高斯求积求解积分 n 阶求积算法需要在某一时刻找到 n 阶勒让德多项式 Pn x 的根并将它们分配给数组 Absc 表示横坐标 Pn 是一个 n 阶多项式在区间 1 1 上有 n 个独立的实根我希望能
在 Woocommerce 中以编程方式创建新产品属性

如何通过插件为 WooCommerce 创建属性我只找到 wp set object terms object id terms taxonomy append From 这个堆栈问题 https stackoverflow com qu
将动态库 (.dylib) 复制到框架 (.framework)

我有两个 XCode 项目一个框架和一个客户端应用程序我的应用程序依赖于我的框架一切都运行良好每次应用程序都会重新编译框架项目构建路径设置正确完全没问题现在框架开始使用第 3 方 dylib 文件并且它与 dylib 链接
允许任何内容的 XML 架构 (xsd:any)

我需要一个允许任何事情的 XML 模式示例这可能听起来很奇怪但我需要它来调试我当前的模式问题是我有一个在函数我无法控制的 DLL 的一部分中使用的复杂对象以及模式并且该函数返回 XML 目前该函数会抛出异常因为在验证模式时
对 java 9 ServiceLoader::load 方法以及如何提供服务实现的方式感到困惑

在这个java文档中 https docs oracle com javase 9 docs api java util ServiceLoader html https docs oracle com javase 9 docs api
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Python：“取消导入”、“重新导入”、“重置导入”？

我调试在 PyCharm 中一个脚本我在断点处停止然后转到调试控制台窗口然后从那里调用导入行如下所示 import my util1 from my utils 然后我调用 my util1 到目前为止一切都还好然后我更改
GitHub API - 语言列表

GitHub API 中是否有一个端点可以为我提供 GitHub 上所有语言的列表我正在寻找与 github com 网站上趋势部分中的语言下拉列表类似的结果不是直接来自 GitHub API The OP敏捷王牌 https st
Java 中非 ASCII 字符的 URL 解码

我正在尝试用 Java 解码包含编码字符的 URL 我尝试使用 java net URI 类来完成这项工作但它并不总是正常工作 String test https fr wikipedia org wiki Fondation Alli

Java 中非 ASCII 字符的 URL 解码

Java 中非 ASCII 字符的 URL 解码 的相关文章

随机推荐

热门标签

Java 中非 ASCII 字符的 URL 解码的相关文章