为什么我的 Unicode 字符串从 Java Applet 传递到 Java 脚本时会损坏？

2024-02-07

我是新人，所以不要太严厉:)

问题（tl；博士）

我在传递 unicode 时遇到问题String从嵌入式javax.swing.JApplet在网页中的 JavaScript 部分。我不确定这是否是一个错误或对所涉及技术的误解：

Problem

我想将 unicode 字符串从 Java Applet 传递到 Java 脚本，但字符串变得混乱。奇怪的是，这个问题并没有发生在互联网浏览器 10 but in 铬 (v26) and 火狐浏览器（v20）。不过我还没有测试过其他浏览器。

返回的 String 似乎没问题，除了最后一个 unicode 字符。 Java 脚本调试器和网页中的结果将是：

abc → abc
表示 → 表��
ま → ま
ウォッチrisuto → ウォッチrisu��
プロード → プロー��
ホ → ��
ホ→ホ（不确定）
プロードabc → プロードabc

该字符串似乎在最后一个字节被损坏。如果它以 ASCII 字符结尾，则该字符串没问题。此外，该问题不会在每个组合中出现，也不是每次都会出现（对此不确定）。因此我怀疑存在错误，并且担心我可能会发布无效的问题。

测试设置

简约的设置包括一个返回一些 unicode (UTF-8) 字符串的小程序：

/* TestApplet.java */
import javax.swing.*;

public class TestApplet extends JApplet {

private String[] testStrings = {
            "abc", // OK (because ASCII only)
            "表示", // Error on last Character
            "表示", // Error on last Character
            "ホーム ", // OK (because of *space* after ム)
            "アップロード", ... }; 
    public TestApplet() {...};     // Applet specific stuff

    ...

    public int getLength() { return testStrings.length;};

    String getTestString(int i) {
        return testStrings[i];    // Build-in array functionality because of IE. 
    }
}

相应的 javascript 网页可能如下所示：

 /* test.html */
<!DOCTYPE html>
<html>
    <head>
        <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
    </head>
    <body>
        <span id="output"/>
        <applet id='output' archive='test.jar' code=testApplet/>
    </body>

    <script type="text/javascript" charset="utf-8">
        var applet = document.getElementById('output');
        var node = document.getElementById("1");
        for(var i = 0; i < applet.getLength(); i++) {
             var text = applet.getTestString(i);
         var paragraphNode = document.createElement("p");
         paragraphNode.innerHTML = text;
         node.appendChild(paragraphNode);
        }
    </script>
</html>

环境

我正在使用“适用于 Mozilla 浏览器的下一代 Java 插件 10.21.2”在 Windows 7 32 位和当前 Java 版本 1.7.0_21 上工作。我的操作系统区域设置存在一些问题，但我尝试了几种（英语、日语、中文）区域设置。

如果字符串损坏，镶边会显示无效字符（例如 ��）。另一方面，如果字符串以 �� 结尾，则 Firefox 会完全删除该字符串。

Internet Explorer 设法正确显示字符串。

解决方案？

我可以想象几种解决方法，包括转义/取消转义和添加“最终字符”，然后通过java脚本将其删除。实际上我打算针对 Android 的 Webkit 进行编写，但我还没有在那里进行测试。

由于我想继续在 Chrome 中进行测试（因为 Webkit 技术和舒适度），我希望有一个简单的解决方案来解决这个问题，而我可能忽略了这一点。

如果您在 Chrome/Firefox 中进行测试

请用此替换第一行然后测试它，

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">

当浏览器识别页面时，Doctype 具有重要的价值。

过渡/放宽它可以与 Unicode 一起使用的类型。请测试并回复..

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)