Java 正确的做字符串编码转换

2023-10-29

Java 正确的做字符串编码转换
字符串的内部表示?
字符串在java中统一用unicode表示( 即utf-16 LE) ,
对于 String s = "你好哦!";
如果源码文件是GBK编码, 操作系统(windows)默认的环境编码为GBK,那么编译时,  JVM将 按照GBK编码将字节数组解析成字符,然后将字符转换为unicode格式的字节数组,作为内部存储。
当打印这个字符串时,JVM 根据操作系统本地的语言环境,将unicode转换为GBK,然后操作系统将GBK格式的内容显示出来。
 
当源码文件是UTF-8, 我们需要通知编译器源码的格式,javac -encoding utf-8 ... , 编译时,JVM按照utf-8 解析成字符,然后转换为unicode格式的字节数组, 那么不论源码文件是什么格式,同样的字符串,最后得到的unicode字节数组是完全一致的,显示的时候,也是转成GBK来显示(跟OS环境有关)
 
乱码如何产生? 本质上都是由于 字符串原本的编码格式 与 读取时解析用的编码格式不一致导致的。
例如:
String s = "你好哦!";
System.out.println( new String(s.getBytes(),"UTF-8")); //错误,因为getBytes()默认使用GBK编码, 而解析时使用UTF-8编码,肯定出错。
其中 getBytes() 是将unicode 转换为操作系统默认的格式的字节数组,即"你好哦"的 GBK格式,
new String (bytes, Charset) 中的charset 是指定读取 bytes 的方式,这里指定为UTF-8,即把bytes的内容当做UTF-8 格式对待。
如下两种方式都会有正确的结果,因为他们的源内容编码和解析用的编码是一致的。
System.out.println( new String(s.getBytes(),"GBK"));
System.out.println( new String(s.getBytes("UTF-8"),"UTF-8"));
 
那么,如何利用getBytes 和 new String() 来进行编码转换呢?  网上流传着一种错误的方法:
GBK--> UTF-8:    new String( s.getBytes("GBK") , "UTF-8);   ,这种方式是完全错误的,因为getBytes 的编码与  UTF-8 不一致,肯定是乱码。
但是为什么在tomcat 下,使用 new String(s.getBytes("iso-8859-1") ,"GBK") 却可以用呢? 答案是:
tomcat 默认使用iso-8859-1编码, 也就是说,如果原本字符串是GBK的,tomcat传输过程中,将GBK转成iso-8859-1了,
默认情况下,使用iso-8859-1读取中文肯定是有问题的,那么我们需要将iso-8859-1 再转成GBK, 而iso-8859-1 是单字节编码的,
即他认为一个字节是一个字符, 那么这种转换不会对原来的字节数组做任何改变,因为字节数组本来就是由单个字节组成的,
如果之前用GBK编码,那么转成iso-8859-1后编码内容完全没变, 则 s.getBytes("iso-8859-1")  实际上还是原来GBK的编码内容
则 new String(s.getBytes("iso-8859-1") ,"GBK")  就可以正确解码了。 所以说这是一种巧合。
 
如何正确的将GBK转UTF-8 ? (实际上是unicode转UTF-8)
String gbkStr = "你好哦!"; //源码文件是GBK格式,或者这个字符串是从GBK文件中读取出来的, 转换为string 变成unicode格式
//利用getBytes将unicode字符串转成UTF-8格式的字节数组
byte[] utf8Bytes = gbkStr.getBytes("UTF-8");
//然后用utf-8 对这个字节数组解码成新的字符串
String utf8Str = new String(utf8Bytes, "UTF-8");
简化后就是:
unicodeToUtf8 (String s) {
return new String( s.getBytes("utf-8") , "utf-8");
}
UTF-8 转GBK原理也是一样
return new String( s.getBytes("GBK") , "GBK");
 
 其实核心工作都由  getBytes(charset) 做了。
getBytes 的JDK 描述:Encodes this String into a sequence of bytes using the named charset, storing the result into a new byte array.
 
另外对于读写文件,
OutputStreamWriter w1 = new OutputStreamWriter(new FileOutputStream("D:\\file1.txt"),"UTF-8");
InputStreamReader( stream, charset)
可以帮助我们轻松的按照指定编码读写文件。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Java 正确的做字符串编码转换 的相关文章

随机推荐

  • selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate elemen...

    from selenium import webdriver import time def sleep w 1 time sleep w return 0 初始化浏览器信息 driver webdriver Chrome driver g
  • form表单循环,新增,删除

    实现表单循环 参考element 动态增减表单项来写
  • 给el-select某个option添加label

  • linux_网络通信-套接字通信socket-网络字节序-IP地址转换函数-inet_pton函数-htonl函数-htons函数-ntohl函数-ntohs函数

    接上一篇 linux 进程锁与文件锁 pthread mutexattr init函数 pthread mutexattr setpshared函数 今天开始分享网络通信了 主要是就是socket套接字通信 本篇先分享一些预备知识 有网络字
  • 数据库练习(1)

    学生表 科目表 成绩表 创建表 学生表 create table Student studentNo varchar 10 primary key studentName varchar 20 loginPassword varchar 2
  • Mybatis 源 码 初 解 析 (一)

    搁置了好久的mybatis源码攻略 今天来一丢丢小小的总结 阅读源码吗 我觉得要从宏观到微观的一个顺序去进行 有必要的话甚至可以加上自己的一个图解流程 可以使思路更加清晰 初想mybatis 首先mybatis是一个为了简化操作的一个框架
  • 目标检测YOLO实战应用案例100讲-海杂波背景下的弱目标检测

    目录 前言 国内外研究现状 基于统计模型的检测方法 基于时频分析的检测方法
  • 蓝桥杯2020java c组省赛第八题

    题目 在平面上有一些二维的点阵 这些点的编号就像二维数组的编号一样 从上到下依次为第1至第n行 从左到右依次为第1至第m行 每一个点可以用行号和列号来表示 现在有个人站在第一行第一列 要走到第n行第m列 只能向右或者向下走 注意 如果行号和
  • 使用IDEA在maven下创建工程

    一 创建父工程 1 创建 Project 2 开启自动导入功能 IDEA2020取消了这一设置 方法一 快捷键方法 使用Ctrl Shift O自动导入maven依赖 方法二 图标点击 每次新增依赖时 pom xml的右上角都会有一个M的小
  • vue项目 watch之 $route

    vue 登录页面使用立即监听 route的方式 得到登录后跳转会的路径 watch route handler function route console log 跳转回参数页面 route query redirect this red
  • R实战:【基本类型】可扩展时间序列类型xts(Extensible Time Series)

    R实战系列专栏 本文翻译自 xts Extensible Time Series Jeffrey A Ryan Joshua M UlrichMay 18 2008 背景介绍 在xts出现之前 R语言有很多种时间序列类型 这对最终的用户来说
  • [网络通信] NIO高性能通信实战(一)

    网络通信 NIO高性能通信实战 一 文章目录 网络通信 NIO高性能通信实战 一 NIO 三大核心 缓冲区 Buffer 通道 Channel 选择器 Selector 通道的注册 选择器的检查 零拷贝实现高性能文件传输 小结 REFERE
  • Quaternion

    01 欧拉角 1 欧拉角Vector3 x y z 代表的是旋转物体 若是标准旋转那么是旋转坐标轴x y z 转换为旋转物体则旋转角度取反顺序不变 且是将物体从物体坐标系旋转到惯性坐标系 世界坐标系中为了渲染 故旋转顺序为 z y x也就是
  • linux命令之cd,ls,vi进入及退出文件

    一 cd用来进入指定的某个目录 说cd这个命令是Linux上使用率最高的两个命令之一不为过吧 另一个当然是ls了 前两天看到了一个cd命令的小技巧是我一直都不知道的 呵呵 这里顺便记下来 cd 回到上次所在目录 感觉还是比较有用 省略了很多
  • 关于“No subject alternative DNS name matching”的解决

    最近突然后台报错 I O error on POST request for https test xxxxxxx com api xxx xxx xxx java security cert CertificateException No
  • RHP-Zero

    https www powerelectronics com technologies power management article 21860287 understanding the righthalfplane zero part
  • python作品-python实例作品

    广告关闭 腾讯云双11爆品提前享 精选热门产品助力上云 云服务器首年88元起 买的越多返的越多 最高满返5000元 多尺度模板匹配结果不要拿我的话来说 这种方法的作品 我们来看一些例子 打开您的终端并执行以下命令 multi scale t
  • unity3d coroutine、invoke的应用

    提供了两种异步方式的调用 1 coroutine 协程 应该是untity对c 多线程的一种封装吧 内部不是很了解 调用的函数需标示IEnumerator迭代配合yield return xxx使用 yield标示着是否暂停迭代 yield
  • 荣耀Magicbook安装黑苹果教程(OpenCore引导)

    荣耀笔记本电脑Magicbook安装黑苹果双系统教程 有空再写 可以先看下面的参考资料 准备工作 系统 macOS 12 3 1 Monterey 21E258 u盘 两个 一个用于安装黑苹果系统 一个用于引导修复 磁盘分区等工作 无线网卡
  • Java 正确的做字符串编码转换

    Java 正确的做字符串编码转换 字符串的内部表示 字符串在java中统一用unicode表示 即utf 16 LE 对于 String s 你好哦 如果源码文件是GBK编码 操作系统 windows 默认的环境编码为GBK 那么编译时 J