java中的file.encoding属性到底由什么决定?

2023-11-19

首先先上一段代码:

public class PropertiesTest {
	public static void main(String[] args) {
		System.out.println("file.encoding:"+System.getProperty("file.encoding"));
		System.out.println("sun.jnu.encoding:"+System.getProperty("sun.jnu.encoding"));
		// Properties pro = System.getProperties();
		// Set<Entry<Object,Object>> entrySet = pro.entrySet();
		// for(Entry<Object,Object> entry :entrySet){
		// System.out.println(entry.getKey()+":"+entry.getValue());
		// }
	}
}
这段代码会打印出file.encoding属性和sun.jnu.encoding属性的值,注释部分会依次打印所有的属性的值。

那么java中的file.encoding属性和sun.jnu.encoding属性到底是什么?从哪里来?干什么用?网上查了查,其中大多语焉不详,不清不楚,于是决定自己动手,来一探究竟。


咱们首先来看这两个属性干什么用。毕竟先知道它们有什么用才有必要关心它们从哪里来。

来看看我在eclipse中运行上面代码的结果:


再来看一段代码:

import java.io.UnsupportedEncodingException;

public class PropertiesTest {
	public static void main(String[] args) throws UnsupportedEncodingException {
		System.out.println("file.encoding:" + System.getProperty("file.encoding"));
		System.out.println("sun.jnu.encoding:" + System.getProperty("sun.jnu.encoding"));
		encodingTest();
	}

	private static void encodingTest() throws UnsupportedEncodingException {
		String s = "我们是中国人";
		//如果使用不带参数的getBytes()肯定不会乱码的
		byte[] bytes = s.getBytes("utf-8");
		String s2 = new String(bytes);
		System.out.println(s2);
	}
}
这里先将String转换成bytes,再利用bytes构造一个String,如果getBytes()和new String(bytes)都不带编码肯定不会乱码,因为都会采用默认编码,方法的说明如下:

运行结果如图:中文打印正常

修改getBytes()为getBytes("utf-8"),结果中文依然正常

再次修改为:getBytes("GBK"),结果中文显示乱码:



这样看来,似乎默认的编码就是UTF-8,为了进一步证明猜想,我们来跟踪一下源码:

public byte[] getBytes() {
        return StringCoding.encode(value, 0, value.length);
    }
继续跟进encode方法:

static byte[] encode(char[] ca, int off, int len) {
        String csn = Charset.defaultCharset().name();
        try {
            // use charset name encode() variant which provides caching.
            return encode(csn, ca, off, len);
        } catch (UnsupportedEncodingException x) {
            warnUnsupportedCharset(csn);
        }
        try {
            return encode("ISO-8859-1", ca, off, len);
        } catch (UnsupportedEncodingException x) {
            // If this code is hit during VM initialization, MessageUtils is
            // the only way we will be able to get any kind of error message.
            MessageUtils.err("ISO-8859-1 charset not available: "
                             + x.toString());
            // If we can not find ISO-8859-1 (a required encoding) then things
            // are seriously wrong with the installation.
            System.exit(1);
            return null;
        }
    }
这里的defaultcharset应该返回了一个Charset对象,继续跟进:

public static Charset defaultCharset() {
        if (defaultCharset == null) {
            synchronized (Charset.class) {
                String csn = AccessController.doPrivileged(
                    new GetPropertyAction("file.encoding"));
                Charset cs = lookup(csn);
                if (cs != null)
                    defaultCharset = cs;
                else
                    defaultCharset = forName("UTF-8");
            }
        }
        return defaultCharset;
    }
可以看到,这里获取了file.encoding属性,并通过该属性查找到了对应的Charset对象,如果找不到该属性所对应的Charset,就默认返回utf-8(所有Charset名字的参数均大小写等价)Charset。说明在值合理的情况下,file.encoding属性确实决定了所谓的默认编码。至于sun.jnu.encoding属性的用处,由于使用较少,容我先卖个关子,下一篇介绍^_^。


知道了作用,并且作用不小,那我们来看看到底是什么决定了file.encoding属性。

(PS:通常情况下为了保证程序run everywhere并且保持运行结果一致,不建议在程序中使用默认编码,应该直接指定编码)。

网上很多人给出的答案是:main方法所在类文件的编码决定了file.encoding属性。

我们来验证一下:

选中Explorer区域的类文件或将光标置于类文件编辑页,alt+enter打开类文件的属性页,可以看到我的设置


确实是utf-8,所以之前我的file.encoding属性就是utf-8了,现在修改该属性,


修改完成后,毫无疑问,中文都乱码了,运行程序,看看运行结果:


果然,file.encoding属性变成“ISO-8859-1”了。

再修改设置,改成US-ASCII,执行后果然file.encoding属性的值就变成了”US-ASCII“。

那么结论就是:file.encoding的属性值就是main方法所在类文件的编码。网友们果然机智。


但是,这样就可以下结论了吗?

我们现在是通过eclipse执行,就像隔靴搔痒,总感觉差点意思。要真正李菊福,还是要到控制台去。


将文件改回utf-8编码,消除文件中的中文乱码,getBytes和new String(bytes)依然使用不带编码的默认编码形式,接着我们直接在控制台编译并执行代码:


奇怪的现象出现了,和第一次在eclipse中执行的是一样的代码,但是运行结果居然变了,file.encoding的值变成了”GBK“,可是main方法所在类的编码明明是“UTF-8”。还有中文乱码了。这都是什么情况??

乱码一会儿再说,先看file.encoding的变化,file.encoding变成”GBK“了,而文件的编码是utf-8才对,这样看来,之前所谓的结论似乎并不靠谱。


我们继续尝试在运行时直接指定file.encoding的属性,加上运行时参数”-Dfile.encoding=utf-8“:


这次file.encoding的值变了,变成了utf-8,说明file.encoding确实可以被设置,我们在设置一个不存在编码名试试看:


好吧,这都行,并且乱码始终没有变化。到这里我们可以看出:file.encoding可以设置为任意值。并且这次乱码问题不是出在file.encoding属性上。


到这里,我们就可以猜测,在eclipse中,之所以file.encoding属性和main方法所在类的编码一致,是因为在启动java虚拟机时,eclipse自动将文件属性中的编码设置为运行时参数。


我们知道一个文件是以二进制形式存储在硬盘中的,我们先以utf-8编码存储了java文件,然后手动javac,因为我们并没有指定编码,这时系统是不知道用什么编码来解析文件的,所以只能采用系统默认编码(这个是windows系统的默认编码,和之前提到的JVM默认编码不是一回事),我们查看windows的默认编码:


这里936表示默认编码为GBK。

那么显然问题就出在这里,文件以utf-8编码保存,如果以GBk解析,不乱码才怪呢。于是增加编译参数”-encoding utf-8“,重新编译运行:


可以看到,运行时file.encoding值依然为GBK,但是不乱码了,说明乱码确实是编译过程中引入的,运行过程没有问题。

我们可以通过以下方式再次验证,回到eclipse,我们试着修改一下代码,并重新运行:


可以看到此时的乱码和上面的一样。证明”鎴戜滑鏄腑鍥戒汉“确实是由于”我们是中国人“以utf-8格式保存,以GBK读取所致。

只不过在之前这个错误发生在编译过程中,编译完成后字符串就已经变成”鎴戜滑鏄腑鍥戒汉“。运行过程中没有问题。

而这一次,eclipse的编译没问题。不过在程序中将”我们是中国人“先以utf-8转成字节,再以GBk转换成字符串,同样产生了乱码。


由此,我们可以猜测,eclipse在编译和运行的过程中都会默认地帮我们添加上相应的编码参数,这个参数和main方法所在类的编码一致。







本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

java中的file.encoding属性到底由什么决定? 的相关文章

随机推荐

  • 交换机access与trunk口

    交换机access与trunk口 转载自 https www cnblogs com weiyikang p 4945914 html 理论知识 以太网端口二种链路类型 Access 和Trunk Access 类型的端口 只能属于1 个V
  • 攻防世界-fileclude

  • Android-小游戏

    Android 打地鼠游戏 前端界面 布局文件 TableLayout 表格布局 TableRow 行 TextView 文本框 ImageView 图片框 java代码 Handler 消息处理 Runnable 建子线程 setOnCl
  • 自定义QMessageBox显示\按钮功能

    QPushButton okbtn new QPushButton QString fromLocal8Bit 确定 QPushButton cancelbtn new QPushButton QString fromLocal8Bit 取
  • Redis和MySQL的数据同步问题

    Redis的工作流程 1 前台发送请求 后台接口去查询 2 先去查询Redis缓存里面有没有数据 如果有数据 就直接返回数据 3 如果Redis缓存里面没有数据 就去查询数据库 在数据库中查到数据以后 保存到Redis缓存中 然后在返回前台
  • 5、面向对象的设计思想

    一 面向对象设计思想 1 1 面向过程的设计思想与面向对象的设计思想 例如 我要去新疆 面向过程 我开车 我挂挡 我踩油门 我过河北 我过陕西 面向对象 我命令车去新疆 车怎么去不关我事 信息封装在这这个类的内部 我不用去了解车整个开动的过
  • SATA M.2 NGFF PCIE AHCI NVME SSD固态硬盘的接口、总线和协议区分

    总线 协议 说接口之前先说总线 民用产品的硬盘总线多为 SATA 和 PCIe SATA 总线只能使用 AHCI 协议 NVME 对比 AHCI 的优势在于 低延时 低功耗 更适合固态硬盘 PCIe总线 可以使用 AHCI 也可以使用更高效
  • uniapp vue3 h5,微信小程序滚动屏幕元素渐入动画&自定义导航栏

    项目文件下载地址 实际效果如下 一 滚动屏幕元素渐入 注意事项 animate css需要添加样式兼容微信小程序 微信小程序滚动时boundingClientRect获取不到标签信息 1 HBuilderX打开uniapp创建的vue3项目
  • 【java】案例一:使用java写的记账软件

    目录 一 需求说明 二 主要思路 三 代码实例 四 运行结果 一 需求说明 1 能够记录家庭的收入 支出 并能够打印收支明细表 2 项目采用分级菜单方式 3 假设家庭起始的生活基本金为10000元 每次登记收入后 收入的金额应累加到基本金上
  • 输入框去空格指令兼容ios苹果系统中文输入法

    export class InputXXXDirective constructor private elementRef ElementRef private control NgControl HostListener keydown
  • 线性代数的本质(九)——二次型与合同

    文章目录 二次型与合同 二次型与标准型 二次型的分类 度量矩阵与合同 二次型与合同 二次型与标准型 Grant 二次型研究的是二次曲面在不同基下的坐标变换 由解析几何的知识 我们了解到二次函数的一次项和常数项只是对函数图像进行平移 并不会改
  • E:Package 'Vim' has no installation candidate问题解决

    不多说 直接上干货 问题描述 root zhouls virtual machine apt get install vim Reading package lists DoneBuilding dependency tree Readin
  • GPT-3 模型特点

    Overview 模型 描述 GPT 3 一组能够理解和生成自然语言的模型 Codex Limited beta 一组可以理解和生成代码的模型 包括将自然语言转换为代码 Content filter 一种经过微调的模型 可以检测文本是否敏感
  • 插入排序总结

    插入排序 Insertion Sort 的算法描述是一种简单直观的排序算法 它的工作原理是通过构建有序序列 对于未排序数据 在已排序序列中从后向前扫描 找到相应位置并插入 排序思路 假设按照升序排序 1 从索引为1的元素开始向前比较 一旦前
  • activiti7-1-环境准备(idea)

    activiti7环境准备 1 首先安装插件 2 然后建库 3 pom 4 配置文件 4 1 log4j properties 4 2 activiti cfg xml 5 测试类生成表 6 目录结构 7 最后的操作 务必看一看 又回到cs
  • 用matlab解决多重共线性问题,多重共线性和非线性回归的问题

    前几天她和我说 在百度里有个人连续追着我的回答 三次说我的回答错了 当时非常惊讶 赶紧找到那个回答的问题 看看那个人是怎么说 最终发现他是说多重共线性和非线性回归的问题 他认为多个自变量进行不能直接回归 存在共线性的问题 需要进行因子分析
  • 数据可视化笔记9 可视化交互与评估

    概括 交互的概念 交互准则 交互延时 交互成本 交互场景变化 可视化交互的主要类型 分类 选择 再布局 视觉编码 抽象化 具体化 过滤 链接 交互模型 概览 细节 焦点 上下文 对偶界面 多种混合交互方式 混合多种交互设备 交互空间 屏幕空
  • IDEA连接mysql又报错!Server returns invalid timezone. Go to ‘Advanced‘ tab and set ‘serverTimezone‘ prope

    目录 错误界面 解决方案 第一 设置mysql时区 第二 同步mysql驱动 前进的道路充满荆棘 错误界面 IDEA连接mysql 地址 用户名 密码 数据库名 全都配置好了 点测试连接 咔 不成功 界面是这样的 翻译过来就是 服务器返回无
  • 1345:香甜的黄油(Dijkstra)---信息学奥赛一本通

    题目描述 农夫John发现做出全威斯康辛州最甜的黄油的方法 糖 把糖放在一片牧场上 他知道N 1 N 500 只奶牛会过来舔它 这样就能做出能卖好价钱的超甜黄油 当然 他将付出额外的费用在奶牛上 农夫John很狡猾 像以前的巴甫洛夫 他知道
  • java中的file.encoding属性到底由什么决定?

    首先先上一段代码 public class PropertiesTest public static void main String args System out println file encoding System getProp