关于java:Unicode码的二进制转换Java

47次阅读

共计 1256 个字符，预计需要花费 4 分钟才能阅读完成。

内容为集体学习心得，不能对准确性做过多保障，谬误之处还望指导。

有时候咱们会遇到一些 \u 结尾的字符串，咱们晓得这些是 Unicode 码，一组 \uxxxx 字符串对应了一个 Unicode 字符。那这些编码字符的理论二进制存储格局是怎么呢？
咱们晓得 Unicode 编码能够出现世界上大部分的文字内容，而在其最通用的一种编码方式 UTF-8
)下, 单字符的存储长度为 1 - 4 字节（可变），这种设计的由来和长处就不多讲了，这里次要说说看到的 \u 编码串和二进制的换算形式。
在 UTF- 8 编码格局的 java 代码下，对“测试”两个字打印其字节和字符后果如下：

System.out.println(Charset.defaultCharset());
        String s = "测试";
        System.out.println(s.chars().mapToObj(Integer::toHexString).collect(Collectors.joining("\t")));
        byte[] bs = s.getBytes();
        System.out.println(Arrays.toString(bs));
        /*Result: 
        UTF-8
        6d4b    8bd5
        [-26, -75, -117, -24, -81, -107] */

察看后果可知，“测试 ”两个字在 UTF- 8 编码下占六个字节，将【-26, -75, -117, -24, -81, -107】6 个数字转为二进制补码格局，即失去“ 测试 ”两字的二进制存储内容，为：
11100110 10110101 10001011 11101000 10101111 10010101
而通过 char.ToHexString 失去的 6d4b 8bd5 是这两个字的 Unicode 编码
这两者是怎么关联上的呢?
通过 UTF- 8 的百科页面有如下介绍：

UTF- 8 编码字节含意

对于 UTF- 8 编码中的任意字节 B，如果 B 的第一位为 0，则 B 独立的示意一个字符(ASCII 码)；

如果 B 的第一位为 1，第二位为 0，则 B 为一个多字节字符中的一个字节(非 ASCII 字符)；

如果 B 的前两位为 1，第三位为 0，则 B 为两个字节示意的字符中的第一个字节；

如果 B 的前三位为 1，第四位为 0，则 B 为三个字节示意的字符中的第一个字节；

如果 B 的前四位为 1，第五位为 0，则 B 为四个字节示意的字符中的第一个字节；

因而，对于下面失去的二进制串，每 8 位中的后面局部都是用来做标记的，1110 结尾表明须要 3 个字节来形容以后字符，并且以后字节为 3 字节中的第一局部，前面的字节应用 10 结尾表明本人是以后字符编码串的前面局部。
把前三字节这些标记为去掉再合并，失去 0110 110101 001011，而“测”字的 16 进制 Unicode 编码转为二进制，正是 0110 1101 0100 1011。
这样做的长处很显著，扩大不便（看起来能反对到 8 字节编码呢），编码构造去掉了二进制的标记位，减小体积更易于数据传输。1 字节的 UTF- 8 码还残缺兼容了 ASCII 码，所以 UTF- 8 能够说应该是大部分场景下的最优抉择了。

正文完