Java高级面试-Java-String可以有多长

2次阅读

共计 1837 个字符,预计需要花费 5 分钟才能阅读完成。

1. 题目剖析

Java String 可以有多长?相信大部分人不会太关注这个问题,甚至可能有些人会认为 String 要多长可以有多长,很明显这是不实际的想法。假设现在有这样一个场景:

byte[] jsonBytes = readTaskFromFile();
String json = new String(jsonBytes);
Task entity = new Gson().fromJson(json, Task.class);

这段代码看似没什么问题,但是一旦文件存储内容的字节长度超过 String 运行时所能承受的长度,这里的 json 就不是一个完整的 json 字符串,这样在使用 gson 做反序列化时,必然会因为 json 格式不正确导致反序列化失败,抛出异常。

2. 问题拆分

2.1 String 可容纳的字节有多少?

当我们在方法里调用场景里的代码是,其临时变量是存储在 Java 堆 中的,String 类型的长度理论上取决于传入的 byte 数组的长度。

在创建 byte 数组时,要求 new []传入的必须是一个整型类型的数据,也就是说 byte[]数组的最大长度为 Integer.MAX_VALUE,但是,我们从 ArrayList 的源码可以看出,数组可分配的最大长度应该是Integer.MAX_VALUE - 8,否则会抛出OutOfMemoryError: Requested array size exceeds VM limit 错误:

/**
* The maximum size of array to allocate.
* Some VMs reserve some header words in an array.
* Attempts to allocate larger arrays may result in
* OutOfMemoryError: Requested array size exceeds VM limit
*/
private static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;

但是实际上,如果真的执行了下面的代码:

   byte[] bytes = new byte[Integer.MAX_VALUE - 8];

还会抛出错误java.lang.OutOfMemoryError: Java heap space,那是受到了 Java 堆可分配的内存大小限制,如何在编译器里修改 Java 虚拟机堆栈的大小,这里就不多说,主要是想说明其实还有这样一个限制因素存在。

当 String 变量是一个类中的全局变量时,其变量是存在在 Java 方法区里的,这时 String 类型可存储的字节长度取决于.class 描述全局 String 类型变量的数据结构。

例如:

   private final static String LONG_STRING = "aaaa.....";

当.java 文件编译成.class 文件时,其类中的静态 String 数据是以以下数据结构去存储的:

CONSTANT_Utf8_info {
    u1 tag;
    u2 length;   // 0 ~ 65535
    u1 bytes[length];
}

u2 是表示一个 2 个字节的数据类型,这也就意味着允许的最大长度为 65535。

2.2 String 可容纳的字符数有多少?

前面我们都是从 String 可存储的字节数去考虑的,现在从可存储的字符数去考虑,假如字符是以 utf- 8 编码的,其实这个问题可以直接转换成:

一个字符使用 utf- 8 编码对应多少个字节数?

Unicode bit 数 UTF-8 byte 数 常见字符类型
0000 ~ 007F 0~7 0XXX XXXX 1 拉丁字母
0080 ~ 07FF 8~11 110X XXXX、10XX XXXX 2
0800 ~FFFF 12~16 1110XXXX、10XX XXXX、10XX XXXX 3 中文字符
10000 ~ 1FFFFF 17~21 1111 0XXX、10XX XXXX、10XX XXXX、10XX XXXX 4 表情符号

所以,如果一个 String 类型可容纳的字符数,应该是这样的:

字符类型 在 Java 栈中的大小 在 Java 堆中的大小
Latin 字母 65535 Integer.MAX_VALUE – 8
中文 65535 / 3 (Integer.MAX_VALUE – 8) / 3

拓展问题,String.length()返回的是字节数还是字符数?答案是字节数。

3. 总结

面试官问这个问题时,是希望你除了 Java 基础深厚外,还希望你对 Java 虚拟机对类型的存储有一定的了解,另外就是希望从你的回答中,看出你有积极的探索欲望。有时候,往往看似简单的提问,其期待的结果往往涉及很多重要的知识理解。

正文完
 0