1. 题目剖析
Java String 可以有多长?相信大部分人不会太关注这个问题,甚至可能有些人会认为 String 要多长可以有多长,很明显这是不实际的想法。假设现在有这样一个场景:
byte[] jsonBytes = readTaskFromFile();
String json = new String(jsonBytes);
Task entity = new Gson().fromJson(json, Task.class);
这段代码看似没什么问题,但是一旦文件存储内容的字节长度超过 String 运行时所能承受的长度,这里的 json 就不是一个完整的 json 字符串,这样在使用 gson 做反序列化时,必然会因为 json 格式不正确导致反序列化失败,抛出异常。
2. 问题拆分
2.1 String 可容纳的字节有多少?
当我们在方法里调用场景里的代码是,其临时变量是存储在
Java 堆
中的,String 类型的长度理论上取决于传入的 byte 数组的长度。
在创建 byte 数组时,要求 new []传入的必须是一个整型类型的数据,也就是说 byte[]数组的最大长度为 Integer.MAX_VALUE
,但是,我们从 ArrayList 的源码可以看出,数组可分配的最大长度应该是Integer.MAX_VALUE - 8
,否则会抛出OutOfMemoryError: Requested array size exceeds VM limit
错误:
/**
* The maximum size of array to allocate.
* Some VMs reserve some header words in an array.
* Attempts to allocate larger arrays may result in
* OutOfMemoryError: Requested array size exceeds VM limit
*/
private static final int MAX_ARRAY_SIZE = Integer.MAX_VALUE - 8;
但是实际上,如果真的执行了下面的代码:
byte[] bytes = new byte[Integer.MAX_VALUE - 8];
还会抛出错误java.lang.OutOfMemoryError: Java heap space
,那是受到了 Java 堆可分配的内存大小限制,如何在编译器里修改 Java 虚拟机堆栈的大小,这里就不多说,主要是想说明其实还有这样一个限制因素存在。
当 String 变量是一个类中的全局变量时,其变量是存在在 Java 方法区里的,这时 String 类型可存储的字节长度取决于.class 描述全局 String 类型变量的数据结构。
例如:
private final static String LONG_STRING = "aaaa.....";
当.java 文件编译成.class 文件时,其类中的静态 String 数据是以以下数据结构去存储的:
CONSTANT_Utf8_info {
u1 tag;
u2 length; // 0 ~ 65535
u1 bytes[length];
}
u2 是表示一个 2 个字节的数据类型,这也就意味着允许的最大长度为 65535。
2.2 String 可容纳的字符数有多少?
前面我们都是从 String 可存储的字节数去考虑的,现在从可存储的字符数去考虑,假如字符是以 utf- 8 编码的,其实这个问题可以直接转换成:
一个字符使用 utf- 8 编码对应多少个字节数?
Unicode | bit 数 | UTF-8 | byte 数 | 常见字符类型 |
---|---|---|---|---|
0000 ~ 007F | 0~7 | 0XXX XXXX | 1 | 拉丁字母 |
0080 ~ 07FF | 8~11 | 110X XXXX、10XX XXXX | 2 | |
0800 ~FFFF | 12~16 | 1110XXXX、10XX XXXX、10XX XXXX | 3 | 中文字符 |
10000 ~ 1FFFFF | 17~21 | 1111 0XXX、10XX XXXX、10XX XXXX、10XX XXXX | 4 | 表情符号 |
所以,如果一个 String 类型可容纳的字符数,应该是这样的:
字符类型 | 在 Java 栈中的大小 | 在 Java 堆中的大小 |
---|---|---|
Latin 字母 | 65535 | Integer.MAX_VALUE – 8 |
中文 | 65535 / 3 | (Integer.MAX_VALUE – 8) / 3 |
拓展问题,String.length()返回的是字节数还是字符数?答案是字节数。
3. 总结
面试官问这个问题时,是希望你除了 Java 基础深厚外,还希望你对 Java 虚拟机对类型的存储有一定的了解,另外就是希望从你的回答中,看出你有积极的探索欲望。有时候,往往看似简单的提问,其期待的结果往往涉及很多重要的知识理解。