JVM详解4.类文件结构

2次阅读

共计 22684 个字符,预计需要花费 57 分钟才能阅读完成。

博客地址:https://spiderlucas.github.io 备用地址:http://spiderlucas.coding.me
4.1 字节码
平台无关:Sun 公司以及其他的虚拟机提供商发布了许多可以运行在各种不同平台上的虚拟机,这些虚拟机都可以载入和执行同一种平台无关的字节码,从而实现了程序的“一次编写, 到处运行”。语言无关:语言无关的基础是虚拟机和字节码存储格式,Java 虚拟机不和任何语言(包括 Java)绑定,它只与 Class 文件这种特定的二进制文件格式所关联,Class 文件中包含了 Java 虚拟机指令集和符号表以及若干其他辅助信息。
4.2 Class 类文件的结构
Class 文件是一组以 8 位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在 Class 文件之中,中间没有添加任何分隔符,这使得整个 Class 文件中存储的内容几乎全部是程序运行的必要数据,没有空隙存在。当遇到需要占用 8 位字节以上空间的数据项时,则会按照高位在前的方式分割成若干个 8 位字节进行存储。

Class 文件只有两种数据类型:无符号数、表。

无符号数:无符号数属于基本的数据类型,以 u1、u2、u4、u8 来分别代表 1 个字节、2 个字节、4 个字节和 8 个字节的无符号数。无符号数可以用来描述数字、索引引用、数量值或者按照 UTF- 8 编码构成字符串值。

表:表是由多个无符号数或其他表作为数据项构成的复合数据类型,表习惯性以_info 结尾。表用于描述有层次的复合结构的数据,整个 Class 文件本质上就是一张表,由以下的数据项构成。

容量计数器:无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干连续的数据项的形式。

4.2.1 魔数与 Class 文件的版本
魔数:每个 Class 文件的头 4 个字节称为魔数(Magic Number),其唯一作用是确定这个文件是否为一个能被虚拟机接受的 Class 文件。值为 0xCAFEBABE。Class 的版本号:紧接着魔数的 4 个字节存储的是 Class 的版本号——第 5 个和第 6 个字节是次版本号(Minor Version),第 7 个和第 8 个字节是主版本号(Major Version)。版本号兼容:高版本的 JDK 只能向下兼容以前版本的 Class 文件,不能运行以后版本的 Class 文件。
4.2.2 常量池
常量池:紧接着主次版本号后的是常量池,也可以理解为 Class 文件的资源仓库,它是与其他项目关联最多的数据类型,也是占用 Class 文件空间最大的数据项目之一,同时还算第一个出现的表类型数据项目。常量池计数值:由于常量池中常量数量不固定,因此在入口处要放置一项 u2 类型的数据,代表常量池计数值 (从 1 开始,因为计数的 0 代表“不引用任何一个常量池项目”的含义)。常量池存放数据:常量池中主要存放两大类常量——字面量(Literal) 和符号引用(Symbolic References)。字面量比较接近于 Java 语言层面的常量概念——如文本字符串、声明为 final 的常量值等。符号引用则属于编译原理方面的概念,包括下面三类常量:类和接口的全限定名(Fully Qualified Name)、字段的名称和描述符(Descriptor)、方法的名称和描述符。动态连接:Java 代码在 javac 编译的时候,并没有连接这一步骤,而是在虚拟机加载 Class 文件的时候动态连接。常量池中的项:常量池中每一项都是一个表,截止到 JDK 7 中更用 14 种各不相同的表结构数据,其共同特点就是表开始的第一位是一个 u1 类型的标识位。
4.2.3 访问标志
在常量池结束之后,紧接着的两个字节代表访问标志(access_flags),这个标志用于识别一些类或者接口层次的访问信息,包括:这个 Class 是类还是接口;是否定义为 public 类型;是否定义为 abstract 类型;如果是类的话,是否被声明为 final 等。
4.2.4 类索引、父类索引、接口索引
类索引和父类索引:是一个 u2 类型的数据,用于确定这个类的全限定类名和父类的全限定类名,指向一个类型为 CONSTANT_Class_info 的类描述符常量,通过 CONSTANT_Class_info 类型的常量中的索引类型可以找到定义在 CONSTANT_Utf8_info 类型的常量中的全限定名字符串。接口索引集合:是一组 u2 类型的数据集合,用于描述这个类实现了哪些接口,这些被实现的接口按照从左到右排列在接口索引集合中。入口的第一项——u2 类型的数据为接口计数器,表示索引表的容量;如果没有实现任何接口,则该计数器为 0。
4.2.5 字段表集合
字段表:字段表(field_info)用于描述接口或者类中声明的变量。字段(field)包括类级变量以及实例级变量,但不包括在方法内部声明的局部变量。一个字段包括的信息有:字段的作用域(public、private、protected 修饰符)、是实例变量还是类变量(static 修饰符)、可变性(final)、并发可见性(volatile 修饰符,是否强制从主内存读写)、可否被被序列化(transient 修饰符)、字段数据类型(基本类型、对象、数组)、字段名称。修饰符布尔值:上述这些信息中,各个修饰符都是布尔值,要么有某个修饰符,要么没有,很适合使用标志位来表示。而字段叫什么名字、字段被定义为什么数据类型,这些都是无法固定的,只能引用常量池中的常量来描述。
字段表结构

类型
名称
数量

u2
access_flags
1

u2
name_index
1

u2
descriptor_index
1

u2
attributes_count
1

attribute_info
attributes
attributes_count

字段访问标志

标志名称
标志值
含义

ACC_PUBLIC
0x0001
字段是否 public

ACC_PRIVATE
0x0002
字段是否 private

ACC_PROTECTED
0x0004
字段是否 protected

ACC_STATIC
0x0008
字段是否 static

ACC_FINAL
0x0010
字段是否 final

ACC_VOLATILE
0x0040
字段是否 volatile

ACC_TRANSIENT
0x0080
字段是否 transient

ACC_SYNTHETIC
0x1000
字段是否由编译器自动产生的

ACC_ENUM
0x4000
字段是否 enum

name_index
name_index 是对常量池的引用,代表着字段的简单名称。简单名称是指没有类型和参数修饰的方法或者字段名称,这个类中的 inc()方法和 m 字段的简单名称分别是“inc”和“m”。全限定名:以下面代码为例,“org/xxx/clazz/TestClass”是这个类的全限定名,仅仅是把类全名中的“.”替换成了“/”而已,为了使连续的多个全限定名之间不产生混淆,在使用时最后一般会加入一个“;”表示全限定名结束。
public class TestClass {

private int m;

public int inc() {
return m + 1;
}
}
descriptor_index
descriptor_index 也是对常量池的引用,代表着字段和方法的描述符。描述符的作用是用来描述字段的数据类型、方法的参数列表(包括数量、类型以及顺序)和返回值。根据描述符规则,基本数据类型(byte、char、double、float、int、long、short、boolean)以及代表无返回值的 void 类型都用一个大写字符来表示,而对象类型则用字符 L 加对象的全限定名来表示。

标识字符
含义
标识字符
含义

B
基本类型 byte
J
基本类型 long

C
基本类型 char
S
基本类型 short

D
基本类型 double
Z
基本类型 boolean

F
基本类型 float
V
特殊类型 void

I
基本类型 int
L
对象类型,如 Ljava/lang/Object

数组类型:每一维度将使用一个前置的“[”字符来描述,如一个定义为“java.lang.String[][]”类型的二维数组,将被记录为:“[[Ljava/lang/String;”,,一个整型数组“int[]”被记录为“[I”。描述方法:按照先参数列表,后返回值的顺序描述,参数列表按照参数的严格顺序放在一组小括号“()”之内。如方法 void inc()的描述符为“() V”,方法 java.lang.String toString()的描述符为“() LJava/lang/String;”,方法 int indexOf(char[] source, int sourceOffset, int sourceCount, char[] target, int targetOffset, int targetCount, int fromIndex)的描述符为“([CII[CIII) I”。
attributes_count 与 attribute_info

字段表都包含的固定数据项目到 descriptor_index 为止就结束了,不过在 descriptor_index 之后跟随着一个属性表集合用于存储一些额外的信息,字段都可以在属性表中描述零至多项的额外信息。对于本例中的字段 m,他的属性表计数器为 0,也就是说没有需要额外描述的信息,但是,如果将字段 m 的声明改为“final static int m=123”,那就可能会存在一项名称为 ConstantValue 的属性,其值指向常量 123。
字段表集合中不会列出从超类或者父接口中继承而来的字段,但有可能列出原本 Java 代码之中不存在的字段,譬如在内部类中为了保持对外部类的访问性,会自动添加指向外部类实例的字段。
在 Java 语言中字段是无法重载的,两个字段的数据类型、修饰符不管是否相同,都必须使用不一样的名称,但是对于字节码来讲,如果两个字段的描述符不一致,那字段重名就是合法的。

4.2.6 方法表集合
方法表的结构如同字段表一样,依次包括了访问标志(access_flags)、名称索引(name_index)、描述符索引(descriptor_index)、属性表结合(attributes)几项,如字段表所示。
方法访问标志

标志名称
标志值
含义

ACC_PUBLIC
0x0001
方法是否为 public

ACC_PRIVATE
0x0002
方法是否为 private

ACC_PROTECTED
0x0004
方法是否为 protected

ACC_STATIC
0x0008
方法是否为 static

ACC_FINAL
0x0010
方法是否为 final

ACC_SYNCHRONIZED
0x0020
方法是否为 synchronized

ACC_BRIDGE
0x0040
方法是否由编译器产生的桥接方法

ACC_VARARGS
0x0080
方法是否接受不定参数

ACC_NATIVE
0x0100
方法是否为 native

ACC_ABSTRACT
0x0400
方法是否为 abstract

ACC_STRICTFP
0x0800
方法是否为 strictfp

ACC_SYNTHETIC
0x1000
方法是否由编译器自动产生的

方法里的代码
方法里的 Java 代码,经过编译器编译成字节码指令后,存放在方法属性集合中一个名为“Code”的属性里面,属性表作为 Class 文件格式中最具扩展性的一种数据项目。
重写
与字段表集合相对应的,如果父类方法在子类汇总没有被重写(Override),方法表集合中就不会出现来自父类的方法信息。
自动添加方法
有可能会出现由编译器自动添加的方法,最典型的便是类构造器“<clinit>”方法和实例构造器“<init>”方法。
重载
在 Java 语言中,要重载(Overload)一个方法,除了要与原方法具有相同的简单名称之外,还要求必须拥有一个与原方法不同的特征签名,特征签名就是一个方法中各个参数在常量池中的字段符号引用的集合,也就是因为返回值不会包含在特征签名中,因此 Java 语言里面是无法仅仅依靠返回值的不同来对一个已有方法进行重载的。但是在 Class 文件格式汇总,特征签名的范围更大一些,只要描述符不是完全一致的两个方法也可以共存。也就是说,如果两个方法有相同的名称和特征签名,但返回值不同,那么也是可以合法共存于同一个 Class 文件中的。
4.2.7 属性表集合
在 Class 文件、字段表、方法表中都可以携带自己的属性表集合,以用于描述某些场景专有的信息。与 Class 文件中其他的数据项目要求严格的顺序、长度和内容不同,属性表集合的限制稍微宽松了一些,不再要求各个属性表具有严格顺序,并且只要不与已有属性名重复,任何人实现的编译器都可以向属性表写入自己定义的属性信息,Java 虚拟机运行时会忽略掉他不认识的属性。
属性表的结构
属性名称需要从常量池中引用一个 CONSTANT_Utf8_info 类型的常量来表示,而属性的结构则是完全自定义的,只需要通过一个 u4 的长度属性去说明属性值所占用的位数即可。一个符合规则的属性表应该满足下表所定义的结构:

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u1
info
attribute_length

虚拟机规范预定义的属性

属性名称
使用位置
含义

Code
方法表
Java 代码编译成的字节码指令

ConstantValue
字段表
final 关键字定义的常量值

Deprecated
类、方法表、字段表
被声明为 deprecated 的方法和字段

Exceptions
方法表
方法抛出的异常

EnclosingMethod
类文件
仅当一个类为局部类或者匿名类时才能拥有这个属性,这个属性用于标识这个类所在的外围方法

InnerClasses
类文件
内部类列表

LineNumberTable
Code 属性
Java 源码的行号与字节码指令的对用关系

LocalVariableTable
Code 属性
方法的局部变量描述

StackMapTable
Code 属性
JDK1.6 中新增的属性,供新的类型检查验证器(Type Checker)检查和处理目标方法的局部变量和操作数栈所需要的类型是否匹配

Signature
类、方法表、字段表
JDK1.5 中新增的属性,这个属性用于支持泛型情况下的方法签名,在 Java 语言中,任何类、接口、初始化方法或成员的泛型签名如果包含了类型变量(Type Variables)或参数化类型(Parameterized Types),则 Signature 属性会为他记录泛型签名信息。由于 Java 的泛型采用擦除法实现,在为了避免类型信息被擦出后导致签名混乱,需要这个属性记录泛型中的相关信息

SourceFile
类文件
记录源文件名称

SourceDebugExtension
类文件
JDK 1.6 中新增的属性,SourceDebugExtension 属性用于存储额外的调试信息,譬如在进行 JSP 文件调试时,无法同构 Java 堆栈来定位到 JSP 文件的行号,JSR-45 规范为这些非 Java 语言编写,却需要编译成字节码并运行在 Java 虚拟机中的程序提供了一个进行调试的标准机制,使用 SourceDebugExtension 属性就可以用于存储这个标准所新加入的调试信息

Synthetic
类、方法表、字段表
标识方法或字段为编译器自动生成的

LocalVariableTypeTable

JDK 1.5 中新增的属性,他使用特征签名代替描述符,是为了引入泛型语法之后能描述泛型参数化类型而添加

RuntimeVisibleAnnotations
类、方法表、字段表
JDK 1.5 中新增的属性,为动态注解提供支持。RuntimeVisibleAnnotations 属性用于指明哪些注解是运行时(实际上运行时就是进行反射调用)可见的

RuntimeInVisibleAnnotations
类、方法表、字段表
JDK 1.5 新增的属性,与 RuntimeVisibleAnnotations 属性作用刚好相反,用于指明哪些注解是运行时不可见的

RuntimeVisibleParameter Annotations
方法表
JDK 1.5 新增的属性,作用与 RuntimeVisibleAnnotations 属性类似,只不过作用对象为方法参数

RuntimeInVisibleAnnotations Annotations
方法表
JDK 1.5 中新增的属性,作用与 RuntimeInVisibleAnnotations 属性类似,只不过作用对象为方法参数

AnnotationDefault
方法表
JDK 1.5 中新增的属性,用于记录注解类元素的默认值

BootstrapMethods
类文件
JDK 1.7 中新增的属性,用于保存 invokedynamic 指令引用的引导方法限定符

Code 属性
Code 属性是 Class 文件中最重要的一个属性,如果把一个 Java 程序中的信息分为代码(Code,方法体里面的 Java 代码)和元数据(Metadata,包括类、字段、方法定义及其他信息)两部分,那么在整个 Class 文件中,Code 属性用于描述代码,所有的其他数据项目都用于描述元数据。Java 程序方法体中的代码经过 Javac 编译器处理后,最终变为字节码指令存储在 Code 属性内。Code 属性出现在方法表的属性集合之中,但并非所有的方法表都必须存在这个属性,譬如接口或者抽象类中的方法就不存在 Code 属性。如果方法表有 Code 属性存在,那么他的结构将如下表所示。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
max_stack
1

u2
max_locals
1

u4
code_length
1

u1
code
code_length

u2
exception_table_length
1

exception_info
exception_table
exception_table_length

u2
attributes_count
1

attribute_info
attributes
attributes_count

attribute_name_index:是一项指向 CONSTANT_Utf8_info 型常量的索引,常量值固定为“Code”,他代表了该属性的属性名称。

attribute_length:指示了属性值的长度,由于属性名称索引与属性长度一共为 6 个字节,所以属性值的长度固定为整个属性表长度减少 6 个字节。

max_stack:代表了操作数栈(Operand Stacks)深度的最大值。在方法执行的任意时刻,操作数栈都不会超过这个深度。虚拟机运行的时候需要根据这个值分配栈帧(Stack Frame)中的操作帧深度。

max_locals:代表了局部变量表所需的存储空间。在这里,max_locals 的单位是 Slot,Slot 是虚拟机为局部变量分配内存所使用的最小单位。对于 byte、char、float、int、short、boolean 和 returnAddress 等长度不超过 32 位的数据类型,每个局部变量占用 1 个 Slot,而 double 和 long 这两种 64 位的数据类型则需要两个 Slot 来存放。方法参数(包括实例方法中的隐藏参数“this”)、显式异常处理器的参数(Exception Handler Parameter,就是 try-catch 语句中 catch 块所定义的异常)、方法体中定义的局部变量都需要使用局部变量表来存放。另外,并不是在方法中用到了多少个局部变量,就把这些局部变量所占 Slot 之和作为 max_locals 的值,原因是局部变量表中的 Slot 可以重用,当代码执行超出一个局部变量的作用域时,这个局部变量所占的 Slot 可以被其他局部变量所使用,Javac 编译器会根据变量的作用域来分配 Slot 给各个变量使用,然后计算出 max_locals 的大小。

code_length 和 code:用来存储 java 源程序编译后生成的字节码指令。code_length 代表字节码长度,code 是用于存储字节码指令的一系列字节流。既然叫字节码指令,那么每个指令就是一个 u1 类型的单字节,当虚拟机读取到 code 中的一个字节码时,就可以对应找出这个字节码代表的是什么指令,并且可以知道这条指令后面是否需要跟随参数,以及参数应当如何理解。我们知道一个 u1 数据类型的取值范围为 0x00~0xFF,对应十进制的 0~255,也就是一共可以表达 256 条指令,目前,Java 虚拟机规范已经定义了其中约 200 条编码值对应的指令含义。

关于 code_length:有一件值得注意的事情,虽然他是一个 u4 类型的长度值,理论上最大值可以达到 2 的 32 次方减 1,但是虚拟机规范中明确限制了一个方法不允许超过 65535 条字节码指令,即他实际只使用了 u2 的长度,如果超过这个限制,Javac 编译器也会拒绝编译。一般来讲,编写 Java 代码时只要不是刻意去编写一个超长的方法来为难编译器,是不太可能超过这个最大值的限制。但是,某些特殊情况,例如在编译一个很复杂的 JSP 文件时,某些 JSP 编译器会把 JSP 内容和页面输出的信息归并于一个方法之中,就可能因为方法生成字节码超长的原因而导致编译失败。

Exceptions 属性
这里的 Exceptions 属性是在方法表与 Code 属性平级的一项属性。Exceptions 属性的作用是列举出方法中可能抛出的受查异常(Checked Exceptions),也就是说方法描述时在 throws 关键字啊后面列举的异常。他的结构见下表。

类型
名称
数量
类型
名称
数量

u2
attribute_name_index
1
u2
number_of_exceptions
1

u4
attribute_length
1
u2
exception_index_table
number_of_exceptions

number_of_exceptions:项表示方法可能抛出 number_of_exceptions 种受查异常

exception_index_table:每一种受查异常使用一个 exception_index_table 项表示,exception_index_table 是一个指向常量池中 CONSTANT_Class_info 型常量的索引,代表了该受查异常的类型。

LineNumberTable 属性
LineNumberTable 属性用于描述 Java 源码行号与字节码行号(字节码的偏移量)之间的对应关系。他并不是运行时必须的属性,但默认生成到 Class 文件之中,可以在 Javac 中分别使用 -g : none 或 -g : lines 选项来取消或要求生成这项信息。如果选择不生成 LineNumberTable 属性,对程序运行产生的最主要的影响就是当抛出异常时,堆栈中将不会显示出错的行号,并且在调试程序的时候,也无法按照源码行来设置断点。LineNumberTable 属性的结构见下表。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
line_number_table_length
1

line_number_info
line_number_table
line_number_table_length

line_number_table:是一个数量为 line_number_table_length、类型为 line_number_info 的集合

line_number_info 表:包括了 start_pc 和 line_number 两个 u2 类型的数据项,前者是字节码行号,后者是 Java 源码行号。

LocalVariableTable 属性
LocalVariableTable 属性用于描述栈帧中局部变量表中的变量与 Java 源码中定义的变量之间的关系,她也不是运行时必须的属性,但默认会生成到 Class 文件之中,可以在 Javac 中分别使用 -g : none 或 -g :vars 选项来取消或要求生成这项信息。如果没有生成这项属性,最大的影响就是当前其他人引用这个方法时,所有的参数名称都将会丢失,IDE 将会使用诸如 arg0、arg1 之类的占位符代替原有的参数名,这对程序运行没有影响,但是会对代码编写带来较大不便,而且在调试期间无法根据参数名称从上下文中获得参数值。LocalVariableTable 属性的结构见下表。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
local_variable_table_length
1

local_variable_info
local_variable_table
local_variable_table_length

u2
start_pc
1

u2
length
1

u2
name_index
1

u2
descriptor_index
1

u2
index
1

start_pc 和 length:属性分别代表了这个局部变量的生命周期开始地字节码偏移量及其作用范围覆盖的长度,两者结合起来就是这个局部变量在字节码之中的作用域范围。

name_index 和 descriptor_index:都是指向常量池中 CONSTANT_Utf8_info 型常量的索引,分别代表了局部变量的名称以及这个局部变量的描述符。

index:是这个局部变量在栈帧局部变量表中 Slot 的位置。当这个变量数据类型是 64 位类型时(double 和 long),他占用的 Slot 为 index 和 index+ 1 两个。

姐妹属性:在 JDK1.5 引入泛型之后,LocalVariableTable 属性增加了一个“姐妹属性”:LocalVariableTypeTable,这个新增的属性结构与 LocalVariableTable 非常相似,仅仅是吧记录的字段描述符的 descriptor_index 替换成了字段的特征签名(Signature),对于非泛型类型来说,描述符和特征签名能描述的信息是基本一致的,但是泛型引入后,由于描述符中反省的参数化类型被擦除掉,描述符就不能准确的描述泛型类型了,因此出现了 LocalVariableTypeTable。

SourceFile 属性
SourceFile 属性用于记录生成这个 Class 文件的源码文件名称。这个属性也是可选的,可以分别使用 Javac 的 -g:none 或 -g: source 选项来关闭或要求生成这项信息。在 Java 中,对于大多数的类来说,类名和文件名是一致的,但是有一些特殊情况(如内部类)例外。如果不生成这项属性,当抛出异常时,堆栈中将不会显示出错代码所属的文件名。这个属性是一个定长的属性,其结构见下表。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
sourcefile_index
 

sourcefile_index 数据项:是指向常量池中 CONSTANT_Utf8_info 型常量的索引,常量值是源码我呢见的文件名。
ConstantValue 属性
ConstantValue 属性的作用是通知虚拟机自动为静态变量赋值。只有被 static 关键字修饰的变量(类变量)才可以使用这项属性。类似“int x = 123”和“static int x=123”这样的变量定义在 Java 程序中是非常常见的事情,但虚拟机对这两种变量赋值的方法和时刻都有所不同。对于非 static 类型的变量(也就是实例变量)的赋值是在实例构造器 <init> 方法中进行的;而对于类变量,则有两种方式可以选择:在类构造器 <clinit> 方法中或者使用 ConstantValue 属性。目前 Sun Javac 编译器的选择是:如果同时使用 final 和 static 来修饰一个变量(按照习惯,这里称“常量”更贴切),并且这个变量的数据类型是基本类型或者 java.lang.String 的话,就生成 ConstantValue 属性来进行初始化,如果这个变量没有被 final 修饰,或者并非基本类型及字符串,则将会选择在 <clinit> 方法中进行初始化。虽然有 final 关键字才更符合“ConstantValue”的语义,但虚拟机规范中并没有强制要求字段必须设置了 ACC_FINAL 标志,只要求了有 ConstantValue 属性的字段必须设置 ACC_STATIC 标志而已,对 final 关键字的要求是 javac 编译器自己加入的限制。而对 ConstantValue 属性值只能限于基本类型和 String,不过不认为这是什么限制,因为此属性的属性值只是一个常量池的索引号,由于 Class 文件格式的常量类型中只有与基本属性和字符串相对应的字面量,所以就算 ConstantValue 属性在想支持别的类型也无能为力。ConstantValue 属性的结构见下表。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
constantvalue_index
1

ConstantValue 属性:是一个定长属性,他的 attribute_length 数据项值必须固定为 2。

constantvalue_index 数据项:代表了常量池中一个字面量常量的引用,根据字段类型的不同,字面量可以是 CONSTANT_Long_info、CONSTANT_Float_info、CONSTANT_Double_info、CONSTANT_Integer_info、CONSTANT_String_info 常量中的一种。

InnerClasses 属性
InnerClasses 属性用于记录内部类与宿主类之间的关联。如果一个类中定义了内部类,那编译器将会为他以及他所包含的内部类生成 InnerClasses 属性。该属性的结构见下表。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
number_of_class
1

inner_classes_info
inner_class
number_of_classes

number_of_classes:代表需要记录多少个内部类信息。

inner_classes_info 表:每一个内部类的信息都由一个 inner_classes_info 表进行描述。inner_classes_info 的结构见下表。

类型
名称
数量

u2
inner_class_info_index
1

u2
outer_class_info_index
1

u2
inner_name_index
1

u2
inner_class_access_info
1

inner_name_index:是指向常量池中 CONSTANT_Utf8_info 型常量的索引,代表这个内部类的名称,如果是匿名内部类,那么这项值为 0.

inner_class_access_flags:是内部类的访问标志,类似于类的 access_flags,他的取值范围见下表。

标志名称
标志值
含义

ACC_PUBLIC
0x0001
内部类是否为 public

ACC_PRIVATE
0x0002
内部类是否为 private

ACC_PROTECTED
0x0004
内部类是否为 protected

ACC_STATIC
0x0008
内部类是否为 static

ACC_FINAL
0x0010
内部类是否为 final

ACC_INTERFACE
0x0020
内部类是否为 synchronized

ACC_ABSTRACT
0x0400
内部类是否为 abstract

ACC_SYNTHETIC
0x1000
内部类是否嫔妃由用户代码产生的

ACC_ANNOTATION
0x2000
内部类是否是一个注解

ACC_ENUM
0x4000
内部类是否是一个枚举

Deprecated 及 Synthetic 属性
Deprecated 和 Synthetic 两个属性都属于标志类型的布尔属性,只存在有和没有的区别,没有属性值的概念。属性的结构非常简单,其中 attribute_length 数据项的值必须为 0x00000000,因为没有任何属性值需要设置,见下表:

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

Deprecated 属性用于表示每个类、字段或者方法,已经被程序作者定位不在推荐使用,他可以通过在代码中使用 @deprecated 注释进行设置。
Synthetic 属性代表此字段或者方法并不是由 Java 源码直接产生的,而是由编译器自行添加的,在 JDK 1.5 之后,标识一个类、字段或者方法是编译器自动产生的,也可以设置他们访问标志中的 ACC_SYNTHETIC 标志位,其中最典型的例子就是 Bridge Method。所有由非用户代码产生的类、方法及字段都应当至少设置 Synthetic 属性和 ACC_SYNTHETIC 标志位中的一项,唯一的例外是实例构造器“<init>”方法和类构造器“<clinit>”方法。

       
StackMapTable 属性
StackMapTable 属性在 JDK 1.6 发布周增加到了 Class 文件规范中,他是一个复杂的变长属性,位于 Code 属性的属性表,这个属性会在虚拟机类加载的字节码验证阶段被新类型检查验证器(Type Checker)使用,目的在于代替以前比较消耗性能的基于数据流分析的类型推导验证器。这个类型检查验证器最初来源于 Sheng Liang 为 Java ME CLDC 实现的字节码验证器。新的验证器在同样能保证 Class 文件合法性的前提下,省略了在运行期通过数据流分析确认字节码的行为逻辑合法性的步骤,而是在编译阶段将一系列的验证类型(Verification Types)直接记录在 Class 文件之中,通过检查这些验证类型代替了类型推导过程,从而大幅提升了字节码验证的性能。这个验证器在 JDK 1.6 中首次提供,并在 JDK 1.7 中强制代替原本基于类型推断的字节码验证器。StackMapTable 属性中包含零至多个栈映射栈(Stack Map Frames),每个栈映射帧都显示或隐式的代表了一个字节码偏移量,用于表示该执行到该字节码时局部变量表和操作数栈的验证类型。类型检查验证器会通过检查目标方法的局部变量和操作数栈所需要的类型来确定一段字节码指令是否符合逻辑约束。StackMapTable 属性的结构见下表。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
number_of_entries
1

stack_map_frame
stack_map_frame_entries
number_of_entries

《Java 虚拟机规范(Java SE 7 版)》明确规定:在版本号大于或等于 50.0 的 Class 文件中,如果方法的 Code 属性中没有附带 StackMapTable 属性,那就意味着他带有一个隐式的 StackMap 属性。这个 StackMap 属性的作用等同于 number_of_entries 值为 0 的 StackMapTable 属性。一个方法的 Code 属性最多只能有一个 StackMapTable 属性,否则将抛出 ClassFormatError 异常。
Signature 属性
Signature 属性在 JDK 1.5 发布后增加到了 Class 文件规范之中,他是一个可选的定长属性,可以出现于类、属性表和方法表结构的属性表中。在 JDK 1.5 大幅增强了 Java 语言的语法,在此之后,任何类、接口、初始化方法或成员的泛型签名如果包含饿了类型变量(Type Variables)或参数化类型(Parameterized Types),则 Signature 属性会为他记录泛型签名信息。之所以要专门使用这样一个属性去记录泛型类型,是因为 Java 语言的泛型采用的是擦除法实现的伪泛型,在字节码(Code 属性)中,泛型信息编译(类型变量、参数化类型)之后都统统被擦除掉。使用擦除法的好处是实现简单(主要修改 Javac 编译器,虚拟机内部只做了很少的改动)、非常容易实现 Backport,运行期也能够节省一些类型所占的内存空间。但坏处是运行期就无法像 C# 等有真泛型支持的语言那样,将泛型类型与用户定义的普通类型同等对待,例如运行期做反射时无法获得到泛型信息。Signature 属性就是为了弥补这个缺陷而增设的,现在 Java 的反射 API 能够获取泛型类型,最终的数据来源也就是这个属性。Signature 属性的结构见下表。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
signature_index
1

其中 signature_index 项的值必须是一个对常量池的有效索引。常量池在该索引处的项必须是 CONSTANT_Utf8_info 结构,表示类签名、方法类型签名或字段类型签名。如果当前的 Signature 属性是类文件的属性,则这个结构表示类签名,如果当前的 Signature 属性是方法表的属性,则这个结构表示方法类型签名,如果当前 Signature 属性是字段表的属性,则这个结构表示字段类型签名。
BootstrapMethods 属性
BootstrapMethods 属性在 JDK 1.7 发布后增加到了 Class 文件规范之中,他是一个复杂的变长属性,位于类文件的属性表中。这个属性用于保存 invokedynamic 指令引用的引导方法限定符。《Java 虚拟机规范(Java SE 7 版)》规定,如果某个类文件结构的常量池中曾经出现过 CONSTANT_InvokeDynamic_info 类型的常量,那么这个类文件的属性表中必须存在一个明确地 BootstrapMethods 属性,另外,即使 CONSTANT_InvokeDynamic_info 类型的常量在常量池中出现过多次,类文件的属性表中最多也只能一个 BootstrapMethods 属性。BootstrapMethods 属性与 JSR-292 中的 InvokeDynamic 指令和 java.lang.Invoke 包关系非常密切。目前的 Javac 暂时无法生成 InvokeDynamic 指令和 BootstrapMethods 属性,必须通过一些非常规的手段才能使用到他们,也许在不久的将来,等 JSR-292 更加成熟一些,这种状况就会改变。BootstrapMethods 属性的结构见下表。

类型
名称
数量

u2
attribute_name_index
1

u4
attribute_length
1

u2
num_bootstrap_methods
1

bootstrap_method
bootstrap_methods
num_bootstrap_methods

num_bootstrap_methods:项的值给出了 bootstrap_methods[]数组中的引导方法限定符的数量。

bootstrap_methods[]数组:的每个成员包含了一个指向常量池 CONSTANT_MethodHandle 结构的索引值,他代表了一个引导方法,还包含了这个引导方法静态参数的序列(可能为空)。

bootstrap_method:结构见下表。

类型
名称
数量

u2
bootstrap_method_ref
1

u2
num_bootstrap_arguments
1

u2
bootstrap_arguments
num_bootstrap_arguments

bootstrap_method_ref:bootstrap_method_ref 项的值必须是一个对常量池的有效索引。常量池在该索引处的值必须是一个 CONSTANT_MethodHandle_info 结构。

num_bootstrap_arguments:num_bootstrap_arguments 项的值给出了 bootstrap_arguments[]数组成员的数量。

bootstrap_arguments[]:bootstrap_arguments[]数组的每个成员必须是一个对常量池的有效索引。常量池在该索引处必须是下列结构之一:CONSTANT_String_info、CONSTANT_Class_info、CONSTANT_Integer_info、CONSTANT_Long_info、CONSTANT_Float_info、CONSTANT_Double_info、CONSTANT_MethodHandle_info 或 CONSTANT_MethodType_info。

4.3 字节码指令
Java 虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字(称为操作码,Opcode)以及跟随其后的零至多个代表此操作所需参数(称为操作数,Operands)而构成。由于 Java 虚拟机采用面向操作数栈而不是寄存器的架构,所以大多数的指令都不包含操作数,只有一个操作码。操作码总数:Java 虚拟机操作码的长度为一个字节,这意味着指令集的操作码总数不可能超过 256 条放弃操作数对齐:由于 Class 文件格式放弃了编译后代码的操作数长度对齐,这就意味着虚拟机处理那些超过一个字节数据的时候,不得不在运行时从字节中重建出具体数据的结构,如果要将一个 16 位长度的无符号整数使用两个无符号字节存储起来(将它们命名为 byte1 和 byte2),那他们的值应该是这样的:
(byte1 << 8) | byte2
4.3.1 字节码与数据类型

大多数的指令都包含了其操作所对应的数据类型信息,iload 指令用于从局部变量表中加载 int 型的数据到操作数栈中,而 fload 指令加载的则是 float 类型的数据。
大部分与数据类型相关的字节码指令,他们的操作码助记符中都有特殊的字符来表明专门为哪种数据类型服务:i 代表对 int 类型的数据操作,l 代表 long,s 代表 short,b 代表 byte,c 代表 char,f 代表 float,d 代表 double,a 代表 reference。
有一些指令的助记符中没有明确地指明操作类型的字母,如 arraylength 指令,他没有代表数据类型的特殊字符,但操作数永远只能是一个数组类型的对象。
还有一些指令如无条件跳转指令 goto 则是与数据类型无关的。
由于 Java 虚拟机的操作码最多只有 256 个,Java 虚拟机的指令被设计成非完全独立的(Java 虚拟机规范中把这种特性称为“Not Orthogonal”,即并非每种数据类型和每一种操作都有对应的指令)。
大部分的指令都没有支持整数类型 byte、char 和 short,甚至没有任何指令支持 boolean 类型。编译器会在编译器或运行期将 byte 和 short 类型的数据带符号扩展(Sign-Extend)为相应的 int 类型数据,将 boolean 和 char 类型数据零位扩展(Zero-Extend)为相应的 int 类型数据。与之类似,在处理 boolean、byte、short 和 char 类型的数组时,也会转换为使用对应的 int 类型的字节码指令来处理。因此,大多数对于 boolean、byte、short 和 char 类型数据的操作,实际上都是使用相应的 int 类型作为运算类型(Computational Type)。

4.3.2 加载和存储指令
加载和存储指令用于将数据在栈帧中的局部变量表和操作数栈之间来回传输,这类指令包括如下内容。
将一个局部变量加载到操作栈:
iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>
将一个数值从操作数栈存储到局部变量表:
istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>
将一个常量加载到操作数栈:
bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_ml、iconst_、lconst_<l>、fconst_<f>、dconst_<d>
扩充局部变量表的访问索引的指令:
wide
以尖括号结尾的(例如 iload_<n>)这些指令助记符实际上是代表了一组指令(例如 iload_<n>,他代表了 iload_0、iload_1、iload_2 和 iload_3 这几条指令)。这几组指令都是某个带有一个操作数的通用指令的特殊形式。对于这若干组特殊指令来说,他们省略掉了显示的操作数,不需要进行取操作数的动作,实际上操作数就隐含在指令中。除了这点之外,他们的语义与原生的通用指令完全一致(例如 iload_0 的语义与操作数为 0 时的 iload 指令语义完全一致)。
4.3.3 运算指令
运算或算术指令用于对两个操作数栈上的值进行某种特定运算,并把结果重新存入到操作栈顶。大体上算术指令可以分为两种:对整型数据进行运算的指令与对浮点型数据进行运算的指令。由于没有直接支持 byte、short、char 和 boolean 类型的算术指令,对于这类数据的运算,应使用操作 int 类型的指令代替。整数与浮点数的算术指令在溢出和被零除的时候也有各自不同的行为表现,所有的算术指令如下:

加法指令:iadd、ladd、fadd、dadd。
减法指令:isub、lsub、fsub、dsub。
乘法指令:imul、lmul、fmul、dmul。
除法指令:idiv、ldiv、fdiv、ddiv。
求余指令:irem、lrem、frem、drem。
取反指令:ineg、lneg、fneg、dneg。
位移指令:ishl、ishr、iushr、lshl、lshr、lushr。
按位或指令:ior、lor。
按位与指令:iand、land。
按位异或指令:ixor、lxor。
局部变量自增指令:iinc。
比较指令:dcmpg、dcmpl、fcmpg、fcmpl、lcmp。

整数运算

在处理整型数据时,只有除法指令(idiv 和 ldiv)以及求余指令(irem 和 lrem)中当出现除数为零时会导致虚拟机抛出 ArithmeticException 异常,其余任何整型数运算场景都不应该抛出运行时异常。
对 long 类型数值进行比较时,虚拟机采用带符号的比较方式,而

浮点数运算

虚拟机在处理浮点数时必须严格遵循 IEEE 754 规范中所规定的行为和限制。也就是说,Java 虚拟机必须完全支持 IEEE 754 中定义的非正规浮点数值(Denormalized Floating-Point Numbers)和逐级下溢(Gradual Underflow)的运算规则。
所有的运算结果都必须舍入到适当的精度,非精确的结果必须舍入为可被表示的最接近的精确值,如果有两种可表示的形式与该值一样接近,将优先选择最低有效位为零的。
Java 虚拟机在处理浮点数运算时,不会抛出任何运行时异常(这里所讲的是 Java 语言中的异常,勿与 IEEE 754 规范中的浮点异常互相混淆,IEEE 754 的浮点异常是一种运算信号),当一个操作产生溢出时,将会使用有符号的无穷大来表示,如果某个操作结果没有明确的数学定义的话,将会使用 NaN 值来表示。所有使用 NaN 值作为操作数的算术操作,结果都会返回 NaN。
对浮点数值进行比较时(dcmpg、dcmpl、fcmpg、fcmpl),虚拟机会采用 IEEE 754 规范所定义的无信号比较(Nonsignaling Comparisons)方式。

4.3.4 类型转换指令
类型转换指令可以将两种不同的数值类型进行相互转换,JVM 直接支持小范围类型向大范围类型的安全转换,而处理大范围类型到小范围类型的窄化类型转换则需要显示地使用转换指令来完成,这些指令包括:i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l 和 d2f。窄化类型转换会导致结果产生不同的正负号、不同的数量级、数值精度丢失的情况,但永远不可能抛出运行时异常。
4.3.5 对象创建与访问指令
类实例与数组都属于对象,但是其创建与操作使用了不同的字节码指令,指令如下:

创建类实例:new
创建数组:newarray, anewarray, multianewarray
访问类字段 (static 字段) 和实例字段:getfield, putfield, getstatic, putstatic
把一个数组元素加载到操作数栈:baload, caload, saload, iaload, laload, faload, etc.
把一个操作数栈的值存储到数组元素中:bastore, castore, sastore, iastore, etc.
取数组长度:arraylength
检查类实例类型:instanceof, checkcast

4.3.6 操作数栈管理指令
如同操作一个普通数据结构中的堆栈那样,Java 虚拟机提供了一些用于直接操作数栈的指令,包括:

将操作数栈的栈顶一个或两个元素出栈:pop、pop2
复制栈顶一个或两个数值并将复制值或双份的复制值重新压入栈顶:dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2
将栈最顶端的两个数值互换:swap

4.3.7 控制转移指令
控制转移指令可以让 Java 虚拟机有条件或无条件的从指定的位置指令而不是控制转移指令的下一条指令继续执行程序,从概念模型上理解,可以认为控制转移指令就是在有条件或无条件的修改 PC 寄存器的值。控制转移指令如下。

条件分支:ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull、if_icmpeq、if_icmpne、if_icmplt、if_icmpgt、if_icmple、if_icmpge、if_acmpeq 和 if_acmpne。
复合条件分支:tableswitch、lookupswitch。
无条件分支:goto、goto_w、jsr、jsr_w、ret。

int、reference、null 指令集:在 Java 虚拟机中有专门的指令集用来处理 int 和 reference 类型的条件分支比较操作;为了可以无需明显标识一个实体值是否 null,也有专门的指令用来检测 null 值。转化成 int 类型:与算术运算时的规则一致,对于 boolean 类型、byte 类型、char 类型和 short 类型的条件分支比较操作,则会先执行相应类型的比较运算指令(dcmpg、dcmpl、fcmpg、fcmpl、lcmp),运算指令会返回一个整形值到操作数栈中,随后再执行 int 类型的条件分支比较操作来完成整个分支跳转。由于各种类型的比较最终都会转化为 int 类型的比较操作,int 类型比较是否方便完善就显得尤为重要,所以 Java 虚拟机提供的 int 类型的条件分支指令是最为丰富和强大的。
4.3.8 方法调用和返回指令
方法调用指令与数据类型无关,而方法返回指令是根据返回值的类型区分的,包括 ireturn(当返回值是 boolean、byte、char、short 和 int 类型时使用)、lreturn、freturn、dreturn 和 areturn;另外还有一条 return 指令供声明为 void 的方法、实例初始化方法以及类和接口的类初始化方法使用。以下列举了 5 条用于方法调用的指令:

invokevirtual——指令用于调用对象的实例方法,根据对象的实际类型进行分派(虚方法分派),这也是 Java 语言中最常见的方法分派方式。
invokeinterface——指令用于调用接口方法,他会在运行时搜索一个实现了这个接口方法的对象,找出适合的方法进行调用。
invokespecial——指令用于调用一些需要特殊处理的实例方法,包括实例初始化方法、私有方法和父类方法。
invokestatic——指令用于调用类方法(static 方法)。
invokedynamic——指令用于运算时动态解析出调用点限定符所引用的方法,并执行该方法,前面 4 条调用指令的分派逻辑都固化在 Java 虚拟机内部,而 invokedynamic 指令的分派逻辑是由用户所设定的引导方法决定的。

4.3.9 异常处理指令

在 Java 程序中显示抛出异常的操作(throw 语句)都由 athrow 指令来实现
除了用 throw 语句显式抛出异常情况之外,Java 虚拟机规范还规定了许多运行时异常会在其他 Java 虚拟机指令检测到异常状况时自动抛出。
在 Java 虚拟机中,处理异常(catch 语句)不是由字节码指令来实现的(很久之前曾经使用 jsr 和 ret 指令来实现,现在已经不用了),而是采用异常表来完成的。

4.3.10 同步指令
Java 虚拟机可以支持方法级的同步和方法内部一段指令序列的同步,这两种同步结构是使用管程(Monitor)来支持的。
方法级的同步

方法级的同步是隐式的,即无需通过字节码指令来控制,他实现在方法调用和返回操作之中。
虚拟机可以从方法常量池的方法表结构中的 ACC_SYNCHRONIZED 访问标志得知一个方法是否声明为同步方法。
当方法调用时,调用指令将会检查方法的 ACC_SYNCHRONIZED 访问标志是否被设置,如果设置了,执行线程就要求先成功持有管程,然后才能执行方法,最后当方法完成(无论是正常完成还是非正常完成)时释放管程。
在方法执行期间,执行线程持有了管程,其他任何线程都无法再获取到同一个管程。如果一个同步方法执行期间抛出了异常,并且在方法内部无法处理此异常,那么这个同步方法所持有的管程将在异常抛到同步方法之外时自动释放。

同步一段指令集

同步一段指令集通常是由 Java 语言中的 synchronized 语句块来表示的。
Java 虚拟机的指令集中有 monitorenter 和 monitorexit 两条指令来支持 synchronized 关键字的语义,正确实现 synchronized 关键字需要 Javac 编译器与 Java 虚拟机两者共同协作支持。
编译器必须确保无论方法通过何种方式完成,方法中调用过的每条 monitorenter 指令都必须执行其对应的 monitorexit 指令,而无论这个方法是正常结束还是异常结束。
为了保证在方法异常完成时 monitorenter 和 monoitorexit 指令依然剋有正确配对执行,编译器会自动产生一个异常处理器,这个异常处理器声明可处理所有的异常,他的目的就是用来执行 monitorexit 指令。

信号量与管程

管程:管程可以看做一个软件模块,它是将共享的变量和对于这些共享变量的操作封装起来,形成一个具有一定接口的功能模块,进程可以调用管程来实现进程级别的并发控制。进程只能互斥得使用管程,即当一个进程使用管程时,另一个进程必须等待。当一个进程使用完管程后,它必须释放管程并唤醒等待管程的某一个进程。在管程入口处的等待队列称为入口等待队列,由于进程会执行唤醒操作,因此可能有多个等待使用管程的队列,这样的队列称为紧急队列,它的优先级高于等待队列。
信号量:信号量是一种抽象数据类型,由一个整形 (sem)变量和两个原子操作组成:

P():sem 减 1,如果 sem<0 等待,否则继续;
V():sem 加 1,如果 sem<=0,说明当前有等着的进程,唤醒挂在信号量上的等待进程,可以是一个或多个。

4.4 公有设计和私有实现
Java 虚拟机规范描绘了 Java 虚拟机应有的共同程序存储格式:Class 文件格式以及字节码指令集。这些内容与硬件、操作系统及具体的 Java 虚拟机实现之间是完全独立的。
Java 虚拟机实现必须能够读取 Class 文件并精确实现包含在其中的 Java 虚拟机代码的语义,一个优秀的虚拟机实现,在满足虚拟机规范的约束下对具体实现做出修改和优化也是完全可行的,并且虚拟机规范中明确鼓励实现者这样做。只要优化后 Class 文件依然可以被正确读取,并且包含在其中的语义能得到完整的保持,那实现者就可以选择任何方式去实现这些语义。
虚拟机实现者可以使用这种伸缩性来让 Java 虚拟机获得更高的性能、更低的内存消耗或者更好的可移植性,选择哪种特性取决于 Java 虚拟机实现的目标和关注点是什么。虚拟机实现的方式主要有以下两种:

将输入的 Java 虚拟机代码在加载或执行时翻译成另外一种虚拟机的指令集。
将输入的 Java 虚拟机代码在加载或执行时翻译成宿主 CPU 的本地指令集(即 JIT 代码生成技术)。

正文完
 0