Freewind @ Thoughtworks scala java javascript dart 工具 编程实践 月结 math python english [comments admin] [feed]

(2011-09-13) 深入Java虚拟机之字节码文件格式

广告: 云梯:翻墙vpn (省10元) 土行孙:科研用户翻墙http proxy (有优惠)

这两天在研究JavaAgent,动力是想弄明白playframework到底是做到热修改的。从目前的少许了解,推测出它利用javaagent在类导入到JVM之前,对字节码进行了修改。然后再配合classloader,实现热修改。

从网上找到的相关资料上来看,如果想理解清楚其原理,必须要了解字节码文件的格式和指令,也就是我们的.java文件编译后生成的.class二进制文件。听起来挺难的,毕竟我们在编程时,只需要面对java文件,从不需要考虑.class,而且打开.class看到的都是无法识别的二进制代码。好在《深入Java虚拟机》这本书详细讲解了字节码,真是雪中送炭。边看边试,发现并没有想像中的那么难以理解。

.class文件中的内容,可以分为两部分,一是结构描述,二是代码指令。这其实跟我们写的java文件是非常相似的,只不过它为了性能考虑,生成了二进制文件。下面以HelloWorld来举例说明。

首先我们定义一个最简单的test/HelloWorld.java:

package test;

public class HelloWorld {

public static void main(String[] args) {

System.out.println(“Hello, World!“);

}

}

编译后,生成一个545字节的HelloWorld.class文件。我们可以使用以下代码,读取其内容并打印出来:

import java.io.FileInputStream;

import org.apache.commons.io.HexDump;

import org.apache.commons.io.IOUtils;

public class ClassReader {

public static void main(String[] args) throws Exception {

String file = “E:/WORKSPACE/TestJava/bin/test/HelloWorld.class”;

FileInputStream input = new FileInputStream(file);

byte[] bytes = IOUtils.toByteArray(input);

HexDump.dump(bytes, 0, System.out, 0);

}

}

其中HexDump是commons-io提供的一个类,非常实用。该程序将向控制台上打印出以下内容:

00000000 CA FE BA BE 00 00 00 32 00 22 07 00 02 01 00 0F …….2.“……

00000010 74 65 73 74 2F 48 65 6C 6C 6F 57 6F 72 6C 64 07 test/HelloWorld.

00000020 00 04 01 00 10 6A 61 76 61 2F 6C 61 6E 67 2F 4F …..java/lang/O

00000030 62 6A 65 63 74 01 00 06 3C 69 6E 69 74 3E 01 00 bject…..

00000040 03 28 29 56 01 00 04 43 6F 64 65 0A 00 03 00 09 .()V…Code…..

00000050 0C 00 05 00 06 01 00 0F 4C 69 6E 65 4E 75 6D 62 ……..LineNumb

00000060 65 72 54 61 62 6C 65 01 00 12 4C 6F 63 61 6C 56 erTable…LocalV

00000070 61 72 69 61 62 6C 65 54 61 62 6C 65 01 00 04 74 ariableTable…t

00000080 68 69 73 01 00 11 4C 74 65 73 74 2F 48 65 6C 6C his…Ltest/Hell

00000090 6F 57 6F 72 6C 64 3B 01 00 04 6D 61 69 6E 01 00 oWorld;…main..

000000A0 16 28 5B 4C 6A 61 76 61 2F 6C 61 6E 67 2F 53 74 .([Ljava/lang/St

000000B0 72 69 6E 67 3B 29 56 09 00 11 00 13 07 00 12 01 ring;)V………

000000C0 00 10 6A 61 76 61 2F 6C 61 6E 67 2F 53 79 73 74 ..java/lang/Syst

000000D0 65 6D 0C 00 14 00 15 01 00 03 6F 75 74 01 00 15 em……..out…

000000E0 4C 6A 61 76 61 2F 69 6F 2F 50 72 69 6E 74 53 74 Ljava/io/PrintSt

000000F0 72 65 61 6D 3B 08 00 17 01 00 0D 48 65 6C 6C 6F ream;……Hello

00000100 2C 20 57 6F 72 6C 64 21 0A 00 19 00 1B 07 00 1A , World!……..

00000110 01 00 13 6A 61 76 61 2F 69 6F 2F 50 72 69 6E 74 …java/io/Print

00000120 53 74 72 65 61 6D 0C 00 1C 00 1D 01 00 07 70 72 Stream……..pr

00000130 69 6E 74 6C 6E 01 00 15 28 4C 6A 61 76 61 2F 6C intln…(Ljava/l

00000140 61 6E 67 2F 53 74 72 69 6E 67 3B 29 56 01 00 04 ang/String;)V…

00000150 61 72 67 73 01 00 13 5B 4C 6A 61 76 61 2F 6C 61 args…[Ljava/la

00000160 6E 67 2F 53 74 72 69 6E 67 3B 01 00 0A 53 6F 75 ng/String;…Sou

00000170 72 63 65 46 69 6C 65 01 00 0F 48 65 6C 6C 6F 57 rceFile…HelloW

00000180 6F 72 6C 64 2E 6A 61 76 61 00 21 00 01 00 03 00 orld.java.!…..

00000190 00 00 00 00 02 00 01 00 05 00 06 00 01 00 07 00 …………….

000001A0 00 00 2F 00 01 00 01 00 00 00 05 2A B7 00 08 B1 ../……..*….

000001B0 00 00 00 02 00 0A 00 00 00 06 00 01 00 00 00 03 …………….

000001C0 00 0B 00 00 00 0C 00 01 00 00 00 05 00 0C 00 0D …………….

000001D0 00 00 00 09 00 0E 00 0F 00 01 00 07 00 00 00 37 ……………7

000001E0 00 02 00 01 00 00 00 09 B2 00 10 12 16 B6 00 18 …………….

000001F0 B1 00 00 00 02 00 0A 00 00 00 0A 00 02 00 00 00 …………….

00000200 05 00 08 00 06 00 0B 00 00 00 0C 00 01 00 00 00 …………….

00000210 09 00 1E 00 1F 00 00 00 01 00 20 00 00 00 02 00 ………. …..

00000220 21                                              !

上面这些内容,分可为三列

image

每一列有点像行号,它表示当前行的内容是从原字节流中哪一位开始。所以第一行是00000000,表示从头开始。第一行打印了16个字节的内容,所以第二行是00000010。

第二列是字节的16进制值,其取值范围从00-FF,每行16个字节。

第三列是每个字节对应的ASCII码形式,所以数字字母等,可以正确显示出来。超出ASCII码范围的,就用“点”表示了。

看到这一堆数字,是不是很头晕?不用怕,只要知道如何解读,其实不难。它包含了HelloWorld.java中包含的全部信息(如类名,方法名等),以及编译器自己加入的一些内容(如初始化函数,调试信息如行号等)。只不过它使用了利于机器阅读的格式,只要知道了格式定义,就很容易翻译成人读的格式。

下表就是.class文件的格式定义。我们只需要从第一个字节读起,一遍下来,整个.class文件的内容就解析完了。

读取四个字节magic

CA FE BA BE00 00 00 32 00 22 07 00 02 01 00 0F

用于快速判断一个文件是不是java class文件的“魔数”:0xCAFEBABE (它是一个咖啡名称)。如果一个文件不是以它开头,说明绝对不是字节码文件。如果是,还需要再进一步判断后面的内容。

读取两个字节minor_version

CA FE BA BE 00 0000 32 00 22 07 00 02 01 00 0F

表示子版本号,这里是0

读取两个字节major_version

CA FE BA BE 00 00 00 3200 22 07 00 02 01 00 0F …….2.“……

表示主版本号,32表示50,即jdk1.6

读取两个字节constant_pool_count

CA FE BA BE 00 00 00 32 00 2207 00 02 01 00 0F

0022表示34,说明一共定义了33个常量(索引为0的那个未使用)

接着就是33个常量定义

每个常量的第一个字节是一个标签(tag),表示一种类型的常量,每个类型都有自己的格式,长度不定。在jdk1.2中,一共有11种不同类型的常量,现在应该增加了不少新的常量:

常量名                                              标识

CONSTANT_Utf8                                1

CONSTANT_Integer                           3

CONSTANT_Float                              4

CONSTANT_Long                              5

CONSTANT_Double                           6

CONSTANT_Class                             7

CONSTANT_String                             8

CONSTANT_Fieldref                          9

CONSTANT_Methodref                     10

CONSTANT_InterfaceMethodref       11

CONSTANT_NameAndType              12

我们要读取33个常量,分别

读取常量(索引为1)的第一个字节tag

CA FE BA BE 00 00 00 32 00 22 0700 02 01 00 0F

07表示Class_info,其格式定义为:

1字节 tag

2字节 对应的常量池索引

所以它一共有3个字节,我们还需要再读2个字节:

CA FE BA BE 00 00 00 32 00 22 07 00 0201 00 0F

0002即2,表示这个class对应的常量索引为2

读取下一个常量(索引为2)的第一个字节tag

CA FE BA BE 00 00 00 32 00 22 07 00 02 0100 0F

01表示一个UTF8字符串,它的格式定义为:

1字节 tag

2字节 length

n字节 与length长度相等

往下读2个字节00 0F ,表示长度为15,然后再从下一行读取15个字节:

74 65 73 74 2F 48 65 6C 6C 6F 57 6F 72 6C 6407

这个字符串的内容是“test/HelloWorld”,其长度为15。

一直读到第33个常量。

继续读2个字节access_flags

读2个字节this_class

读2个字节super_class

读2个字节interfaces_count

读2个字节interfaces

读2个字节access_flags

待续

comments powered by Disqus