一、初始JVM

1. JVM 需要了解的三个方面

a）JVM中的内存布局是怎么样的，它们分别的作用是什么？
b）JVM中的类加载的过程是怎么样的，具体步骤？
c）JVM中的垃圾回收机制(GC)有什么优缺点，涉及到的回收机制和算法有什么？

下面我们就来一一探讨这三个问题。

2.常见的虚拟机

JVM，说是叫“虚拟机”，但是对比VMware和Virtual Box 虚拟机来说，并不是同一回事。JVM只是对硬件设备进行了简单的抽象封装，能够达到跨平台的效果。而VMware和Virtual Box 是100% 使用软件来模拟出真实的硬件。

还有HotSpot VM，是Oracle官方和开源OpenJDK 都是用这个虚拟机的。

二、JVM的内存布局

1.内存的划分

JVM划分的区域：
1.堆
2.栈
3.方法区
4.程序计数器

JVM实际上是一个Java 进程，进程就是用来管理硬件资源的，比如内存。JVM启动之后就会从操作系统这里申请到一大块内存。

具体的内存布局：

对于堆区和方法区，在整个JVM中只存在一份，而程序计数器和栈区是跟进程绑定在一起的，每个不同的线程都有独立的一份程序计数器和栈区。

不同的区域放不同的东西：
1.堆中放入的是 new 的对象。(不要忘了在JDK 1.8中，字符串常量池在堆中)

2.方法区放入的是类对象。
.java->.class->JVM就会把.class文件进行加载，加载到内存中，最后变为类对象。
类的static 成员，作为类属性。同样也是在类对象当中的，就放到方法区里。

类对象里有什么？
a）包含这个类的各种属性的名字，类型，访问权限。
b）包含这个类的各种方法的名字，返回值，访问权限，参数类型，以及方法的实现的二进制代码。
c）包含这个类的static 成员。

方法区内部有个运行时常量池，存放字面量和符号引用：
字面量 : final常量、基本数据类型的值。
符号引用 : 类和结构的完全限定名、字段的名称和描述符、方法的名称和描述符。

3.栈区放入的是局部变量。
对于什么变量放在栈区，什么变量放在堆区，跟它是引用类型还是内置类型无关，只要取决于它是在内存中的哪个区域，是全局变量(成员变量)，还是局部变量，还是静态变量？
Java虚拟机栈：给上层的Java代码来使用的。
本地方法栈：本地方法栈是给本地方法使用的。

4.程序计数器放入的是内存地址。
这个内存地址的含义是，接下来要去执行的指令地址。
我们写的.java 文件 -> .class 文件 ->读到内存当中 -> 每个指令都有自己的地址 -> CPU要执行指令就需要从内存中去取地址，然后再在CPU上执行。

2.和内存区域相关的异常

1.堆溢出，代码中出现堆溢出的话就会抛出“java.lang.OutOfMemoryError”，典型的情况就是不断地去new 对象而不去释放内存。
2.栈溢出，代码中出现栈溢出的话就会抛出“java.lang.StackOverflowError”，典型的场景就是不断去递归不带有终止的if条件。栈里面除了要放局部变量外，还要放方法的调用关系。

堆和栈的空间大小，都可以通过JVM(Java进程的命令行参数)来进行配置。

3.根据代码判断该变量在JVM的哪个内存中

a）下面代码doGet方法中的test是在哪个内存区域？

class Test {
    public int val = 0;
}
@WebServlet("/hello")
public class HelloServlet extends HttpServlet {
    @Override
    protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
        Test test = new Test();
    }
}

答：Test test = new Test();中的test是一个局部变量，因此是存放在栈区中的，而new 出的对象就是放在堆区中。

b）下面代码Test test = new Test();是在哪个内存区域？

class Test {
    public int val = 0;
}
@WebServlet("/hello")
public class HelloServlet extends HttpServlet {
    Test test = new Test();
    @Override
    protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
    }
}

答：因为HelloServlet这个类是需要new出来的，对应地对象里面就有test引用及其对象。t是一个全局变量，因此是在堆中的，后面new 出来的对象，也是在堆中的。

c）下面代码中static Test test = new Test();存放于内存的哪个区域？

class Test {
    public int val = 0;
}
@WebServlet("/hello")
public class HelloServlet extends HttpServlet {
    static Test test = new Test();
    @Override
    protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
    }
}

答：因为Test test = new Test();是被static关键字修饰了，因此t变成了静态成员变量，此时t就是在类对象中，即方法区当中。而new 出的对象不变，仍然存放在堆中。

4.引用类型的理解

我们可以把引用类型当作一个“低配指针”，但从更严谨的角度去看，引用并不是一个指针。Java的引用相当于堆C语言的指针功能进行了裁剪，Java中的引用只能用来解引用(如：使用 . 就是默认地解引用)和比较(==或!=) 。

三、Java的类加载

1.有关.class文件的格式规范

类加载其实是JVM 中的一个非常核心的流程，做的事情，就是把.class 文件，转成JVM 中的类对象。

要想完成类加载，必须要明确的知道，.class文件中都有啥，按照.class文件中的规则进行解析。因此，编译器和类加载器(JVM)必须要商量好.class文件的格式。而.class 文件的格式，在JVM虚拟机规范文档里面已经约定好了的，则编程语言的语法，也可以理解为一种“协议”。

发明/定义一个编程语言，就一定要让该编程语言跑起来，就需要把源码编译成可执行程序，再进行执行。过程：编译->.class->加载。

在JVM虚拟机规范文档中有：
上面的是Java语法规范，是约束编译器和程序员之间的。下面的是Java虚拟机规范，是约束编译器和JVM 之间的。

我们可以选择HTML 的文档格式去查看，第二章的第一节就是有关.class文件格式的规范。而点进去又会提示你在第四章中才会有…

u4就是一个无符号四个字节的整数，u2就是两个字节的无符号整数。而带有info的都是结构体。可以看到，它把java代码中，定义的一个类的核心信息都体现进去了，只不过这个文件的格式是二进制的。

因此，根据上述的格式，我们可以自己开发一个编程语言，然后编译就根据.class文件的格式一样，就可以直接在JVM中去解析执行了。
这样就大大地降低了语言开发的成本，如Kotlin，Scala，Groovy等语言都是基于JVM体系的语言。因此，Kotlin就能够和Java无缝对接，非常方便地去使用Java现有的生态，对比Java，含有的语法糖更多一些。它是有更多现代一些编程语言的特点。

2.类加载的基本流程

类的生命周期：都离不开.class文件的格式

加载：目的是把.class 文件给找到。如果代码中需要加载某个类，就需要去特定的目录下去查找该.class文件，找到之后，就需要打开这个文件，并且读取这个文件。此时这些数据就已经读到内存里了。

验证：目的是验证后缀为.class 的文件是否是编译器编译生成的，如果是人为地去改后缀变为.class 的文件，那么就不是一个合法的.class 文件。除了验证.class 文件的格式外，还需要验证文件里面的字节码指令是否正确。(方法里面具体要执行的指令)

准备：目的是为类对象中的一些成员变量分配内存空间(静态变量…)，并且进行一个初步的初始化(初始空间大小为0).

解析：主要是针对字符串常量进行的处理。.class文件涉及到一些字符串常量，在解析的过程中，就把这些字符串常量替换成当前JVM中的字符串常量。
注：不是程序一启动，就把所有的类都加载完毕的，而是用到哪个类就加载哪个类，而字符串常量是最初启动JVM的时候就有的。

初始化：主要针对在“准备”环节中，对初步初始化的静态变量进行真正地初始化。同时也会执行static 的代码块。

前面两个过程是重要理解的。

针对上述JVM类加载过程，有个代码需要注意一下：

我们发现结果是：(由父及子，静态最先)

原因：当new B() 的时候，就会先尝试去加载 B 这个类，然后加载B 的时候，因为是B 继承于A ，于是又得先加载A 。等到两个类都加载完了，再进行实例化的操作。

3.类加载中的双亲委派模型

双亲委派模型，是类加载中的加载环节里面的很小的一部分细节。更准确地说，应该叫“父亲委派模型”。

在进行类加载的过程中，其中一个非常重要的环节，就是根据这个类的名字(如：java.lang.String) 找到对应的.class 文件。
在JVM中，有三个类加载器(三个特殊的对象)来负责找文件的操作。这三个类加载器对象都有各自找的区域。

图示如下：

这三个类加载器之间存在父子关系(但并不是继承中的父子关系，而是类似于链表一样，每个类里面都有个 parent 字段，指向了父类加载器)。

双亲委派模型的流程：
当代码中使用到某个类的时候，就会触发类加载。首先是从AppClassLoader 开始的，但是AppClassLoader 并不会直接开始去扫描自己负责的目录，而是先找它的爸爸。找到了ExtClassLoader 之后，它也一样，不会立刻去扫描自己负责的目录，而是又去找它的爸爸。
找到BootStarp 之后，它也不会立刻去扫描自己负责的目录，而去找它的爸爸。但是它并没有爸爸，因此就只能自己先去扫描自己负责的目录。如果在自己的目录中，找到了复合的类，就没有其它类加载器的事情了。但是如果没有找到匹配的类，就告诉儿子(ExtClassLoader)。
ExtClassLoader再来找自己负责的目录，如果找到，就加载，找不到就告诉儿子(AppClassLoader)去查找。
AppClassLoader就在自己负责的目录去查找，如果找到就加载，找不到就抛出ClassNotFound异常。

这里有这么一套规则，其实就是在约定上述被扫描的目录的优先级。这个优先级在正常情况下没有什么作用，假设如果是我们自己创建了一个java.lang.String 的类(只有一个类)，同时有标准库中的String 类。那么有优先级后，就会先去加载标准库中的String类，因为我们创建的类是一个复合类，因此就没有其它加载器的事情了。

4.双亲委派模型的优点

1.避免重复加载类：比如 A 类和 B 类都有一个父类 C 类，那么当 A 启动时就会将 C 类加载起来，那么在 B 类进行加载时就不需要在重复加载 C 类了。
2.安全性：使用双亲委派模型也可以保证了 Java 的核心 API 不被篡改，如果没有使用双亲委派模型，而是每个类加载器加载自己的话就会出现一些问题，比如我们编写一个称为 java.lang.Object 类的话，那么程序运行的时候，系统就会出现多个不同的 Object 类，而有些 Object 类又是用户自己提供的因此安全性就不能得到保证了。

5.破坏双亲委派模型

我们学了Servlet后，知道里面根本就是没有main方法的，而且很少会涉及到标准库中的类，一般涉及的类都有Servlet相关。因此Tomcat 的webapps 中就有很多的类，是Tomcat 内部自己实现的类加载器来完成的(目的是告诉程序去额外的目录去找.class)。则Tomcat就没有去遵守双亲委派模型。

四、垃圾回收机制(GC)

1.什么是垃圾回收？

垃圾回收，回收的是内存。JVM 其实是一个进程(java)，一个进程会持有很多的硬件资源，如(CPU，内存，硬盘，带宽)，而系统的内存总量，是一定的。因此对内存的合理使用是非常重要的。
内存要经过：申请->使用->释放过程。内存是有限的，并且要给很多的进程去使用。从代码编写的角度看，内存申请的时机是很明确的，但是内存的释放时机很模糊。对于C语言来说还好，内存的释放是靠程序员自己去手动释放的，如malloc、free等。但是一旦忘了释放内存，就会造成内存泄漏，直到内存耗尽为止。

对于内存泄漏问题，不同的语言有了不同的解决方法：在C++中引用了智能指针，在合适的时机去自动释放内存，(一般是通过引用计数的方式来衡量这个内存被引用了多少次，当引用计数为0时就真正释放内存)。在Rust中，采取的方案是基于语法上的强校验，Rust引入了很多对内存操作相关的语法规则，在编译器编译期间就会对进行严格的检查和校验，一旦发现有代码存在内存泄漏的风险，就编译报错。但是也有不好的地方，它的语法非常丑陋，同时也限制了很多功能的实现。以至于在实现一些特殊功能的时候，要使用个’unsafe’操作，引入这个操作，之前的校验也就部分的失效了。

而Java中采用垃圾回收的方式，对于该机制来说，哪一个代码申请都可以，哪里申请都可以，都是由JVM统一去进行垃圾回收(内存释放)，具体来说，就是由JVM 内部的一组专门负责垃圾回收的线程来进行这样的工作。

优点：能够非常好地保证不出现内存泄漏的情况(不是100%保证)，并且是自动去进行内存释放。
缺点：
1.需要消耗额外的系统资源。
2.内存释放可能存在延时(不是内存不用了就马上回收，可能过段时间才会回收)
3.可能会出现STW 问题(stop the world)，比如说有一大段内存需要去释放，那么可能系统的资源都用来去释放该内存了，而其它的代码就不能够继续执行，没法去做别的事情了。但是现在大佬们能够将STW 问题限制在了1ms 之内。

2.Java的垃圾回收要回收的内存是哪些？

JVM中有四个区域：堆区、方法区、栈区、程序计数器。堆区里面的内存就主要是JVM需要释放的内存对象。而方法区里面的是类对象，它是类加载过来的，而对方法区进行垃圾回收，就相当于“类卸载”，这里的规则比较特殊，我们不用考虑。而栈区和程序计数器是跟进程绑定在一起的，在进程结束的时候，相应地，栈区里面的变量和程序计数器就会随之自动释放内存空间了。

在上述几个区中，堆占据的内存空间就是最大的，本来就是占据了一个程序的大部分内存。

3.回收堆上的内存，具体回收的是什么？

堆内存中，可以划分为：

垃圾回收机制主要回收的就是完全不再使用的内存。对于一半在使用，一半不再使用的内存，是不回收的，因为回收的成本比较大，当然实现起来也比较麻烦。

因此，Java中的垃圾回收，是以“对象”为基本单位的，一个对象，要么被回收，要么不被回收，不会出现一个对象被回收一半的情况。

4.垃圾回收到底是如何回收的？

垃圾回收的基本思想：先找出垃圾，再回收垃圾。因此，就要确保该某个对象不再被使用，就认为是垃圾。如果要是把正在使用的对象回收了，就会造成很严重的后果了。

如：一个游戏服务器，提供服务，其中有一个功能，玩家查询自己的账户余额。查询的时候肯定是需要把查询的结果保存到一个对象中，当用户尝试获取到这个结果的时候，结果对象正常来说会包含结果数据，但此时被回收了，此时查询的结果就是一个错误的结果。

因此相比于回收少了，回收多了(回收错了)是一个更严重的问题，对于GC 来说，级别垃圾的原则，宁可放过也不要乱回收。

5.如何找到垃圾？

如何找垃圾也可以称为(如何标记垃圾？/ 如何判定垃圾？) 。抛开Java来说，单纯GC 的话，判定垃圾有两种典型的方案。
a）引用计数
b）可达性分析

5.1 引用计数

先谈谈引用计数：
引用计数，就是通过一个变量来保存当前的这个对象，被几个引用来指向。一个对象就会内置一个计数器记录它被几个变量所指向。

如：此时new Test() 这个对象就被三个变量所指向，因此里面的计数器就为3.

Test a = new Test();
Test b = a ;

func(a);
void func(Test t) {
  ...
}

但是引用计数有个致命的问题。当出现循环引用时：如：

class Test {
   Test t = null;
}

Test t1 = new Test();//1
Test t2 = new Test();//2
t1.t = t2;//3
t2.t = t2;//4

t1=null;//3
t2=null;//2

当代码运行完t2=null 的时候，按引用计数的情况来说，new Test() 里面的计数器为2，但是此时内存是不再使用的，它不被回收就会导致内存泄漏了。

因此，引用计数的优缺点：
优点：规则简单，实现方便，比较高效(程序运行的效率高)。
缺点：
1.空间利用率比较低(比较浪费空间，尤其是针对大量的小对象)。本来引用的次数就不多，而且还内置了计数器就比较浪费空间了(每一个int占4个字节)。
2.存在循环利用导致判定是否是垃圾出现了错误，从而无法回收。

因此在Java中没有使用引用计数去判定垃圾，而是第二种方式——可达性分析。

5.2 可达性分析

从一组初始位置出发，向下进行深度遍历，把所有能够访问到的对象都标记成“可达”，对应地，没有访问到(不能访问到) 的对象就没有标记，没有标记的就是垃圾。

如：

有：

class TreeNode {
   char val;
   TreeNode left;
   TreeNode right;
}

TreeNode root = ...;

假设root 是一个方法中的局部变量，当前栈帧中的局部变量，也是进行可达性分析的一个初始位置，从此处就往下进行遍历。
默认情况下，整棵树都是可达的，都不是垃圾，但是如果有root.right.right=null，则f这个结点就不可达了，就成了垃圾。如果有root.right=null，此时c和f结点都不可达了，就都是垃圾了。

JVM中采取的方案是：在JVM 中就存在一个/一组线程，来周期性地，进行上述遍历的过程，不断地找出这些不可达的对象，由JVM进行回收。

可达性分析的初始位置有：
1.栈上的局部变量表中的引用。
2.常量池里面的引用指向的对象。
3.方法区中，引用类型的静态成员变量。

基于上述过程，就完成了对垃圾的标记。和引用计数相比，可达性分析，确实更麻烦，同时实现可达性分析的遍历过程开销是比较大的。但是带来的好处是解决了引用指针的两个缺点：内存上不需要消耗太多的空间，也没有循环引用的问题。

不管是引用计数还是可达性分析，我们都可以发现，内存是否需要回收是看当前的对象是否有引用来指向。是在通过引用来决定对象的生死。

6.找到垃圾后如何去回收？

垃圾回收中的经典算法/策略：
a）标记-回收
b）复制算法
c）标记-整理

6.1 标记-回收

比如说：白色是正在使用的对象，灰色是已经被释放的空间。

虽然此处可以释放掉不再使用的内存空间，但是引入了一个问题——内存碎片。我们发现，空闲的内存和正在使用的内存，是交替出现的。

此时如果是申请一小块内存，那没什么问题。但如果是申请一大块连续的内存，此时可能就会分配失败。很多时候，申请的内存，是一块连续的空间(new byte[])，由于内存碎片的存在，整个空闲的内存有100M，此时申请50M的内存，仍然可能会分配失败。

内存碎片的问题，如果一直累计下去，就会导致：空闲的内存其实挺多的，但是不能够去使用，就很难受了。并且该问题在频繁地“申请释放” 的场景中更加常见。

6.2 复制算法

它是为了解决标记-清除的内存碎片问题的。把内存分为两部分。
开始：

此时假设1、3要被回收，那么就剩下了2，4了。就将2，4的内存复制到右遍的内存区域中。此时再回收掉左边的一整个内存区域。内存区域一次只用一个部分。

使用复制算法，就能够解决标记-清除内存碎片问题。
复制算法的缺点：
1.可用的内存空间，只有一半。
2.如果要回收的对象比较少，而剩下的对象比较多，复制内存的开销就很大了。

因此复制算法，适用于：对象会被快速回收，并且整体的内存不大的场景下。

6.3 标记-整理

能够解决复制算法的内存空间利用率的问题。它类似于顺序表的“删除”的搬运操作。
初始：假设此时要回收2，4，6 的内存空间。

就将3往2搬，因为4是需要回收的，它不动。5往第三个位置搬，6是需要回收的，不动。7往第四个位置搬，8往第五个位置搬。搬到最后6没有被覆盖，那么就回收6 。

最终结果：

这样的操作，能够有效避免内存碎片，同时也能提高内存利用率。
缺点：在搬运的过程中，是一个很大的开销，这个开销可能比复制算法里面的开销更大。

6.4 分代算法

实际实现的垃圾回收算法，要能够结合上面的三种方式，取长补短。就有了分代算法。

它把内存中的对象分成了几种情况，每种情况下，采用不同的回收算法。

根据“年龄”去进行划分。年龄是如何来的？是根据GC 的次数来的，每次经历一个扫描周期，就认为“长了一岁”。在JVM中，垃圾回收扫描(可达性分析)是周期性地进行的。因此就根据不同的年龄，就采用不同的垃圾回收算法来处理了。

划分结构：

分代回收的过程：
1.一个新的对象，诞生于伊甸区。
2.如果活到一岁的对象(对象经历了一轮 GC 还没死)，就拷贝到生存区。

生存区的内存大小比较小，那么空间小能放下这么多对象吗？
答：根据经验规律，伊甸区的对象，绝大部分都是活不过一岁的，只有少数对象能够来到生存区，对象大部分都是“朝生夕死”的。注意：是大部分！！！

3.在生存区中，对象也要经历若干轮GC，每一轮GC 逃过的对象，都通过复制算法拷贝到另外的生存区里。这里面的对象来回拷贝，每一轮都会淘汰掉一批对象。

4.在生存区中，熬过一定轮次的GC 之后，这个对象如果还没有被回收的话，JVM就认为，这个对象未来能够更持久地存在下去。于是就将这样的对象拷贝到老年代了。

5.进入老年代的对象，JVM都认为是属于能够持久存在的对象。这些对象也需要使用GC 来扫描。但是扫描的频次就大大地降低了。老年代这里通常使用的是标记-整理算法。

特殊地，如果一个对象的内存特别大，它会直接放入老年代。因为如果把它放入到新生代，如果经过一轮GC没有被淘汰，就放到生存区中。在生存区中拷贝来拷贝去的开销会比较大，甚至有的对象的内存太大在生存区可能放不下，因此直接放入老年代更合适。

6.5 垃圾回收器（了解）

垃圾回收器，属于JVM 中GC 机制的具体实现。这些具体实现中，就应用到了上述的一些垃圾回收算法。

我们真正需要了解的有两个垃圾回收器。
1.CMS 。最主要的特点，是尽可能地降低STW ，使用标记-回收，先进行一个初步的标记(很快，会出现STW)，接下来和业务线程并发的进行深入的标记(不会STW)，再进行一个重新的标记(很快，但是会STW)，主要是对之前的标记进行简单地修正，最后进行回收。

2.G1 。最主要的特点，是将内存划分成了更多的小区域(不像上面所说的新生代和老年代)，以小区域单位进行GC 。

JVM超详细解析