问题描述
对于B/S架构的J2EE应用系统,应用服务器发生内存溢出(OutOfMemoryError)错误是非常棘手的问题,解决问题的关键是要定位哪里出了问题。一般内存溢出的原因有以下几类:
Jvm内存参数设置不合理
如:
- -Xmx设置的比较小
- -Xms设置的过大
- sun的jvm没有设置
- -XX:MaxPermSize大小等等
由于参数设置问题导致的内存溢出往往容易发现,调整一下参数,问题基本就可以解决。
应用服务器缺少必要的补丁
例如Websphere的某些版本存在很多性能缺陷,某些情况下也会导致内存溢出,打上补丁后,问题基本可以得到解决。
应用程序代码存在缺陷
此类问题是内存溢出最常见的原因,解决起来也最麻烦,本文主要描述这类内存溢出问题如何进行分析和定位。
解决方案
工欲善其事,必先利其器,有了好的工具,解决问题往往能起到事半功倍的作用,很多时候没有工具支持,问题很难解决。
本文主要涉及到2个工具的运用:
- 分析JavaCore的工具:IBM Thread and Monitor Dump Analyzer for Java。
- 分析Heapdump的工具:Eclipse Memory Analyzer。
通过这2个工具,一般的内存溢出问题基本可以定位。
在介绍这2个工具之前,先对一些相关概念做下解释说明:
Heapdump
某一时刻Java进程内存的快照,记录当时内存中各对象的存储和引用关系等。Heapdump中不包含对象的调用信息,即无法从Heapdump中看出某个对象是哪段程序代码生成出来的。
JavaCore
某一时刻Java进程中线程的快照,记录当时所有线程的执行堆栈信息等。JavaCore中可以看到各线程都在处理哪些程序代码,可以看到当前Java都在“做什么事”,在线程的执行堆栈中,有代码的调用信息,也有对象生成的相关信息等。
两种内存溢出
内存溢出一般分两种,内存使用过度和内存泄露。
- 使用过度指在短时间内急剧耗尽大量内存导致内存溢出。
- 内存泄露指长时间内,内存逐渐耗尽导致内存溢出,时间可能是几个小时或几天(通过开启详细垃圾回收可以清晰地观察到内存的分配情况)。
Java系统的内存溢出大部分都是由于内存使用过度导致,内存泄露比较少见。本文后面介绍的也都是关于内存使用过度导致内存溢出的分析方法。
对于内存使用过度导致的内存溢出,可以通过Heapdump和JavaCore结合分析定位问题,对于内存泄露,主要还是分析Heapdump。
当Java进程出现内存溢出错误时,通常会生成Heapdump文件和JavaCore文件,例如Websphere部署的web应用,当出现内存溢出时,会在如下目录
/opt/IBM/WebSphere/AppServer/profiles/server1看到出现类似这样的文件:
Heapdump.*.phd文件记录Heapdump信息,javacore.*.txt记录JavaCore信息,一般内存溢出时会出现多个phd文件和JavaCore文件,分析时用其中一个即可。
下面就介绍如何通过工具分析这2个文件,如何通过对这2个文件的分析定位出内存溢出(内存使用过度导致)的原
1. 分析 javacore
Javacore 的分析工具 IBM Thread and Monitor Dump Analyzer for Java(简称 JCA),以图形化的方式展现 java 线程的堆栈信息及相互关系等。下面是工具使用的截图:
对于 Websphere,主要关注 WebContainer 线程的执行堆栈情况,上图显示WebContainer:57 号线程的执行堆栈。Javacore 文件本身就是个文本文件,直接通过文本编辑器如 editplus 也可以打开,下面是用文本编辑器打开 javacore 文件后看到的WebContainer:57 号线程的执行堆栈:
可以看到,通过 JCA 打开 javacore 和通过 editplus 打开 javacore,没有本质的区别,只是展现形式有所区别而已,有关 JCA 工具的具体使用这里不作详细介绍。分析 javacore的重点是根据每个线程的堆栈信息找出哪个或哪几个线程导致 java 进程的内存溢出,对应线程堆栈中的代码段就是罪魁祸首。例如,如果通过分析得到 WebContainer:57 号线程可能导致内存溢出,那么 57 号线程中的这段代码就是问题所在。
为什么是 WebContainer:57 号线程有问题,而不是其它线程呢?这就需要结合heapdump 进行综合分析,下面会有详细介绍。
2. 分析 Heapdump
Heapdump 的分析工具推荐 Eclipse Memory Analyzer(简称 MAT),该工具比 IBM 的HA(Heap Analyzer)工具更强大,更易使用。下面是工具的使用截图:
该工具可以看到对象占用内存的大小、对象的个数等信息,通过分析占用内存比例最大的对象,可以初步判断是哪个对象导致的内存溢出,有关 MAT 工具的具体使用这里不作详细介绍。heapdump 分析的重点是找到占用内存最大的“业务对象”,所谓业务对象,就是和应用业务相关的对象,需要能靠到应用程序上。例如上图所示,虽然java.lang.String 比 DicRestrict 对象占用的内存要多,但是我们做分析时应该重点关注DicRestrict 对象,因为 String 对象是通用的业务无关对象,可能很多业务对象都会引用它。Heapdump 分析需要结合业务知识,需要相当的开发和业务经验。
3. 双剑合并
Javacore 和 heapdump 的单独分析,都只是看到了事情的一面,通过一定方法将二者有机的结合起来,问题基本就可以水落石出了。