這個問題可以說是 Java 面試的高頻面試題了,有很多面試官都喜歡問這個問題,問題可能是下面這樣的。
線上一臺服務(wù)器 CPU 使用率100% 了,如果你碰到這樣的情況,如何排查并找到問題原因?
這就是一個套路題,所謂套路題就是有標(biāo)準(zhǔn)的套路解法的,掌握了套路,不僅能解決面試官,還能解決問題。不然真的就掉進(jìn)套路里了。
當(dāng)我們真碰到這個問題的時候應(yīng)該怎么排查呢?
模擬一個高 CPU 場景
先用一段程序創(chuàng)建幾個線程,將其中一個線程設(shè)置成高 CPU 使用率的。
public static void main(String[] args) {
for (int i = 0; i < 10; i++) {
Thread thread = new Thread(() -> {
System.out.println(Thread.currentThread().getName());
try {
Thread.sleep(30 * 60 * 1000);
}catch (Exception e){
e.printStackTrace();
}
});
thread.setName("thread-" + i);
thread.start();
}
Thread highCpuThread = new Thread(() -> {
int i = 0;
while (true) {
i++;
}
});
highCpuThread.setName("HighCpu");
highCpuThread.start();
}
運行這段程序后,前面 10 個線程都處于休眠狀態(tài),只有最后一個線程會持續(xù)的占用 CPU 。
運行這段程序,然后就可以開始一些列的操作來發(fā)現(xiàn)問題原因了。
排查步驟
第一步,使用 top 找到占用 CPU 最高的 Java 進(jìn)程
在真實環(huán)境中,首先要確認(rèn)是不是 Java 程序造成的,如果有系統(tǒng)監(jiān)控工具,可能會直接在預(yù)警信息里告訴你是有哪個進(jìn)程造成的,但也有可能不知道,需要我們手動排查。
如果是在面試場景中,這個問題可能不需要確認(rèn),畢竟 Java 面試,面試官可能直接就告訴你是 Java 占用的 CPU 過高。
這一步也非常簡單,就是一個 top命令而已,基本上所有同學(xué)都用過這個命令吧。
使用 top命令發(fā)現(xiàn)占用 CPU 99.7% 的線程是 Java 進(jìn)程,進(jìn)程 PID 為 13731。
第二步,用 top -Hp 命令查看占用 CPU 最高的線程
上一步用 top命令找到了那個 Java 進(jìn)程。那一個進(jìn)程中有那么多線程,不可能所有線程都一直占著 CPU 不放,這一步要做的就是揪出這個罪魁禍?zhǔn)?,?dāng)然有可能不止一個。
執(zhí)行top -Hp pid命令,pid 就是前面的 Java 進(jìn)程,我這個例子中就是 13731 ,完整命令為:
top -Hp 13731,執(zhí)行之后的效果如下
可以看到占用 CPU 最高的那個線程 PID 為 13756。
然后將 13756轉(zhuǎn)換為 16 進(jìn)制的,后面會用到,可以用在線進(jìn)制轉(zhuǎn)換的網(wǎng)站直接轉(zhuǎn)換,轉(zhuǎn)換結(jié)果為 0x35bc
第三步,保存線程棧信息
當(dāng)前 Java 程序的所有線程信息都可以通過 jstack命令查看,我們用jstack命令將第一步找到的 Java 進(jìn)程的線程棧保存下來。
jstack 13731 > thread_stack.log
第四步,在線程棧中查找最貴禍?zhǔn)椎木€程
第二步已經(jīng)找到了這個罪魁禍?zhǔn)椎木€程 PID,并把它轉(zhuǎn)換成了 16 進(jìn)制的,第三步保存下來的線程棧中有所有線程的 PID 16 進(jìn)制信息,我們在線程棧中查找這個16進(jìn)制的線程 id (0x35bc)。
怎么樣,現(xiàn)在一目了然了,線程名稱、線程狀態(tài)、以及哪行代碼消耗了最多的 CPU 都很清楚了。
本文轉(zhuǎn)載自微信公眾號「古時的風(fēng)箏」,可以通過以下二維碼關(guān)注。轉(zhuǎn)載本文請聯(lián)系古時的風(fēng)箏公眾號。