Java服務(wù)剛啟動(dòng)時(shí)接口超時(shí)排查全過程
簡(jiǎn)介
我們組有一個(gè)流量較大的Java服務(wù),每次發(fā)代碼時(shí),服務(wù)都會(huì)有一小波接口超時(shí),之前簡(jiǎn)單分析過,發(fā)現(xiàn)這些超時(shí)的case僅發(fā)生在服務(wù)剛啟動(dòng)時(shí),少量請(qǐng)求會(huì)耗時(shí)好幾秒,但之后又馬上恢復(fù)正常。
問題發(fā)生
如下,是我們服務(wù)的一次上線,可以看到,上線期間(21:10左右)會(huì)有一小波499超時(shí)。
而從我們?nèi)溌啡罩酒脚_(tái)查看這些超時(shí)的調(diào)用,會(huì)發(fā)現(xiàn)外部網(wǎng)絡(luò)操作(如:rpc調(diào)用、查詢數(shù)據(jù)庫等)耗時(shí)不高,所以耗時(shí)來源于執(zhí)行java代碼而非外部調(diào)用。
但為啥就剛啟動(dòng)完成那會(huì)比較耗時(shí),之后又正常了呢,有點(diǎn)經(jīng)驗(yàn)的話,肯定會(huì)想到這里面估計(jì)發(fā)生了什么隱式操作,那Java代碼執(zhí)行時(shí)會(huì)有哪些隱式操作可能導(dǎo)致耗時(shí)高呢?
我想到了如下幾種情況:
- 懶加載操作,如連接池初始化、緩存加載?
經(jīng)過檢查,發(fā)現(xiàn)這些都已在啟動(dòng)時(shí)加載,不會(huì)延遲到請(qǐng)求時(shí)。
- 發(fā)生了GC?
經(jīng)過檢查,啟動(dòng)時(shí)GC正常,耗時(shí)不高。
- JIT即時(shí)編譯功能導(dǎo)致?
java代碼默認(rèn)是解釋執(zhí)行的,當(dāng)某些代碼被多次執(zhí)行后,會(huì)被JIT編譯成原生指令執(zhí)行,執(zhí)行性能相應(yīng)提升,但我通過JVM參數(shù)-Xint
關(guān)閉了JIT后,發(fā)現(xiàn)問題依然存在,故排除了此原因。
- 執(zhí)行過程中有鎖?
經(jīng)過檢查代碼,未發(fā)現(xiàn)鎖的存在。
- 操作系統(tǒng)相關(guān)隱式操作,上下文切換、缺頁中斷、文件io慢?
經(jīng)初步檢查,CPU、內(nèi)存、磁盤使用率都正常,這部分深入排查比較費(fèi)力,且有權(quán)限限制,暫先跳過。
那會(huì)是什么原因?qū)е碌模?/p>
問題排查
暫時(shí)沒啥頭緒,我打算先用arthas的profile
命令,收集一些CPU火焰圖看看。
由于超時(shí)僅發(fā)生在剛啟動(dòng)完成后的部分請(qǐng)求,之后又恢復(fù)正常,故我計(jì)劃在啟動(dòng)完成后開始收集火焰圖,每次收集10s的火焰圖,收集3次,然后對(duì)比前后的火焰圖,看看它們有什么不同,收集腳本如下:
function flamegraph_sample(){ # 不斷檢測(cè)服務(wù)直到它啟動(dòng)完成 while sleep 1; do curl -sS --connect-timeout 3 -m3 http://127.0.0.1:8080/health | grep ok && break; done pid=`pgrep -n java` for i in {1..3}; do java -jar arthas-boot.jar -c "profiler start --alluser" "$pid"; sleep 10s; java -jar arthas-boot.jar -c "profiler stop --file /tmp/flamegraph_cpu_%t.html " "$pid"; done java -jar arthas-boot.jar -c "stop" "$pid"; }
生成的前2個(gè)火焰圖如下:
乍一看,火焰圖中沒有明顯的瓶頸點(diǎn),但經(jīng)過仔細(xì)查看,在第一張火焰圖中搜索ClassLoader,可以搜到不少類加載操作(紅色部分),而第二張則基本沒有!
難道是類加載導(dǎo)致的?目前我有80%信心懷疑就是它導(dǎo)致的,但類加載有那么慢?
為此,我計(jì)劃使用profile命令的-e wall
模式收集剛啟動(dòng)完成時(shí)的調(diào)用棧,并使用jfr
格式保存數(shù)據(jù),其中wall
模式適合診斷高耗時(shí)問題,而jfr
格式數(shù)據(jù)會(huì)保存時(shí)間戳與線程名稱,適合case by case分析,命令如下:
profiler start -e wall --file /tmp/result.jfr
收集到j(luò)fr文件后,使用jmc工具打開,然后我在日志平臺(tái)上找到一個(gè)慢調(diào)用日志,它顯示http-nio-8080-exec-28
線程在21:14:10
到21:14:18
時(shí)間段是一次耗時(shí)近8s的慢調(diào)用,所以我用此條件在jmc里過濾出此case的調(diào)用棧數(shù)據(jù),如下:
可以發(fā)現(xiàn),確實(shí)絕大多數(shù)耗時(shí)發(fā)生在類加載上,類加載之所以慢是因?yàn)榧虞d類有鎖競(jìng)爭(zhēng),而我們接口由于查表較多,確實(shí)會(huì)觸發(fā)非常多類的加載,所以問題比較明顯。
問題解決
知道原因后,解決起來就簡(jiǎn)單了,把類提前加載到JVM即可,為了簡(jiǎn)單,我直接使用了spring中的工具方法,如下:
private static final String[] CLASS_PREFIX_ARR = new String[] { "org.apache", "com.thoughtworks", "io.netty", "com.google", "io.grpc", "com.alibaba", "org.springframework", "cn.hutool", "com.fasterxml", "org.hibernate", "io.opencensus", "org.redisson", "io.micrometer", "io.prometheus", }; PathMatchingResourcePatternResolver resolver = new PathMatchingResourcePatternResolver(); for (String classPrefix : CLASS_PREFIX_ARR) { Resource[] resources; try { resources = resolver.getResources( "classpath*:" + StringUtils.replaceChars(classPrefix, '.', '/') + "/**/*.class"); } catch (IOException e) { ExceptionUtils.rethrow(e); return; } for (Resource resource : resources) { String className = null; try (InputStream is = resource.getInputStream()) { ClassReader cr = new ClassReader(is); className = StringUtils.replaceChars(cr.getClassName(), '/', '.'); Class<?> clz = Class.forName(className); log.info("preLoadClass success: " + className + ", classLoader: " + clz.getClassLoader()); } catch (Throwable e) { log.warn("preLoadClass failed: " + className); } } }
類預(yù)加載上線后,后面又進(jìn)行過多次代碼發(fā)布,發(fā)布過程中幾乎不會(huì)再產(chǎn)生超時(shí)情況,問題確認(rèn)已解決。
總結(jié)
此次問題的排查過程,還是用到了不少排查技巧的,總結(jié)一下:
- 當(dāng)看起來不應(yīng)該慢的代碼執(zhí)行慢時(shí),可以想想有哪些可能的隱式操作存在,此次case的隱式操作就是類加載。
- 當(dāng)診斷問題沒有頭緒時(shí),可考慮使用arthas的
profile
命令來繪制火焰圖,看從火焰圖中能不能找到線索,盡管不會(huì)總是有效。 - 當(dāng)從CPU火焰圖中看不出明顯問題時(shí),可通過對(duì)比問題前后的火焰圖來找不同點(diǎn)。
- 理解profile的
-e cpu
(默認(rèn))與-e wall
選項(xiàng)的差異,一般-e cpu
診斷高cpu問題,而-e wall
診斷高耗時(shí)問題,但如果是偶爾慢一下,需要case by case分析,可考慮使用jfr
格式保存診斷數(shù)據(jù)。
以上就是Java服務(wù)剛啟動(dòng)時(shí)接口超時(shí)排查全過程的詳細(xì)內(nèi)容,更多關(guān)于Java服務(wù)啟動(dòng)接口超時(shí)排查的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
mybatis 解決將數(shù)值0識(shí)別成空字符串的問題
這篇文章主要介紹了mybatis 解決將數(shù)值0識(shí)別成空字符串的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-06-06Simple Java Mail郵件發(fā)送實(shí)現(xiàn)過程解析
這篇文章主要介紹了Simple Java Mail郵件發(fā)送實(shí)現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-11-11Java正則表達(dá)式判斷是否包含數(shù)字、字母、特殊字符及中文的多種方法
這篇文章主要給大家介紹了關(guān)于Java正則表達(dá)式判斷是否包含數(shù)字、字母、特殊字符及中文的多種方法,Java正則表達(dá)式在字符串處理和模式匹配中扮演著重要角色,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-08-08SpringBoot ThreadLocal 簡(jiǎn)單介紹及使用詳解
ThreadLocal 叫做線程變量,意思是 ThreadLocal 中填充的變量屬于當(dāng)前線程,該變量對(duì)其他線程而言是隔離的,也就是說該變量是當(dāng)前線程獨(dú)有的變量,這篇文章主要介紹了SpringBoot ThreadLocal 的詳解,需要的朋友可以參考下2024-01-01詳解RocketMQ中的消費(fèi)者啟動(dòng)與消費(fèi)流程分析
本文主要介紹了RocketMQ的消費(fèi)者啟動(dòng)流程,結(jié)合官方源碼和示例,一步步講述消費(fèi)者在啟動(dòng)和消息消費(fèi)中的的工作原理及內(nèi)容,并結(jié)合平時(shí)業(yè)務(wù)工作中,對(duì)我們所熟悉的順序、push/pull模式等進(jìn)行詳細(xì)分析,以及對(duì)于消息消費(fèi)失敗和重投帶來問題去進(jìn)行分析,需要的朋友可以參考下2022-07-07Java反轉(zhuǎn)字符串和相關(guān)字符編碼的問題解決
反轉(zhuǎn)字符串一直被當(dāng)作是簡(jiǎn)單問題,大家的思想主要就是利用遍歷,首尾交換字符實(shí)現(xiàn)字符串的反轉(zhuǎn)。例如下面的代碼,就可以簡(jiǎn)單實(shí)現(xiàn)反轉(zhuǎn)。2013-05-05Spring中BeanFactory和ApplicationContext的作用和區(qū)別(推薦)
這篇文章主要介紹了Spring中BeanFactory和ApplicationContext的作用和區(qū)別,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-09-09