凌晨四點(diǎn)，線上CPU告警，績(jī)效沒(méi)了

新用戶4179f3Ej 2024-10-17

展開(kāi)全文

作者：JustinNeil

前言

凌晨4點(diǎn)，我被一陣刺耳的手機(jī)鈴聲驚醒。迷迷糊糊地摸索著手機(jī)，屏幕上赫然顯示著"線上CPU告警"的字樣。瞬間，我的困意全無(wú)，取而代之的是一陣?yán)浜购托奶铀佟Ｗ鳛楣竞诵南到y(tǒng)的負(fù)責(zé)人，我深知這意味著什么——用戶體驗(yàn)受損、可能的數(shù)據(jù)丟失，更糟糕的是，我的年終績(jī)效可能就此化為泡影。

我迅速起身，開(kāi)始了一場(chǎng)與時(shí)間賽跑的故障排查之旅。

（順便吆喝一聲，技術(shù)大廠機(jī)會(huì)，前后端測(cè)試撈人）

1. 初步診斷：快速定位問(wèn)題

首先，我登錄了服務(wù)器，使用top命令查看系統(tǒng)資源使用情況：

$ top

輸出顯示CPU使用率接近100%，load average遠(yuǎn)超服務(wù)器核心數(shù)。這確實(shí)是一個(gè)嚴(yán)重的問(wèn)題。

接下來(lái)，我使用htop命令獲取更詳細(xì)的進(jìn)程信息：

$ htop

我發(fā)現(xiàn)有幾個(gè)Java進(jìn)程占用了大量CPU資源。這些進(jìn)程正是我們的核心服務(wù)。

2. JVM層面分析：尋找熱點(diǎn)方法

確定了問(wèn)題出在Java應(yīng)用上，我開(kāi)始進(jìn)行JVM層面的分析。首先使用jstat命令查看GC情況：

$ jstat -gcutil [PID] 1000 10

輸出顯示Full GC頻繁發(fā)生，這可能是導(dǎo)致CPU使用率高的原因之一。

接著，我使用jstack命令生成線程轉(zhuǎn)儲(chǔ)，查看線程狀態(tài)：

$ jstack [PID] > thread_dump.txt

分析thread dump文件，我發(fā)現(xiàn)大量線程處于RUNNABLE狀態(tài)，執(zhí)行著相似的方法調(diào)用。

為了進(jìn)一步定位熱點(diǎn)方法，我使用了async-profiler工具：

$ ./profiler.sh -d 30 -f cpu_profile.svg [PID]

生成的火焰圖清晰地顯示了一個(gè)自定義的排序算法占用了大量CPU時(shí)間。

3. 應(yīng)用層面優(yōu)化：重構(gòu)算法

找到了罪魁禍?zhǔn)?，我立即查看了相關(guān)代碼。這是一個(gè)用于大量數(shù)據(jù)的自定義排序算法，原本設(shè)計(jì)用于小規(guī)模數(shù)據(jù)，但隨著業(yè)務(wù)增長(zhǎng)，它的性能問(wèn)題暴露無(wú)遺。

我迅速重構(gòu)了算法，使用Java 8的并行流進(jìn)行優(yōu)化：

List<Data> sortedData = data.parallelStream()
    .sorted(Comparator.comparing(Data::getKey))
    .collect(Collectors.toList());

同時(shí)，我添加了緩存機(jī)制，避免重復(fù)計(jì)算：

@Cacheable("sortedData")
public List<Data> getSortedData() {
    // 優(yōu)化后的排序邏輯
}

4. 數(shù)據(jù)庫(kù)優(yōu)化：索引與查詢改進(jìn)

在排查過(guò)程中，我還發(fā)現(xiàn)了一些低效的數(shù)據(jù)庫(kù)查詢。使用explain命令分析SQL語(yǔ)句：

EXPLAIN SELECT * FROM large_table WHERE status = 'ACTIVE';

結(jié)果顯示這個(gè)查詢導(dǎo)致了全表掃描。我立即添加了合適的索引：

CREATE INDEX idx_status ON large_table(status);

并重寫(xiě)了部分ORM查詢，使用更高效的原生SQL：

@Query(value = "SELECT * FROM large_table WHERE status = :status", nativeQuery = true)
List<LargeTable> findByStatus(@Param("status") String status);

5. 部署優(yōu)化：資源隔離

為了防止單個(gè)服務(wù)影響整個(gè)系統(tǒng)，我決定使用Docker進(jìn)行資源隔離。創(chuàng)建了如下的Dockerfile：

FROM openjdk:11-jre-slim
COPY target/myapp.jar app.jar
ENTRYPOINT ["java", "-Xmx2g", "-jar", "/app.jar"]

并使用Docker Compose進(jìn)行服務(wù)編排，限制了CPU和內(nèi)存使用：

version: '3'
services:
  myapp:
    build: .
    deploy:
      resources:
        limits:
          cpus: '0.50'
          memory: 512M

6. 監(jiān)控告警：防患未然

最后，為了避免類似問(wèn)題再次發(fā)生，我升級(jí)了監(jiān)控系統(tǒng)。使用Prometheus和Grafana搭建了全面的監(jiān)控平臺(tái)，并設(shè)置了更加智能的告警規(guī)則：

- alert: HighCPUUsage
  expr: 100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "High CPU usage detected"
    description: "CPU usage is above 80% for more than 5 minutes"

結(jié)語(yǔ)：危機(jī)與成長(zhǎng)

經(jīng)過(guò)近4小時(shí)的奮戰(zhàn)，系統(tǒng)終于恢復(fù)了正常。CPU使用率降到了30%以下，服務(wù)響應(yīng)時(shí)間也恢復(fù)到了毫秒級(jí)。

這次經(jīng)歷讓我深刻意識(shí)到，在追求業(yè)務(wù)快速發(fā)展的同時(shí)，我們不能忽視技術(shù)債務(wù)的累積。定期的代碼審查、性能測(cè)試和壓力測(cè)試是必不可少的。同時(shí)，建立完善的監(jiān)控和告警機(jī)制，能夠幫助我們更快地發(fā)現(xiàn)和解決問(wèn)題。

雖然這次事件可能會(huì)影響我的年終績(jī)效，但它帶給我的經(jīng)驗(yàn)和教訓(xùn)是無(wú)價(jià)的。持續(xù)學(xué)習(xí)和改進(jìn)永遠(yuǎn)是我們的必修課。

凌晨的陽(yáng)臺(tái)上，我望著漸亮的天空，心中暗自慶幸：又一次化險(xiǎn)為夷。但我知道，明天將是新的挑戰(zhàn)，我們還有很長(zhǎng)的路要走。

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自：新用戶4179f3Ej > 《待分類》

舉報(bào)/認(rèn)領(lǐng)