IT 運維中的事件、故障排查處理思路

服務整體性能下降或異常,可以考慮重啟服務; 應用做過變更,可以考慮是否需要回切變更; 資源不足,可以考慮應急擴容; 應用性能問題,可以考慮調整應用參數、日志參數; 數據庫繁忙,可以考慮通過數據庫快照分析,優(yōu)化SQL; 應用功能設計有誤,可以考慮緊急關閉功能菜單; 還有很多……
是否為偶發(fā)性、是否可重現(xiàn)
是否進行過相關變更
是否可縮小范圍
關聯(lián)方配合分析問題
是否有足夠的日志
是否有core或dump等文件
召集相關人員 描述故障現(xiàn)狀 說明正常應用邏輯流程 陳述變更 排查進展,展示信息 領導決策