調査の進め方
初動対応で影響範囲の把握と方針決定ができたら、次は原因を特定します。
初動で「リリース直後 → ロールバック」と判断できれば調査は不要ですが、リリースに起因しない場合や、ロールバックしても再発する場合は、ここからの調査が必要になります。Web サービスでは「どの層が詰まっているか」を特定するのが最初のステップです。
調査の原則
┌─────────────────────────────────────────────────────────────┐
│ │
│ 1. 外側から内側へ │
│ LB → アプリ → DB → 外部サービス の順に調べる │
│ → 外側で異常が見つかれば、内側は調べなくていい │
│ │
│ 2. 変わったものを探す │