メインコンテンツまでスキップ

障害対応(Incident Response)

サービスで障害が起きたとき、最初の5分で何をするかが復旧時間を決めます。

このセクションでは、障害の検知から復旧、再発防止までの一連の流れを学びます。障害対応のフレームワークはサービスの種類を問わず共通ですが、具体例として認証サービス(idp-server)の事例を使います。最後のランブック(07)のみ認証サービス固有の内容です。


なぜ学ぶのか

┌─────────────────────────────────────────────────────────────┐
│ 障害対応の準備で復旧時間が変わる │
├─────────────────────────────────────────────────────────────┤
│ │
│ 準備がないと: │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 「誰が対応する?」「何を見ればいい?」「どう直す?」 │ │
│ │ → 調べながら対応 → 復旧に数時間 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 準備ができていると: │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ アラート → ランブックに従って対応 → 15分で復旧 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 特に影響が大きいサービス(認証、決済、インフラ基盤等)は │
│ 障害 = 全ユーザー影響になりうるため、準備の価値が高い │
│ │
└─────────────────────────────────────────────────────────────┘

障害対応の全体フロー

┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐
│ 1. 検知 │ → │ 2. 初動 │ → │ 3. 調査 │ → │ 4. 復旧 │ → │ 5. 振返り │
│ │ │ │ │ │ │ │ │ │
│ アラート │ │ 影響範囲 │ │ 原因特定 │ │ 対処実行 │ │ ポスト │
│ 監視 │ │ 判断 │ │ │ │ 確認 │ │ モーテム │
│ ユーザー │ │ エスカレ │ │ │ │ │ │ │
│ 報告 │ │ ーション │ │ │ │ │ │ │
└──────────┘ └──────────┘ └──────────┘ └──────────┘ └──────────┘
目標: 目標: 目標: 目標: 目標:
5分以内に 10分以内に 原因を特定 復旧を完了 再発を防止
気づく 状況把握 する する する

学習の流れ

┌─────────────────────────────────────────────────────────────┐
│ 学習ロードマップ │
├─────────────────────────────────────────────────────────────┤
│ │
│ 基礎 │
│ ├── 障害の分類と重大度 │
│ │ └── 何が起きたら Severity 1 なのか │
│ └── 障害対応の役割分担 │
│ └── 誰が何をするか │
│ │
│ 検知と初動 │
│ ├── アラート設計 │
│ │ └── 何を監視し、何をアラートにするか │
│ └── 初動対応 │
│ └── 最初の5分で何をするか │
│ │
│ 調査と復旧 │
│ ├── ボトルネック調査 │
│ │ └── どこから調べるか、ツールの使い方 │
│ └── 復旧パターン │
│ └── ロールバック、スケールアウト、設定変更 │
│ │
│ 振り返り │
│ ├── ポストモーテム │
│ │ └── 何を書くか、どう共有するか │
│ └── 再発防止 │
│ └── アラート改善、ランブック更新、設計改善 │
│ │
│ 実践 │
│ └── 認証サービスの障害ランブック │
│ └── よくある障害パターンと対応手順 │
│ │
└─────────────────────────────────────────────────────────────┘

ドキュメント一覧

基礎

#ドキュメント説明
01障害の分類と対応体制重大度の定義、役割分担、エスカレーション

検知と初動

#ドキュメント説明
02アラート設計何を監視し、何をアラートにし、何をページングするか
03初動対応最初の5分で何をするか、影響範囲の判断

調査と復旧

#ドキュメント説明
04調査の進め方どこから調べるか、ツール、ログの読み方
05復旧パターンロールバック、スケールアウト、フェイルオーバー

振り返り

#ドキュメント説明
06ポストモーテム何を書くか、どう共有するか、再発防止

実践

#ドキュメント説明
07認証サービスの障害ランブックよくある障害パターンと対応手順

関連ドキュメント

オブザーバビリティ(監視基盤)

パフォーマンス

デプロイ