障害対応（Incident Response）

サービスで障害が起きたとき、最初の5分で何をするかが復旧時間を決めます。

このセクションでは、障害の検知から復旧、再発防止までの一連の流れを学びます。障害対応のフレームワークはサービスの種類を問わず共通ですが、具体例として認証サービス（idp-server）の事例を使います。最後のランブック（07）のみ認証サービス固有の内容です。

なぜ学ぶのか

┌─────────────────────────────────────────────────────────────┐
│           障害対応の準備で復旧時間が変わる                    │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  準備がないと:                                              │
│  ┌─────────────────────────────────────────────────────┐   │
│  │ 「誰が対応する？」「何を見ればいい？」「どう直す？」 │   │
│  │ → 調べながら対応 → 復旧に数時間                     │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                             │
│  準備ができていると:                                        │
│  ┌─────────────────────────────────────────────────────┐   │
│  │ アラート → ランブックに従って対応 → 15分で復旧      │   │
│  └─────────────────────────────────────────────────────┘   │
│                                                             │
│  特に影響が大きいサービス（認証、決済、インフラ基盤等）は    │
│  障害 = 全ユーザー影響になりうるため、準備の価値が高い       │
│                                                             │
└─────────────────────────────────────────────────────────────┘

障害対応の全体フロー

┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐    ┌──────────┐
│ 1. 検知   │ →  │ 2. 初動   │ →  │ 3. 調査   │ →  │ 4. 復旧   │ →  │ 5. 振返り │
│          │    │          │    │          │    │          │    │          │
│ アラート  │    │ 影響範囲  │    │ 原因特定  │    │ 対処実行  │    │ ポスト    │
│ 監視     │    │ 判断     │    │          │    │ 確認     │    │ モーテム  │
│ ユーザー  │    │ エスカレ  │    │          │    │          │    │          │
│ 報告     │    │ ーション  │    │          │    │          │    │          │
└──────────┘    └──────────┘    └──────────┘    └──────────┘    └──────────┘
  目標:           目標:          目標:           目標:           目標:
  5分以内に       10分以内に     原因を特定     復旧を完了     再発を防止
  気づく         状況把握       する           する           する

学習の流れ

┌─────────────────────────────────────────────────────────────┐
│                    学習ロードマップ                           │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  基礎                                                       │
│  ├── 障害の分類と重大度                                     │
│  │   └── 何が起きたら Severity 1 なのか                    │
│  └── 障害対応の役割分担                                     │
│      └── 誰が何をするか                                    │
│                                                             │
│  検知と初動                                                  │
│  ├── アラート設計                                           │
│  │   └── 何を監視し、何をアラートにするか                  │
│  └── 初動対応                                               │
│      └── 最初の5分で何をするか                             │
│                                                             │
│  調査と復旧                                                  │
│  ├── ボトルネック調査                                       │
│  │   └── どこから調べるか、ツールの使い方                  │
│  └── 復旧パターン                                           │
│      └── ロールバック、スケールアウト、設定変更            │
│                                                             │
│  振り返り                                                    │
│  ├── ポストモーテム                                         │
│  │   └── 何を書くか、どう共有するか                        │
│  └── 再発防止                                               │
│      └── アラート改善、ランブック更新、設計改善            │
│                                                             │
│  実践                                                        │
│  └── 認証サービスの障害ランブック                           │
│      └── よくある障害パターンと対応手順                    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

ドキュメント一覧

基礎

#	ドキュメント	説明
01	障害の分類と対応体制	重大度の定義、役割分担、エスカレーション

検知と初動

#	ドキュメント	説明
02	アラート設計	何を監視し、何をアラートにし、何をページングするか
03	初動対応	最初の5分で何をするか、影響範囲の判断

調査と復旧

#	ドキュメント	説明
04	調査の進め方	どこから調べるか、ツール、ログの読み方
05	復旧パターン	ロールバック、スケールアウト、フェイルオーバー

振り返り

#	ドキュメント	説明
06	ポストモーテム	何を書くか、どう共有するか、再発防止

実践

#	ドキュメント	説明
07	認証サービスの障害ランブック	よくある障害パターンと対応手順

障害対応（Incident Response）

なぜ学ぶのか

障害対応の全体フロー

学習の流れ

ドキュメント一覧

基礎

検知と初動

調査と復旧

振り返り

実践

関連ドキュメント

オブザーバビリティ（監視基盤）

パフォーマンス

デプロイ

なぜ学ぶのか​

障害対応の全体フロー​

学習の流れ​

ドキュメント一覧​

基礎​

検知と初動​

調査と復旧​

振り返り​

実践​

関連ドキュメント​

オブザーバビリティ（監視基盤）​

パフォーマンス​

デプロイ​

なぜ学ぶのか

障害対応の全体フロー

学習の流れ

ドキュメント一覧

基礎

検知と初動

調査と復旧

振り返り

実践

関連ドキュメント

オブザーバビリティ（監視基盤）

パフォーマンス

デプロイ