障害対応(Incident Response)
サービスで障害が起きたとき、最初の5分で何をするかが復旧時間を決めます。
このセクションでは、障害の検知から復旧、再発防止までの一連の流れを学びます。障害対応のフレームワークはサービスの種類を問わず共通ですが、具体例として認証サービス(idp-server)の事例を使います。最後のランブック(07)のみ認証サービス固有の内容です。
なぜ学ぶのか
┌──────────────────────────────────────────────────── ─────────┐
│ 障害対応の準備で復旧時間が変わる │
├─────────────────────────────────────────────────────────────┤
│ │
│ 準備がないと: │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 「誰が対応する?」「何を見ればいい?」「どう直す?」 │ │
│ │ → 調べながら対応 → 復旧に数時間 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 準備ができていると: │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ アラート → ランブックに従って対応 → 15分で復旧 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ 特に影響が大きいサービス(認証、決済、インフラ基盤等)は │
│ 障害 = 全ユーザー影響になりうるため、準備の価値が高い │
│ │
└─────────────────────────────────────────────────────────────┘
障害対応の全体フロー
┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐ ┌──────────┐
│ 1. 検知 │ → │ 2. 初動 │ → │ 3. 調査 │ → │ 4. 復旧 │ → │ 5. 振返り │
│ │ │ │ │ │ │ │ │ │
│ アラート │ │ 影響範囲 │ │ 原因特定 │ │ 対処実行 │ │ ポスト │
│ 監視 │ │ 判断 │ │ │ │ 確認 │ │ モーテム │
│ ユーザー │ │ エスカレ │ │ │ │ │ │ │
│ 報告 │ │ ーション │ │ │ │ │ │ │
└──────────┘ └──────────┘ └──────────┘ └──────────┘ └──────────┘
目標: 目標: 目標: 目標: 目標:
5分以内に 10分以内に 原因を特定 復旧を完了 再発を防止
気づく 状況把握 する する する
学習の流れ
┌─────────────────────────────────────────────────────────────┐
│ 学習ロードマップ │
├─────────────────────────────────────────────────────────────┤
│ │
│ 基礎 │
│ ├── 障害の分類と重大度 │
│ │ └── 何が起きたら Severity 1 なのか │
│ └── 障害対応の役割分担 │
│ └── 誰が何をするか │
│ │
│ 検知と初動 │
│ ├── アラート設計 │
│ │ └── 何を監視し、何をアラートにするか │
│ └── 初動対応 │
│ └── 最初の5分で何をするか │
│ │
│ 調査と復旧 │
│ ├── ボトルネック調査 │
│ │ └── どこから調べるか、ツールの使い方 │
│ └── 復旧パターン │
│ └── ロールバック、スケールアウト、設定変更 │
│ │
│ 振り返り │
│ ├── ポストモーテム │
│ │ └── 何を書くか、どう共有するか │
│ └── 再発防止 │
│ └── アラート改善、ランブック更新、設計改善 │
│ │
│ 実践 │
│ └── 認証サービスの障害ランブック │
│ └── よくある障害パターンと対応手順 │
│ │
└──────────────────────────── ─────────────────────────────────┘
ドキュメント一覧
基礎
| # | ドキュメント | 説明 |
|---|---|---|
| 01 | 障害の分類と対応体制 | 重大度の定義、役割分担、エスカレーション |
検知と初動
| # | ドキュメント | 説明 |
|---|---|---|
| 02 | アラート設計 | 何を監視し、何をアラートにし、何をページングするか |
| 03 | 初動対応 | 最初の5分で何をするか、影響範囲の判断 |
調査と復旧
| # | ドキュメント | 説明 |
|---|---|---|
| 04 | 調査の進め方 | どこから調べるか、ツール、ログの読み方 |
| 05 | 復旧パターン | ロールバック、スケールアウト、フェイルオーバー |
振り返り
| # | ドキュメント | 説明 |
|---|---|---|
| 06 | ポストモーテム | 何を書くか、どう共有するか、再発防止 |
実践
| # | ドキュメント | 説明 |
|---|---|---|
| 07 | 認証サービスの障害ランブック | よくある障害パターンと対応手順 |
関連ドキュメント
オブザーバビリティ(監視基盤)
- オブザーバビリティ基礎: メトリクス、ログ、トレースの基本
- メトリクスとアラート: CloudWatch、Grafana
- 構造化ログ: ログの設計と検索
パフォーマンス
- ボトルネックの見つけ方: USE/RED メソッド
- ケーススタディ: ロック競合: 実事例
デプロイ
- Blue-Green デプロイ運用ガイド: ロールバック、自動監視