認証サービスの障害ランブック
このランブックは、認証サービス(idp-server)でよく発生する障害パターンと対応手順をまとめたものです。アラートが鳴ったときに、このページを開いて手順に従えば対応できることを目指します。
01〜06 は汎用的な障害対応フレームワークですが、このランブックは認証サービス固有の内容です。自分のサービスのランブックを作る際のテンプレートとしても活用してください。
インフラ前提
このランブックは以下の構成を前提としていますが、障害パターン自体はインフラに依存しません。自分の環境に合わせてコマンドやツールを読み替えてください。
| レイヤー | このランブックでの例 | 他の選択肢 |
|---|---|---|
| コンテナ | ECS Fargate | Kubernetes, Cloud Run |
| DB | Aurora PostgreSQL | RDS, Cloud SQL, セルフホスト PostgreSQL |
| キャッシュ | ElastiCache (Redis) | MemoryDB, セルフホスト Redis, Valkey |
| LB | ALB | NLB, Nginx, Envoy |
| 監視 | CloudWatch | Datadog, Grafana, New Relic |
| 証明書 | ACM | Let's Encrypt, mkcert |
使い方
- アラート名または症状から該当するセクションを探す
- 「確認」の手順でどこに問題があるか特定
- 「対処」の手順で復旧