開発運用アーキテクチャ

SREプラクティス ― Toil削減とカオス演習 ― 生成AI時代のアーキテクチャ超入門

SREプラクティス ― Toil削減とカオス演習 ― 生成AI時代のアーキテクチャ超入門

本記事について

当サイトを閲覧いただきありがとうございます。 本記事はシリーズ『生成AI時代のアーキテクチャ超入門』の「開発運用アーキテクチャ」カテゴリ第13弾として、SREプラクティスについて解説する記事です。

SRE運用を排除するエンジニアリング──手作業の削減こそが本業です。本記事ではトイル削減・SLOによる優先順位・エラーバジェット運用・カオスエンジニアリング・オンコールローテーション・チームトポロジー(Embedded SRE / Platform SRE)まで、Google発の運用工学を実務に落とす設計を扱います。

このカテゴリの他の記事

概要 ― 作って届けて動かし続ける一本の流れ ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-overview/DevOps・SREの全体像 ― 速度と安定性は両立する ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-sre/構成管理 ― Git+モノレポ+GitHub Flowが鉄板 ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-vcs/開発環境とローカル実行 ― 初コミットまで半日 ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-devenv/コードレビュー ― PR 300行+1人承認+CODEOWNERS ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-review/テスト設計 ― ピラミッド+Testcontainers+ブランチカバレッジ ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-test/CI/CD ― GitHub Actions+OIDC+Feature Flagが鉄板 ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-cicd/デプロイ戦略 ― 頻度を上げてリスクを下げる ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-deploy/監視とオブザーバビリティ ― 三本柱+OpenTelemetry+SLOアラート ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-observability/ログ設計 ― 構造化JSON+PII禁止+段階的コールド化 ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-logging/SLOとSLI ― 100%を求めずエラー予算で速度を買う ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-slo/インシデント対応 ― 英雄ではなく仕組みで収束させる ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-incident/ドキュメンテーション ― README+ADR+OpenAPIをGitに寄せる ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-docs/チケット・プロジェクト管理 ― Epic/Story/Task+1日粒度 ― 生成AI時代のアーキテクチャ超入門senkohome.com/arch-intro-devops-ticket/

なぜSREが必要か

クラウド・マイクロサービスで運用が複雑化

数百サービスが動く現代システムを、従来の「手作業ベースの運用」で管理するのは不可能です。コードで運用するSRE のアプローチが必須になります。

開発速度と信頼性の両立

従来のオペレーションチームは「変更を止めて安定化」を好みがちで、開発と対立しました。SRE はエラー予算という数値で両者を調停します。

エンジニアの運用負担を減らす

手作業のオンコール・アラート対応はエンジニアを消耗させます。SRE は自動化で負担を減らし、本質的な問題解決にフォーカスさせます。

SREの主要プラクティス

Google SRE の書籍で体系化された主要な8つのプラクティスです。これらを組み合わせて運用文化を作ります。

flowchart TB
    SRE([SRE実装])
    subgraph MEAS["測る"]
        SLO[SLO/エラー予算]
        CAP[キャパシティ計画]
    end
    subgraph REDUCE["減らす"]
        TOIL[Toil削減<br/>繰り返し作業の自動化]
        CHAOS[カオスエンジニアリング]
    end
    subgraph LEARN["学ぶ"]
        PM[ポストモーテム<br/>Blameless]
        PRR[Production<br/>Readiness Review]
    end
    subgraph RESPOND["備える"]
        IR[Incident Response]
        ON[オンコール設計]
    end
    SRE --> MEAS
    SRE --> REDUCE
    SRE --> LEARN
    SRE --> RESPOND
    classDef sre fill:#fef3c7,stroke:#d97706,stroke-width:2px;
    classDef m fill:#dbeafe,stroke:#2563eb;
    classDef r fill:#dcfce7,stroke:#16a34a;
    classDef l fill:#fae8ff,stroke:#a21caf;
    classDef p fill:#f0f9ff,stroke:#0369a1;
    class SRE sre;
    class MEAS,SLO,CAP m;
    class REDUCE,TOIL,CHAOS r;
    class LEARN,PM,PRR l;
    class RESPOND,IR,ON p;
プラクティス内容
SLO/エラー予算数値で信頼性を管理
Toil削減繰り返し作業を自動化
ポストモーテムBlameless 振り返り
オンコール設計ローテーション・負荷管理
キャパシティ計画スケール予測と備え
Incident Response障害対応の仕組み化
カオスエンジニアリング意図的に壊して学ぶ
Production Readiness Review本番投入前の審査

Toil(トイル)の削減

繰り返しの手作業・自動化可能な運用作業を Google では Toil と呼び、SRE時間の50%以下に抑えるという明示的な目標があります。50% を超えると SRE が開発できなくなり、組織として価値を生めなくなります。

Toilの例自動化への道
サーバー再起動自動復旧
ログ調査オブザーバビリティ基盤
権限付与セルフサービス化
マイグレーションCI/CD
アラート対応Runbook の自動実行

Toilは悪ではないが、成長しない仕事です。SRE はこれを排除するコードを書くのが本業で、月20%以上を自動化に投資するのが理想です。

エラー予算の運用

SRE の中核は SLOに対するエラー予算で運用を律することです。エラー予算が残っているうちは開発を加速、枯渇したら信頼性投資に回す、という明示的な切替をします。

エラー予算残 70% ─▶ 新機能をバンバン出す
エラー予算残 30% ─▶ 慎重に・注意深く
エラー予算残 5%  ─▶ リリース凍結・安定化
エラー予算残 0%  ─▶ 新機能停止・品質集中

この仕組みは開発チームと運用チームの対立を解消します。「リリース止めろ」ではなく「予算が枯渇した」という客観的事実で判断できるためです。

カオスエンジニアリング

意図的に本番で障害を起こし、システムの耐障害性を検証する手法です。Netflix の Chaos Monkey が起源で、「本番でインスタンスをランダムに落とす」ことで、常に障害に耐える設計を強制します。

ツール用途
Chaos Monkeyインスタンス停止
Gremlin商用・総合的
Chaos MeshK8s 向け OSS
LitmusChaosK8s・CNCF
AWS FISAWS 統合サービス

「障害は起きる前提」のシステムアーキテクチャが前提で、壊れる練習を定期的に実施することで、本番障害時に慌てない組織を作ります。

SLO文化の浸透

SLO を入れるだけでは機能しません。組織文化としての定着が必要で、以下の習慣が重要です。

習慣内容
SLOレビュー四半期に目標見直し
週次SLI確認実測値のトレンド監視
予算枯渇対応計画的な凍結・安定化
ステークホルダー合意ビジネス側との協議

「100%稼働=理想」の発想を捨てるのが文化変革の核心です。SLO「完璧を目指さず、十分を目指す」の象徴です。

キャパシティ計画

将来のトラフィック増に備えた計画です。後手に回ると障害・機会損失に直結するため、SRE が継続的に取り組む重要領域です。

ステップ内容
需要予測ビジネス計画とトラフィック
現状把握リソース利用率・余裕
ボトルネック特定最初に詰まる箇所
調達計画クラウド予約・契約
負荷試験予測値での検証
定期見直し月次・四半期

急激な成長が見込まれるサービスほど、余裕を多めに持つのが安全策です。

Production Readiness Review

新サービスを本番投入する前の審査を行う仕組みです。Google では PRR(Production Readiness Review)と呼ばれ、SRE チームが開発チームのサービスを評価します。

観点内容
可観測性メトリクス・ログ・トレース整備
SLO定義目標値と測定方法
キャパシティ想定負荷への耐性
デプロイ戦略安全なリリース手順
災害対策障害時の復旧手順
オンコール体制対応者・手順書

PRRを通過しないサービスは本番投入しないというゲートがあることで、品質が担保されます。

DevOpsとの関係

SREDevOpsの具体的な実装と位置付けられます。DevOps が理念・文化なら、SRE は実務の型です。

DevOpsSRE
位置付け思想・文化具体的プラクティス
起源2009年頃・Patrick Debois2003年・Google
焦点開発と運用の統合運用をエンジニアリングで解く
指標DORA 4指標SLO・エラー予算
役割明確な役割なしSRE エンジニア

「DevOpsは理想、SREは実装パターン」と言われることもあります。

プラットフォームエンジニアリング

SRE の思想を発展させ、社内の開発者体験を向上させる専門チームが Platform Engineering です。Internal Developer Platform(IDP)を提供し、各開発チームが自律的に・安全にデプロイ・運用できる環境を整えます。

提供物内容
セルフサービスポータルデプロイ・環境作成
Golden Path標準的な技術スタック
自動化ツールCI/CD・IaC
監視基盤共通オブザーバビリティ

Backstage(Spotify 製 OSS)が代表的な IDP で、多くの企業で採用されています。

判断基準①:組織規模

SRE の導入レベルは組織規模で決まります。全社 SRE チームを作るのは中堅以上の企業で、スタートアップは兼任で始めるのが現実的です。

規模推奨
スタートアップ開発者が SRE 兼任
中堅SRE チーム(2〜5名)
大企業組織ごとに SRE 配置
グローバル中央 SRE + 各事業 SRE

判断基準②:組織の成熟度

SRE段階的に導入するのが現実的です。全てを一度に始めると混乱します。

Phase内容
Phase 1メトリクス・ログ基盤
Phase 2SLI 測定・SLO 試験運用
Phase 3エラー予算運用
Phase 4Toil 自動化投資
Phase 5カオスエンジニアリング

ケース別の選び方

個人開発・小規模チーム

開発者が SRE 兼任 + Phase 1〜2のみ。メトリクス基盤(CloudWatch 等)を整え、SLI 測定まででOK。SLO 運用・エラー予算・PRR は組織成熟後に。Toil「月2時間以上の手作業」を見つけて自動化する程度で十分です。

スタートアップ・成長期SaaS

SRE 兼任エンジニア1〜2名 + SLO 試験運用 + Toil 削減文化。Phase 3まで推進、エラー予算でリリース判断、Runbook を Git 管理。Backstage でセルフサービスポータルを作り始めると開発速度が上がります。

中堅企業・マイクロサービス運用

専任 SRE チーム3〜10名 + PRR + カオス演習。Phase 5まで全実施、LitmusChaos/AWS FIS で月次カオス演習、Platform Engineering チームで IDP を構築。Toil 削減 KPI(Key Performance Indicator=重要業績評価指標)を組織目標に含めます。

大企業・規制業種

中央 SRE + 事業部 SRE の二層構造 + AIOps。全社標準(Golden Path)は中央が提供、事業部は独自 SLO 運用。Datadog Bits AI/Resolve AI でルーチン対応を自動化し、人間は戦略・改善設計に集中します。

よくある勘違い

SREはインフラ運用者のこと

違います。ソフトウェアエンジニアリングで運用問題を解く専門家です。コードを書かないSREは価値が低い

SLOを決めればSRE

SLO は手段の一つ。文化・プロセス・自動化の総体SRE です。

Toilはゼロにすべき

現実には無理。50%以下が Google の指針。新機能の必要な手作業はあります。

SREは運用チームの新しい名前

看板を掛け替えるだけでは機能しません。権限・文化・採用基準から変革が必要です。既存の運用チームにSREという名前を付けただけで、やることは深夜の手作業オンコールのまま、コードを書く時間も権限も与えられず、1年経っても Toil 率は95%だった、という笑えない事例は日本企業を中心に数多く語られています。看板ではなく、時間の使い方が SRE を定義します。

SRE成熟度の段階別ロードマップ

SRE一夜で実現しない文化変革です。Google SRE Workbook に準拠した段階的導入が現実的です。

フェーズ期間目安実装内容必要なSRE人員
Phase 1: 計測基盤〜6か月Prometheus/Datadog 導入、メトリクス・ログ整備0〜1人(兼任)
Phase 2: SLO試験運用〜1年SLI 選定、実測、目標値の仮設定1〜2人
Phase 3: エラー予算運用〜1.5年予算枯渇でリリース凍結ルール、四半期見直し2〜5人
Phase 4: Toil削減文化〜2年Toil 50%以下目標、自動化投資20%、Runbook as Code3〜10人
Phase 5: カオス・IDP〜3年カオスエンジニアリング月次、Backstage等IDP構築5人〜
Phase 6: AIOps〜5年PagerDuty AIOps/Resolve AI等で一次対応自動化Prompt + Systems Engineer

Toilの目標ラインは、SRE 時間の50%以下が Google 公式の指針。50%超えるとSRE が開発できず、組織として価値を生めません。月20%を自動化投資に割り当てるのが、Toil を維持可能なレベルに抑える経験則です。

SRE看板ではなく時間の使い方Toil 50%超えたら看板だけ、本物の SRE ではありません。

SRE運用の鬼門・禁じ手

SRE 導入で事故る典型パターン。どれも看板を掛け替えただけで中身が変わらない構造を持ちます。

禁じ手なぜダメか
既存運用チームの名刺をSREに変えるだけ1年経っても Toil 率95%、コードを書かない SRE は価値ゼロ
SREにコードを書く権限・時間を与えない運用屋のまま、本質的価値を生まない
SLOを決めて放置誰も見ない、四半期見直し必須
Toilをゼロにしようとする現実的に無理、50%以下が Google の指針
カオスエンジニアリングを本番未経験で開始初回で大事故、まずステージングで練習
PRR(Production Readiness Review)なしで新サービス投入監視・SLO・Runbook 未整備のサービスが本番へ
エラー予算枯渇でもリリース継続信頼性崩壊、エラー予算運用の意味なし
オンコール負荷を測定しない月5回以上の深夜呼び出しで SRE 疲弊・離職
独立したSREチームを作らない開発チームの下請けに堕ちる
Platform Engineering/IDPの投資を先送り各チームが独自運用、標準化されず非効率

日本企業のSRE看板問題(既存運用チームに「SRE」という名前を付けただけ、やることは深夜の手作業オンコールのまま、コードを書く時間も権限もなく、1年経っても Toil 率95%)は、「看板ではなく、時間の使い方がSREを定義する」という教訓を突きつけます。Netflix は2010年代から Chaos Monkey で本番をランダムに殺し続け、AWS 部分障害でも平然とサービス継続──この差が「本物の SRE」「名前だけ」の違いです。

SREToilを殺しに行くエンジニアリング。手作業で回っているなら、まだスケールしていない証拠です。

AI時代の視点

AI 駆動開発(バイブコーディング)と AI 活用が前提になると、SREAIエージェントと協働する運用へと進化します。Toil 削減の究極形は AI が自律的に運用判断を下すことで、Datadog Bits AI・PagerDuty AIOps・Resolve AI 等が既に商用化されています。

AI時代に有利AI時代に不利
Runbook のコード化手順が人の頭の中
構造化ログ・メトリクス文字列ログ中心
自動化済みの Toil手作業残留
定量的な信頼性管理感覚的な運用

SRE の将来像はAIエージェントを管理する人間です。AI が一次対応し、人間はエージェントの学習・判断基準の設計に集中します。AI 時代の SRE は Prompt Engineer + Systems Engineer の融合職になりつつあります。

AI 時代の SRE運用の自動化をAIに委ね、戦略設計に集中します。

決めるべきこと — あなたのプロジェクトでの答えは?

以下の項目について、あなたのプロジェクトの答えを1〜2文で言語化してみてください。曖昧なまま着手すると、必ず後から「なぜそう決めたんだっけ」が問われます。

  • SRE組織の配置(中央/分散)
  • SLO管理プロセス(設定・見直し頻度)
  • エラー予算の運用ルール(凍結基準)
  • Toil削減目標(50%以下・自動化投資率)
  • カオスエンジニアリング(頻度・範囲)
  • PRRプロセス(新サービス投入審査)
  • AIツール採用(AIOps・自動診断)

筆者メモ — 「SRE看板」「本物のSRE」の違いが可視化された事例

SRE が表面的な看板か、本物の文化変革かで、組織の運命は大きく分かれます。

Google が2003年に SRE チームを立ち上げ、2016年の書籍『Site Reliability Engineering』でその実践が公開されて以降、世界中の企業が追随しました。ところが日本企業を中心に、既存の運用チームの名刺を「SRE」に変えただけで、実態は手作業の夜間オンコールと電話対応のまま、という事例が相次ぎました。コードを書く時間も権限も与えられず、1年経っても Toil 率は95%、SLO は形だけ定義されたまま誰も見ていない、という笑えない現場は今でも繰り返し語り草になっています。

対照的に、NetflixSRE 思想の徹底で有名です。Netflix は2010年代から Chaos Monkey で本番インスタンスをランダムに殺し続けており、本番で壊れる前提の設計が当たり前になりました。その結果、AWS の部分障害が起きても Netflix だけは平然とサービスを続ける、という事例が何度も観測されています。ここで見えるのは「SREは看板ではなく、時間の使い方と文化の問題である」という事実です。

SREと名乗れば SRE になる」のではなく、Toil削減にコードで立ち向かう時間を持てるかだけが SRE の本質を決めます。

最終的な判断の仕方

SRE の核心は運用をエンジニアリングで解くという発想です。従来の手作業ベースの運用は、マイクロサービス数百の現代システムではスケールしません。Google が確立した SRE は、SLO・エラー予算・Toil 削減・ポストモーテムカオスエンジニアリングなど、運用をコード化・数値化するプラクティスの総体で、個々のツールではなく文化・プロセス・自動化の組み合わせで機能します。「SRE は運用チームの看板を掛け替えたもの」という誤解は最も多いアンチパターンで、権限・文化・採用基準から変革が必要になります。

もう一つの決定的な軸はAIエージェントを管理するSREへの進化です。Datadog Bits AI・PagerDuty AIOps・Resolve AI が一次対応・根本原因候補提示・Runbook 自動実行を担う時代に、人間の SRE はエージェントの学習・判断基準の設計、戦略的な信頼性投資、組織文化の醸成に集中します。Prompt Engineer と Systems Engineer の融合職が、AI 時代の SRE 像です。

選定の優先順位

  1. 段階的に導入する — Phase 1(計測基盤)→ Phase 5(カオス)の順、一度に全部やらない
  2. Toilを50%以下に抑える — 超えたらSREが開発できない、自動化に月20%投資
  3. エラー予算で開発/信頼性のバランス調停 — 残量別にリリース加速/凍結を客観判断
  4. AIOpsでルーチン対応を委譲 — 人間は戦略・改善設計・エージェント管理に集中

運用をコードで解き、AIに委ね、戦略に集中するこれが現代の SRE 像です。

まとめ

本記事はSREプラクティスについて、主要プラクティス・Toil削減・エラー予算運用・カオスエンジニアリング・PRR・Platform Engineering・AIOps協働まで含めて解説しました。如何だったでしょうか。

段階的に導入し、Toilを50%以下に抑え、エラー予算でバランス調停、AIOpsでルーチンを委譲する。これが2026年のSREプラクティスの現実解です。

次回はドキュメンテーション(README・ADRRunbook)について解説します。

シリーズ目次に戻る → 『生成AI時代のアーキテクチャ超入門』の歩き方

それでは次の記事も閲覧いただけると幸いです。